Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu

Sự phát triển mạnh mẽ về số lượng và tính phức tạp của dữ liệu của các ứng dụng đã dẫn

đến những thách thức trong việc khai thác dữ liệu và sử dụng các mô hình học máy. Một trong những

thách thức lớn là việc lựa chọn các đặc tính có liên quan từ tập hợp các đặc tính có sẵn ban đầu để cải

thiện tối đa hiệu suất học tập hơn của dữ liệu gốc. Vì vậy việc lựa chọn các đặc tính được trở thành

tiếp cận các nhà nghiên cứu tập trung trong những năm gần đây. Lựa chọn đặc tính cung cấp giải

pháp hiệu quả để giải quyết vấn đề này bằng cách loại bỏ dữ liệu không liên quan và dư thừa, có thể

giảm thời gian tính toán, cải thiện độ chính xác của mô hình máy học. Trong bài báo này, chúng tôi

tập trung nghiên cứu và tổng hợp các phương pháp được sử dụng trong việc lựa chọn các đặc tính bao

gồm Filter, Wrapper và Embedded với các phương thức, thuật toán được sử dụng. Từ đó, tổng hợp và

đánh giá các ưu nhược điểm của từng phương pháp.

7 trang | Chia sẻ: Thục Anh | Lượt xem: 876 | Lượt tải: 1Free

Nội dung tài liệu Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu Hà Thị Minh Phương1, Phan Thị Quỳnh Hương2 1,2 Trường ĐH Công nghệ Thông tin và Truyền thông Việt-Hàn, Đại học Đà Nẵng {htmphuong, ptqhuong}@vku.udn.vn Tóm tắt. Sự phát triển mạnh mẽ về số lượng và tính phức tạp của dữ liệu của các ứng dụng đã dẫn đến những thách thức trong việc khai thác dữ liệu và sử dụng các mô hình học máy. Một trong những thách thức lớn là việc lựa chọn các đặc tính có liên quan từ tập hợp các đặc tính có sẵn ban đầu để cải thiện tối đa hiệu suất học tập hơn của dữ liệu gốc. Vì vậy việc lựa chọn các đặc tính được trở thành tiếp cận các nhà nghiên cứu tập trung trong những năm gần đây. Lựa chọn đặc tính cung cấp giải pháp hiệu quả để giải quyết vấn đề này bằng cách loại bỏ dữ liệu không liên quan và dư thừa, có thể giảm thời gian tính toán, cải thiện độ chính xác của mô hình máy học. Trong bài báo này, chúng tôi tập trung nghiên cứu và tổng hợp các phương pháp được sử dụng trong việc lựa chọn các đặc tính bao gồm Filter, Wrapper và Embedded với các phương thức, thuật toán được sử dụng. Từ đó, tổng hợp và đánh giá các ưu nhược điểm của từng phương pháp. Từ khóa: lựa chọn đặc tính; filter; wrapper; embedded; hybrid. Abstract. The rapid growth in quantity and complexity of data of applications has led to challenges in data mining and the use of machine learning models. One of the major challenges is the selection of relevant features from the original set of features to maximize the learning performance of the original data. Thus the selection of features is becoming an approach to focus researchers in recent years. Feature selection provides an effective solution to this problem by eliminating extraneous and redundant data, which can reduce computation time, improve the accuracy of the machine learning model. In this paper, we focus on research and synthesis of the methods used in the selection of properties including Filter, Wrapper and Embedded with the methods and algorithms used. From there, synthesize and evaluate the advantages and disadvantages of each method. Keywords: feature selection, filter, wrapper, embedded, hybrid 1 Đặt vấn đề Hiện nay, các ứng dụng đã tạo ra lượng dữ liệu khổng lồ như video, ảnh, văn bản, giọng nói và dữ liệu thu được từ các ứng dụng mạng xã hội và từ điện toán đám mây. Những dữ liệu này thường phức tạp có các đặc điểm của kích thước đa chiều, chứa những dữ liệu nhiễu, dư thừa hoặc thiếu các thuộc tính tạo ra thách thức đối với việc phân tích dữ liệu và ra quyết định. Để giải quyết vấn đề này, feature selection – kỹ thuật lựa chọn các đặc tính được nghiên cứu và trở thành một phần trong giai đoạn tiền xử lý. Feature selection (FS) được sử dụng để loại bỏ những dữ liệu dư thừa để nâng cao hiệu quả xử lý. Trong FS, một tập hợp con các đặc tính được chọn từ tập hợp các đặc tính ban đầu dựa trên tính dư thừa. Dựa trên mức độ liên quan và các tính năng thừa, Yu và Liu [7] đã phân loại tập hợp con đặc trưng thành bốn loại bao gồm:1) Noisy và irrelevant; 2) Redundant và Weakly relevant; 3) Weakly relevant và Non-redundant; 4) Strongly relevant. Lựa chọn các đặc tính sẽ giảm thiểu các thuộc tính nhiễu, không liên quan và dư thừa nâng cao hiệu quả dự đoán cho các mô hình máy học. Các phương pháp FS được phân thành ba loại, dựa trên sự tương tác với mô hình học máy như phương pháp Filter, Wrapper và Embedded. Trong Filter, các đặc tính được chọn dựa trên các phương pháp thống kê. Nó độc lập với thuật toán học và cần ít thời gian tính toán hơn. Một số các phương thức đo lường thống kê được sử dụng trong Filter bao gồm Information gain, Chi-square test, Fisher score, correlation coef-ficient, và variance threshold. Wrapper sử dụng các kỹ thuật máy học để đánh giá tập con các thuộc tính theo tiêu chuẩn tương ứng. Hiệu suất của Wrapper phụ thuộc vào các thuật toán phân loại. Tập hợp 204 Hà Thị Minh Phương, Phan Thị Quỳnh Hương con tốt nhất của các đặc tính được chọn dựa trên kết quả của thuật toán phân loại. Về mặt tính toán, các phương pháp Wrapper yêu cầu tính toán phức tạp hơn các Filter, do các bước học tập lặp lại và xác nhận chéo. Tuy nhiên, các phương pháp này chính xác hơn Filter. Một số thuật toán được sử dụng trong Wrap- per là Recursive feature elimination [6], Sequential feature selection algorithms [1], and Genetic algo- rithms. Cách tiếp cận thứ ba là phương pháp Embedded sử dụng phương pháp học tập kết hợp và phương pháp lai để lựa chọn đặc tính, giải pháp lựa chọn đặc tính ra đời để giải quyết bài toán trên. Lựa chọn đặc tính có các ưu điểm bao gồm giúp cho thuật toán máy học huấn luyện nhanh hơn, giảm độ phức tạp của mô hình và làm cho mô hình dễ biên dịch, cải thiện độ chính xác của mô hình với tập dữ liệu được chọn. Bài báo sẽ nghiên cứu một số phương pháp lựa chọn đặc tính: phương pháp Filter, Wrapper và Em- bedded. Mô hình lựa chọn các đặc tính, các kỹ thuật và phương thức của mỗi phương pháp sẽ được trình bày. Phần 2 trình bày về quy trình lựa chọn các đặc trưng. Nội dung kỹ thuật lựa chọn các đặc tính trong kỹ thuật máy học sẽ được trình bày ở phần 3. Kết luận sẽ được trình bày trong phần 4. 2 Quy trình lựa chọn các đặc trưng Các nghiên cứu đã chỉ ra được kỹ thuật lựa chọn các đặc tính có thể nâng cao hiệu quả của dự đoán và tính chính xác đối với các kỹ thuật máy học. Kỹ thuật lựa chọn các đặc tính đóng vai trò quan trọng trọng trong việc giảm thiểu độ phức tạp tính toán, dung lượng và giá thành [8]. Hình 1 trình bày về quy trình lựa chọn các đặc trưng trong tập dữ liệu gồm 4 giai đoạn: lựa chọn các kỹ thuật tìm kiếm, xác định chiến lược tìm kiếm, đánh giá tập dữ liệu con trên các tiêu chuẩn, tiêu chuẩn dừng lựa chọn đặc tính. Hình 1. Quy trình lựa chọn các đặc trưng 2.1 Lựa chọn các kỹ thuật tìm kiếm Anget al. [9] nêu ra giai đoạn đầu tiên trong của quy trình lựa chọn đặc trưng là tìm các kỹ thuật tìm kiếm các tập con. Các kỹ thuật tìm kiếm được phân loại thành forward search, backward search, và random search. Quy trình tìm kiếm bắt đầu với một tập rỗng để các đặc tính mới được thêm vào trong mỗi vòng lặp gọi là forward search. Ngược với forward search, backward search bắt đầu với tập dữ liệu với đầy đủ các đặc tính và các đặc tính sẽ được loại bỏ cho đến khi đạt được tập dữ liệu con tối ưu. Một các tiếp cận khác là random search xây dựng tập con các thuộc tính bằng cách thêm và loại bỏ các đặc tính tại mỗi vòng lặp. Sau khi lựa chọn các kỹ thuật tìm kiếm các đặc tính, chiến lược tìm kiếm sẽ được áp dụng tại giai đoạn 2. 1.Xác định hướng tìm kiếm 2. Xác định chiến lược tìm kiếm 3. Xác định tiêu chí tiến hóa 5. Xác nhận kết quả cuối cùng 4.Dừng tiêu chí Dữ liệu ban đầu Dữ liệu ban đầu Đặc trưng Sai Đúng Tập con đặc trưng được chọn 205 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 2.2 Xác định chiến lược tìm kiếm Từ tài liệu, các chiến lược tìm kiếm có thể là tìm kiếm ngẫu nhiên - randomized, tìm kiếm theo cấp số nhân - exponential và tìm kiếm tuần tự - sequential. Bảng 1 liệt kê các chiến lược tìm kiếm khác nhau và các thuật toán của chúng. Một chiến lược tìm kiếm tốt cần có được giải pháp tối ưu, khả năng tìm kiếm cục bộ và hiệu quả tính toán [11]. Dựa trên những yêu cầu tìm kiếm này các thuật toán được phân loại thêm là lựa chọn tính năng tối ưu và dưới mức tối ưu thuật toán. Bảng 1. Chiến lược tìm kiếm và các phương thức Chiến lược tìm kiếm Các phương thức Exponential search · Exhaustive search Sequential search · Sequential Forward Selection (SFS) · Sequential Backward Selection (SBS) · Sequential Forward Floating Selection (SFFS) · Sequential Backward Floating Selection (SBFS) · Best first search · Beam search · Plus, L Take-away r Algorithm (PTA) Random search · Simulated annealing · Random hill-climbing · Genetic Algorithm (GA) · Las Vegas Algorithm · Tabu search · Ant Colony Optimization (ACO) · Chaotic simulated annealing · Noisy, chaotic simulated annealing · Branch-and-bound · Particle Swarm Optimization (PSO) 2.3 Tiêu chuẩn đánh giá Các đặc tính tối ưu nhất được lựa chọn dựa trên các tiêu chuẩn đánh giá. Dựa trên các phương thức đánh giá kỹ thuật lựa chọn các đặc tính [12] được phân loại thành Filter, Wrapper, Embedded và Hybrid. 2.4 Tiêu chuẩn dừng lựa chọn đặc tính Các tiêu chuẩn việc lựa chọn quy định quy trình lựa chọn đặc trưng dừng khi đạt được tập con đặc trưng tối ưu. Các tiêu chuẩn dừng việc lựa chọn đặc trưng sẽ mang lại hiệu quả với độ tính toán phức tạp thấp trong việc tìm kiếm các tập con gồm các đặc trưng tối ưu và giải quyết vấn đề over-fitting. Việc lựa chọn các tiêu chuẩn dừng được ảnh hưởng bởi các giai đoạn thực hiện trước. Một số các tiêu chuẩn dừng bao gồm: · Xác định trước các số lượng các đặc tính · Xác định trước số lần lặp · Phần trăm (%) tiến bộ giữa 2 vòng lặp liên tiếp · Dựa vào các hàm đánh giá 2.5 Đánh giá các kết quả Để đánh giá kết quả của các kỹ thuật lựa chọn các đặc trưng, một số độ đo đánh giá được sử dụng như Cross-validation, Confusion matrix, Jaccard similarity-based measure, Rand Index. Một số các độ đo đánh giá cho kỹ thuật phân lớp – classification và phân cụm – clutering bao gồm 206 Hà Thị Minh Phương, Phan Thị Quỳnh Hương Độ đo dánh giá cho kỹ thuật phân lớp Độ đo đánh giá cho kỹ thuật phân cụm Error Rate TP Rate/ Recall / Sensitivity Specificity ROC (Receiver Operating Characteristic) Curve Precision F-Score / F-Measure Davies-Bouldin Index Dunn Index F-Measure Jaccard index Dice index Fowlkes-Mallows index 3 Kỹ thuật lựa chọn các đặc trưng dựa trên các tiêu chuẩn đánh giá Trong phần này, bài báo sẽ trình bày các phương pháp lựa các đặc trưng dựa trên tiêu chuẩn đánh giá. Dựa trên các tiêu chuẩn đánh giá và làm việc với các kỹ thuật máy học, lựa chọn các đặc trưng được phân loại thành Filter, Wrapper và Embedded. 3.1 Phương pháp Filter Chọn lựa đặc tính dựa trên phương pháp filter được mô tả như sau: Hình 2. Sơ đồ khối phương pháp Filter Phương pháp Filter dựa trên những đặc tính duy nhất của dữ liệu để đánh giá và chọn ra một tập con các đặc tính, bằng cách sử dụng các tiêu chí đánh giá được trích rút ra từ tập dữ liệu, như khoảng cách, thông tin, độ phụ thuộc, tính nhất quán. Cụ thể, phương pháp filter sử đụng tiêu chí điển hình của kỹ thuật xếp hạng và phương pháp thứ tự xếp hạng cho việc lựa chọn các biến. Lý do của việc sử dụng phương pháp xếp hạng này là vì tính đơn giản, hiệu quả cao và có thể tìm ra các đặc trưng phù hợp, đồng thời loại bỏ các đặc trưng không phù hợp trước khi thực hiện quá trình phân loại. Phương pháp Filter thường được dùng như bước tiền xử lý dữ liệu. Quá trình này cũng có tính độc lập với thuật toán máy học. Các đặc tính được xếp hạng dựa trên các giá trị thống kê, trong đó các giá trị thống kê này xác định mỗi tương quan giữa các đặc tính với các biến đầu ra. Có một số ví dụ cho phương pháp filter này: Mutual information(MI), Pearson correction, Chi-square. · Mutual information(MI) Tiêu chí xếp hạng lý thuyết thông tin sử dụng thước đo độ phụ thuộc giữa 2 biến. Để mô tả MI ta bắt đầu với định lý Shannon cho khái niệm entropy như sau: () = −∑ (). log() (1) Phương trình này biểu diễn cho sự không chắc chắn (nội dung thông tin) ở ngõ ra Y. Giả sử ta quan sát một biến X thì entropy có điều kiện được cho bởi công thức: (|) = −∑ ∑ (, ) log(|) (2) Phương trình trên nghĩa là quan sát biến X, sự không chắc chắn trong thông tin ra Y sẽ giảm. Độ giảm này bằng: (, ) = () − (|) (3) Có nghĩa là MI giữa Y và X có mối tương quan như sau: nếu X và Y độc lập thì MI sẽ bằng không và lớn hớn không nếu X và Y phụ thuộc. Nói một cách khác rằng nếu một biến có thể chứa thông tin về một biến khác thì gọi là phụ thuộc. · Pearson correction (PC) Pearson correction là một thước đo mức độ hai biến ngẫu nhiên X và Y tương quan tuyến tính. PC được tính bằng một con số có giá trị nằm giữa -1 và 1. Chúng ta sử dụng PC giữa các đặc tính vào và ngõ Tập các đặc tính Thuật toán học Hiệu suất Chọn tập con tốt nhất 207 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” ra của mô hình để lựa chọn các đặc tính. Phương pháp thông kê này phù hợp với các bài toán quy hồi tuyến tính. Hệ số tương quan Pearson, khi áp dụng cho một tập các sự kiên, được ký hiệu bởi ρ. Với cặp biến ngẫu nhiên (X,Y), công thức hệ số Pearson là: (, ) = (,) . (4) Trong đó cov là hiệu phương sai, σ_X,σ_y lần lượt là độ lệch chuẩn của X và Y. Công thức trên có thể được biểu diễn dựa trên giá trị trung bình và giá trị kỳ vọng: (, ) = Ε[( − ). ( − ] (5) Nên hệ số Pearson được viết lại thành: (, ) = [().(] . (6) Trong đó: μ_X,μ_y là giá trị trung bình của X và Y, E là giá trị kỳ vọng. Hệ số Pearson có giá trị gần không, nghĩa là có rất ít hoặc không có tương quan. Hệ số Pearson có giá trị gần 1 là độ tương quan dương, và có giá trị gần bằn 0 là có độ tương quan âm. · Chi-square Trong thống kê, Chi-square được áp dụng để kiểm mức độ độc lập của hai sự kiện, trong đó nếu hai sự kiện A và B được định nghĩa là độc lập nếu P(AB)=P(A).P(B), tương đương P(A│B)=P(A) và P(B│A)=P(B). Trong lựa chọn đặc tính, hai sự kiện chính là các đặc tính và target. Ta dùng giá trị Chi-square để tìm đặc tính nào chứa nhiều thông tin đối với mô hình. Ta tính giá trị Chi-square giữa mỗi đặc tính và target. Đặc tính nào cho giá trị cao là đặc tính tốt. Chi-square được tính: Χ(, , ) = ∑ ∑ ∈{,}∈{,} (7) Trong đó , có 2 giá trị là 0 và 1, N là giá trị quan sát trong D, và E là giá trị kỳ vọng. 3.2 Phương pháp Wrapper Hình 3. Sơ đồ khối phương pháp Wrapper Trên đây là mô hình sơ đồ khối của phương pháp Wrapper. Phương pháp Wrapper cần một thuật toán máy học và dùng hiệu suất của thuật toán như là một tiêu chí để đánh giá. Phương pháp này tìm các đặc tính mà phù hợp nhất với thuật toán máy học với mục đích cải thiện hiệu suất khai thác dữ liệu. Phương pháp này dùng độ chính xác dự đoán để phân loại đặc tính. Một số ví dụ điển hình của phương pháp Wrapper này là Forward feature selection, Backward feature elimination, Recursive feature elimination. - Forward feature selection: Quy trình bắt đầu với một tập hợp các đặc tính trống. Đặc tính tốt nhất sẽ được chọn và trên vào tập trống sau mỗi lần thực hiện vòng lặp. - Backward feature elimination: Quy trình bắt đầu với một tập đặc tính đầy đủ của dữ liệu. Sau mỗi vòng lặp thì sẽ loại bỏ đi các đặc tính xấu nhất. - Recursive feature elimination: có quy trình tìm kiếm tập con đặc trưng có thể hoạt động tốt nhất. Phương pháp này tạo ra các vòng lặp thực hiện, và xác định được các đặc tính tốt hoặc xấu nhất. Sau đó, nó xây dựng các mô hình tiếp theo với các tập đặc tính được chọn cho đến khi không còn đặc tính nào chưa sử dụng, sau đó các đặc tính sẽ được xếp hạng và loại bỏ dựa trên thứ tự xếp hạng của các đặc tính. Trong trường hợp xấu nhất, nếu một tập dữ liệu với N đặc tính, thì phương pháp này có thể sẽ thực hiện tìm kiếm cho 2N tổ hợp các đặc tính. Tập các đặc tính Tạo tập con Thuật toán học Hiệu suất Chọn tập con đặc tính tốt nhất 208 Hà Thị Minh Phương, Phan Thị Quỳnh Hương Phương pháp Filter và Wrapper khác nhau ở một số điểm: - Trong phương pháp Filter sẽ không bao gồm mô hình máy học để quyết định đặc tính có tính tốt hay xấu, trong khi đó phương pháp Wrapper có sử dụng mô hình máy học và huấn luyện nó để quyết định đặc tính đó có cần thiết hay không. - Phương pháp Filter nhanh hơn nhiều so với phương pháp Wrapper vì Filter không có quá trình huấn luyện mô hình. Nói một cách khác, phương pháp Wrapper có tính toán phức tạp, nếu làm việc với tập dư liệu lớn thì phương pháp Wrapper sẽ không còn hiệu quả nữa. - Trong trường hợp không đủ dữ liệu để mô hình hóa sự tương quan thống kê của các đặc tính thì phương pháp Filter sẽ không còn hiệu quả, nhưng phương pháp Wrapper vẫn sẽ tìm được tập con dữ liệu phù hợp. - Việc sử dụng các đặc tính trong phương pháp Wrapper trong mô hình máy học sau cùng có thể dẫn đến hiện tường overfitting vì phương pháp Wrapper đã huấn huyện các mô hình máy học với các đặc tính và có ảnh hưởng đến việc học của mô hình. Trong khi đó, các đặc tính từ phương pháp Filter sẽ không gây ra hiện tượng overfitting trong hầu hết các trường hợp. 3.3 Phương pháp Embedded Các mô hình Embedded [2], [4], lựa chọn các đặc tính trong quá trình huấn luyện các mô hình máy học và kết quả là tập các đặc tính được tự động trích xuất khi quá trình huấn luyện dừng lại. Phương pháp Embedded khắc phục được sự phức tạp trong tính toán. Trong phương pháp này, việc lựa chọn đặc tính thích hợp và học mô hình được thực hiện đồng thời, và các đặc tính sẽ được chọn trong giai đoạn huấn luyện mô hình. Do đó, chi phí tính toán của phương pháp này ít hơn so với phương pháp Wrapper. Phương pháp này tránh việc đào tạo mô hình mỗi khi một lựa chọn đặc tính mới đã khám phá . Mohsenza deh et al. [3] vào năm 2013 đã đề xuất một thuật toán Relevant Sample-Feature Machine (RSFM) (RSFM) dựa trên thuật toán máy học sparse Bayesian. RSFM là một phần mở rộng của thuật toán Rele- vance Vector Machine (RVM) [5]; nó là một phương pháp học tập dựa trên phương pháp sparse kernel based . Mirzaei [2] vào năm 2017 đã đề xuất một phương pháp Embedded FS được gọi là Variational RSFM thường được gọi là VRSFM dựa trên mô hình Bayes của RSFM [3]. Phương pháp lựa chọn đặc tính được đề xuất được sử dụng cho cả phân loại cũng như hồi quy. Nó định nghĩa phương pháp Gaussian trước đây phân phối trên các tham số của mô hình và các siêu tham số của nó. Thuật toán hoạt động tốt cho tập dữ liệu kích thước nhỏ. 3.4 So sánh 3 phương pháp Một số điểm mạnh và yếu của mỗi phương pháp được trình bày trong bảng 2. Dựa vào các ưu nhược điểm của các phương pháp cũng như đối với mỗi tập dữ liệu gốc, phương pháp lựa chọn các đặc trưng được sử dụng để đạt được một tập con các đặc tính tối ưu. Bảng 2. Ưu nhược điểm của các phương pháp Các phương pháp Ưu điểm Nhược điểm Phương pháp Filter Hiệu quả Độc lập với thuật toán học, Tính toán nhanh hơn phương pháp Wrapper và Embedded, Thích hợp với dữ liệu số chiều thấp Không xem xét mối tương quan giữa các bộ phân loại. Không xem xét tương quan giữa các đặc trưng. Không nhận dạng được đúng mẫu trong giai đoạn học. Phương pháp Wrapper Xem xét mối tương quan giữa các đặc tính và nhãn lớp, đồng thời xem xét độ phụ thuộc giữa các đặc tính, Chính xác hơn phương pháp Filter. Tính toán phức tạp Lặp lại nhiều lần đánh giá các tập con đặc tính được chọn. Một số đặc tính không được đánh giá khi đã bị loại bỏ ở các vòng lặp đầu. Gây ra overfitting Phương pháp Embedded Tính toán hiệu quả hơn phương pháp Wrapper Chính xác hơn phương pháp Filter và Wrapper Không thích hợp cho dữ liệu số chiều cao Tính tổng quát thấp Giá thành cao hơn phương pháp Filter. 209 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 4 Kết luận Trong bài báo này, chúng tôi đã cung cấp giới thiệu về các kỹ thuật lựa chọn đặc trưng từ đó trích xuất được một tập con tối ưu từ đó giảm được độ phức tạp và thời gian tính toán, nâng cao hiệu quả của các thuật toán trong các mô hình máy học. Từ các quan sát, kỹ thuật filter có ưu điểm tính toán nhanh hơn so với các kỹ thuật còn lại nhưng độ chính xác thấp hơn. Wrapper có độ chính xác cao hơn Filter đòi hỏi tính phức tạp trong tính toán. Kỹ thuật Embedded chính xác cao nhưng không thích hợp với dữ liệu có số chiều cao. Các kỹ thuật lựa chọn đặc trưng cho thấy rằng nhiều thông tin hơn không phải lúc nào cũng tốt trong các ứng dụng học máy. Không có thuật toán nào là tối ưu cho tất cả các tập dữ liệu mà ta chỉ có thể áp dụng các thuật toán khác nhau cho tập dữ liệu và từ các kết quả hiệu suất mô hình để chọn một kết quả cuối cùng thuật toán lựa chọn đặc tính tối ưu nhất. Một thuật toán lựa chọn đặc tính có thể được chọn dựa trên những điều sau cân nhắc: tính đơn giản, tính ổn định, số lượng đặc tính giảm, độ chính xác của phân loại, yêu cầu lưu trữ và tính toán. References 1. Anil Jain and Douglas Zongker. Feature selection: Evaluation, application, and small sample performance. IEEE transactions on pattern analysis and machine intelligence, 19(2):153–158, 1997. 2. Ali Mirzaei, Yalda Mohsenzadeh, and Hamid Sheikhzadeh. Variational relevant sample-feature machine: a fully bayesian approach for embedded feature selection. Neurocomputing, 241:181–190, 2017. 3. Yalda Mohsenzadeh, Hamid Sheikhzadeh, Ali M Reza, NajmehsadatBathaee, and Mahdi M Kalayeh. The rele- vance sample-feature machine: A sparse bayesian learning approach to joint feature-sample selection. IEEE Transactions on Cybernetics, 43(6):2241–2254, 2013. 4. Yalda Mohsenzadeh, Hamid Sheikhzadeh, Ali M Reza, Najmehsadat Bathaee, and Mahdi M Kalayeh. The rele- vance sample-feature machine: A sparse bayesian learning approach to joint feature-sample selection. IEEE Transactions on Cybernetics, 43(6):2241–2254, 2013 5. Michael E Tipping. Sparse bayesian learning and the relevance vector machine. Journal of machine learning re- search, 1(Jun):211–244, 2001. 6. Ke Yan and David Zhang. Feature selection an d analysis on correlated gas sensor data with recursive feature elimination. Sensors and Actuators B: Chemical, 212:353–363, 2015. 7. Lei Yu and Huan Liu. Efficient feature selection via analysis of relevance and redundancy. Journal of machine learning research, 5(Oct):1205–1224, 2004. 8. Gutkin, M., R. Shamir, G.Dr or. SlimPLS: A Method for Feature Selection in Gene Expression-Based Disease Classification. – PLoS One, Vol. 4, July 2009, No 7, p. e6416 9. Ang, J. C.,A. Mirzal, H. Haron, H. N. A. Hamed. Supervised, Unsupervised, and SemiSupervised Feature Selec- tion: A Review on Gene Selection. – IEEE/ACM Trans. Comput. Biol. Bioinforma., Vol. 13, September 2016, No 5, pp. 971 -989. 10. Bins, J., B.A.Draper. Feature Selection from Huge Feature Sets. – In: Proc. ofIEEE Int. Conf. Comput. Vis., Vol. 2, 2001, pp. 159-165 11. Gheyas, I. A., L.S. Smith. Feature Subset Selection in Large Dimensionality Domains. – Pattern Recognit, Vol. 43, January 2010, No 1, pp. 5-13. 12. Dash, M., H. L i u. Feature Selection for Classification. – Intell. Data Anal., Vol. 1, January 1997, No 1 -4, pp. 131 -156 210

Các file đính kèm theo tài liệu này:

nghien_cuu_cac_ky_thuat_lua_chon_dac_trung_trong_tap_du_lieu.pdf