ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hà Văn Sang NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2018 ĐẠI HỌC QUỐC GIA[.]
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Hà Văn Sang
NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN
ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI – 2018
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGƯỜI HƯỚNG DẪN KHOA HỌC:1
2 PGS TS NGUYỄN HÀ NAM PGS TS NGUYỄN HẢI CHÂU
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướngdẫn của PGS.TS Nguyễn Hà Nam và PGS.TS Nguyễn Hải Châu tại Bộ môn các Hệthống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại họcQuốc gia Hà nội Các số liệu và kết quả trình bày trong luận án là trung thực và chưađược công bố trong bất cứ các công trình nào khác trước đây
Tác giả
Hà Văn Sang
Trang 4LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT, TrườngĐại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS.Nguyễn Hà Nam và PGS.TS Nguyễn Hải Châu
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam
và PGS.TS Nguyễn Hải Châu Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định hướngnghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong quá trình nghiêncứu Không chỉ về lĩnh vực nghiên cứu khoa học, các Thầy còn chỉ bảo cho tôi nhiềuđiều trong cuộc sống Đó là những bài học vô cùng quý giá và hữu ích cho chính bảnthân tôi trong thời gian tới
Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa họctrong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiệnthuận lợi cho tôi trong quá trình học tập và nghiên cứu
Tôi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ môn Tin học Tài chính kếtoán, khoa Hệ thống Thông tin kinh tế, Học viện Tài chính, những người đồng nghiệp
đã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng như sắp xếp công việc trong quátrình tôi làm nghiên cứu sinh
Tôi cũng gửi lời cảm ơn tất cả bạn bè, những người đã giúp đỡ và hỗ trợ tôitrong suốt quá trình nghiên cứu
Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt là vợcủa tôi, những người đã động viên, tạo mọi điều kiện thuận lợi để tôi có thể hoànthành chương trình nghiên cứu sinh của mình
Hà Văn Sang
Hà Nội, 1-12-2017
Trang 5TÓM TẮT
Rút gọn đặc trưng ngày càng được sử dụng rộng rãi nhằm tăng hiệu năng cũngnhư giảm chi phí trong quá trình phân tích dữ liệu Mục tiêu của việc rút gọn đặctrưng là xác định và giảm bớt đặc trưng của dữ liệu gốc dựa trên việc biến đổi khônggian đặc trưng hoặc lựa chọn những đặc trưng quan trọng, loại bỏ các đặc trưng khôngliên quan, dư thừa nhằm giảm kích thước dữ liệu, từ đó cải thiện hiệu quả, độ chínhxác của các mô hình phân tích dữ liệu Các kỹ thuật rút gọn đặc trưng đã được ápdụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, phân tích dữliệu ung thư, tìm kiếm thông tin, phân lớp văn bản Tuy nhiên, không tồn tại một kỹthuật rút gọn đặc trưng mà hiệu quả trên mọi miền dữ liệu Trong luận án này, chúngtôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưngnhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướng tiếp cận
là lựa chọn đặc trưng và trích xuất đặc trưng
Có nhiều cách tiếp cận rút gọn đặc trưng khác nhau đã được giới thiệu, tuynhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữliệu khác nhau Chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng có tên FRFE(Fast Recursive Feature Elimination) dựa trên hướng tiếp cận đóng gói (wrapper) vớilõi là một thủ tục loại bỏ đặc trưng đệ quy Để tăng hiệu quả của việc lựa chọn đặctrưng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trưng và thủ tục lựa chọnđặc trưng tương ứng Hơn nữa, do đặc điểm của phương pháp lựa chọn đặc trưngđóng gói là chi phí tính toán cao, vì vậy chúng tôi đã áp dụng các thư viện xử lý phântán để cải thiện hiệu năng của thuật toán đề xuất Kết quả thực nghiệm thuật toánFRFE (được viết bằng ngôn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho thấythuật toán đề xuất đã cải thiện được thời gian chạy so với thuật toán cơ sở và đạt kếtquả khả quan so với các kỹ thuật hiện có
Theo hướng tiếp cận trích xuất đặc trưng, chúng tôi đã đề xuất phương pháptrích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượngđặc trưng dựa trên kỹ thuật hàm nhân PCA Đóng góp chính của phương pháp đề xuất
Trang 6là xây dựng một hàm nhân mới dựa trên việc kết hợp có định hướng một số hàm nhân
cơ bản [67] Kết quả thực nghiệm thuật toán C-KPCA trên bốn bộ dữ liệu ung thưcho thấy thuật toán đề xuất cho kết quả ổn định và tốt hơn so với các phương phápkhác trong nhiều trường hợp
Từ khóa: khai phá dữ liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng, rút gọn đặc trưng, KPCA
Trang 7MỤC LỤC
LỜI CAM ĐOAN I LỜI CẢM ƠN II TÓM TẮT III MỤC LỤC V DANH MỤC TỪ VIẾT TẮT VII DANH MỤC HÌNH ẢNH IX DANH MỤC BẢNG BIỂU XI
MỞ ĐẦU 1
Tính cấp thiết của luận án 1
Mục tiêu của luận án 3
Đối tượng và phạm vi nghiên cứu 4
Phương pháp nghiên cứu 4
Đóng góp của luận án 4
Bố cục của luận án 5
CHƯƠNG 1 TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG 7
.1 Rút gọn đặc trưng 7
.2 Lựa chọn đặc trưng 7
1 1 1 1 1 1 1 2.1 Mục tiêu của lựa chọn đặc trưng 8
.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng 8
.2.3 Các thành phần chính của lựa chọn đặc trưng 9
.2.4 Thủ tục lựa chọn đặc trưng 12
.2.5 Các mô hình lựa chọn đặc trưng 13
1 1 3 Trích xuất đặc trưng 16
1 1 3.1 Mục tiêu của trích xuất đặc trưng 17
.3.2 Phân loại các kỹ thuật trích xuất đặc trưng 17
.4 Một số nghiên cứu về rút gọn đặc trưng 19
1 1 1 4.1 Hướng nghiên cứu về lựa chọn đặc trưng 19
.4.2 Hướng nghiên cứu về trích xuất đặc trưng 27
.4.3 Phân tích và đánh giá 30
Trang 81.5 Kết luận chương 31
CHƯƠNG 2 KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO ĐIỂM TÍN DỤNG 32
.1 Bài toán cho điểm tín dụng 32
.2 Các nghiên cứu liên quan 35
.3 Phương pháp đề xuất 37
2 2 2 2 2 2 3.1 Sơ đồ hệ thống lựa chọn đặc trưng 37
.3.2 Đề xuất hàm đánh giá và chiến lược tìm kiếm đặc trưng phù hợp 38
.3.3 Cải tiến tốc độ xử lý bằng thư viện H20 45
2.4 Thực nghiệm và kết quả 48
2 2 2 2 4.1 Thiết lập thực nghiệm 48
.4.2 Dữ liệu thực nghiệm 49
.4.3 Đánh giá hiệu năng phân lớp 49
.4.4 Kết quả thực nghiệm 53
2.5 Kết luận chương 66
CHƯƠNG 3 KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TOÁN PHÂN TÍCH DỮ LIỆU UNG THƯ 67
.1 Bài toán phân tích dữ liệu ung thư 67
.2 Các nghiên cứu liên quan 69
.3 Phương pháp giải quyết 71
3 3 3 3 3 3 3.1 Sơ đồ hệ thống trích xuất đặc trưng 71
.3.2 Hàm nhân tùy chọn cho PCA 73
.3.3 Xây dựng hàm nhân tùy chọn 77
3 3 4 Thực nghiệm và kết quả 82
3 3 3 4.1 Thiết lập thực nghiệm 82
.4.2 Dữ liệu thực nghiệm 82
.4.3 Kết quả thực nghiệm 84
.5 Kết luận chương 96
KẾT LUẬN 97
DANH MỤC CÔNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 99
TÀI LIỆU THAM KHẢO 100
Trang 9Bidirectional GenerationCorrelation-based FeatureSelection
CFS
FCFS Fast Correlation-based Feature
Multi-layer Perceptron
k-láng giềng gần nhấtPhân tích biệt thức tuyến tínhHồi qui logistic
MLP
mRMR
Perceptron nhiều tầngminimum Redundancy Maximum Phù hợp nhiều nhất-dư thừa ít
Xử lý giao dịch trực tuyếnPhân tích thành phần chínhTối ưu hóa bầy đàn
Rừng ngẫu nhiên
Thuật toán mô phỏng tôi luyện
Trang 10SFS Sequential forward search
Singular Value DecompositionSupport Vector Machine
Tìm kiếm tiến tuần tựPhân tích giá trị riêngMáy véc tơ hỗ trợSVD
SVM
Trang 11DANH MỤC HÌNH ẢNH
Hình 1.1 Lựa chọn đặc trưng .7
Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59] 9
Hình 1.3 Thủ tục lựa chọn đặc trưng[86] 12
Hình 1.4 Mô hình chọn lựa đặc trưng Lọc 13
Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói 14
Hình 1.6 Trích xuất đặc trưng 16
Hình 2.1 Quy trình lựa chọn đặc trưng của bài toán cho điểm tín dụng 37
Hình 2.2 Sơ đồ khối của thuật toán lựa chọn đặc trưng theo hướng tiến 39
Hình 2.3 Sơ đồ khối của lựa chọn đặc trưng theo hướng lui 41
Hình 2.4 Chiến lược lựa chọn đặc trưng FRFE 44
Hình 2.5 Kiến trúc của thư viện H20 46
Hình 2.6 Phân lớp Random forest 47
Hình 2.7 Ví dụ về đường cong AUC [27] 51
Hình 2.8 Kiểm chứng chéo 5 lần 52
Hình 2.9 Danh sách các đặc trưng được sắp xếp theo độ lợi thông tin (IG) giảm dần 53
Hình 2.10 Danh sách các đặc trưng được sắp xếp theo độ đo Relief-F giảm dần 54
Hình 2.11 Danh sách các đặc trưng được sắp xếp theo độ tương quan giảm dần 55
Hình 2.12 So sánh kết quả dự đoán sử dụng 5, 10, 15, 20 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu của Đức 56
Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức 56
Hình 2.14 Độ chính xác phân lớp trên bộ dữ liệu Đức theo hướng quay lui 58
Hình 2.15 So sánh kết quả sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Đức 58 Hình 2.16 Xếp hạng đặc trưng theo độ lợi thông tin (IG) trên bộ dữ liệu tín dụng của Úc.60
Trang 12Hình 2.17 Xếp hạng đặc trưng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc 61
Hình 2.18 Xếp hạng đặc trưng theo độ tương quan trên bộ dữ liệu tín dụng của Úc 62
Hình 2.19 So sánh kết quả dự đoán sử dụng 5, 7, 10 đặc trưng có thứ hạng cao nhất trên bộ dữ liệu tín dụng của Úc 63
Hình 2.20 Độ chính xác phân lớp với bộ dữ liệu Úc 63
Hình 2.21 Độ chính xác dự đoán trên bộ dữ liệu tín dụng Úc 65
Hình 2.22 Độ chính xác dự đoán sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Úc 65
Hình 3.1 Phân tích dữ liệu ung thư 68
Hình 3.2 Quy trình trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư 71
Hình 3.3 Chuyển dữ liệu sang không gian có chiều lớn hơn[21] 74
Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thư ruột kết 85
Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thư bạch cầu 87
Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma 89
Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thư tuyến tiền liệt 91
Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thư 93
Trang 13DANH MỤC BẢNG BIỂU
Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59] 11
Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8] 14
Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8] 15
Bảng 1.4 So sánh ba mô hình[33] 16
Bảng 2.1 Ý nghĩa của diện tích dưới đường cong AUC 51
Bảng 2.2 So sánh hiệu năng của các bộ phân lớp [55] trên bộ dữ liệu tín dụng của Đức 57
Bảng 2.3 Hiệu năng của các bộ phân lớp khác nhau [55] với bộ dữ liệu tín dụng Đức 59
Bảng 2.4 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Úc 64
Bảng 2.5 Hiệu năng của các bộ phân lớp khác nhau trên bộ dữ liệu tín dụng của Úc 66
Bảng 3.1 Cấu trúc bảng dữ liệu ung thư ruột kết 72
Bảng 3.2 Các hàm nhân được sử dụng 82
Bảng 3.3 Tổng hợp các bộ dữ liệu ung thư được sử dụng trong thực nghiệm 83
Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư ruột kết 84
Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thư ruột kết 85
Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư ruột kết 86
Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư bạch cầu 86
Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thư bạch cầu 87
Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư bạch cầu 88
Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư máu trắng 88
Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng 89
Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma 90
Bảng 3.13 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư tuyến tiền liệt 90
Trang 14Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thư tiền liệttuyến 91Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư tuyến tiền liệt 92Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với các phương pháp lựa chọn đặctrưng khác 94Bảng 3.17 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Colon và
Prostate 95Bảng 3.18 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Lymphoma vàProstate 95
Trang 15MỞ ĐẦU
Tính cấp thiết của luận án
Trong những năm gần đây, dữ liệu trong thực tế đã gia tăng một cách nhanhchóng cả về dung lượng lẫn về chủng loại Dữ liệu với số chiều lớn đã trở thành tháchthức đối với các kỹ thuật xử lý, phân tích dữ liệu hiện có Học máy (machine learning)
và khai phá dữ liệu (data mining) cung cấp các công cụ giúp con người giải quyết vấn
đề quản lý, bóc tách thông tin và tri thức bằng cách tự động phân tích một lượng lớn
dữ liệu Tuy nhiên, các kỹ thuật phân tích dữ liệu như phân lớp, dự báo có thể dẫnđến kết quả thấp hoặc không chính xác do không phải lúc nào dữ liệu cũng được xử
lý đầy đủ, vẫn có nhiều dữ liệu dư thừa, không liên quan, hay nhiễu Ngoài ra, cácthuật toán phân lớp chạy mất nhiều thời gian, thậm chí có thể không thể thực hiệnđược nếu dữ liệu chưa được tiền xử lý một cách thích hợp
Rút gọn đặc trưng là kỹ thuật giải quyết vấn đề thu gọn chiều dữ liệu nhằm
giải quyết các vấn đề nêu trên Rút gọn đặc trưng được phân loại thành “lựa chọn đặc trưng” và “trích xuất đặc trưng” Trong đó, lựa chọn đặc trưng có thể chọn ra một
nhóm con các đặc trưng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ cácđặc trưng nhiễu, dư thừa không liên quan trong khi đó trích xuất đặc trưng sẽ trích rút
ra các đặc trưng mới bằng một phép chuyển đổi Rút gọn đặc trưng tạo điều kiện chocác kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao hiệu suất
mà vẫn giữ nguyên hoặc nâng cao được hiệu quả
Nhiều kỹ thuật rút gọn đặc trưng đã được cộng đồng nghiên cứu trên thế giớicông bố [9][12][69][99] Theo thống kê từ năm 2010 tới năm 2017 trên cơ sở dữ liệucủa Google scholar (https://scholar.google.com) thì có tới 88.500 tài liệu liên quantới chủ đề lựa chọn đặc trưng (tìm kiếm từ khóa “Feature Selection”), và có tới159.000 tài liệu liên quan tới chủ đề trích xuất đặc trưng (tìm kiếm từ khóa “FeatureExtraction”) Cũng trong khoảng thời gian từ 2010-2017 trên cơ sở dữ liệu của trang
Trang 16Sciencedirect1 thì chủ đề lựa chọn đặc trưng có trên 11.880 bài báo khoa học, trongkhi chủ đề trích chọn đặc trưng có hơn 32.980 bài báo liên quan.
Trong những năm gần đây, nhiều nghiên cứu đã tập trung vào cải tiến hiệunăng của kỹ thuật rút gọn đặc trưng bằng cách lựa chọn tập con đặc trưng có ích, hoặctrích xuất đặc trưng Điển hình như luận án của Hall [34] đề xuất phương pháp lựachọn đặc trưng dựa trên tương quan cho học máy; Diao và cộng sự [23] sử dụng tìmkiếm hài hòa (Harmony Search) cho việc xây dựng phương pháp lựa chọn đặc trưng.Osiris Villacampa [91] nghiên cứu phương pháp lựa chọn đặc trưng và phân lớp choviệc ra quyết định của công ty; Nziga [69] sử dụng phương pháp trích xuất đặc trưngPCA thưa cho dòng dữ liệu Verónica Bolón-Canedo cùng cộng sự [90] giới thiệu về
dữ liệu có số thuộc tính lớn và các phương pháp lựa chọn đặc trưng cho dữ liệu tinsinh Basant Agarwal và Namita Mittal [5] nghiên cứu trích xuất đặc trưng nổi bậttrong việc phân tích quan điểm Urszula và Lakhmi [83] giới thiệu xu hướng nghiêncứu về lựa chọn đặc trưng trong nhận dạng mẫu Liang cùng cộng sự [56] nghiên cứu
về rút gọn đặc trưng cho bài toán học đa nhãn Florian Eyben [26] trích xuất khônggian đặc trưng nhằm phân lớp dữ liệu âm thanh trực tuyến Mark Nixon [68] sử dụngcác kỹ thuật trích xuất đặc trưng trong việc xử lý ảnh Tuy nhiên, các phương pháprút gọn đặc trưng khác nhau sẽ cho kết quả khác nhau với từng miền ứng dụng tươngứng
Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trìnhkhoa học liên quan tới học máy và khai phá dữ liệu Tuy nhiên, hướng nghiên cứu về
rút gọn đặc trưng chưa được quan tâm nhiều Cụ thể, việc tìm kiếm từ khóa “lựa chọn
Trang 17đặc trưng”, “lựa chọn thuộc tính”, hay “trích chọn đặc trưng” trên Google Scholar2
cho kết quả chỉ khoảng vài chục tài liệu Tài liệu liên quan tới lựa chọn đặc trưng,trích xuất đặc trưng là kết quả nghiên cứu của một số trường đại học Chẳng hạn gầnđây có một số luận án liên quan tới chủ đề rút gọn thuộc tính như: trong năm 2015,
Hà Đại Dương [2] nghiên cứu một số phương pháp trích chọn đặc trưng nhằm pháthiện đám cháy qua dữ liệu ảnh; Vũ Văn Định [1] thực hiện việc rút gọn thuộc tínhtrong bảng quyết định không đầy đủ theo hướng tiếp cận tập thô; Nguyễn Thị LanHương [3] nghiên cứu và rút gọn thuộc tính trong bảng quyết định động theo hướngtiếp cận tập thô Các luận án này đã đề xuất việc áp dụng một kỹ thuật lựa chọn hoặctrích xuất đặc trưng vào bài toán của mình, tập trung chủ yếu tới bài toán xử lí ảnh
Như vậy, có thể nhận thấy rằng rút gọn đặc trưng hiện vẫn là chủ đề để cácnhà nghiên cứu trong và ngoài nước tiếp tục nghiên cứu và phát triển
Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trưngtiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng
Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất cóthể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp Để giải quyết mụctiêu này, luận án tập trung giải quyết một số vấn đề sau:
-Xây dựng một hàm đánh giá đặc trưng phù hợp với dữ liệu cần phân tích
Áp dụng chiến lược tìm kiếm theo kinh nghiệm nhằm làm giảm không gian tìmkiếm
2https://scholar.google.com.vn/
Trang 18Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệuquả để thu được tập đặc trưng mới phù hợp với bộ phân lớp tương ứng Để giải quyếtmục tiêu này, luận án tập trung giải quyết một số vấn đề sau:
-Tìm hiểu kỹ thuật hàm nhân trong việc biến đổi không gian đặc trưng
Xây dựng hàm nhân mới phù hợp với dữ liệu cần phân tích
Với mục tiêu cải tiến hiệu năng của các kỹ thuật phân tích dữ liệu, chúng tôi
đã lựa chọn đề tài của luận án với tiêu đề: "Nghiên cứu cải tiến các kỹ thuật rút gọn
đặc trưng cho phân lớp dữ liệu”.
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là kỹ thuật rút gọn đặc trưng cho bài toánphân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng và trích xuất đặc trưng
Phạm vi áp dụng các kỹ thuật rút gọn đặc trưng vào các miền ứng dụng làtương đối rộng Trong luận án này, chúng tôi giới hạn phạm vi với hai miền ứng dụng
là bài toán cho điểm tín dụng và phân tích dữ liệu ung thư
Phương pháp nghiên cứu
Luận án sử dụng các phương pháp phân tích, tổng hợp lý thuyết, phương pháp
mô hình hóa và phương pháp nghiên cứu thực nghiệm Trong đó, lý thuyết cơ sở đượcphân tích và phương pháp đề xuất được mô hình hóa Cuối cùng phương pháp nghiêncứu thực nghiệm được dùng để đánh giá, kiểm chứng kết quả của phương pháp đềxuất
Đóng góp của luận án
Luận án đề xuất phương pháp rút gọn đặc trưng nhằm tăng hiệu năng của các
kỹ thuật phân lớp theo hai hướng tiếp cận chính là lựa chọn đặc trưng và trích xuấtđặc trưng:
Lựa chọn đặc trưng: chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng (FRFE)
dựa trên hướng tiếp cận đóng gói Nội dung chính của phương pháp đề xuất là việcloại bỏ đặc trưng đệ quy và việc cải tiến hàm đánh giá đặc trưng Hàm đánh giá đặc
Trang 19được ổn định hơn Phương pháp đề xuất giúp tự động tìm ra tập con đặc trưng tối
ưu cho mỗi bộ dữ liệu Một vấn đề khác mà các phương pháp lựa chọn đặc trưngphải đối mặt đó là các phương pháp lựa chọn đặc trưng đóng gói (wrapper) có chiphí tính toán lớn Để giải quyết vấn đề này chúng tôi sử dụng bộ phân lớp rừng ngẫunhiên (random forest) với khả năng xử lý song song nhằm làm giảm thời gian thựchiện của phương pháp đề xuất Thực nghiệm trên bộ dữ liệu tín dụng cho thấyphương pháp lựa chọn đặc trưng đề xuất này có khả năng đạt được mục tiêu mà luận
án đặt ra Những đóng góp dựa trên hướng tiếp cận lựa chọn đặc trưng cho bài toáncho điểm tín dụng được báo cáo trong các công bố [SANGHV1, SANGHV2,SANGHV3, SANGHV5]
Trích xuất đặc trưng: Ngoài cách tiếp cận lựa chọn đặc trưng, một hướng tiếp cận
khác là trích xuất đặc trưng đã và đang được nhiều nhóm nghiên cứu quan tâm pháttriển khi các kỹ thuật lựa chọn đặc trưng trở nên ít hiệu quả Chúng tôi đã đề xuất kỹthuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm sốlượng đặc trưng dựa trên kỹ thuật hàm nhân PCA Cải tiến chính trong đề xuất củachúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơbản[40] Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánhkết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh vớimột số phương pháp lựa chọn đặc trưng phổ biến khác Thực nghiệm cho thấy C-KPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiềutrường hợp Hướng tiếp cận trích xuất đặc trưng cho bài toán phân tích dữ liệu ungthư được công bố trong [SANGHV4]
Các kết quả nghiên cứu trình bày trong luận án được công bố trong 05 côngtrình Trong đó có 02 bài báo đăng ở tạp chí nước ngoài [SANGHV1, SANGHV2];
03 bài báo hội thảo quốc tế được công bố có chỉ số Scopus, trong đó 02 bài báo đượcSpringer xuất bản và đưa vào danh mục LNCS
Bố cục của luận án
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chínhcủa luận án này được chia thành 03 chương, cụ thể như sau:
Trang 20Chương 1: Phần đầu giới thiệu về lý thuyết cơ bản liên quan tới rút gọn đặc
trưng, lựa chọn đặc trưng và trích xuất đặc trưng, đồng thời điểm lại một số nghiêncứu gần đây Sau phần phân tích, đánh giá là kết luận của chương
Chương 2: Đề xuất một hàm đánh giá đặc trưng và áp dụng chiến lược tìm
kiếm theo kinh nghiệm dựa trên hàm đánh giá này nhằm nâng hiệu quả của việc lựachọn đặc trưng Sau khi trình bày về quy trình, giải pháp đề xuất, luận án áp dụngphương pháp đề xuất cho bộ dữ liệu tín dụng Phần còn lại của chương thực hiện thựcnghiệm trên các bộ dữ liệu tín dụng và so sánh kết quả với một số phương pháp lựachọn đặc trưng khác
Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa trên việc xây
dựng một hàm nhân mới trên cơ sở kết hợp một số hàm nhân cơ bản nhằm biến đổikhông gian đặc trưng phù hợp với miền dữ liệu Sau khi trình bày về quy trình,phương pháp đề xuất, phương pháp đề xuất được tiến hành trên bốn bộ dữ liệu ungthư Việc thực nghiệm và so sánh với một số kỹ thuật khác được thực hiện ở phầncòn lại của chương
Trang 21Chương 1 TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG
Hầu hết các lĩnh vực khoa học và công nghệ ngày nay đều đòi hỏi phân tích
dữ liệu nhằm bóc tách các tri thức hữu ích giúp cải tiến hay nâng cao hiệu quả củacác lĩnh vực này Dữ liệu quan sát và thu thập được từ những ứng dụng trong thực tếthường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập dữ liệu có số lượng thuộctính lớn có thể dẫn tới việc tốn kém tài nguyên khi áp dụng kỹ thuật phân tích dữ liệu,
và nhiều trường hợp không thể thực hiện được Xuất phát từ nhu cầu thực tiễn đó, các
kỹ thuật rút gọn đặc trưng được nghiên cứu và phát triển để giải quyết những vấn đềtrên Nội dung chương này nhằm giới thiệu tổng quan về vấn đề rút gọn đặc trưng vàđiểm lại một số hướng nghiên cứu về rút gọn đặc trưng tiêu biểu hiện nay Phần cuốicủa chương sẽ đưa ra một số phân tích, đánh giá một số kỹ thuật rút gọn đặc trưngthường được áp dụng hiện nay
1.1 Rút gọn đặc trưng
Rút gọn đặc trưng được hiểu là quá trình thu gọn hoặc biến đổi không gianbiểu diễn dữ liệu ban đầu thành một không gian con hoặc một không gian mới có sốđặc trưng nhỏ hơn không gian ban đầu mà vẫn giữ được các đặc tính của dữ liệu gốc.Trong nhiều trường hợp, tập dữ liệu ban đầu có chứa nhiều đặc trưng không liên quancho sự mô tả bản chất của hiện tượng mà ta quan tâm, khi đó có thể loại bỏ các đặctrưng không liên quan này và chỉ giữ lại các đặc trưng quan trọng Có hai phươngpháp để rút gọn đặc trưng gồm lựa chọn đặc trưng và trích xuất đặc trưng
1.2 Lựa chọn đặc trưng
- Lựa chọn đặc trưng (Feature Selection): chọn lựa một tập con các đặc trưng
từ các đặc trưng ban đầu mà không có sự thay đổi về giá trị của đặc trưng
xx
푖
x 푖 ự 푖 푖ℎ ọ 푖 đặ 푖 푖푖 ư
푖 ꢀ] →
Trang 22Lựa chọn đặc trưng là một trong những phương pháp hết sức tự nhiên để giảiquyết vấn đề loại bỏ các đặc trưng dư thừa, trùng lặp và không liên quan trong dữliệu Kết quả của lựa chọn đặc trưng là một tập con các đặc trưng từ tập đặc trưng banđầu nhưng vẫn đảm bảo các tính chất của dữ liệu gốc Lựa chọn đặc trưng giúp: (1)cải tiến hiệu năng (về tốc độ, khả năng dự đoán, và đơn giản hóa mô hình); (2) trựcquan hóa dữ liệu cho việc lựa chọn mô hình; (3) giảm chiều và loại bỏ nhiễu.
1.2.1 Mục tiêu của lựa chọn đặc trưng
Mục tiêu chính của lựa chọn đặc trưng là xác định các đặc trưng quan trọng vàloại bỏ các đặc trưng không liên quan hoặc không phù hợp Các thuật toán lựa chọnđặc trưng khác nhau sẽ có thể có các mục tiêu khác nhau Một số mục tiêu thườngđược sử dụng:
-Tìm ra tập con các đặc trưng có kích cỡ nhỏ nhất có thể, mà nó là cần và đủcho việc phân tích dữ liệu (cụ thể ở đây là phân lớp)
Chọn một tập con có M đặc trưng từ một tập gồm N đặc trưng ban đầu (M<N),trong đó giá trị của hàm mục tiêu được tối ưu trên tập con kích cỡ M
Chọn một tập con các đặc trưng nhằm cải tiến độ chính xác dự đoán hoặc làmgiảm kích cỡ của tập dữ liệu mà không làm giảm độ chính xác dự đoán của bộphân lớp
1.2.2 Phân loại các kỹ thuật lựa chọn đặc trưng
Dựa vào tính sẵn có của thông tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng
có thể được chia thành ba loại: phương pháp có giám sát, bán giám sát, và khônggiám sát Thông tin nhãn có sẵn của lớp giúp cho các thuật toán lựa chọn đặc trưng
có giám sát lựa chọn được các đặc trưng phù hợp Khi chỉ có một số ít dữ liệu đãđược gán nhãn, có thể sử dụng lựa chọn đặc trưng bán giám sát, trong đó có thể tậndụng được lợi thế của cả dữ liệu được gán nhãn và dữ liệu không được gán nhãn Hầuhết các thuật toán lựa chọn đặc trưng bán giám sát đều dựa trên việc xây dựng matrận tương tự và lựa chọn các đặc trưng phù hợp nhất với ma trận tương tự đó
Trang 231.2.3 Các thành phần chính của lựa chọn đặc trưng
Liu và Motoda [59] chỉ ra ba thành phần chính của lựa chọn đặc trưng là: (1)Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung,loại bỏ hoặc thay đổi đặc trưng trong quá trình tìm kiếm, và (3) Tiêu chí đánh giá cáctập con khác nhau Hình 1.2 dưới đây thể hiện lựa chọn đặc trưng theo 3 thành phầnnói trên
Tiêu chí đánh giá
Chính xác Nhất quán
Toàn bộ Kinh nghiệm Không xác định
Cơ bản
Chiến lược tìm kiếm
Tiến Lùi
Ngẫu nhiên
Hướng tìm kiếm
Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59]
(1) Chiến lược tìm kiếm
Do số tập con là 2N nên không gian tìm kiếm sẽ tăng theo hàm mũ khi N tănglên Không gian tìm kiếm sẽ là tương đối nhỏ khi số lượng đặc trưng N là nhỏ Khikhông gian tìm kiếm lớn thì chiến lược tìm kiếm được sử dụng sẽ ảnh hưởng lớn tớihiệu năng của nó Kết quả tìm kiếm phụ thuộc vào việc lựa chọn chiến lược tìm kiếm.Mục tiêu là tìm được một tập con các đặc trưng tối ưu trong thời gian ít nhất có thểtheo các tiêu chí cho trước Các chiến lược tìm kiếm có thể được chia thành 3 nhómdưới đây
Tìm kiếm toàn bộ (chiến lược vét cạn): trong chiến lược này, tất cả các khả
năng có thể của các tập con sẽ được kiểm tra Kết quả cuối cùng một tập con tốt nhất
Trang 24theo tiêu chí tìm kiếm Độ phức tạp không gian của chiến lược này trong trường hợptổng quát nhất là 푖(2푖) Khi biết trước được hướng tìm kiếm, thì không gian tìmkiếm sẽ là (푖0) + (푖1) + ⋯ + (푖푖) Trong đó, M là số lượng đặc trưng tối thiểu của mộttập con thỏa mãn một số tiêu chí đánh giá nào đó.
Tìm kiếm theo kinh nghiệm: là quá trình tìm kiếm sử dụng hàm đánh giá để
hướng dẫn sự tìm kiếm Mục tiêu của hàm đánh giá nhằm xác định theo kinh nghiệmđịnh hướng để tìm được tập con tối ưu Chiến lược tìm kiếm theo kinh nghiệm chỉthực hiện theo một lộ trình cụ thể và tìm ra một tập con gần tối ưu nên nó cho kết quảnhanh hơn so với chiến lược tìm kiếm vét cạn
Tìm kiếm không xác định: chiến lược này khác với hai chiến lược kể trên ở
chỗ nó tìm kiếm tập con kế tiếp một cách ngẫu nhiên Chiến lược này thường được
áp dụng trong không gian tìm kiếm khá lớn và tồn tại nhiều giá trị tối ưu cục bộ Ưuđiểm chính là của chiến lược này là tránh được các tối ưu cục bộ và tương đối dễ càiđặt
Tìm kiếm tiến tuần tự (Sequential Forward Generation-SFG): Bắt đầu từ một
tập rỗng các đặc trưng Sselect Tại mỗi bước tìm kiếm, dựa trên một số tiêu chí nhấtđịnh, một đặc trưng được thêm vào tập Sselect Quá trình tìm kiếm này sẽ dừng lại khitất cả các đặc trưng trong tập đặc trưng ban đầu được thêm vào Sselect Kết quả là mộtdanh sách xếp hạng các đặc trưng được tạo ra theo thứ tự được thêm vào Sselect
Tìm kiếm lùi tuần tự (Sequential Backward Generation-SBG): Bắt đầu với
một tập đủ các đặc trưng Tại mỗi bước tìm kiếm dựa vào một số tiêu chí nào đó, một
Trang 25loại bỏ cho tới khi trong tập đặc trưng chỉ còn lại một đặc trưng Kết quả là một danhsách xếp hạng các đặc trưng theo thứ tự bị loại được tạo ra.
SBG và SFG là hai phương pháp bổ sung cho nhau vì đôi khi tìm ra đặc trưngquan trọng nhất là dễ dàng hơn so với tìm ra đặc trưng ít quan trọng và ngược lại
Tìm kiếm theo hai hướng (Birectional Generation-BG): Nếu trong trường hợp
tập đặc trưng tối ưu không nằm trong khu vực giữa của không gian tìm kiếm, thì việcbắt đầu tìm kiếm từ cả hai phía của không gian tìm kiếm là giải pháp phù hợp Quátrình tìm kiếm sẽ được bắt đầu từ hai hướng một cách đồng thời Khi một trong haichiều tìm kiếm tìm được M đặc trưng tốt nhất trước khi đi đến điểm giữa trong khônggian tìm kiếm thì quá trình dừng lại Nếu cả hai chiều tìm kiếm tiến đến điểm giữatrong không gian tìm kiếm thì quá trình cũng kết thúc
Khi số lượng các đặc trưng liên quan M là nhỏ hơn N/2, SFG chạy nhanh hơn,ngược lại nếu M lớn hơn N/2 khi đó SBG chạy nhanh hơn Thường thì giá trị của M
là không biết trước nên ta không thể biết chiến lược nào chạy nhanh hơn Khi đó BG
có ý nghĩa
Tìm kiếm ngẫu nhiên (Random Generation-RG): việc tìm kiếm được bắt đầu
theo một hướng ngẫu nhiên Trong khi tìm kiếm việc thêm hay loại bỏ bớt một đặctrưng cũng được thực hiện một cách ngẫu nhiên Do chiến lược tìm kiếm không đitheo một chiều cố định nào đó trong việc tạo ra tập đặc trưng tối ưu nên phương phápnày tránh được các tối ưu địa phương Mối quan hệ giữa hướng tìm kiếm và chiếnlược tìm kiếm được mô tả trong Bảng 1.1 Ký hiệu × thể hiện sự kết hợp giữa chiếnlược tìm kiếm và hướng tìm kiếm là không khả thi
Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59]
Chiến lược tìm kiếm Hướng tìm kiếm
Toàn bộ Kinh nghiệm Không xác định
Tìm kiếm tiến tuần tự
Tìm kiếm lùi tuần tự
Tìm kiếm theo hai hướng
Tìm kiếm ngẫu nhiên
Trang 261.2.4 Thủ tục lựa chọn đặc trưng
Mặc dù lựa chọn đặc trưng có thể được áp dụng với nhiều mô hình học, tuynhiên trong khuôn khổ luận án này chúng tôi chỉ tập trung vào việc nghiên cứu kỹthuật lựa chọn đặc trưng để tăng hiệu năng của các bộ phân lớp Dash và Liu [86]chia tiến trình lựa chọn đặc trưng thành bốn khối chính: Sinh tập con, đánh giá, điềukiện dừng và kiểm chứng kết quả (Hình 1.3)
ban đầu
ĐúngSai
Kiểm chứngkết quả
Điều kiệndừng
Hình 1.3 Thủ tục lựa chọn đặc trưng[86]
Sinh tập con: là việc tìm kiếm trong không gian của các đặc trưng để có được
các tập con có khả năng phân lớp và dự đoán tốt nhất Với N là số các đặc trưng thì
Trang 27tổng số tập con có thể có là 2N, nên việc duyệt qua tất cả các tập con của các đặc trưng
là tốn kém
Đánh giá: sau khi sinh tập con các đặc trưng, người ta sử dụng một hàm hoặc
một bộ tiêu chí để đánh giá mức độ phù hợp (độ tốt) của tập con được chọn lựa Kếtquả trả về của hàm đánh giá sau đó được sử dụng để xác định thứ hạng của các tậpcon đặc trưng được đánh giá
Điều kiện dừng: được sử dụng để đảm bảo tiến trình rút gọn tập đặc trưng kết
thúc khi không thể tìm thấy tập con đặc trưng tốt hơn
Kiểm chứng kết quả: kiểm tra kết quả với các thuật toán học được chọn nhằm
xác nhận hiệu năng của kỹ thuật lựa chọn đặc trưng
1.2.5 Các mô hình lựa chọn đặc trưng
Mô hình Lọc (Filter)
tốt nhấtFilter
Tính toán xếp hạngtheo các độ đo tương
ứng
Phânlớp
Hình 1.4 Mô hình chọn lựa đặc trưng Lọc
Mô hình Lọc (Filter) là phương pháp lựa chọn đặc trưng đơn giản nhất (Hình.4) Đầu vào của mô hình là toàn bộ các đặc trưng của tập dữ liệu, sau khi thực hiện1
việc đánh giá các đặc trưng sử dụng các độ đo hoặc các tiêu chí nhất định cho trướcthì đầu ra của mô hình là danh sách các đặc trưng với điểm số của từng đặc trưng.Việc lựa chọn M đặc trưng có điểm số cao nhất (hoặc thấp nhất) sẽ cho tập con đặctrưng tốt nhất theo một tiêu chí nhất định Ưu nhược điểm của một số phương pháplọc được liệt kê trong Bảng 1.2
Trang 28Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8]
Đơn biến
Đơn giản Loại bỏ các đặc trưng có X2
Không phụ thuộc vào bộ Kết quả phân lớp cuối t-test
phân lớp cùng có độ chính xác Độ lợi thông tin (IG)
Đa biến
Độc lập với bộ phân lớp Chậm hơn các kỹ thuật Lựa chọn đặc trưng dựa
trên tương quan (CFS)
Sử dụng cho bộ dữ liệu Có thể không loại bỏ được Lựa chọn đặc trưng dựa
Độ phức tạp tính toán thấp đơn biến
kích cỡ lớn các đặc trưng dư thừa trên tương quan nhanh
(FCFS)
Mô hình Đóng gói (Wrapper)
Mô hình đóng gói tìm kiếm tập con các đặc trưng tốt bằng cách đánh giá chấtlượng của các tập đặc trưng Việc đánh giá chất lượng thường sử dụng hiệu năng (độchính xác dự đoán hoặc phân lớp) của thuật toán học (Hình 1.5)
Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói
Để đánh giá chất lượng của tập đặc trưng, chúng sử dụng phản hồi (feedback)
từ mô hình dự đoán Sở dĩ mô hình này được gọi là đóng gói bởi nó luôn ‘bao quanh’
bộ phân lớp Mô hình đóng gói có thể sử dụng các chiến lược tìm kiếm khác nhauchẳng hạn như tìm kiếm tuần tự, hoặc ngẫu nhiên Ưu nhược điểm của mô hình đóng
Trang 29Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8]
Thuật toán lựa chọn tuần tự
Có tương tác với bộ phân Dễ bị quá khớp
lớp
Lựa chọn tiến tuần tự(SFS)
Thực hiện dễ dàngChi phí tính toán thấp Dễ gặp tối ưu địa phương Loại bỏ lùi tuần tự (SBE)
Beam Search
Thuật toán lựa chọn tiến hóa
Tìm được tập con tối ưu Tính toán phức tạp SA
Tương tác với bộ phân lớp Dễ bị quá khớp hơn GA
Hiệu năng cao hơn mô
hình lọc
PSOACO
Mô hình nhúng (Embedded)
Mô hình nhúng giúp cải tiến hiệu năng phân lớp và tăng tốc độ của quá trìnhlựa chọn Mô hình nhúng là sự tích hợp, nhúng kỹ thuật lựa chọn đặc trưng vào môhình học Mô hình này kết hợp ưu điểm của mô hình Lọc và Đóng gói bằng cách sửdụng đồng thời tiêu chí đánh giá độc lập và các thuật toán học để đánh giá tập concác đặc trưng Mô hình Lọc có thể cung cấp một chỉ dẫn thông minh cho mô hìnhĐóng gói, chẳng hạn như: giảm không gian tìm kiếm, một điểm khởi đầu tốt, đườngtìm kiếm ngắn và thông minh hơn Để thực hiện được mô hình Nhúng người pháttriển cần tìm hiểu cấu trúc của thuật toán học, xác định các tham số có thể sử dụngcho việc đánh giá mức độ quan trọng của đặc trưng Nói cách khác, các đặc trưngđược xếp hạng ngay trong quá trình thực thi của việc học, không phải sau khi việchọc hoàn thành như trong mô hình Đóng gói Bảng 1.4 dưới đây so sánh ba mô hìnhlựa chọn đặc trưng dựa theo ba hướng tiếp cận:
Trang 30Bảng 1.4 So sánh ba mô hình[33]
Tiêu chuẩn Đo lường độ phù hợp Đo lường tính có Đo lường tính có
đặc trưng/ tập con ích của tập con đặc ích của tập con đặc
Chiến lược tìm Thường là thứ tự của Tìm kiếm không Tìm kiếm được kiếm các đặc trưng gian toàn bộ đặc hướng dẫn bởi quá
1.3 Trích xuất đặc trưng
- Trích xuất đặc trưng (Feature extraction): biến đổi không gian đặc trưng ban
đầu sang một không gian khác mà có thể dễ dàng phân tích hơn Hay nói cáchkhác là nó xây dựng một tập đặc trưng mới từ tập đặc trưng ban đầu với số đặctrưng nhỏ hơn
Trang 311.3.1 Mục tiêu của trích xuất đặc trưng
Trực quan hóa dữ liệu được thực hiện dễ dàng hơn do dữ liệu sau phép biến đổi
có thể dễ dàng biểu diễn hơn so với dữ liệu gốc
Giảm nhiễu và dư thừa
1.3.2 Phân loại các kỹ thuật trích xuất đặc trưng
Cách thức phân loại của các kỹ thuật trích xuất đặc trưng thường khác so vớicách phân loại của các kỹ thuật lựa chọn đặc trưng Có nhiều cách phân loại dựa trêncác đặc điểm của kỹ thuật trích xuất Trong khuôn khổ luận án này, chúng tôi tậptrung phân loại các kỹ thuật trích xuất đặc trưng thành hai loại là các phương pháp cógiám sát và các phương pháp không có giám sát Ngoài ra, còn có thể phân loại theocác mô hình tuyến tính và mô hình phi tuyến
Các phương pháp không giám sát gồm: Phân tích thành phần chính (PCA),
Phân tích giá trị riêng (SVD), Phân tích yếu tố (FA)…
Các phương pháp có giám sát gồm: Phân tích biệt thức tuyến tính (LDA), Phân
Giả sử các phần tử dữ liệu được biểu diễn bằng vector n chiều, phương pháp phân tích thành phần chính sẽ tìm k vector trực giao n chiều có thể dùng để biểu diễn dữ liệu, với k ≤ n Khi đó, phép chiếu trên không gian k chiều cho phép biểu diễn dữ liệu
ban đầu bằng một không gian nhỏ hơn Phương pháp phân tích thành phần chính sẽkết hợp các đặc trưng ban đầu với nhau để tạo ra các đặc trưng mới Các đặc trưngmới được gọi là thành phần chính và chúng có số lượng ít hơn hoặc bằng các đặc
Trang 32trưng ban đầu PCA là một trong các kỹ thuật không có giám sát bởi dữ liệu ban đầukhông có sẵn thông tin về tin nhãn PCA có thể sử dụng để trích xuất các thông tinliên quan nhiều nhất từ một tập dữ liệu có chứa thông tin dư thừa hoặc nhiễu.
Phân tích giá trị riêng (SVD)
Phân tích giá trị riêng [6] của một ma trận X cỡ n×d được thực hiện bằng tích
Phân tích yếu tố (Factor Analysis-FA) cũng là một mô hình tuyến tính, nhưng
là mô hình xác suất chứa biến ẩn FA được đề xuất lần đầu tiên bởi các nhà tâm lý
FA giả sử rằng các biến được đo phụ thuộc vào một số yếu tố chung, không rõ vàthường không đo đạc được Ví dụ điểm thi của sinh viên thường liên quan, phụ thuộcvào yếu tố “thông minh” của mỗi sinh viên Mục tiêu của FA là khai thác các mốiquan hệ như thế và có thể được sử dụng để giảm chiều của tập dữ liệu theo một môhình yếu tố Phân tích yếu tố là mô hình dữ liệu có nhiều ưu điểm, cụ thể trong trườnghợp tập dữ liệu ban đầu có chiều cao, thì phân tích yếu tố cho phép mô hình hóa dữliệu trực tiếp bởi phân phối Gauss với ít tham biến hơn
Các
kỹ thuật có giám sát
Phân tích biệt thức tuyến tính
Phân tích biệt thức tuyến tính (Linear Discriminant Analysis-LDA) là một kỹthuật có giám sát; trong đó LDA tối đa hóa độ tin cậy tuyến tính giữa dữ liệu của cáclớp khác nhau Tương tự như PCA, LDA tìm kiếm một kết hợp tuyến tính của cácđặc trưng để dựng hàm phân lớp của các đối tượng LDA mô hình hóa sự khác biệt
Trang 33giữa các lớp trong khi PCA không quan tâm tới những khác biệt này LDA thườngđược sử dụng với dạng dữ liệu có kiểu số.
Phân tích thành phần độc lập
Phân tích thành phần độc lập (Independent Component Analysis-ICA) là mộtphương pháp biến đổi tuyến tính, trong đó các đại diện mong muốn là một trong cácthành phần phụ thuộc ít nhất vào các thành phần đại diện Việc sử dụng các đặc trưngtrích xuất được phát triển theo lý thuyết về giảm sự dư thừa Các thuật toán ICA đượcchia thành hai loại: một là các thuật toán được phát triển từ việc giảm thiểu thông tintương hỗ; và loại thứ hai những thuật toán khác được phát triển từ việc tối đa hóaphân phối chuẩn
1.4 Một số nghiên cứu về rút gọn đặc trưng
1.4.1 Hướng nghiên cứu về lựa chọn đặc trưng
Trong nghiên cứu [53], các tác giả phân chia các hướng nghiên cứu thành bốnnhóm là hướng nghiên cứu dựa trên sự tương quan, hướng nghiên cứu dựa trên thống
kê, hướng nghiên cứu dựa trên lý thuyết thông tin và hướng nghiên cứu dựa trên họcthưa
1.4.1.1 Hướng nghiên cứu dựa trên sự tương quan
Các thuật toán lựa chọn đặc trưng khác nhau sử dụng các tiêu chí khác nhau
để xác định các đặc trưng liên quan Một số độ đo được sử dụng để đánh giá mức độquan trọng của đặc trưng là điểm số Laplace (Laplacian Score), điểm số Fisher,Relief-F…
Thuật toán cứu trợ (Relief-F) là một trong những thuật toán lựa chọn đặc trưngphổ biến nhất do nó đơn giản và hoạt động hiệu quả Tính chất của dữ liệu ảnh hưởngtới việc thực hiện thuật toán cứu trợ Cụ thể, nếu dữ liệu có nhiều nhiễu thì Relief-F
có thể cho kết quả kém chính xác Nếu trong tập dữ liệu có giá trị ngoại lai (outlier)thì độ chính xác sẽ giảm nhiều hơn nữa Vì vậy, cần phải hết sức cẩn thận khi chọnmẫu cho tập dữ liệu Ngoài ra, Relief-F chỉ xếp hạng các đặc trưng dựa trên mức độquan trọng của từng đặc trưng Do đó, trong nghiên cứu [102], các tác giả đã lai ghép
Trang 34Relief-F với một thuật toán di truyền nhằm lựa chọn các đặc trưng tối ưu Các tham
số của thuật toán di truyền được xác định một cách phù hợp dựa vào số đặc trưngđược lựa chọn từ Relief-F
Nhận xét: Ưu điểm của các phương pháp lựa chọn đặc trưng dựa trên sự tương
quan là tương đối đơn giản và dễ hiểu bởi công việc tính toán chỉ tập trung vào xâydựng ma trận tương quan sau đó tính điểm số cho từng đặc trưng Do có hiệu suất caonên chúng thường được sử dụng cho các bài toán phân lớp Các phương pháp nàycũng độc lớp với các thuật toán học khi lựa chọn các đặc trưng Tuy nhiên, nhượcđiểm của các phương pháp này là không thể xác định được các đặc trưng dư thừa bởichúng có thể lặp lại việc tìm kiếm các đặc trưng có độ tương quan cao trong suốt quátrình lựa chọn
1.4.1.2 Hướng nghiên cứu dựa trên thống kê
Các độ đo thống kê cũng được sử dụng để làm tiêu chuẩn lựa chọn đặc trưng.Các phương pháp lựa chọn đặc trưng sử dụng độ đo thống kê được xếp vào nhóm cácphương pháp lọc do chúng không phụ thuộc vào thuật toán học mà chỉ đánh giá đặctrưng dựa trên các độ đo thống kê Các phương pháp này có thể không loại bỏ đượccác đặc trưng dư thừa trong pha lựa chọn do chúng chỉ đánh giá các đặc trưng mộtcách độc lập Một số độ đo hay được sử dụng là: phương sai thấp (Low Variance),
điểm số T (T-score), điểm số F (F-score), X2, chỉ số Gini
Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên thống kê sử dụng các
độ đo để loại bỏ các đặc trưng không mong muốn Với ưu điểm đơn giản, dễ hiểu vàchi phí tính toán thấp, chúng thường được sử dụng trong bước tiền xử lý sau đó mới
áp dụng cho các phương pháp lựa chọn đặc trưng phức tạp khác Giống như cácphương pháp lựa chọn đặc trưng dựa trên sự tương quan, các phương pháp này đánhgiá độ quan trọng của các đặc trưng một cách độc lập nên không thể loại bỏ được cácđặc trưng dư thừa Một nhược điểm khác của các phương pháp này là chúng chỉ cóthể làm việc với dữ liệu rời rạc Các biến kiểu số hay liên tục cần phải xử lý rời rạchóa trước khi được áp dụng
Trang 351.4.1.3 Hướng nghiên cứu trên lý thuyết thông tin
Phần lớn các thuật toán lựa chọn đặc trưng hiện có là dựa trên lý thuyết thôngtin Các thuật toán này sử dụng điều kiện lọc theo kinh nghiệm để đánh giá độ quantrọng của đặc trưng Hầu hết các thuật toán dựa trên khái niệm entropy để đo sự không
chắc chắn của một biến ngẫu nhiên rời rạc Độ lợi thông tin (Information Gain) giữahai biến X và Y được sử dụng để đo lượng thông tin dùng chung của X và Y Một sốthuật toán lựa chọn đặc trưng dựa trên lý thuyết thông tin:- Độ lợi thông tin (Information Gain): đo sự quan trọng của đặc trưng bằng mốitương quan của nó với nhãn lớp Giả sử rằng một đặc trưng có độ tương quancao với nhãn lớp thì nó có thể giúp đạt hiệu suất phân lớp tốt Công việc đánhgiá độ quan trọng của từng đặc trưng được thực hiện riêng biệt, do đó nó có thể
bỏ qua các đặc trưng dư thừa Sau khi có được điểm số của các đặc trưng, cóthể lựa chọn ra các đặc trưng có điểm số cao nhất
- Lựa chọn đặc trưng dựa trên thông tin tương hỗ (Mutual Information): nhượcđiểm của phương pháp độ lợi thông tin là việc giả thiết các đặc trưng là độc lậpvới nhau Trong thực tế, một đặc trưng được gọi là tốt nếu nó liên quan cao vớinhãn lớp và không liên quan tới các đặc trưng khác Nói cách khác cần làmgiảm mối liên quan giữa các đặc trưng Phương pháp này xem xét cả các đặctrưng liên quan và các đặc trưng dư thừa trong pha lựa chọn đặc trưng
Liên quan nhiều nhất-dư thừa ít nhất (Minimum Redundancy MaximumRelevance-mRMR): Peng và cộng sự [76] đề xuất điều kiện liên quan nhiềunhất- dư thừa ít nhất để lựa chọn số đặc trưng cần chọn Thuật toán giúp choviệc lựa chọn càng nhiều đặc trưng, ảnh hưởng của các đặc trưng dư thừa cànggiảm
Thông tin tương hỗ chung (Joint Mutual Information): Meyer và cộng sự [64]
đề xuất điều kiện thông tin tương hỗ chung nhằm tăng cường thông tin bổ sungđược chia sẻ giữa các đặc trưng chưa được chọn và đặc trưng đã được chọn
Nhận xét: khác với các phương pháp lựa chọn đặc trưng dựa trên sự tương
quan, hầu hết các phương pháp lựa chọn đặc trưng dựa trên lý thuyết thông tin có thể
Trang 36xác định được các đặc trưng liên quan và các đặc trưng dư thừa Cũng giống như cácphương pháp dựa trên sự tương quan, các phương pháp dựa trên lý thuyết thông tin
là độc lập với thuật toán học Do đó, các phương pháp này thường chỉ phù hợp vớibài toán phân lớp Do không có sự hướng dẫn của nhãn lớp nên không thể xác định
rõ ràng việc đánh giá mức quan trọng của các đặc trưng Ngoài ra, các phương phápnày chỉ có thể áp dụng cho dữ liệu rời rạc do đó các biến số liên tục cần phải được xử
lý rời rạc hóa
1.4.1.4 Hướng nghiên cứu dựa trên học thưa (Sparse learning)
Trong những năm gần đây, các phương pháp lựa chọn đặc trưng dựa trên họcthưa đã được nhiều nhà nghiên cứu quan tâm do hiệu suất tốt và dễ hiểu Hướngnghiên cứu dựa trên học thưa có mục tiêu là giảm thiểu lỗi với một số qui tắc thưa.Các qui tắc thưa làm cho các hệ số của đặc trưng thu nhỏ dần (hoặc chính xác bằng0) và sau đó các đặc trưng tương ứng có thể được loại bỏ một cách dễ dàng Một sốphương pháp lựa chọn đặc trưng dựa trên học thưa:
Lựa chọn đặc trưng với qui tắc chuẩn ℓ 푖: phương pháp này được áp dụng chobài toán phân lớp nhị phân hoặc hồi qui đa biến Để lựa chọn đặc trưng điều kiện giớihạn thưa ℓ 푖푖푖푖푖 được đưa vào mô hình, trong đó 0 ≤ 푖 ≤ 1 Có thể lựa chọn đặctrưng bằng cách lựa chọn các đặc trưng có trọng số lớn Thông thường trọng số càngcao thì độ quan trọng của đặc trưng càng lớn Các phương pháp lựa chọn đặc trưngtheo ℓ1-norm gồm có [98][96][36]
Lựa chọn đặc trưng với qui tắc chuẩn ℓ 푖,푖 : phương pháp này được áp dụngcho bài toán phân lớp đa nhãn hoặc hồi qui đa biến Các bài toán này tương đối khóhơn do có đa nhãn và đa mục tiêu và pha lựa chọn đặc trưng phải là nhất quán trênnhiều mục tiêu Việc lựa chọn đặc trưng liên quan được chuyển thành việc giải bàitoán tối ưu Đề giải bài toán này một số tác giả đã tìm kiếm giải pháp tối ưu địaphương[16]
Ngoài ra, nhiều tác giả đã nghiên cứu và đề xuất các phương pháp lựa chọnđặc trưng hiệu quả dựa trên học thưa [24][43][74][75]
Trang 37Nhận xét: Các phương pháp lựa chọn đặc trưng dựa trên học thưa có thể được
nhúng vào một thuật toán học bất kỳ (chẳng hạn hồi qui tuyến tính, SVM, RandomForest ) Do đó, có thể cải thiện hiệu năng của các thuật toán học Ngoài ra, với đặctính thưa của trọng số của đặc trưng, mô hình trở nên dễ hiểu, dễ giải thích Tuy nhiên,các phương pháp này vẫn còn gặp phải một số hạn chế Thứ nhất, nó tối ưu hóa trựctiếp một thuật toán học bằng việc lựa chọn đặc trưng, do đó các đặc trưng được lựachọn chỉ phù hợp với thuật toán học này mà không phù hợp với thuật toán học khác
Có nghĩa là không tổng quát Thứ hai, các phương pháp này liên quan tới việc giảibài toán tối ưu với các phép toán phức tạp trên ma trận (nhân, đảo ngược, ) trong hầuhết các trường hợp Do đó, chi phí tính toán cao là một trong những hạn chế của cácphương pháp này
1.4.1.5 Một số hướng nghiên cứu khác:
Ngoài các phương pháp lựa chọn đặc trưng thuộc bốn nhóm đã trình bày ởtrên, các nhà nghiên cứu còn tập trung vào phát triển các phương pháp lựa chọn đặctrưng theo chiến lược tìm kiếm và tiêu chí đánh giá
Tìm
kiếm kinh nghiệm và tham lam
Nakariyakul và Casasent [66] cải tiến thuật toán lựa chọn đặc trưng tuần tựtiến nhằm chọn một tập hợp con của các đặc trưng Các tác giả đã đề xuất cải tiến cácthuật toán lựa chọn đặc trưng gốc bằng cách thêm một bước tìm kiếm bổ sung đượcgọi là "thay thế đặc trưng yếu" Bước tìm kiếm bổ sung này sẽ thực hiện việc loại bỏmột đặc trưng bất kỳ trong tập các đặc trưng con hiện đang được chọn Sau đó thêmtuần tự từng đặc trưng mới nhằm cải thiện các tập con đặc trưng hiện thời
Yusta [101] trình bày ba chiến lược tìm kiếm theo kinh nghiệm để giải quyếtcác bài toán lựa chọn đặc trưng (GRASP, tìm kiếm Tabu và thuật toán Memetic) Bachiến lược tìm kiếm này được so sánh với giải thuật di truyền và với các phương pháplựa chọn đặc trưng điển hình khác như SFFS và SBFS Kết quả cho thấy GRASP vàtìm kiếm Tabu có được kết quả tốt hơn so với các phương pháp còn lại
Tìm
kiếm dựa trên tối ưu
Trang 38Khi bài toán lựa chọn đặc trưng có thể được coi là một bài toán tối ưu hóa tổhợp, các nhà nghiên cứu đã sử dụng các thuật toán di truyền, tối ưu đàn kiến, phươngpháp tập thô và tối ưu hóa bầy đàn (Particle Swarm Optimization) để giải quyết.
Một thủ tục tìm kiếm khác dựa trên các thuật toán di truyền (GA), đó là một
kỹ thuật tìm kiếm tổ hợp dựa trên cả hai độ đo ngẫu nhiên và xác suất Các tập conđặc trưng được đánh giá bằng cách sử dụng hàm phù hợp và sau đó qua kết hợp traođổi chéo và đột biến để tạo ra thế hệ tiếp theo của các tập con
Othman Soufan và các cộng sự [82] đề xuất một phương pháp lựa chọn đặctrưng hiệu quả theo mô hình đóng gói trong đó sử dụng chiến lược tìm kiếm dựa trênthuật toán di truyền Việc kiểm tra và đánh giá số lượng lớn các đặc trưng được triểnkhai song Trong bước tiền xử lý các tác giả cũng tích hợp các phương pháp lọc khácnhau Một ưu điểm nổi bật của phương pháp này là trọng số và các tham số khác của
Ghamisi
và cộng sự [30] đề xuất nhằm phán đoán điểm ảnh trong quá trình xử lý ảnh Thuậttoán lai này tự động dừng khi giá trị trung bình của cá thể nhỏ hơn một giá trị ngưỡngcho trước Ưu điểm của phương pháp này là không cần phải thiết lập số lượng đặctrưng cần thiết trước khi bắt đầu các vòng lặp.Trong nghiên cứu của Martin Jung và Zscheischler Jakob [46], các tác giả giớithiệu một thuật toán di truyền lai cho việc lựa chọn đặc trưng Thuật toán di truyềnđược chỉ dẫn bởi Rừng ngẫu nhiên (RF) giúp làm giảm chi phí tính toán của hàm mục
Trang 39tiêu Hướng dẫn này gợi ý những đặc trưng sẽ bị loại bỏ và giữ lại những đặc trưngphù hợp nhất.
Gần đây, Ghaemi Manizheh và cộng sự đề xuất một phương pháp lựa chọnđặc trưng sử dụng thuật toán tối ưu rừng (FOA)[29] Đầu tiên, thuật toán tối ưu rừngđược áp dụng cho bài toán có không gian liên tục, sau đó nó được áp dụng cho bàitoán có không gian đặc trưng rời rạc bằng cách thiết lập lại bậc của cây tốt nhất vềgiá trị không
Maldonado và Weber [63] giới thiệu một thuật toán đóng gói để lựa chọn đặctrưng, trong đó sử dụng SVM với các hàm nhân Phương pháp của họ được dựa trên
sự lựa chọn tuần tự ngược, bằng cách sử dụng số lỗi đánh giá trên một tập con làm
độ đo để quyết định đặc trưng nào bị loại bỏ trong mỗi lần lặp
Kỹ thuật lai
Các kỹ thuật lai là một dạng của các phương pháp dựa trên kết hợp mô hình(ensemble) với mục đích tạo ra một nhóm các tập con đặc trưng từ các thuật toán lựachọn đặc trưng khác nhau và sau đó tổng hợp lấy ra kết quả cuối cùng tốt nhất Kỹthuật này có thể làm giảm thiểu vấn đề không ổn định, nhiễu của từng phương pháplựa chọn đặc trưng, và do đó các công việc học tiếp sau được cải thiện đáng kể Tương
tự như các phương pháp học kết hợp thông thường, các phương pháp lựa chọn đặctrưng lai gồm hai bước: (1) Xây dựng một tập các kết quả lựa chọn đặc trưng khácnhau, (2) Kết hợp các kết quả này để có được kết quả cuối cùng Việc thực hiện cácbước khác nhau sẽ cho ra các phương pháp lựa chọn đặc trưng khác nhau
Unler và cộng sự [89] trình bày một thuật toán lựa chọn tập con đặc trưng laigiữa lọc và đóng gói dựa trên tối ưu hóa hạt bầy đàn (PSO) cho bộ phân lớp SVM
Mô hình lọc dựa trên các thông tin tương hỗ (MI), MI là một độ đo tổng hợp của đặctrưng liên quan và dư thừa đối với các tập con đặc trưng được lựa chọn Mô hìnhđóng gói là một thuật toán cải tiến dựa trên PSO
Cách tiếp cận của Peng và cộng sự [77] gồm hai phần: (1) thêm một bước tiềnlựa chọn để nâng cao hiệu quả trong việc tìm kiếm các tập con đặc trưng với hiệu
Trang 40năng phân lớp được cải tiến, (2) sử dụng đường cong (ROC) để mô tả hiệu suất củađặc trưng riêng lẻ và tập con đặc trưng trong việc phân lớp.
Lee và Leu [50] đề xuất một phương pháp lai mới để lựa chọn đặc trưng trongviệc phân tích dữ liệu microarray Phương pháp này lần đầu tiên sử dụng thuật toán
di truyền với cài đặt tham số động (GADP) để tạo ra một số tập hợp gen và để xếphạng các gen theo tần số xuất hiện của chúng trong các tập con gen Sau đó, sử dụngphương pháp X2 để chọn một số gen thích hợp trong số các gen được xếp hạng caonhất
Xie và Wang [97] đề xuất một phương pháp lựa chọn đặc trưng lai, cải tiến score và tìm kiếm kế tiếp tuần tự (IFSFS) Họ cải tiến F-score gốc bằng cách đo độphân biệt giữa hai bộ số thực sau đó đo sự phân biệt giữa nhiều hơn hai bộ số thực.Các cải tiến F-score và tìm kiếm kế tiếp tuần tự (SFS) được kết hợp để tìm tập contối ưu trong quá trình lựa chọn đặc trưng, trong đó, cải tiến F-score được dùng như làmột tiêu chí đánh giá của phương pháp lọc còn SFS là một hệ thống đánh giá dựa trênphương pháp đóng gói
F-Các phương pháp tập thô
Lý thuyết tập thô (Rough Set) đã được giới thiệu bởi Pawlak [73] để giải quyếtvới các khái niệm không chính xác hoặc mơ hồ Swiniarski và Skowron [85] giớithiệu các ứng dụng cho phép sử dụng phương pháp tập thô để lựa chọn đặc trưng
Chen và cộng sự [18] đề xuất một phương pháp lựa chọn đặc trưng dựa trênbit để tìm tập đặc trưng nhỏ nhất đại diện cho các chỉ số của một tập dữ liệu cho trước.Cách tiếp cận này bắt nguồn từ việc lập chỉ mục bitmap và kỹ thuật tập thô Nó baogồm hai giai đoạn Trong giai đoạn đầu, tập dữ liệu đã cho được biến đổi thành một
ma trận bitmap được lập chỉ mục với một số thông tin dữ liệu bổ sung Trong giaiđoạn thứ hai, một tập hợp các đặc trưng phù hợp được lựa chọn và sử dụng đại diệncho các chỉ số phân lớp của tập dữ liệu cho trước Sau khi các đặc trưng phù hợp đượclựa chọn, chúng có thể được đánh giá bởi các chuyên gia trước khi tập các đặc trưngcuối cùng của dữ liệu được đề xuất