DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮTANN Artificial neural network Mạng Nơ-ron nhân tạo BPMLL Backpropagation for Multilabel Phân lớp đa nhãn mạng Nơron thuộc Chi CLR Calibrated Label Ran
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS HÀ QUANG THỤY
2 PGS.TS PHAN XUÂN HIẾU
Hà Nội – 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực
và chưa từng được công bố trong các công trình nào khác.
Nghiên cứu sinh
Phạm Thị Ngân
Trang 4LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin – Khoa Công nghệthông tin – Trường Đại học Công nghệ - Đại học quốc gia Hà Nội dưới sự hướngdẫn khoa học của PGS.TS Hà Quang Thụy và PGS.TS Phan Xuân Hiếu
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hà Quang Thụy và thầyPhan Xuân Hiếu, những người đã đưa tôi tiếp cận và đạt được những thành côngtrong lĩnh vực nghiên cứu của mình Tôi đặc biệt gửi lời cảm ơn tới thầy Hà QuangThụy đã luôn tận tâm, động viên, khuyến khích và chỉ dẫn tôi hoàn thành được bảnluận án này
Tôi xin bày tỏ lòng biết ơn tới thầy Nguyễn Trí Thành đã nhiệt tình hướngdẫn và truyền đạt các kinh nghiệm nghiên cứu trong quá trình tôi thực hiện luận án
Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhà khoa họcthuộc Trường Đại học Công nghệ (đặc biệt là các thành viên của Phòng thí nghiệmkhoa học dữ liệu và công nghệ tri thức – DS&KTlab) - Đại học Quốc gia Hà Nội đãgiúp đỡ về chuyên môn và tạo điều kiện thuận lợi cho tôi trong suốt thời gian họctập và nghiên cứu
Tôi xin bày tỏ lòng cảm ơn chân thành tới các cộng sự đã cùng tôi thực hiệncác công trình nghiên cứu và các bạn đồng nghiệp đã giúp đỡ, trao đổi và chia sẻnhững kinh nghiệm về chuyên môn, đóng góp các ý kiến quý báu cho tôi trong quátrình nghiên cứu
Tôi xin trân trọng cảm ơn các thầy cô trong hội đồng chuyên môn đã đónggóp các ý kiến quý báu để tôi hoàn thiện luận án
Tôi cũng bày tỏ lòng lòng cảm ơn sâu sắc tới Ban giám đốc Học viện Cảnhsát nhân dân; Tập thể lãnh đạo Bộ môn Toán-Tin học, Học viện Cảnh sát nhân dân
đã tạo kiện thuận lợi cho tôi trong quá trình nghiên cứu; cảm ơn các đồng chí trong
Bộ môn Toán-Tin học đã luôn ủng hộ, quan tâm và động viên tôi
Tôi luôn biết ơn những người thân trong gia đình, bố mẹ nội, bố mẹ ngoại,các anh chị em đã luôn chia sẻ khó khăn, động viên và là chỗ dựa tinh thần vữngchắc cho tôi trong suốt thời gian qua
ii
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC HÌNH VẼ x
MỞ ĐẦU 1
Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN 10
1.1 Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện 10
1.1.1 Phân lớp đơn nhãn 10
1.1.2 Phân lớp đơn nhãn đa thể hiện 11
1.1.3 Phân lớp đa nhãn 12
1.1.4 Phân lớp đa nhãn đa thể hiện 13
1.2 Giới thiệu chung về phân lớp đa nhãn 14
1.2.1 Kỹ thuật phân lớp đa nhãn 15
1.2.1.1 Tiếp cận chuyển đổi bài toán 16
1.2.1.2 Tiếp cận thích nghi thuật toán 22
1.2.1.3 Tóm tắt về các thuật toán được giới thiệu 28
1.2.2 Dữ liệu đa nhãn 29
1.2.2.1 Các độ đo dữ liệu đa nhãn 29
1.2.2.2 Phân bố nhãn 30
1.2.2.3 Mối quan hệ giữa các nhãn 30
1.2.3 Đánh giá phân lớp đa nhãn 31
1.2.3.1 Các độ đo dựa trên mẫu 32
1.2.3.2 Các độ đo dựa trên nhãn 34
Trang 61.3.1 Tiếp cận giảm chiều không gian đặc trưng đầu vào 37
1.3.2 Tiếp cận giảm chiều không gian nhãn đầu ra 41
1.4 Học bán giám sát cho phân lớp đa nhãn 43
1.5 Kết luận chương 1 43
Chương 2 HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT 45
2.1 Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát 45
2.1.1 Nhận diện thực thể có tên 45
2.1.2 Mô hình đề xuất 46
2.1.2.1 Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường nhẫu nhiên có điều kiện CRFs 48
2.1.2.2 Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát 51
2.1.2.3 Mô hình đề xuất cho bài toán nhận diện thực thể có tên 52
2.1.3 Ứng dụng mô hình 56
2.2 Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội 59
2.2.1 Sơ bộ về tư vấn xã hội 59
2.2.2 Mô hình đề xuất 62
2.2.3 Ứng dụng mô hình 66
2.3 Kết luận chương 68
Chương 3 PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN 70
3.1 Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn 70
3.1.1 Biểu diễn dữ liệu theo chủ đề ẩn 70
3.1.2 Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn 75
3.1.2.1 Pha 1 – Huấn luyện mô hình 77
3.1.2.2 Pha 2 – Đánh giá mô hình huấn luyện 82
iv
Trang 73.1.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 83
3.1.3.1 Xây dựng tập dữ liệu thực nghiệm 84
3.1.3.2 Thực nghiệm 85
3.1.3.3 Kết quả thực nghiệm 86
3.2 Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn 87
3.2.1 Mô hình biểu diễn văn bản theo đồ thị khoảng cách 89
3.2.1.1 Biểu diễn dữ liệu theo đồ thị khoảng cách 89
3.2.1.2 Mô hình đồ thị khoảng cách và mô hình n-gram 92
3.2.2 Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn 93
3.2.2.1 Pha huấn luyện mô hình 95
3.2.2.2 Pha phân lớp sử dụng mô hình huấn luyện 97
3.2.3 Ứng dụng phân lớp đa nhãn đánh giá khách sạn 98
3.3 Kết luận chương 3 100
Chương 4 KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT 102
4.1 Tiếp cận phân cụm bán giám sát 102
4.1.1 Tiếp cận dựa trên ràng buộc 102
4.1.2 Tiếp cận dựa trên khoảng cách 103
4.2 Mô hình phân lớp đa nhãn bán giám sát 105
4.2.1 Phát biểu bài toán phân lớp đa nhãn bán giám sát 105
4.2.2 Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát106 4.2.2.1 Thuật toán TESC và LIFT 107
4.2.2.2 Thuật toán phân lớp đa nhãn bán giám sát 109
4.2.3 Mô hình phân lớp đa nhãn bán giám sát đề xuất 116
4.3 Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát 117
4.3.1 Mô hình đề xuất 117
Trang 84.3.1.1 Pha 1 Huấn luyện mô hình 118
4.3.1.2 Pha 2 Phân lớp sử dụng mô hình huấn luyện 120
4.3.2 Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất 120
4.4 Kết luận chương 4 123
KẾT LUẬN 124
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN 128
TÀI LIỆU THAM KHẢO 129
vi
Trang 9DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
ANN Artificial neural network Mạng Nơ-ron nhân tạo
BPMLL Backpropagation for Multilabel Phân lớp đa nhãn mạng Nơron
thuộc Chi
CLR Calibrated Label Ranking Xếp hạng nhãn xác định
CML Collective Multi-Label Classifier Bộ phân lớp đa nhãn nhóm
CRFs Conditional Random Fields Trường ngẫu nhiên có điều kiện
ECC Ensemble of Classifier Chains Tích hợp chuỗi bộ phân lớp
EPCC Ensemble of Probabilistic Tích hợp chuỗi bộ phân lớp xác
EPS Ensemble of Pruned Sets Tích hợp các tập cắt tỉa
IBLR Instance-Based Learning by Học dựa trên thực thể bằng hồi
LDA Latent Dirichlet Allocation Mô hình chủ đề ẩn
LIFT Multi-Label Learning with Label Học đa nhãn với đặc trưng nhãn
LSA Latent Semantic Analysis Phân tích ngữ nghĩa ẩn
MIML Multi-Instance Multi-Label Đa nhãn đa thể hiện
MLC Multi-Label Classiffication Phân lớp đa nhãn
ML-DT Multi-Label Decision Tree Cây quyết định đa nhãn
ML-kNN Multi-Label k Nearest Neighbour k Láng giềng gần nhất đa nhãn
MMAC Multiclass Multilabel Associative Phân lớp kết hợp đa nhãn đa lớp
Classification
Trang 10MuLAM Multilabel Ant - Miner Thuật toán tối ưu đàn kiến đa
nhãn
NER Named Entity Recognition Nhận dạng thực thể có tên
PCA Principal Component Analysis Phân tích thành phần chính
PCC Probabilistic Classifier Chains Chuỗi bộ phân lớp xác suất
PCT Predictive Clustering Trees Thuật toán cây phân cụm dự
đoán
PMM1 Parametric Mixture Models Mô hình hòa trộn tham số
PMM2
RSL Ranking via Single-label Xếp hạng thông qua học đơn
TESC TExt classification using Semi- Phân lớp văn bản sử dụng phân
supervised Clustering cụm bán giám sát
TFIDF Term Frequency Inverse Trọng số về tần suất và độ quan
viii
Trang 11DANH MỤC CÁC BẢNG
Bảng 1.1 Ví dụ về dữ liệu đa nhãn 16
Bảng 1.2 Tóm tắt các thuật toán phân lớp đa nhãn 29
Bảng 1.3 Bảng ký hiệu dữ liệu phân lớp thực và dự đoán 34
Bảng 2.1 Mẫu ngữ cảnh từ vựng 55
Bảng 2.2 Mẫu ngữ cảnh phát hiện tên thực thể 55
Bảng 2.3 Kết quả thực nghiệm 57
Bảng 2.4 Bảng đặc trưng tiểu sử và đặc trưng xã hội của người dùng 67
Bảng 2.5 Kết quả thực nghiệm 67
Bảng 3.1 Ví dụ về kết quả của mô hình chủ đề ẩn cho tài liệu 81
Bảng 3.2 Ví dụ về dữ liệu đa nhãn 82
Bảng 3.3 Tập dữ liệu thực nghiệm 84
Bảng 3.4 Tập dữ liệu huấn luyện 84
Bảng 3.5 Tập dữ liệu cho mô hình chủ đề ẩn 85
Bảng 3.6 Kết quả phân lớp 86
Bảng 3.7 Bảng phân phối tập từ trên mỗi chủ đề ẩn 96
Bảng 3.8 Kết quả thực nghiệm của mô hình phân lớp đa nhãn dựa trên mô hình chủ đề ẩn và đồ thị khoảng cách 100
Bảng 4.1 Kết quả thực nghiệm 1 và thực nghiệm 2 121
Bảng 4.2 Kết quả thực nghiệm 3, thực nghiệm 4 và thực nghiệm 5 122
Trang 12DANH MỤC CÁC HÌNH VẼ
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và
Scopus (phải) tới năm 2013 [22] 3
Hình 0.2 Phân bố các chủ đề trong các chương của luận án 7
Hình 1.1 Phân lớp đơn nhãn truyền thống [128] 10
Hình 1.2 Học đơn nhãn đa thể hiện [128] 11
Hình 1.3 Học đa nhãn [128] 13
Hình 1.4 Học đa nhãn đa thể hiện [128] 14
Hình 1.5 Hai tiếp cận học đa nhãn [21] 15
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn 17
Hình 1.7 Thuật toán phân lớp BR [89] 18
Hình 1.8 Thuật toán phân lớp CC [64] 20
Hình 1.9 Thuật toán phân lớp CLR [84] 21
Hình 1.10 Thuật toán phân lớp RakEL [43], [84] 22
Hình 1.11 Thuật toán ML-kNN [84] 23
Hình 1.12 Thuật toán phân lớp ML-DT [84] 25
Hình 1.13 Thuật toán phân lớp Rank-SVM [84] 26
Hình 1.14 Thuật toán phân lớp CML [84] 27
Hình 1.15 Các độ đo đánh giá của hệ thống đa nhãn [84] 31
Hình 1.16 Mô hình lựa chọn đặc trưng cho phân lớp dữ liệu [47] 36
Hình 2.1 Đồ thị vô hướng mô tả CRFs 49
Hình 2.2 Mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát 53
Hình 2.3 Tập các ràng buộc (Constraint file) 54
Hình 2.4 Kết quả mô hình gán nhãn bán giám sát CRFs kết hợp tiêu chuẩn kỳ vọng tổng quát trên các tập ràng buộc khác nhau 58
Hình 2.5 Mô hình hệ thống tư vấn xã hội 64
Hình 3.1 Phân phối các chủ đề trong bài báo, tập các từ và xác suất các từ trong chủ đề [16] 72
Hình 3.2 Mô hình sinh trong LDA [15] 73
Hình 3.3 Thuật toán sinh trong mô hình LDA 73
Hình 3.4 Mô hình chủ đề ẩn cho bài toán phân lớp đa nhãn 78
Hình 3.5 Phân tích nhận xét của người dùng về khách sạn Romana 87
x
Trang 13Hình 3.6 Biểu diễn văn bản theo không gian vectơ, v1 và v2 là hai văn bản trong
Hình 3.8 Mô hình phân lớp đa nhãn dựa trên biểu diễn dữ liệu theo đồ thị khoảng
Hình 4.2 Mô hình ứng dụng phân lớp đa nhãn bán giám sát cho văn bản tiếng Việt119
Trang 14MỞ ĐẦUTính cấp thiết của luận án
Cùng với sự bùng nổ dữ liệu cả về dung lượng lẫn về chủng loại, phân lớp dữliệu tự động là rất cần thiết và là một trong những chủ đề chính trong khai phá dữliệu Trong mười thuật tốn khai phá dữ liệu điển hình nhất cĩ tới bảy thuật tốnliên quan tới bài tốn phân lớp là thuật tốn C4.5 và cải biên, thuật tốn máy vectơ
hỗ trợ SVM (Support Vector Machine, cịn được gọi là máy vectơ tựa), thuật tốn
EM (Expectation–Maximization), thuật tốn Adaboost, thuật tốn k-láng giềng gầnnhất k-NN, thuật tốn Bayes “ngây thơ” (Nạve Bayes), thuật tốn CART(Classification and Regression Trees) [121] Bản chất của bài tốn phân lớp dữ liệu
là xây dựng một hàm (hoặc ánh xạ) tồn phần từ tập dữ liệu (gồm các dữ liệu đã tồn
tại hoặc sẽ xuất hiện) thuộc một miền ứng dụng tới một tập hữu hạn nhãn cho trướcdựa trên thơng tin đã biết về hàm này trên một tập con các dữ liệu đã được gán nhãn(được gọi là tập ví dụ mẫu) Hàm kết quả được gọi là mơ hình (bộ) phân lớp
(classification model/classifier) hay mơ hình dự báo (prediction model) lớp Do bài
tốn phân lớp địi hỏi cho trước một tập ví dụ mẫu cho nên nĩ cũng được gọi là bàitốn học cĩ giám sát
Một thuật tốn phân lớp điển hình thường trải qua hai bước thực hiện Bước
thứ nhất, được gọi là bước học mơ hình (learning step), thực hiện việc phân tích dữ liệu thuộc một tập con ví dụ mẫu, được gọi là tập dữ liệu huấn luyện (training
dataset), để xây dựng một mơ hình phân lớp phù hợp với tập dữ liệu huấn luyện Về
bản chất, ở bước học, thuật tốn phân lớp “học” một hàm cĩ khả năng gán nhãn chomọi dữ liệu miền ứng dụng Hàm phân lớp kết quả từ bước học được sử dụng để dựbáo nhãn cho các dữ liệu mới Tuy nhiên, trước khi đem mơ hình phân lớp vào ứng
dụng thực tế, thuật tốn phân lớp cần tiến hành bước đánh giá mơ hình (model
evaluation, hay kiểm thử mơ hình (model testing)) Ở bước đánh giá mơ hình, một
tập con ví dụ mẫu, được gọi là tập dữ liệu kiểm thử (testing data), được sử dụng để
đo độ chính xác của thuật tốn Mơ hình phân lớp được áp dụng trên các ví dụ trongtập dữ liệu kiểm thử để nhận được các nhãn dự báo và các nhãn này được so sánh
1
Trang 15với nhãn thực sự đã có tương ứng của ví dụ Nếu tỷ lệ nhãn dự báo trùng hợp vớinhãn thực sự càng cao thì mô hình phân lớp càng chính xác Nhằm đảm bảo việcđánh giá mô hình phân lớp là khách quan, tập dữ liệu kiểm thử và tập dữ liệu huấnluyện là rời nhau (hai tập dữ liệu không chứa chung một ví dụ bất kỳ) Khi chấtlượng của mô hình phân lớp được khẳng định thì nó được sử dụng để “gán” nhãncho mọi dữ liệu chưa có nhãn (hiện có và sẽ có) thuộc miền ứng dụng.
Tính ứng dụng cao của phân lớp làm cho bài toán phân lớp được tiến hóa từđơn giản tới ngày càng phức tạp hơn theo hướng từ phân lớp đơn nhãn tới phân lớp
đa nhãn hoặc phân lớp đa thể hiện, và cho tới phân lớp đa nhãn đa thể hiện [128]
Phân lớp đơn nhãn (còn được gọi là phân lớp truyền thống) quy ước mỗi đối tượng
dữ liệu có duy nhất một nhãn (hàm phân lớp đơn trị) Phân lớp đa nhãn quy ước mỗiđối tượng dữ liệu có thể có hơn một nhãn (hàm phân lớp đa trị), chẳng hạn, một tàiliệu về chuyển nhượng cầu thủ bóng đá có thể vừa thuộc lớp kinh tế vừa thuộc lớpthể thao Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứng vớinhiều thể hiện và mỗi đối tượng này tương ứng với một nhãn Một ví dụ điển hình
về đối tượng đơn nhãn đa thể hiện là coi mỗi đối tượng là một chùm chìa khóa chứanhiều chìa khóa, mỗi khóa có thể mở được một phòng [124] Giả sử có một phòngkhóa cửa và có N chùm chìa khóa, nếu một chùm nào đó chứa chìa khóa mở đượcphòng này thì chùm đó được coi là hữu ích Phân lớp đa nhãn - đa thể hiện quy ướcmột đối tượng dữ liệu tương ứng với nhiều thể hiện và các thể hiện này tương ứngvới nhiều nhãn Chương 1 của luận án sẽ đề cập chi tiết hơn về quá trình tiến hóabài toán phân lớp
Luận án “Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng” tậptrung vào bài toán phân lớp đa nhãn Phân lớp đa nhãn (Multi-Label Classiffication:MLC) hay học đa nhãn (Multi-Label Learning: MLL) là một khung học máy
(learning framwork) giám sát mới nổi trong thời gian gần đây [22], [40], [42], [84]
Khung học máy này đã thể hiện sự phù hợp với thực tế và tính ứng dụng rộng rãitrong các bài toán phân lớp, điển hình là trong phân lớp văn bản, phân tích dữ liệu
đa phương tiện, sinh học, khai phá mạng xã hội, học điện tử và nhiều miền ứng
Trang 16dụng khác [21], [40] Tuy nhiên, học đa nhãn đòi hỏi những tiến hóa mới đối vớicác phương pháp học máy cho giải pháp thích hợp với dữ liệu đa nhãn như vấn đề
về mối quan hệ giữa các nhãn, chi phí tính toán của thuật toán, vấn đề mất cân bằngnhãn, vấn đề đa chiều của dữ liệu Đây là các vấn đề cần tiếp tục nghiên cứu, cảitiến và phát triển để nâng cao hiệu quả phân lớp đa nhãn
Hình 0.1 Phân bố bài báo và lượng trích dẫn về học máy đa nhãn trong ISI (trái) và Scopus
Chính vì lý do đó, học đa nhãn cuốn hút một cộng đồng nhiên cứu rộng rãi trênthế giới Bằng các truy vấn phù hợp vào cơ sở dữ liệu ISI và Scopus [22], E Gibaja và
S Ventura nhận được thông tin về số lượng hàng năm các công bố khoa học về học đanhãn và trích dẫn tới các công bố đó trong các cơ sở dữ liệu ISI và Scopus Kết quả sốliệu thống kê của các tác giả được chỉ dẫn tại Hình 0.1 Các biểu đồ trong Hình 0.1
chứng tỏ rằng học đa nhãn là chủ đề nhận được sự quan tâm ngày càng tăng trong cộngđồng nghiên cứu Tính tới năm 2013, theo các tác giả thì hội nghị ECML/PKDD 2009
và hai hội nghị MLD 2009 và MLD 2010 chứa một lượng đáng kể các công trìnhnghiên cứu về học đa nhãn Các nhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang
và cộng sự1, Ioannis P Vlahavas, Grigorios Tsoumakas và cộng sự2, Sebastián VenturaSoto3 và cộng sự với nhiều đóng góp nổi bật về học đa nhãn
1 http://cs.nju.edu.cn/zhouzh/ và http://cse.seu.edu.cn/PersonalPage/zhangml/
3
Trang 17Học đa nhãn là chủ đề nghiên cứu của một số luận án Tiến sỹ trên thế giới,chẳng hạn như [51], [67], [92], [111], [113] Luận án của J Read [67] đề xuất giảipháp phân lớp đa nhãn trên quy mô lớn với hai mô hình phân lớp dựa trên phươngpháp tập cắt tỉa và chuỗi bộ phân lớp; hai tiếp cận này nhận được đánh giá tốt từcộng đồng nghiên cứu nhờ tính hiệu quả trên cả phương diện về sự đa dạng và quy
mô của dữ liệu Tác giả H.Q.Le [51] đề xuất một kỹ thuật lựa chọn đặc trưng đa lớp
và một thuật toán phân lớp đa nhãn trên miền dữ liệu web có cấu trúc nhóm Thuậttoán phân lớp đa nhãn đa cặp (Multi-Pair) chuyển đổi bài toán phân lớp đa nhãn vềnhiều bài toán phân lớp nhị phân (OVA One-Vs-All), sau đó, tiếp tục phân tách mỗi
bộ phân lớp nhị phân thành các cặp so sánh nhỏ hơn và đơn giản hơn giữa mộtnhóm và một tập con của phần bù của nhóm Phân tách như vậy giúp tận dụng đượccấu trúc nhóm trong phần bù và giảm sự mất cân bằng dữ liệu trong phương phápOVA Trong một tiếp cận khác, S.S.Bucak [113] đề xuất một phương pháp biểu diễnảnh dựa trên học đa nhân và thuật toán học đa nhãn dựa trên tiếp cận xếp hạng đanhãn, trong đó thuật toán xếp hạng đa nhãn sẽ xếp hạng tất cả lớp ảnh sao cho cáclớp liên quan sẽ có hạng cao hơn các lớp ít liên quan Luận án của S.Jungjit
[111] đề xuất một mô hình phân lớp đa nhãn kết hợp hai bộ phân lớp đa nhãn kinh
điển là phân lớp đa nhãn k láng giềng gần nhất (MLkNN) và phân lớp đa nhãn mạng
Nơron lan truyền ngược (BPMLL) với giải pháp lựa chọn đặc trưng thông qua tìmkiếm các tập con đặc trưng phù hợp
Theo M L Zhang và Z H Zhou [84], các công trình nghiên cứu sớm nhất vềhọc đa nhãn là tập trung vào miền ứng dụng phân lớp văn bản [6], [106] Theo thờigian, học đa nhãn được ứng dụng vào nhiều miền ứng dụng đa dạng (đặc biệt là miềnứng dụng phân lớp dữ liệu ảnh) và nhiều phương pháp học đa nhãn đã được đề xuất [1],[7], [23], [25], [42], [44], [63], [66], [73], [74], [76], [114], [117], [118], [127] Cácphương pháp ban đầu thường đi theo cách tiếp cận là cố gắng chia bài toán học đa nhãnthành nhiều bài toán phân lớp hai nhãn hoặc chuyển nó thành phương pháp học máyxếp hạng nhãn trong phân lớp đa nhãn [23], [42], [73], [74], những tiếp cận gần đâychú trọng hơn đến việc khai thác mối quan hệ giữa các nhãn [7], [76], [117], [118], tiếp
Trang 18cận khai thác mối quan hệ đa nhãn và dự đoán chuỗi tuần tự [65].
Trong học đa nhãn, các giải pháp biểu diễn dữ liệu và lựa chọn đặc trưng dữliệu tốt cho phép nâng cao tính hiệu quả của các giải pháp học đa nhãn [24], [82],
sự sử dụng chiến thuật lựa chọn đặc trưng dựa trên phân tích thành phần chính PCA
và các thuật toán di truyền để loại bỏ các đặc trưng dư thừa, không liên quan vàchọn ra tập đặc trưng phù hợp nhất cho bài toán phân lớp [82] hoặc khai thác cácđặc trưng cụ thể cho từng nhãn để sử dụng cho quá trình huấn luyện và kiểm thử
thác mối quan hệ giữa các nhãn trong bài toán phân lớp đa nhãn [1] O.G.R Pupo
và cộng sự đánh trọng số đặc trưng dựa trên bộ lọc nhằm cải tiến các thuật toán lười(lazy algorithm) phân lớp đa nhãn [93] hoặc cải tiến thuật toán ReliefF đánh trọng
số và lựa chọn đặc trưng cho phân lớp đa nhãn bao gồm việc sử dụng phương phápchuyển đổi bài toán đa nhãn về bài toán phân lớp đơn nhãn và thích nghi thuật toánReliefF trực tiếp giải quyết bài toán phân lớp đa nhãn [94] Phân tích các đặc trưng
dữ liệu cho phân lớp đa nhãn cũng là một trong các hướng nghiên cứu được quantâm gần đây [44]
Tại Việt Nam, qua khảo sát các công trình khoa học được công bố, phân lớpđơn nhãn đã nhận được sự quan tâm rộng rãi của cộng đồng nghiên cứu4 Trong khi
đó, phân lớp đa nhãn, đặc biệt là phân lớp đa nhãn văn bản tiếng Việt, còn khá ít5 và
đa phần do các nhóm nghiên cứu tại Đại học Công nghệ, Đại học Quốc gia Hà Nộitiến hành và hiện chưa có luận án tiến sỹ nào về phân lớp đa nhãn
Các tiếp cận về phân lớp đa nhãn trước đây chủ yếu tập trung vào giải thuậttheo phương pháp học giám sát, các mô hình phân lớp đa nhãn bán giám sát vẫn cònhiếm Luận án này tiếp nối các nghiên cứu về phân lớp đa nhãn, tiếp tục phân tích,đánh giá và đề xuất cải tiến mô hình phân lớp về phương pháp biểu diễn dữ liệu, lựa
4Google Scholar trả về tài liệu đối với truy vấn “classification” + “Vietnamese” ngày 26/9/2017
5Google Scholar trả về 29 tài liệu đối với truy vấn ““multi-label classification” + “Vietnamese”” ngày
20/12/2016.
5
Trang 19chọn đặc trưng và đề xuất mới thuật toán phân lớp đa nhãn theo phương pháp bángiám sát nhằm tận dụng nguồn tài nguyên dữ liệu chưa gán nhãn phong phú Phânlớp văn bản có tính ứng dụng do sự xuất hiện rộng rãi của văn bản trong mọi lĩnhvực của đời sống, ở sách báo, thông điệp, diễn đàn,… Do đó, luận án tập trung vàobài toán phân lớp đa nhãn văn bản tiếng Việt.
Nghiên cứu của luận án hướng tới một số mục tiêu sau đây Thứ nhất, luận
án cung cấp một khảo sát khái quát về phân lớp đa nhãn Thứ hai, luận án đề xuấtcác phương pháp biểu diễn dữ liệu và lựa chọn đặc trưng phù hợp nhằm nâng caohiệu quả của giải pháp phân lớp đa nhãn văn bản tiếng Việt Nghiên cứu, đề xuất cácthuật toán phân lớp đa nhãn dựa trên các thuật toán phân lớp hiện đại là mục tiêuthứ ba của luận án Cuối cùng, luận án xây dựng một số phần mềm thử nghiệm thựcthi các giải pháp biểu diễn dữ liệu và thuật toán phân lớp đa nhãn được luận án đềxuất để kiểm chứng tính hiệu quả của các đề xuất đó
Đối tượng nghiên cứu của luận án là phương pháp biểu diễn dữ liệu, lựa chọn
đặc trưng và thuật toán phân lớp đa nhãn trong miền dữ liệu văn bản tiếng Việt
Phạm vi nghiên cứu của luận án được giới hạn ở phương pháp biểu diễn dữ
liệu, lựa chọn đặc trưng và thuật toán phân lớp đa nhãn văn bản tiếng Việt, tập trungvào miền ứng dụng phân tích nhận xét đánh giá tiếng Việt
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết đề xuất mô
hình biểu diễn dữ liệu và thuật toán phân lớp đa nhãn cũng như nghiên cứu thựcnghiệm để kiểm chứng đánh giá các đề xuất của luận án
Luận án tham gia vào dòng nghiên cứu về phân lớp đa nhãn trên thế giới vàđạt được một số đóng góp được ghi nhận, tập trung vào các nghiên cứu về phân lớp
đa nhãn văn bản tiếng Việt
Thứ nhất, luận án đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn
là mô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] và mô hình biểu diễn dữ liệu theo
đồ thị khoảng cách các chủ đề [PTNgan4]
Thứ hai, trên cơ sở phát triển thuật toán phân cụm bán giám sát đơn nhãnTESC [120], luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát (Thuật
Trang 20toán MULTICS [PTNgan5], [PTNgan6]) sử dụng chiến thuật “tham lam” khai tháccác đặc trưng riêng biệt của các nhãn.
Thứ ba, luận án tham gia đóng góp vào dòng nghiên cứu về học phân lớpđơn nhãn văn bản tiếng Việt tương ứng với hai ứng dụng thực tiễn là đề xuất môhình gán nhãn thực thể có tên [PTNgan1] và mô hình hệ tư vấn xã hội [PTNgan2]
Đồng thời, nhằm minh chứng cho tiềm năng ứng dụng thực tiễn của các môhình đề xuất, luận án thực thi các thực nghiệm để kiểm chứng tính hữu dụng của cácthuật toán và mô hình được luận án đề xuất Kết quả thực nghiệm cho thấy tiềmnăng ứng dụng cao các kết quả nghiên cứu từ luận án
Luận án cũng có đóng góp trong việc cung cấp một nghiên cứu tổng quan vềhọc máy đa nhãn
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo Hình 0.2 cung cấp một khung nhìn sơ bộ
về phân bố các chủ đề trong bốn chương nội dung của luận án
Hình 0.2 Phân bố các chủ đề trong các chương của luận án
Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơnnhãn tới phân lớp đa nhãn Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng khôngphù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể
7
Trang 21hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp;Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phươngpháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặctrưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các
độ đo và phương pháp đánh giá phân lớp đa nhãn
Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế[PTNgan1], [PTNgan2] Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên môhình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳvọng tổng quát Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng táckết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác độngcủa các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảosát Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hìnhphân lớp đơn nhãn được đề cập
Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận
về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình.Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai thácthông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ liệu
và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại bỏnhững đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ (MutualInformation) Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho 1000khách sạn Việt Nam đã được xây dựng Mô hình thứ hai [PTNgan4] đề nghị mộtphương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn Kết quả ápdụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam đãminh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách
Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốnkém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùngmột thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả Luận
án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5,PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát
Trang 22TESC [120] Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trênnền thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danhtiếng cho 1000 khách sạn ở Việt Nam Kết quả thực nghiệm cho thấy tính hiệu quảcủa thuật toán MULTICS Thuật toán MULTICS và các nội dung liên quan đượctrình bày trong Chương 4 của luận án.
9
Trang 23Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP
ĐA NHÃN
Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từphân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơnnhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện Tiếp đó, luận án tậptrung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểmcủa dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương phápđánh giá phân lớp đa nhãn
1.1 Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện
Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu củamiền ứng dụng vào một tập nhãn cho trước Đối tượng phân lớp trong tập dữ liệumiền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảosát và hiểu dữ liệu Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng các
tập đặc trưng khác nhau “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập
đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể
hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn
dữ liệu miền ứng dụng Ngầm định bài toán phân lớp trong luận án là phân lớp dữliệu “đơn thể hiện” nếu không có chỉ dẫn tường minh
ánh xạ từ không gian thể hiện vào tập các nhãn
Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản.Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn
Trang 24bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệutrong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không
Tồn tại một số biến thể của bài toán phân lớp đơn nhãn Khác với phân lớpđơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một sốbiến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn vớimỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11]
C C Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn
và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyếtđịnh, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máyvectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất
1.1.2 Phân lớp đơn nhãn đa thể hiện
Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp vănbản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuônmặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng mộttập các thể hiện kết hợp với nhau Đây là bài toán phân lớp đơn nhãn đa thể hiện,một dạng tiến hóa từ phân lớp đơn nhãn Theo Z.H Zhou và cộng sự [128], [129],
các công trình công bố sớm nhất về học đa thể hiện là [95], [115] Trong bài toánphân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệuhuấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãndương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm Mục tiêu
là gán nhãn cho các túi chưa biết một cách chính xác
11
Trang 25một tập các thể hiện { } ( ) trong đó, là số thể hiện trong và là nhãn của Khung học máy này học một hàm
ánh xạ từ không gian thể hiện vào tập nhãn
Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượngphân lớp là tập các văn bản Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗitập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễncho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưngvừa xây dựng (đa thể hiện) Mô hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểmtra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không
Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theophương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơnthể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiệnsang mục tiêu phân biệt trên các túi dữ liệu Theo Z.H Zhou và cộng sự [128], một
số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi(Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM-
Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng
phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện vềđơn thể hiện được Z.H Zhou và M.L Zhang đề xuất [130]
1.1.3 Phân lớp đa nhãn
Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoánchức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vàonhiều lớp khác nhau Đây là bài toán phân lớp đa nhãn Bài toán này là một sự tiếnhóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu
đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đềnày sẽ được chỉ ra ở các phần tiếp theo
Trang 26Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản.Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập vănbản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).
Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vàonhiều lớp khác nhau
Các thách thức về dữ liệu đa nhãn, về mối quan hệ nhãn và đưa phân lớp đanhãn vào ứng dụng thực tế tạo nên các chủ đề nghiên cứu thời sự và nhiều giải phápkết quả đã và đang được công bố Vì vậy, các chủ đề này được lựa chọn là các chủ
đề tập trung nghiên cứu trong luận án
1.1.4 Phân lớp đa nhãn đa thể hiện
Ở mức tiến hóa cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thểhiện được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [129] và đượckhái quát hóa trong [128] Bài toán phân lớp đa nhãn đa thể hiện được phát biểukhái quát như sau: Cho trước một tập nhãn lớp, mỗi phần tử dữ liệu được phân lớp
có thể đồng thời thuộc về nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễnqua nhiều thể hiện Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhậpnhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp mộtkhung nhìn mang tính tự nhiên và gần với thực tế hơn
13
Trang 27Cho trước một tập dữ liệu *( ) ( ) ( )+, trong
đó,
là số nhãn trong Khung học máy đa nhãn đa thể hiện học một hàm
ánh xạ từ không gian thể hiện vào không gian tập nhãn
Trong phân lớp đa nhãn đa thể hiện văn bản, các đối tượng phân lớp là tậpcác văn bản Xây dựng các tập các đặc trưng khác nhau, mỗi văn bản được biểu diễnbởi các tập đặc trưng vừa xây dựng (đa thể hiện) Mô hình phân lớp đa nhãn đa thểhiện đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau
Z.H Zhou và cộng sự [128] hệ thống hóa các giải pháp học máy đa nhãn đathể hiện và một số phương pháp điển hình được giới thiệu sau đây Hai thuật toánMIMLSVM và MIMLBoost [128], [129] tiến hành việc giảm cấp bài toán phân lớp
đa nhãn đa thể hiện thành các bài toán đơn giản hơn sử dụng học máy đa nhãn đơnthể hiện và học máy đa thể hiện đơn nhãn làm cầu nối Thuật toán DBA [110] biểudiễn bài toán MIML dưới dạng mô hình sinh thống kê Thuật toán Ranking Loss[27] tối ưu hóa hàm rủi ro xếp hạng nhãn cho túi và gán nhãn thể hiện Thuật toán láng giềng gần nhất MIML-kNN được đề xuất trong [86]
1.2 Giới thiệu chung về phân lớp đa nhãn
Tuy không phải là dạng tiến hóa cao nhất trong khung học máy như giới thiệu trênđây, nhưng phân lớp đa nhãn có phạm vi ứng dụng rất rộng lớn trong thực tiễn, và vìvậy, phân lớp đa nhãn luôn là một chủ đề nghiên cứu – triển khai thời sự Phần tiếp
theo trình bày khái quát một số vấn đề cơ bản về phân lớp đa nhãn
Trang 281.2.1 Kỹ thuật phân lớp đa nhãn
Phân lớp đa nhãn được chia thành hai nhĩm tiếp cận chính là tiếp cận chuyểnđổi bài tốn và tiếp cận thích nghi thuật tốn
Tiếp cận chuyển đổi bài tốn là phương pháp chuyển đổi bài tốn phân lớp đanhãn thành một hoặc nhiều bài tốn phân lớp đơn nhãn (phân lớp đa lớp hoặc phânlớp nhị phân) hoặc các bài tốn hồi quy Theo tiếp cận này, các bộ phân lớp đơnnhãn được thực thi sau đĩ các dự đốn phân lớp đơn nhãn được kết hợp lại thànhkết quả dự đốn đa nhãn Phương pháp này khá linh động vì cĩ thể sử dụng bất kỳ
bộ phân lớp đơn nhãn nào như Máy vectơ hỗ trợ SVM [109], Nạve Bayes [6], kláng giềng gần nhất kNN [26] và Perceptrons [57]…
15
Trang 29Tiếp cận thích nghi thuật toán là phương pháp mở rộng các thuật toán họcphân lớp đơn nhãn đã biết để áp dụng trực tiếp giải quyết bài toán phân lớp đa nhãn.Các thuật toán phân lớp đơn nhãn điển hình nhất được chọn lựa để thích nghi làAdaBoost [106], cây quyết định [12], thuật toán học lười [86]
đa nhãn và một số thuật toán thuộc mỗi nhóm Luận án trình bày một số thuật toánđiển hình của mỗi tiếp cận ở phần tiếp theo
1.2.1.1 Tiếp cận chuyển đổi bài toán
Để minh họa cho phương pháp này, luận án sử dụng tập dữ liệu ở Bảng 1.1
Trong bảng dữ liệu có bốn mẫu được phân lớp vào tập nhãn lớp gồm bốn nhãn:
đa lớp) trong phương pháp chuyển đổi bài toán có ký hiệu độ phức tạp pha huấnluyện là ( ) và pha kiểm thử là ( ).
Trang 30a Thuật toán tương hợp nhị phân – Binary Relevance(BR)
Theo M R Boutell và cộng sự [89], ý tưởng chính của thuật toán này là giảm
cấp bài toán học đa nhãn thành q bài toán phân lớp nhị phân độc lập, trong đó mỗi bài
toán phân lớp nhị phân tương ứng với một nhãn trong không gian nhãn Theo đó, đểxác định nhãn lớp thứ được ký hiệu là , đầu tiên thuật toán BR xây dựng một tập
huấn luyện nhị phân tương ứng bằng việc xem xét sự liên quan của mỗi mẫu huấnluyện với nhãn
Tiếp đó, có thể sử dụng bất kỳ thuật toán học máy nhị phân để xây dựng
( ) Khi đó, với bất kỳ mẫu
huấn luyện đa nhãn ( ), sẽ xem xét quá trình học của q bộ phân lớp nhị phân
trên dữ liệu Nếu nhãn tương ứng thìđược coi là một dữ liệu dương,ngược lại được coi là một dữ liệu âm Chiến thuật này là huấn luyện chéo (cross-training)
Với một dữ liệu cần phân lớp, BR sẽ dự đoán tập nhãn tương ứng bằng việc kết hợp các nhãn được xác định từ mỗi bộ phân lớp nhị phân.
Hình 1.6 Các bộ phân lớp nhị phân tương ứng với 4 nhãn
Tuy nhiên, khi tất cả các bộ phân lớp nhị phân cho đầu ra là âm, thì tập nhãn
dự đoán Y sẽ bị rỗng Để tránh việc dự đoán tập nhãn rỗng, luật T-Criterion có thểđược áp dụng:
17
Trang 31{ ( ) } ⋃* ( )+ (1.3)
Trường hợp không bộ phân lớp nhị phân nào cho kết quả dương, T-Criterion
sẽ bổ sung công thức (1.2) bằng việc đưa vào nhãn lớp với đầu ra tốt nhất (ít âmnhất) Bộ phân lớp đa nhãn được xác định theo công thức (1.3) Ngoài T-Criterion,một số quy tắc khác cũng có thể được sử dụng trong việc dự đoán tập nhãn dựa trênđầu ra của mỗi bộ phân lớp nhị phân
5. Trả kết quả Y theo công thức (1.3)
Ưu điểm vượt trội của BR là cách tiếp cận trực tiếp để giải quyết vấn đề dữliệu đa nhãn Ngược lại, nhược điểm của BR là đã loại bỏ tất cả các mối quan hệtiềm năng giữa các nhãn và bộ phân lớp nhị phân cho mỗi nhãn có thể rơi vào trạngthái mất cân bằng lớp khi lớn và mật độ nhãn thấp Dựa theo đoạn chương trìnhgiả mã, M.R Boutell và cộng sự [89] xác định được độ phức tạp tính toán cho giaiđoạn huấn luyện là ( ( )) và cho giai đoạn kiểm tra là ( ( )).
b Phương pháp chuỗi bộ phân lớp – Classifier Chain(CC)
Theo J.Read và cộng sự [64], ý tưởng của phương pháp này là chuyển bài toán học đa nhãn thành một chuỗi các phân lớp nhị phân, trong đó các bộ phân lớp nhị phân trong chuỗi được xây dựng dựa trên dự đoán của các bộ phân lớp trước đó.
Cho nhãn lớp { }, hàm * + * + là hàm hoán vị các nhãn theo một thứ tự xác định ( ) ( ) ( ) Với nhãn thứ trong danh sách, ( ), một tập huấn luyện nhị phân tương ứng được xây dựng ( )
bằng việc kết hợp mỗi dữ liệu với các dữ liệu liên quan đến các nhãn trước ( )
Trang 32( ) ] là vectơ kết hợp của vectơ và vectơ ( )
Trường hợp đặc biệt
( ) Tiếp đó, các thuật toán học nhị phân được sửdụng để đưa ra bộ phân lớp nhị phân
( ( )) Nói cách khác, ( ) xác định ( ) có là nhãn liên quan hay không.
Đối với một dữ liệu chưa biết, tập nhãn kết hợp của nó được dự đoán bằngcách đi qua chuỗi bộ phân lớp một số lần lặp Ký hiệu
chuỗi bộ phân lớp (Ensemble of Classifier Chain) có thể được xây dựng với
hoán vị ngẫu nhiên trên không gian nhãn, ví dụ ( )
được xác định bằng việc lấy mẫu không thay thế hoặc có thay thế [67]
toán này, mối quan hệ giữa các nhãn đã được xem xét theo một cách ngẫu nhiên Sovới thuật toán BR, thuật toán chuỗi bộ phân lớp có ưu điểm là đã khai thác mối quan
hệ giữa các nhãn nhưng nhược điểm là không thực thi song song được do đặc điểmcủa chuỗi Luận án J Read [67] chỉ ra rằng độ phức tạp tính toán của thuật
19
Trang 33toán chuỗi bộ phân lớp cho pha huấn luyện là
5. Trả kết quả Y theo công thức (1.6)
c Phương pháp xếp hạng nhãn theo kích cỡ - CalibratedLabelRanking (CLR)
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành bàitoán xếp hạng nhãn trong đó việc xếp hạng các nhãn được thực thi bằng kỹ thuật so sánh cặp đôi
mỗi nhãn lớp có thể
(1.8)
Trang 34Dựa vào định nghĩa trên, ta có ∑ ( ) ( ) Do đó, các nhãn trong không gian nhãn có thể được xếp hạng theo số phiếu bầu của nó.
phức tạp tính toán cho pha huấn luyện là
( ( )) [84]
d Thuật toán tập k nhãn ngẫu nhiên – Random k Labelset (RakEL)
Ý tưởng chính của thuật toán này là chuyển bài toán học đa nhãn thành một
bộ các phân lớp đa lớp, trong đó mỗi máy học thành phần trong bộ tập trung vàomột tập con ngẫu nhiên của không gian nhãn dựa trên bộ phân lớp đa lớp được tạo
ra bằng kỹ thuật tập lũy thừa nhãn – LP [41], [43] Chiến thuật chính là sử dụng
thuật toán LP trên các tập k nhãn ngẫu nhiên (tập con kích thước k trên không gian
nhãn để đảm báo hiệu quả tính toán), sau đó xây dựng bộ kết hợp các bộ phân lớp
LP để đạt được tính hoàn thiện trong dự đoán
Gọi là tập hợp tất cả các tập nhãn kích thước trong không gian nhãn ,
21
Trang 35trong đó tập nhãn kích thước thứ được kí hiệu là ( ), ( ) ( )
thể hiện mức độ liên quan của nhãn được kiểm soát bởi kích thước của tập nhãn k Thuật toán RakEL có độ phức tạp tính toán cho pha huấn luyện là(
và pha kiểm tra là ( ( )) được trình bày trong [43], [84].
1.2.1.2 Tiếp cận thích nghi thuật toán
a Thuật toán k láng giềng gần nhất đa nhãn – Multi-Label k Nearest Neighbour kNN)
(ML-Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất
để xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luậtcực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa
ra tập nhãn dự đoán
Đoạn giả mã thuật toán ML-kNN được trình bày ở Hình 1.11 Thuật toán này có
ưu điểm là thừa kế được những điểm mạnh của phương pháp học lười và suy diễnBayesian đó là: Một là, biên quyết định có thể điều chỉnh một cách thích hợp dựa trêncác láng giềng khác nhau được xác định cho mỗi dữ liệu chưa biết Hai là, có thể xácđịnh cân bằng lớp dựa trên các xác suất tiên nghiệm ước lượng cho mỗi nhãn lớp
Trang 3622
Trang 37b Thuật toán cây quyết định đa nhãn – Multi-Label Decision Tree(ML-DT)
Ý tưởng chính của phương pháp này là sử dụng thuật toán cây quyết định đểgiải quyết với dữ liệu đa nhãn, trong đó sử dụng độ lợi thông tin dựa trên entropy đanhãn để xây dựng cây quyết định đệ quy.
Cho một tập dữ liệu đa nhãn *( ) + với
thu được bằng việc chia theo đặc trưng thứ tại giá trị chia
Trong đó,
Trang 38là số mẫu, thông tin như sau:
(1.10)
23
Trang 39và bao gồm các mẫu có giá trị trên đặc trưng thứ l tương ứng thấp hơn và
lớn hơn
Bắt đầu từ nút gốc ( ), ML-DT xác định đặc trưng và giá trị chia cắt
tương ứng làm cực đại hóa thông tin đạt được trong công thức (1.9) sau đó sinh ra 2nút con tương ứng với và Quá trình trên được thực thi một cách đệ quy bằngviệc coi hoặc là nút gốc mới và kết thúc khi đáp ứng một số tiêu chuẩn dừng(ví dụ như kích thước của nút con nhỏ hơn một ngưỡng được xác định trước)
đề này, ML-DT giả thiết độc lập giữa các nhãn và tính entropy đa nhãn theo cách cóthể phân rã được:
Đối với một thể hiện x chưa biết, nó được thực hiện trên cây quyết định bằng
cách duyệt qua các cạnh cho đến khi gặp một nút lá được kết hợp với một số mẫuhuấn luyện Sau đó, tập nhãn được dự đoán tương ứng với:
Nói cách khác, nếu đối với một nút lá, phần lớn các mẫu huấn luyện đượcgán nhãn và thể hiện kiểm tra được đặt trong cùng nút là sẽ được gán nhãn
Trang 40( )
1 Tạo cây quyết định với nút gốc
2 if điều kiên dừng thỏa mãn then
liên kết với toàn bộ
3 break và go to bước 9
4 else
5 Xác định cặp thuộc tính-giá trị ( ) làm cực đại công thức (1.9)
6 Thiết lập và theo công thức (1.10)
7 Thiết lập 2 nút con tương ứng với và
8 endif
9 Duyệt x từ nút gốc đến khi gặp nút lá
10 Trả kết quả Y theo công thức (1.13)
trong việc tính toán entropy đa nhãn Một ưu điểm nổi bật của ML-DT là hiệu quảcao trong việc xây dựng mô hình cây quyết định từ dữ liệu đa nhãn
Thuật toán có độ phức tạp tính toán cho pha huấn luyện là ( kiểm tra là ( ) được trình bày trong [84].
c Thuật toán xếp hạng máy vectơ hỗ trợ - Rank-SVM
Ý tưởng chính của thuật toán này là thích nghi chiến thuật cực đại biên để
giải quyết bài toán học đa nhãn, tiến hành xây dựng hệ thống học gồm q bộ phânlớp tuyến tính
trọng số và giá trị xếp hạng (bias) của nhãn lớp thứ j - ; khi đó biên quyết định
trên mẫu ( ) được xác định dựa trên xếp hạng trên các lớp liên quan và khôngliên quan của mẫu
( ) ̂̅
nhãn liên quan và không liên quan ( )
̂̅ , biên phân biệt tương ứng với
) và pha