Với học máy đa nhãn – đơn thể hiện single-instance, multi-label learning: SIML [7], mỗi đối tượng được phân vào nhiều lớp và chỉ có một thể hiện trong miền ứng dụng.. Trong đó, mỗi ảnh đ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN DUY LINH
PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN
VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà nội – 2015
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN DUY LINH
PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN
VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Cẩm Tú
TS Đặng Thanh Hải
Hà nội – 2015
Trang 3Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này
Tôi xin chân thành cảm ơn các thầy, cô đã tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và nghiên cứu tại trường
Tôi cũng xin gửi lời cảm ơn đến các anh, chị và các bạn trong phòng thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn
Cuối cùng, tôi xin gửi lời cảm ơn vô hạn đến gia đình và bạn bè, những người luôn bên cạnh giúp đỡ và động viên tôi trong suốt quá trình học tập, cũng như thực hiện luận văn
Tôi xin chân thành cảm ơn!
Hà nội, ngày 18 tháng 12 năm 2015
Học viên
Nguyễn Duy Linh
Trang 4Lời cam đoan
Tôi xin cam đoan nội dung được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải
Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được trích dẫn rõ ràng từ danh mục tài liệu tham khảo trong luận văn Nội dung luận văn không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Hà nội, ngày 18 tháng 12 năm 2015
Học viên
Trang 5MỤC LỤC
Lời cam đoan ii
Danh mục các từ viết tắt v
Danh mục các bảng vi
Danh mục các hình vẽ, đồ thị vii
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH 4
1.1 Phương pháp học máy đa nhãn - đa thể hiện 4
1.2 Bài toán gán nhãn vùng ảnh 9
1.3 Kết luận 11
CHƯƠNG 2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN 12
2.1 Hướng giải pháp phân rã bài toán 12
2.1.1 Lấy học máy đa nhãn làm cầu nối 13
2.1.2 Lấy học máy đa thể hiện làm cầu nối 14
2.2 Hướng giải pháp giải quyết trực tiếp 14
2.3 Một số phương pháp học máy đa thể hiện 16
2.3.1 Phương pháp DD 16
2.3.2 Phương pháp EM-DD 19
2.3.3 Phương pháp MISVM 22
2.4 Một số độ đo đánh giá của học máy đa nhãn – đa thể hiện 25
2.5 Kết luận 28
CHƯƠNG 3 ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH 29
3.1 Phương pháp đề xuất 29
3.1.1 Giới thiệu 29
3.1.2 Nội dung phương pháp đề xuất 29
3.2 Thực nghiệm và đánh giá 32
Trang 63.2.1 Mô tả thực nghiệm 32
3.2.2 Môi trường và các công cụ 32
3.2.3 Dữ liệu thực nghiệm 33
3.2.4 Thực nghiệm 33
3.2.5 Đánh giá kết quả 37
3.3 Kết luận 38
KẾT LUẬN 39
TÀI LIỆU THAM KHẢO 40
Trang 7Danh mục các từ viết tắt
1 Bp-Mll Back-propagation Multi-label learning
2 EM-DD Expectation-Maximization Diversity Density
4 D-MIMLSVM Directly Multi-Instance Lulti-Label Learning
Support Vector Machine
7 MISVM Multi-Instance Support Vector Machine
(Maximum Pattern Margin Formulation)
8 MISL Multi-Instance Single-Label Learning
9 MIML Multi-Instance Multi-Label Learning
10 MIMLRBF Multi-Instance Multi-Label Learning Radial
13 MIML-EMDD Multi-Instance Multi-Label Learning
Expectation-Maximization Diversity Density
14 MIML-MISVM Instance Label Learning
Multi-Instance Support Vector Machine
15 ML-kNN Multi-Label k-Nearest Neighbor
17 MLSVM Multi-Label Learning Support Vector Machine
18 MSRCv2 Microsoft Research Cambridge version 2
19 SISL Single-Instance Single-Label Learning
20 SIML Single-Instance Multi-Label Learning
22 NLDD Negative Logarithm of Diversity Density
Trang 8Danh mục các bảng
Bảng 3.1: Cấu hình phần cứng 32
Bảng 3.2: Công cụ và các thư viện phần mềm 33
Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh 33
Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh 34
Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh 35
Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh 36
Trang 9Danh mục các hình vẽ, đồ thị
Hình 1.1: Bốn khung học máy phân lớp hiện nay 4
Hình 1.2: Một bài viết có nhiều nhãn 5
Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh 7
Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện 8
Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram 9
Hình 2.1: Hai giải pháp phân rã bài toán học máy MIML 12
Hình 2.2: Thuật toán MIML Bayes dựa trên quá trình Gaussian tiền nghiệm 15
Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF 16
Hình 2.4: Ví dụ một điểm có Diverse Density 17
Hình 2.5: Mã giả của phương pháp EM-DD 21
Hình 2.6: Ví dụ phân lớp với MISVM 23
Hình 2.7: Mã giả giải thuật tối ưu heuristic của phương pháp MISVM 24
Hình 3.1: Mô hình phương pháp đề xuất 30
Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 0% 34
Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 60% 35
Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 0% 36
Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 60% 37
Trang 10MỞ ĐẦU
Hiện nay, với sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh, mạng xã hội đã sản sinh ra lượng dữ liệu hình ảnh vô cùng lớn Cùng với đó là sự gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thông tin từ nguồn dữ liệu hình ảnh này Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi vùng ảnh có nội dung và mang ý nghĩa khác nhau Gán nhãn vùng ảnh nhằm hỗ trợ cho việc phân loại, tìm kiếm, trích xuất thông tin từ ảnh dựa trên các từ khóa Do khối lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh thủ công tốn nhiều thời gian và công sức Vì vậy, nhu cầu gán nhãn vùng ảnh tự động càng trở nên cấp thiết
Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy phân lớp phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện (hay học máy đa thể hiện), học máy đa nhãn – đơn thể hiện (hay học máy đa nhãn) và học máy đa nhãn - đa thể hiện Với học máy phân lớp đơn nhãn – đơn thể hiện (single-instance, single-label learning: SISL) hay còn được gọi là học máy phân lớp truyền thống, mỗi đối tượng được phân lớp chỉ thuộc vào một lớp (nhãn lớp)
và chỉ có một thể hiện duy nhất trong miền ứng dụng Trong học máy phân lớp đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) [5], mỗi đối tượng chỉ thuộc vào một lớp nhưng có thể có nhiều thể hiện khác nhau Với học máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) [7], mỗi đối tượng được phân vào nhiều lớp và chỉ có một thể hiện trong miền ứng dụng Học máy đa nhãn – đa thể hiện (multi-instance, multi-label learning: MIML) [17, 18] là khung học máy phân lớp mới nhất hiện nay, được nhóm tác giả Zhi-Hua Zhou và Min-Ling Zhang công bố lần đầu tiên vào năm 2006 Trong khung học máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà còn có nhiều thể hiện So với học máy phân lớp truyền thống, khung học máy đa nhãn – đa thể hiện biểu diễn tự nhiên và thuận tiện hơn [17, 18] các đối tượng có nhiều thể hiện, đồng thời thuộc về nhiều lớp Trong thực tế, có không ít đối tượng có nhiều thể hiện và thuộc về nhiều lớp khác nhau Ví dụ, một hình ảnh còn được xem là một túi thường bao gồm một số vùng ảnh (mỗi vùng ảnh được coi như một thể hiện), đồng thời hình ảnh còn thuộc về nhiều lớp khác nhau
Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn vùng ảnh yêu cầu bộ dữ liệu học đã được gán nhãn cho từng vùng ảnh phải đủ
Trang 11lớn Để xây dựng bộ dữ liệu được gán nhãn chuẩn, đòi hỏi mất nhiều thời gian và chi phí để thuê các chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện Việc xây dựng bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc xây dựng bộ dữ liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh Ta có thể tận dụng lượng dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các ứng dụng chia sẻ hình ảnh, mạng xã hội Hình ảnh được gán nhãn yếu [13] là các hình ảnh được gán nhãn ở cấp độ hình ảnh thay vì gán nhãn chi tiết cho từng vùng (đối tượng) của ảnh, nhãn của mỗi hình ảnh là tập các nhãn ứng với các vùng bên trong của hình ảnh đó Nhờ đó, ta có thể xây dựng được bộ dữ liệu huấn luyện được gán nhãn yếu với số lượng lớn cho việc huấn luyện phân lớp học máy đa nhãn - đa thể hiện Trong đó, mỗi ảnh được gán nhãn yếu được coi như một túi, mỗi vùng của ảnh được xem như một thể hiện, với tập các nhãn là nhãn của ảnh
Trên cơ sở như vậy, luận văn tập trung nghiên cứu phương pháp học máy
đa nhãn – đa thể hiện và các hướng giải pháp để giải quyết vấn đề đa nhãn – đa thể hiện Có hai hướng giải pháp chính giải quyết vấn đề học máy đa nhãn – đa thể hiện Hướng giải pháp đầu tiên là phân rã bài toán học máy đa nhãn – đa thể hiện thành bài toán có độ phức tạp ít hơn (lấy học máy đa thể hiện hoặc học máy
đa nhãn làm cầu nối), nổi bật là nghiên cứu của Zin-Hua Zhou và cộng sự [17, 18] Từ đó xây dựng thuật toán học máy MIML dựa trên việc tích hợp các thuật toán học máy tương ứng với học máy đa thể hiện hay học máy đa nhãn Hướng giải pháp thứ hai là giải quyết trực tiếp bài toán học máy MIML một cách toàn vẹn, tiêu biểu là nghiên cứu của Jianjun He và cộng sự [8] Để giải quyết bài toán gán nhãn vùng ảnh, luận văn tiến hành nghiên cứu sâu hơn hướng giải pháp phân
rã vấn đề học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối Ngoài ra, luận văn cũng nghiên cứu các thuật toán học máy đa thể hiện như: DD [9], EM-DD [11], MISVM [3] Qua đó, luận văn đưa ra đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] đã nghiên cứu để giải quyết bài toán gán nhãn vùng ảnh Đồng thời, luận văn đưa ra đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn
Luận văn được chia thành ba chương với nội dung như sau:
Chương 1: Tổng quan phương pháp học máy đa nhãn – đa thể hiện và bài
toán gán nhãn vùng ảnh Giới thiệu chung về phương pháp học máy đa nhãn – đa thể hiện và bài toán gán nhãn vùng ảnh
Trang 12Chương 2: Các phương pháp giải quyết bài toán học máy đa nhãn – đa thể
hiện Luận văn trình bày về các hướng giải pháp để giải quyết vấn đề đa nhãn –
đa thể hiện, như tiếp cận giải quyết trực tiếp, hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện thành các bài toán có độ phức tạp ít hơn Tiếp theo, luận văn sẽ trình bày các phương pháp học máy đa thể hiện như DD, EM-DD, MISVM được sử dụng để giải quyết bài toán học máy đa nhãn – đa thể hiện Ngoài
ra, luận văn còn trình bày một số độ đo đánh giá cho phương pháp học máy đa nhãn – đa thể hiện
Chương 3: Ứng dụng phương pháp học máy đa nhãn - đa thể hiện cho bài
toán gán nhãn vùng ảnh Luận văn đưa ra đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-
DD, MISVM đã nghiên cứu ở Chương 2 cho bài toán gán nhãn vùng ảnh Đồng thời, luận văn còn đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn Luận văn trình bày quá trình thực nghiệm dựa trên phương pháp được
đề xuất với tập dữ liệu thực nghiệm MSRCv2 Cuối cùng, luận văn đưa ra đánh giá kết quả thực nghiệm thu được
Phần kết luận: Tóm lược những kết quả đã đạt được của luận văn và đưa
ra định hướng nghiên cứu tiếp theo trong tương lai
Trang 13CHƯƠNG 1 TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA
THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH
1.1 Phương pháp học máy đa nhãn - đa thể hiện
Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy giám sát phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện, học máy đa nhãn - đơn thể hiện và học máy đa nhãn - đa thể hiện Hình 1.1 cho ta thấy
sự khác nhau của bốn khung học máy phân lớp hiện nay
Hình 1.1: Bốn khung học máy phân lớp hiện nay [18]
Với học máy giám sát truyền thống hay còn gọi là học máy đơn nhãn - đơn thể hiện, một đối tượng được biểu diễn dưới dạng một thể hiện (hay véc tơ đặc trưng) và được gán một nhãn tương ứng Khung học máy đơn nhãn – đơn thể hiện được mô tả trong Hình 1.1(a) Theo định nghĩa hình thức của học máy giám sát truyền thống [17, 18]:
Ta ký hiệu 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các nhãn Để học hàm 𝑓: 𝑋 → 𝑌 từ tập dữ liệu cho trước {(x1 , y 1 ), (x 2 , y 2 ),…,(x m ,
y m )} trong đó 𝑥𝑖 ∈ 𝑋 là một thể hiện và 𝑦𝑖 ∈ 𝑌 là nhãn xác định của thể hiện x i
Tức là từ một tập dữ liệu ví dụ đã được xây dựng từ trước {(x 1 , y 1 ), (x 2 , y 2 ),…,(x m ,
y m )}, yêu cầu của bài toán học máy giám sát truyền thống là học một ánh xạ f sao
cho có thể gán nhãn cho từng thể hiện trong tập thể hiện 𝑋 với một nhãn trong tập
Trang 14𝑌 Tuy học máy giám sát truyền thống đã được ứng dụng khá phổ biến và thu được nhiều kết quả tích cực, nhưng có nhiều đối tượng trong thế giới thực lại không hoàn toàn phù hợp với khung học máy này Trong học máy đơn nhãn – đơn thể hiện, mỗi đối tượng chỉ thuộc về duy nhất một khái niệm, cùng với đó là thể hiện chỉ ứng với một nhãn đơn xác định Tuy nhiên, có rất nhiều đối tượng phức tạp trong thực tế, các đối tượng này có thể thuộc về đồng thời nhiều nhãn lớp Ví
dụ, một hình ảnh có thể có đồng thời nhiều nhãn như bầu trời, tòa nhà, cây cối v.v Một trang web có thể thuộc về nhiều thể loại như trang tin tức, tin thể thao hay tin bóng đá Các khung học máy đa nhãn, học máy đa thể hiện, học máy đa nhãn – đa thể hiện là giải pháp cho vấn đề này
Trong học máy đa nhãn (còn được gọi là học máy đa nhãn – đơn thể hiện) [17, 18], một đối tượng được biểu diễn dưới dạng một thể hiện và được gán với nhiều nhãn lớp Theo Zhi-Hua Zhou [17, 18] học máy đa nhãn được định nghĩa như sau:
Giả sử 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các nhãn Mục tiêu là học hàm ánh xạ 𝑓: 𝑋 → 2𝑌 từ tập dữ liệu cho trước {(x 1 , Y 1 ), (x 2 ,
Y 2 ),…,(x m , Y m )} trong đó 𝑥𝑖 ∈ 𝑋 là một thể hiện và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1,
𝑦𝑖2, … , 𝑦𝑖𝑙𝑖}, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 = 1,2, … , 𝑙𝑖) Ký hiệu l i là số nhãn có trong tập 𝑌𝑖
Hình 1.2: Một bài viết có nhiều nhãn
Trang 15Trong thực tế, học máy đa nhãn được ứng dụng trong nhiều lĩnh vực như phân lớp văn bản, ảnh, các dữ liệu đa phương tiện khác, trong tin sinh học v.v Các văn bản có thể thuộc về nhiều thể loại khác nhau như: một bài báo có thể được phân lớp thành tin thể thao, tin xã hội hay tin giải trí Một bức ảnh có thể thuộc nhiều lớp như bãi biển, mặt trời lặn Tương tự như vậy, một bài hát có thể thuộc về nhiều thể loại như nhạc rock, nhạc ballad Hình 1.2 là ví dụ cho dữ liệu của học máy đa nhãn, trong đó bài viết có nhiều nhãn như: Phú Yên, Du lịch, Khám phá, Trải nghiệm, Tôi thấy hoa vàng trên cỏ xanh v.v
Đã có rất nhiều thuật toán học máy đa nhãn được đề xuất trong thời gian qua như các tác giả Zhang, Min-Ling và Zhi-Hua Zhou [14] đã đề xuất thuật toán mạng nơ ron đa nhãn Bp-Mll trên cơ sở thuật toán Backpropagation cho việc phân loại văn bản và phân loại chức năng gen Thuật toán k láng giềng gần nhất cho bài toán đa nhãn ML-kNN [15] cũng của Zhang, Min-Ling và Zhi-Hua Zhou Các thuật toán đa nhãn MLSVM trên cơ sở thuật toán SVM của nhóm tác giả Boutell [4], của tác giả Godbole và Sarawagi [6] v.v
Với học máy đa thể hiện, các đối tượng được biểu diễn bởi nhiều thể hiện khác nhau và được gắn với một nhãn đơn duy nhất [17, 18] Các đối tượng trong học máy đa thể hiện có thể được coi là các túi, ứng với mỗi túi là tập các thể hiện (hay tập các véc tơ đặc trưng) Một túi được gán nhãn “dương” nếu túi đó chứa ít nhất một thể hiện “dương”, túi được gán nhãn “âm” nếu tất cả thể hiện trong túi
là “âm” Trong học máy đa thể hiện, một đối tượng được biểu diễn bằng một tập các thể hiện khác nhau Ví dụ, nhiều vùng ảnh có thể được trích xuất từ một hình ảnh (mỗi vùng ảnh tương ứng với một thể hiện), một tài liệu văn bản có thể chứa nhiều phần khác nhau (mỗi phần ứng với một thể hiện) Do vậy, các hình ảnh hay tài liệu văn bản có thể được biểu diễn bởi một tập các thể hiện Có một chú ý trong học máy đa thể hiện đó là trong dữ liệu huấn luyện, mặc dù các túi được gán nhãn nhưng ta lại không biết được nhãn của các thể hiện trong túi đó [18] Định nghĩa hình thức của học máy đa thể hiện [17, 18] như sau:
Ký hiệu 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các nhãn Học hàm ánh xạ 𝑓: 2𝑋 → 𝑌 từ tập dữ liệu cho trước {(X 1 , y 1 ), (X 2 , y 2 ), … (X m , y m )} trong đó 𝑋𝑖 ⊆ 𝑋 là tập các thể hiện {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛𝑖}, 𝑥𝑖𝑗 ∈ 𝑋 (𝑗 =1,2, … , 𝑛𝑖) và 𝑦𝑖 ∈ 𝑌 là nhãn của X i Ký hiệu n i là số thể hiện của tập 𝑋𝑖
Học máy đa thể hiện được đề xuất lần đầu tiên bởi các tác giả Dietterich, Thomas G., Richard H Lathrop, Tomás Lozano-Pérez [4] trong nghiên cứu dự
Trang 16báo hoạt tính thuốc Thời gian qua đã có nhiều thuật toán học máy đa thể hiện được đề xuất, một vài trong số đó là thuật toán DD [9] được đề xuất bởi Oded Maron và Tomás Lozano-Pérez, thuật toán EM-DD [11] của Qi Zhang và Goldma, thuật toán MISVM [3] do Stuart Andrews và cộng sự đề xuất v.v Luận văn sẽ trình bày chi tiết các thuật toán DD [9], EM-DD [11] và MISVM [3] ở Chương 2 Các phương pháp học máy đa thể hiện được ứng dụng khá rộng rãi trong nhiều lĩnh vực [18] như phân loại và trích xuất ảnh, phân loại văn bản, khai phá web, phát hiện thư rác, nhận dạng khuôn mặt v.v Hình 1.3 là một ví dụ cho
dữ liệu của học máy đa thể hiện, từ một hình ảnh có thể trích xuất ra nhiều vùng ảnh (mỗi vùng ảnh tương ứng với một thể hiện) như: vùng ảnh rừng cây, vùng ảnh bầu trời và vùng ảnh vườn hoa
Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh Học máy đa nhãn – đa thể hiện được đề xuất bởi Zhi-Hua Zhou và cộng sự [17, 18] là khung học máy mới nhất trong số bốn khung học máy hiện nay Trong khung học máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà còn có nhiều thể hiện khác nhau, hay mỗi đối tượng được biểu diễn bởi tập các véc tơ đặc trưng (tập các thể hiện) và được gán với nhiều nhãn lớp Ví dụ, một hình ảnh
có thể bao gồm nhiều vùng khác nhau ứng với các thể hiện, và được gán nhiều nhãn khác nhau Hình 1.4 là một ví dụ về học máy đa nhãn - đa thể hiện Trong
Trang 17đó, hình ảnh bao gồm nhiều vùng ảnh ứng với các thể hiện khác nhau như thể hiện instance1 ứng với vùng ảnh cây cối (tree), thể hiện instance2 ứng với vùng ảnh chứa con voi (elephant), v.v hình ảnh còn được gán các nhãn lớp tree, elephant
và lion Khung học máy MIML được định nghĩa một cách hình thức [17, 18] như sau:
Ký hiệu 𝑋 là không gian thể hiện, 𝑌 là tập các nhãn Học hàm ánh xạ 𝑓: 2𝑋 → 2𝑌 từ tập dữ liệu cho trước {(X 1 , Y 1 ), (X 2 , Y 2 ), … (X m , Y m )} trong đó 𝑋𝑖 ⊆
𝑋 là tập các thể hiện {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛𝑖}, 𝑥𝑖𝑗 ∈ 𝑋 (𝑗 = 1,2, … , 𝑛𝑖) và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1, 𝑦𝑖2, … , 𝑦𝑖𝑙𝑖}, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 = 1,2, … , 𝑙𝑖) Ký hiệu n i là số thể hiện của tập 𝑋𝑖, l i là số nhãn trong tập 𝑌𝑖
Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện [7]
Có thể thấy rằng, các khung học máy đa nhãn, học máy đa thể hiện và học máy đa nhãn – đa thể hiện là kết quả từ sự nhập nhằng trong việc biểu diễn các đối tượng của thế giới thực [17, 18] Học máy đa thể hiện nghiên cứu sự nhập nhằng của không gian dữ liệu đầu vào (hay không gian thể hiện), một đối tượng
có nhiều cách biểu diễn đầu vào (các thể hiện) khác nhau Học máy đa nhãn xem xét sự nhập nhằng của không gian đầu ra (hay không gian nhãn lớp), mỗi đối tượng có nhiều biểu diễn đầu ra (các nhãn lớp) Trong khi đó, học máy đa nhãn –
đa thể hiện xem xét sự nhập nhằng đồng thời của cả không gian đầu vào và đầu
ra Khi giải quyết các vấn đề của thế giới thực, việc biểu diễn tốt các vấn đề thường quan trọng hơn có thuật toán học máy tốt Do việc biểu diễn tốt vấn đề có thể thu được nhiều thông tin có ý nghĩa và làm cho việc học để giải quyết vấn đề được dễ dàng hơn Học máy đa nhãn – đa thể hiện biểu diễn các đối tượng có sự nhập nhằng cả về đầu vào và đầu ra, thuận tiện và tự nhiên hơn các khung học máy khác
Trang 181.2 Bài toán gán nhãn vùng ảnh
Hiện nay, sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh, mạng
xã hội như Instagram, Flickr, Facebook v.v đã sản sinh ra một lượng dữ liệu hình ảnh khổng lồ Theo một báo cáo của Instagram [19], trung bình mỗi ngày có hơn
80 triệu bức ảnh được chia sẻ qua ứng dụng Instagram Nội dung và chủ đề của các hình ảnh được chia sẻ rất phong phú như thể thao, giải trí, phong cảnh, con người, khoa học - công nghệ, thiên văn v.v Đây là nguồn dữ liệu rất tốt, có thể sử dụng cho nhiều mục đích khác nhau Cùng với sự gia tăng của lượng dữ liệu ảnh
là gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thông tin từ nguồn dữ liệu hình ảnh này Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi vùng ảnh có nội dung và mang ý nghĩa khác nhau Gán nhãn vùng ảnh nhằm hỗ trợ cho việc phân loại, tìm kiếm, nhận dạng, trích xuất thông tin từ ảnh dựa trên các từ khóa Do khối lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh thủ công tốn nhiều thời gian và công sức Vì vậy, nhu cầu gán nhãn vùng ảnh tự động càng trở nên cấp thiết
Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn hình ảnh nói chung và bài toán gán nhãn vùng ảnh nói riêng, yêu cầu bộ dữ liệu học đã được gán nhãn cho từng ảnh, vùng ảnh phải đủ lớn Để xây dựng bộ dữ liệu được gán nhãn chuẩn, đòi hỏi mất nhiều thời gian và chi phí để thuê các chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện Việc xây dựng
bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc xây dựng bộ dữ liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh
Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram
Trang 19Hình ảnh được gán nhãn yếu [1, 13] (weak-labeling image hoặc labeled image) là các hình ảnh được gán nhãn ở cấp độ hình ảnh (túi thể hiện) thay vì gán nhãn chi tiết cho từng vùng (thể hiện) của ảnh, nhãn của mỗi hình ảnh
loosely-là tập các nhãn ứng với các vùng có trong hình ảnh đó Ta có thể tận dụng lượng
dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các ứng dụng chia
sẻ hình ảnh, mạng xã hội Hình 1.5 là một ví dụ về hình ảnh được gán nhãn yếu trên ứng dụng chia sẻ hình ảnh Instagram Nhãn của ảnh gồm một số nhãn như saturn, rings, space v.v đây là các nhãn tương ứng của các đối tượng có trong ảnh
Dữ liệu hình ảnh được gán nhãn yếu có một số ưu điểm [13]: (1) chúng có thể biểu diễn các đặc trưng trực quan khác nhau của các lớp đối tượng hiệu quả hơn; (2) có thể được thu thập dễ dàng hơn bằng cách cung cấp các nhãn của đối tượng được gán yếu ở cấp độ hình ảnh so với việc thu thập ở cấp độ đối tượng (hay vùng ảnh); và (3) đây là nguồn dữ liệu khởi đầu của việc nhận dạng cảnh và đối tượng trong thế giới thực do sự đa dạng của các nhãn và các đặc trưng của mình
Với những ưu điểm như vậy, ta có thể xây dựng được bộ dữ liệu huấn luyện được gán nhãn yếu với số lượng lớn cho việc huấn luyện phân lớp học máy đa nhãn - đa thể hiện Trong đó, mỗi ảnh được gán nhãn yếu được coi như một túi, mỗi vùng của ảnh được xem như một thể hiện, nhãn của ảnh là tập các nhãn của các thể hiện Bài toán gán nhãn vùng ảnh trở thành bài toán gán nhãn cho từng thể hiện trong túi
Trang 20Chương tiếp theo, luận văn sẽ giới thiệu các phương pháp giải quyết bài toán học máy đa nhãn – đa thể hiện và một số phương pháp học máy đa thể hiện
Trang 21CHƯƠNG 2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY
ĐA NHÃN – ĐA THỂ HIỆN 2.1 Hướng giải pháp phân rã bài toán
Từ Hình 1.1, ta có thể thấy học máy giám sát truyền thống là kết quả của
sự phân rã bài toán học máy đa nhãn hay học máy đa thể hiện Trong khi đó, học máy đa nhãn và học máy đa thể hiện là kết quả của việc phân rã bài toán học máy
đa nhãn – đa thể hiện thành các bài toán có độ phức tạp ít hơn Vì vậy, ý tưởng cơ bản để giải quyết bài toán học máy đa nhãn – đa thể hiện là phân rã bài toán sử dụng học máy đa nhãn, học máy đa thể hiện làm cầu nối [17, 18] (Hình 2.1)
Hình 2.1: Hai giải pháp phân rã bài toán học máy MIML [18]
Nhóm tác giả Zin-Hua Zhou và cộng sự [17, 18] đã đưa ra hai cách để phân
rã bài toán học máy đã nhãn – đa thể hiện (Hình 2.1)
Cách thứ nhất (Hình 2.1 Solution A) theo hướng lấy học máy đa thể hiện như một nhịp cầu để giảm số nhãn trước, chuyển đổi bài toán MIML thành bài toán đa thể hiện (MISL), sau đó chuyển thành bài toán học máy giám sát truyền thống (SISL)
Cách thứ hai (Hình 2.2 Solution B) theo hướng lấy học máy đa nhãn như một nhịp cầu để giảm số thể hiện trước, chuyển bài toán MIML thành bài toán học máy đa nhãn (SIML), sau đó chuyển thành bài toán học máy giám sát truyền thống (SISL)
Luận văn sẽ nghiên cứu một số thuật toán học đa thể hiện như DD [9],
EM-DD [11], MISVM [3] Từ đó đề xuất xây dựng thuật toán học máy MIML theo hướng phân rã sử dụng học máy đa thể hiện làm cầu nối, tích hợp các thuật toán
Trang 22học máy đa thể hiện DD [9], EM-DD [11] và MISVM [3] vào ứng dụng giải quyết bài toán gán nhãn vùng ảnh
2.1.1 Lấy học máy đa nhãn làm cầu nối
Nhắc lại định nghĩa học máy MIML [17, 18]: Ký hiệu 𝑋 là không gian thể hiện, 𝑌 là tập các nhãn Học hàm ánh xạ 𝑓: 2𝑋 → 2𝑌 từ tập dữ liệu cho trước {(X 1 ,
Y 1 ), (X 2 , Y 2 ), … (X m , Y m )} trong đó 𝑋𝑖 ⊆ 𝑋 là tập các thể hiện {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛𝑖}
𝑥𝑖𝑗 ∈ 𝑋 (𝑗 = 1,2, … , 𝑛𝑖) và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1, 𝑦𝑖2, … , 𝑦𝑖𝑙𝑖}, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 =1,2, … , 𝑙𝑖) Ký hiệu n i là số thể hiện của tập 𝑋𝑖, l i là số nhãn trong tập 𝑌𝑖
Ta phân rã học máy MIML thành bài toán học máy đa nhãn bằng cách học hàm ánh xạ: 𝑓𝑀𝐿𝐿: 𝑍 → 2𝑌 [17, 18] Với mọi 𝑧𝑖 ∈ 𝑍, 𝑓𝑀𝐿𝐿(𝑧𝑖) = 𝑓𝑀𝐼𝑀𝐿(𝑋𝑖) nếu
𝑧𝑖 = 𝜙(𝑋𝑖), 𝜙: 2𝑋 → 𝑍 Các nhãn thích hợp cho bộ dữ liệu mới 𝑋∗ được xác định theo 𝑌∗ = 𝑓𝑀𝐿𝐿(𝜙(𝑋∗)) Ta có thể chuyển bài toán học máy đa nhãn này thành học máy giám sát truyền thống (SISL) bằng cách học hàm ánh xạ: 𝑓𝑆𝐼𝑆𝐿: 𝑍 × 𝑌 →{−1, +1} Với mỗi 𝑦 ∈ 𝑌, 𝑓𝑆𝐼𝑆𝐿(𝑧𝑖, 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖 và ngược lại cho giá trị
−1 Hay, hàm 𝑓𝑀𝐿𝐿(𝑧𝑖) = {𝑦|𝑓𝑆𝐼𝑆𝐿(𝑧𝑖, 𝑦) = +1} Trong đó hàm ánh xạ 𝜙 có thể được xây dựng bằng nhiều phương pháp, một trong số đó là thuật toán phân cụm
Nhóm tác giả Zin-Hua Zhou và cộng sự đã đề xuất thuật toán MIMLSVM [17, 18] dựa trên ý tưởng phân rã bài toán MIML thành bài toán học máy MLL Bước đầu tiên của MIMLSVM, với mỗi mẫu MIML (𝑋𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚), ta đưa 𝑋𝑢 vào một tập dữ liệu Γ Sau đó, ta áp dụng thuật toán phân cụm k-medoids
chia thành k cụm trên miền dữ liệu Γ Do dữ liệu trong tập Γ (tập 𝑋𝑢) là các túi thể hiện chưa được gán nhãn, nên ta sử dụng hàm khoảng cách Hausdorff để tính khoảng cách giữa các túi thể hiện Giả sử có hai túi thể hiện 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑛𝐴}
và B= {𝑏1, 𝑏2, … , 𝑏𝑛𝐵}, khoảng cách Hausdorff [18] giữa A và B được định nghĩa:
𝑑𝐻(𝐴, 𝐵) = 𝑚𝑎𝑥 {max
𝑎∈𝐴 min𝑏∈𝐵‖𝑎 − 𝑏‖ , max
𝑏∈𝐵 min𝑎∈𝐴‖𝑏 − 𝑎‖} (2.1) Trong đó ‖𝑎 − 𝑏‖ là khoảng cách Euclidean giữa hai thể hiện a và b
Sau khi tiến hành phân cụm, tập dữ liệu Γ được chia thành k cụm, các tâm cụm 𝑀𝑡 (𝑡 = 1,2, … , 𝑘) Với các tâm cụm M t thu được, ta chuyển ví dụ đa thể
hiện X u ban đầu thành vec tơ số k chiều 𝑧𝑢, với thành phần thứ 𝑖 (𝑖 = 1,2, … , 𝑘) của vec tơ 𝑧𝑢 là khoảng cách 𝑑𝐻(𝑋𝑢, 𝑀𝑖) giữa 𝑋𝑢 và 𝑀𝑖 Nói cách khác, 𝑧𝑢𝑖 mã hóa một số thông tin cấu trúc của dữ liệu, ở đây là mối quan hệ giữa 𝑋𝑢 và cụm thứ i của tập dữ liệu Γ Vây là, từ dữ liệu MIML ban đầu (𝑋𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚)
Trang 23ta đã chuyển thành dữ liệu đa nhãn đơn thể hiện (𝑧𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚) Sau đó,
ta sẽ thực hiện phân lớp đa nhãn MLSVM [4] cho bộ dữ liệu mới
2.1.2 Lấy học máy đa thể hiện làm cầu nối
Ta có thể chuyển đổi bài toán học máy đa nhãn – đa thể hiện (học hàm ánh
xạ 𝑓: 2𝑋 → 2𝑌) sang bài toán học máy đa thể hiện bằng cách học hàm ánh xạ
𝑓𝑀𝐼𝐿: 2𝑋 × 𝑌 → {−1, +1} [17, 18] Với mọi 𝑦 ∈ 𝑌, 𝑓𝑀𝐼𝐿(𝑋𝑖, 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖
và ngược lại cho giá trị −1 Các nhãn thích hợp cho bộ dữ liệu mới được xác định theo 𝑌∗ = {𝑦 | 𝑠𝑖𝑔𝑛[𝑓𝑀𝐼𝐿(𝑋∗, 𝑦)] = +1} Ta có thể chuyển bài toán học máy đa thể hiện này thành học máy giám sát truyền thống (SISL) bằng cách học hàm ánh
xạ 𝑓𝑆𝐼𝑆𝐿: 𝑋 × 𝑌 → {−1, +1}, với ràng buộc để thu được hàm 𝑓𝑀𝐼𝐿(𝑋𝑖, 𝑦) từ
𝑓𝑆𝐼𝑆𝐿(𝑥𝑖𝑗, 𝑦) (𝑗 = 1,2, … , 𝑛𝑖) Với mọi 𝑦 ∈ 𝑌, 𝑓𝑆𝐼𝑆𝐿(𝑥𝑖𝑗, 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖 và ngược lại cho giá trị −1 Có nhiều ràng buộc có thể được sử dụng, một trong số
đó là 𝑓𝑀𝐼𝐿(𝑋𝑖, 𝑦) = 𝑠𝑖𝑔𝑛[∑𝑛𝑖 𝑓𝑆𝐼𝑆𝐿(𝑥𝑖𝑗, 𝑦)
Luận văn sẽ trình bày chi tiết các bước chuyển đổi bài toán học máy đa nhãn – đa thể hiện sang bài toán học máy đa thể hiện, trong đó sử dụng các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] ở Chương 3
2.2 Hướng giải pháp giải quyết trực tiếp
Hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện thành các bài toán học máy có độ phức tạp ít hơn đôi khi làm mất thông tin trong quá trình phân rã, như không tận dụng được mối quan hệ giữa các nhãn, giữa các thể hiện
và các nhãn v.v Do vậy, một số nghiên cứu đã đưa ra giải pháp giải quyết bài toán học máy đa nhãn – đa thể hiện một cách toàn vẹn như D-MIMLSVM của Zhi-Hua Zhou và cộng sự [17, 18], MIML Bayes dựa trên quá trình Gaussian tiền nghiệm của Jianjun He và nhóm nghiên cứu [8], MIMLRBF của Min-Ling Zhang
và Zhi-Jian Wang [16] v.v
Thuật toán D-MIMLSVM của Zhi-Hua Zhou và cộng sự [17, 18] định nghĩa hàm mục tiêu cân bằng hàm loss giữa các nhãn đúng và các nhãn được dự đoán đối với các túi cũng như tập các thể hiện thành phần của túi Thuật toán dựa trên giả thiết các nhãn lớp của cùng một túi có quan hệ với nhau Tuy nhiên, trong thực tế không nhiều nhãn lớp có cùng tính chất [8] Ví dụ, nhãn ‘surfing’ có cùng tính chất với nhãn ‘water’ và nhãn ‘beach’, nhãn ‘elephant’ có cùng tính chất với nhãn ‘animal’ và nhãn ‘lion’ Tuy nhiên, các nhãn ‘surfing’, ‘beach’, ‘elephant’
và ‘lion’ thì không có cùng tính chất
Trang 24Nhóm nghiên cứu Jianjun He [8] để xuất phương pháp học máy MIML Bayesian dựa trên quá trình Gaussian tiền nghiệm
Hình 2.2: Thuật toán MIML Bayes dựa trên quá trình Gaussian tiền nghiệm [7]
Ý tưởng cơ bản của thuật toán là giả sử tồn tại một hàm ẩn với quá trình Gaussian tiền nghiệm trong không gian thể hiện của mỗi nhãn, suy ra xác suất dự đoán của các nhãn bằng cách tích hợp không chắc chắn vào các hàm ẩn sử dụng cách tiếp cận Bayesian, mối liên kết giữa các thể hiện với các nhãn có thể được
sử dụng bằng cách xác định một hàm khả năng, tương quan giữa các nhãn được xác định bởi ma trận hiệp phương sai của các hàm ẩn Ngoài ra, sự khác nhau của các quan hệ giữa các thể hiện và các nhãn có thể biểu diễn bằng cách định nghĩa các hàm khả năng khác nhau
Thuật toán MIMLRBF của Min-Ling Zhang và Zhi-Jian Wang [16] đề xuất
sử dụng mạng nơ ron hàm cơ sở bán kính RBF để học từ các ví dụ MIML Lớp đầu tiên của của mạng nơ ron MIMLRBF gồm tập các tâm cụm (các túi thể hiện), được chuẩn hóa bằng thuật toán phân cụm k-Medoids sử dụng độ đo khoảng cách Hausdorff trung bình giữa các túi trên ví dụ MIML cho mỗi lớp dương Trọng số của mạng nơ ron MIMLRBF ở lớp thứ hai được tối ưu hóa bằng cực tiểu hóa hàm sai số tổng bình phương Hình 2.3 là mô tả cho cấu trúc mạng nơ ron MIMLRBF
Trang 25Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF Với mạng nơ ron MIMLRBF, các mối liên kết giữa các thể hiện và các nhãn được sử dụng trực tiếp trong quá trình phân cụm ở lớp đầu tiên và quá trình tối ưu hóa ở lớp thứ hai
2.3 Một số phương pháp học máy đa thể hiện
2.3.1 Phương pháp DD
Phương pháp Diverse Density (mật độ đa dạng - DD) được Maron và Lozano-Perez [9] đề xuất năm 1998 để ứng dụng vào nhận dạng một người từ một tập các ảnh (trong đó, các ảnh được gán nhãn dương khi có người đó trong bức ảnh, ngược lại thì được gán nhãn âm) và cho vấn đề lựa chọn cổ phiếu
Maron và Lozano-Perez [9] đề xuất phương pháp DD với ví dụ về một phân
tử thuốc trong dự báo hoạt tính của thuốc Giả sử rằng, hình dạng của một phân
tử ứng cử viên được biểu diễn bởi một vec tơ đặc trưng Do đó, một thể hiện của phân tử thuốc được biểu diễn bằng một điểm trong không gian đặc trưng n chiều Khi phân tử thuốc thay đổi hình dạng, chúng sẽ sinh ra một đa tạp trong không gian đặc trưng n chiều Hình 2.4 (a) mô tả đường đi của bốn phân tử trong không gian đặc trưng hai chiều Nếu phân tử ứng cử viên được gán nhãn dương, thì ta có thể biết rằng ít nhất có một điểm của đa tạp, mà ở đó hình dạng của phân tử phù hợp với protein đích (đa tạp dương) Ngược lại, phân tử dược gán nhãn âm khi