(Luận văn thạc sĩ) phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh

Với học máy đa nhãn – đơn thể hiện single-instance, multi-label learning: SIML [7], mỗi đối tượng được phân vào nhiều lớp và chỉ có một thể hiện trong miền ứng dụng.. Trong đó, mỗi ảnh đ

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY LINH

PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN

VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà nội – 2015

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY LINH

PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN

VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Cẩm Tú

TS Đặng Thanh Hải

Hà nội – 2015

Trang 3

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này

Tôi xin chân thành cảm ơn các thầy, cô đã tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và nghiên cứu tại trường

Tôi cũng xin gửi lời cảm ơn đến các anh, chị và các bạn trong phòng thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn

Cuối cùng, tôi xin gửi lời cảm ơn vô hạn đến gia đình và bạn bè, những người luôn bên cạnh giúp đỡ và động viên tôi trong suốt quá trình học tập, cũng như thực hiện luận văn

Tôi xin chân thành cảm ơn!

Hà nội, ngày 18 tháng 12 năm 2015

Học viên

Nguyễn Duy Linh

Trang 4

Lời cam đoan

Tôi xin cam đoan nội dung được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Cẩm Tú, TS Đặng Thanh Hải

Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được trích dẫn rõ ràng từ danh mục tài liệu tham khảo trong luận văn Nội dung luận văn không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà nội, ngày 18 tháng 12 năm 2015

Học viên

Trang 5

MỤC LỤC

Lời cam đoan ii

Danh mục các từ viết tắt v

Danh mục các bảng vi

Danh mục các hình vẽ, đồ thị vii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH 4

1.1 Phương pháp học máy đa nhãn - đa thể hiện 4

1.2 Bài toán gán nhãn vùng ảnh 9

1.3 Kết luận 11

CHƯƠNG 2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN 12

2.1 Hướng giải pháp phân rã bài toán 12

2.1.1 Lấy học máy đa nhãn làm cầu nối 13

2.1.2 Lấy học máy đa thể hiện làm cầu nối 14

2.2 Hướng giải pháp giải quyết trực tiếp 14

2.3 Một số phương pháp học máy đa thể hiện 16

2.3.1 Phương pháp DD 16

2.3.2 Phương pháp EM-DD 19

2.3.3 Phương pháp MISVM 22

2.4 Một số độ đo đánh giá của học máy đa nhãn – đa thể hiện 25

2.5 Kết luận 28

CHƯƠNG 3 ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH 29

3.1 Phương pháp đề xuất 29

3.1.1 Giới thiệu 29

3.1.2 Nội dung phương pháp đề xuất 29

3.2 Thực nghiệm và đánh giá 32

Trang 6

3.2.1 Mô tả thực nghiệm 32

3.2.2 Môi trường và các công cụ 32

3.2.3 Dữ liệu thực nghiệm 33

3.2.4 Thực nghiệm 33

3.2.5 Đánh giá kết quả 37

3.3 Kết luận 38

KẾT LUẬN 39

TÀI LIỆU THAM KHẢO 40

Trang 7

Danh mục các từ viết tắt

1 Bp-Mll Back-propagation Multi-label learning

2 EM-DD Expectation-Maximization Diversity Density

4 D-MIMLSVM Directly Multi-Instance Lulti-Label Learning

Support Vector Machine

7 MISVM Multi-Instance Support Vector Machine

(Maximum Pattern Margin Formulation)

8 MISL Multi-Instance Single-Label Learning

9 MIML Multi-Instance Multi-Label Learning

10 MIMLRBF Multi-Instance Multi-Label Learning Radial

13 MIML-EMDD Multi-Instance Multi-Label Learning

Expectation-Maximization Diversity Density

14 MIML-MISVM Instance Label Learning

Multi-Instance Support Vector Machine

15 ML-kNN Multi-Label k-Nearest Neighbor

17 MLSVM Multi-Label Learning Support Vector Machine

18 MSRCv2 Microsoft Research Cambridge version 2

19 SISL Single-Instance Single-Label Learning

20 SIML Single-Instance Multi-Label Learning

22 NLDD Negative Logarithm of Diversity Density

Trang 8

Danh mục các bảng

Bảng 3.1: Cấu hình phần cứng 32

Bảng 3.2: Công cụ và các thư viện phần mềm 33

Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh 33

Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh 34

Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh 35

Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh 36

Trang 9

Danh mục các hình vẽ, đồ thị

Hình 1.1: Bốn khung học máy phân lớp hiện nay 4

Hình 1.2: Một bài viết có nhiều nhãn 5

Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh 7

Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện 8

Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram 9

Hình 2.1: Hai giải pháp phân rã bài toán học máy MIML 12

Hình 2.2: Thuật toán MIML Bayes dựa trên quá trình Gaussian tiền nghiệm 15

Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF 16

Hình 2.4: Ví dụ một điểm có Diverse Density 17

Hình 2.5: Mã giả của phương pháp EM-DD 21

Hình 2.6: Ví dụ phân lớp với MISVM 23

Hình 2.7: Mã giả giải thuật tối ưu heuristic của phương pháp MISVM 24

Hình 3.1: Mô hình phương pháp đề xuất 30

Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 0% 34

Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng ảnh với tỉ lệ giả túi 60% 35

Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 0% 36

Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình ảnh với tỉ lệ giả túi 60% 37

Trang 10

MỞ ĐẦU

Hiện nay, với sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh, mạng xã hội đã sản sinh ra lượng dữ liệu hình ảnh vô cùng lớn Cùng với đó là sự gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thông tin từ nguồn dữ liệu hình ảnh này Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi vùng ảnh có nội dung và mang ý nghĩa khác nhau Gán nhãn vùng ảnh nhằm hỗ trợ cho việc phân loại, tìm kiếm, trích xuất thông tin từ ảnh dựa trên các từ khóa Do khối lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh thủ công tốn nhiều thời gian và công sức Vì vậy, nhu cầu gán nhãn vùng ảnh tự động càng trở nên cấp thiết

Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy phân lớp phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện (hay học máy đa thể hiện), học máy đa nhãn – đơn thể hiện (hay học máy đa nhãn) và học máy đa nhãn - đa thể hiện Với học máy phân lớp đơn nhãn – đơn thể hiện (single-instance, single-label learning: SISL) hay còn được gọi là học máy phân lớp truyền thống, mỗi đối tượng được phân lớp chỉ thuộc vào một lớp (nhãn lớp)

và chỉ có một thể hiện duy nhất trong miền ứng dụng Trong học máy phân lớp đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) [5], mỗi đối tượng chỉ thuộc vào một lớp nhưng có thể có nhiều thể hiện khác nhau Với học máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) [7], mỗi đối tượng được phân vào nhiều lớp và chỉ có một thể hiện trong miền ứng dụng Học máy đa nhãn – đa thể hiện (multi-instance, multi-label learning: MIML) [17, 18] là khung học máy phân lớp mới nhất hiện nay, được nhóm tác giả Zhi-Hua Zhou và Min-Ling Zhang công bố lần đầu tiên vào năm 2006 Trong khung học máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà còn có nhiều thể hiện So với học máy phân lớp truyền thống, khung học máy đa nhãn – đa thể hiện biểu diễn tự nhiên và thuận tiện hơn [17, 18] các đối tượng có nhiều thể hiện, đồng thời thuộc về nhiều lớp Trong thực tế, có không ít đối tượng có nhiều thể hiện và thuộc về nhiều lớp khác nhau Ví dụ, một hình ảnh còn được xem là một túi thường bao gồm một số vùng ảnh (mỗi vùng ảnh được coi như một thể hiện), đồng thời hình ảnh còn thuộc về nhiều lớp khác nhau

Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn vùng ảnh yêu cầu bộ dữ liệu học đã được gán nhãn cho từng vùng ảnh phải đủ

Trang 11

lớn Để xây dựng bộ dữ liệu được gán nhãn chuẩn, đòi hỏi mất nhiều thời gian và chi phí để thuê các chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện Việc xây dựng bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc xây dựng bộ dữ liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh Ta có thể tận dụng lượng dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các ứng dụng chia sẻ hình ảnh, mạng xã hội Hình ảnh được gán nhãn yếu [13] là các hình ảnh được gán nhãn ở cấp độ hình ảnh thay vì gán nhãn chi tiết cho từng vùng (đối tượng) của ảnh, nhãn của mỗi hình ảnh là tập các nhãn ứng với các vùng bên trong của hình ảnh đó Nhờ đó, ta có thể xây dựng được bộ dữ liệu huấn luyện được gán nhãn yếu với số lượng lớn cho việc huấn luyện phân lớp học máy đa nhãn - đa thể hiện Trong đó, mỗi ảnh được gán nhãn yếu được coi như một túi, mỗi vùng của ảnh được xem như một thể hiện, với tập các nhãn là nhãn của ảnh

Trên cơ sở như vậy, luận văn tập trung nghiên cứu phương pháp học máy

đa nhãn – đa thể hiện và các hướng giải pháp để giải quyết vấn đề đa nhãn – đa thể hiện Có hai hướng giải pháp chính giải quyết vấn đề học máy đa nhãn – đa thể hiện Hướng giải pháp đầu tiên là phân rã bài toán học máy đa nhãn – đa thể hiện thành bài toán có độ phức tạp ít hơn (lấy học máy đa thể hiện hoặc học máy

đa nhãn làm cầu nối), nổi bật là nghiên cứu của Zin-Hua Zhou và cộng sự [17, 18] Từ đó xây dựng thuật toán học máy MIML dựa trên việc tích hợp các thuật toán học máy tương ứng với học máy đa thể hiện hay học máy đa nhãn Hướng giải pháp thứ hai là giải quyết trực tiếp bài toán học máy MIML một cách toàn vẹn, tiêu biểu là nghiên cứu của Jianjun He và cộng sự [8] Để giải quyết bài toán gán nhãn vùng ảnh, luận văn tiến hành nghiên cứu sâu hơn hướng giải pháp phân

rã vấn đề học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối Ngoài ra, luận văn cũng nghiên cứu các thuật toán học máy đa thể hiện như: DD [9], EM-DD [11], MISVM [3] Qua đó, luận văn đưa ra đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] đã nghiên cứu để giải quyết bài toán gán nhãn vùng ảnh Đồng thời, luận văn đưa ra đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn

Luận văn được chia thành ba chương với nội dung như sau:

Chương 1: Tổng quan phương pháp học máy đa nhãn – đa thể hiện và bài

toán gán nhãn vùng ảnh Giới thiệu chung về phương pháp học máy đa nhãn – đa thể hiện và bài toán gán nhãn vùng ảnh

Trang 12

Chương 2: Các phương pháp giải quyết bài toán học máy đa nhãn – đa thể

hiện Luận văn trình bày về các hướng giải pháp để giải quyết vấn đề đa nhãn –

đa thể hiện, như tiếp cận giải quyết trực tiếp, hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện thành các bài toán có độ phức tạp ít hơn Tiếp theo, luận văn sẽ trình bày các phương pháp học máy đa thể hiện như DD, EM-DD, MISVM được sử dụng để giải quyết bài toán học máy đa nhãn – đa thể hiện Ngoài

ra, luận văn còn trình bày một số độ đo đánh giá cho phương pháp học máy đa nhãn – đa thể hiện

Chương 3: Ứng dụng phương pháp học máy đa nhãn - đa thể hiện cho bài

toán gán nhãn vùng ảnh Luận văn đưa ra đề xuất xây dựng thuật toán học máy MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EM-

DD, MISVM đã nghiên cứu ở Chương 2 cho bài toán gán nhãn vùng ảnh Đồng thời, luận văn còn đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng gán nhãn Luận văn trình bày quá trình thực nghiệm dựa trên phương pháp được

đề xuất với tập dữ liệu thực nghiệm MSRCv2 Cuối cùng, luận văn đưa ra đánh giá kết quả thực nghiệm thu được

Phần kết luận: Tóm lược những kết quả đã đạt được của luận văn và đưa

ra định hướng nghiên cứu tiếp theo trong tương lai

Trang 13

CHƯƠNG 1 TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA

THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH

1.1 Phương pháp học máy đa nhãn - đa thể hiện

Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy giám sát phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện, học máy đa nhãn - đơn thể hiện và học máy đa nhãn - đa thể hiện Hình 1.1 cho ta thấy

sự khác nhau của bốn khung học máy phân lớp hiện nay

Hình 1.1: Bốn khung học máy phân lớp hiện nay [18]

Với học máy giám sát truyền thống hay còn gọi là học máy đơn nhãn - đơn thể hiện, một đối tượng được biểu diễn dưới dạng một thể hiện (hay véc tơ đặc trưng) và được gán một nhãn tương ứng Khung học máy đơn nhãn – đơn thể hiện được mô tả trong Hình 1.1(a) Theo định nghĩa hình thức của học máy giám sát truyền thống [17, 18]:

Ta ký hiệu 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các nhãn Để học hàm 𝑓: 𝑋 → 𝑌 từ tập dữ liệu cho trước {(x1 , y 1 ), (x 2 , y 2 ),…,(x m ,

y m )} trong đó 𝑥𝑖 ∈ 𝑋 là một thể hiện và 𝑦𝑖 ∈ 𝑌 là nhãn xác định của thể hiện x i

Tức là từ một tập dữ liệu ví dụ đã được xây dựng từ trước {(x 1 , y 1 ), (x 2 , y 2 ),…,(x m ,

y m )}, yêu cầu của bài toán học máy giám sát truyền thống là học một ánh xạ f sao

cho có thể gán nhãn cho từng thể hiện trong tập thể hiện 𝑋 với một nhãn trong tập

Trang 14

𝑌 Tuy học máy giám sát truyền thống đã được ứng dụng khá phổ biến và thu được nhiều kết quả tích cực, nhưng có nhiều đối tượng trong thế giới thực lại không hoàn toàn phù hợp với khung học máy này Trong học máy đơn nhãn – đơn thể hiện, mỗi đối tượng chỉ thuộc về duy nhất một khái niệm, cùng với đó là thể hiện chỉ ứng với một nhãn đơn xác định Tuy nhiên, có rất nhiều đối tượng phức tạp trong thực tế, các đối tượng này có thể thuộc về đồng thời nhiều nhãn lớp Ví

dụ, một hình ảnh có thể có đồng thời nhiều nhãn như bầu trời, tòa nhà, cây cối v.v Một trang web có thể thuộc về nhiều thể loại như trang tin tức, tin thể thao hay tin bóng đá Các khung học máy đa nhãn, học máy đa thể hiện, học máy đa nhãn – đa thể hiện là giải pháp cho vấn đề này

Trong học máy đa nhãn (còn được gọi là học máy đa nhãn – đơn thể hiện) [17, 18], một đối tượng được biểu diễn dưới dạng một thể hiện và được gán với nhiều nhãn lớp Theo Zhi-Hua Zhou [17, 18] học máy đa nhãn được định nghĩa như sau:

Giả sử 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các nhãn Mục tiêu là học hàm ánh xạ 𝑓: 𝑋 → 2𝑌 từ tập dữ liệu cho trước {(x 1 , Y 1 ), (x 2 ,

Y 2 ),…,(x m , Y m )} trong đó 𝑥𝑖 ∈ 𝑋 là một thể hiện và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1,

𝑦𝑖2, … , 𝑦𝑖𝑙𝑖}, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 = 1,2, … , 𝑙𝑖) Ký hiệu l i là số nhãn có trong tập 𝑌𝑖

Hình 1.2: Một bài viết có nhiều nhãn

Trang 15

Trong thực tế, học máy đa nhãn được ứng dụng trong nhiều lĩnh vực như phân lớp văn bản, ảnh, các dữ liệu đa phương tiện khác, trong tin sinh học v.v Các văn bản có thể thuộc về nhiều thể loại khác nhau như: một bài báo có thể được phân lớp thành tin thể thao, tin xã hội hay tin giải trí Một bức ảnh có thể thuộc nhiều lớp như bãi biển, mặt trời lặn Tương tự như vậy, một bài hát có thể thuộc về nhiều thể loại như nhạc rock, nhạc ballad Hình 1.2 là ví dụ cho dữ liệu của học máy đa nhãn, trong đó bài viết có nhiều nhãn như: Phú Yên, Du lịch, Khám phá, Trải nghiệm, Tôi thấy hoa vàng trên cỏ xanh v.v

Đã có rất nhiều thuật toán học máy đa nhãn được đề xuất trong thời gian qua như các tác giả Zhang, Min-Ling và Zhi-Hua Zhou [14] đã đề xuất thuật toán mạng nơ ron đa nhãn Bp-Mll trên cơ sở thuật toán Backpropagation cho việc phân loại văn bản và phân loại chức năng gen Thuật toán k láng giềng gần nhất cho bài toán đa nhãn ML-kNN [15] cũng của Zhang, Min-Ling và Zhi-Hua Zhou Các thuật toán đa nhãn MLSVM trên cơ sở thuật toán SVM của nhóm tác giả Boutell [4], của tác giả Godbole và Sarawagi [6] v.v

Với học máy đa thể hiện, các đối tượng được biểu diễn bởi nhiều thể hiện khác nhau và được gắn với một nhãn đơn duy nhất [17, 18] Các đối tượng trong học máy đa thể hiện có thể được coi là các túi, ứng với mỗi túi là tập các thể hiện (hay tập các véc tơ đặc trưng) Một túi được gán nhãn “dương” nếu túi đó chứa ít nhất một thể hiện “dương”, túi được gán nhãn “âm” nếu tất cả thể hiện trong túi

là “âm” Trong học máy đa thể hiện, một đối tượng được biểu diễn bằng một tập các thể hiện khác nhau Ví dụ, nhiều vùng ảnh có thể được trích xuất từ một hình ảnh (mỗi vùng ảnh tương ứng với một thể hiện), một tài liệu văn bản có thể chứa nhiều phần khác nhau (mỗi phần ứng với một thể hiện) Do vậy, các hình ảnh hay tài liệu văn bản có thể được biểu diễn bởi một tập các thể hiện Có một chú ý trong học máy đa thể hiện đó là trong dữ liệu huấn luyện, mặc dù các túi được gán nhãn nhưng ta lại không biết được nhãn của các thể hiện trong túi đó [18] Định nghĩa hình thức của học máy đa thể hiện [17, 18] như sau:

Ký hiệu 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các nhãn Học hàm ánh xạ 𝑓: 2𝑋 → 𝑌 từ tập dữ liệu cho trước {(X 1 , y 1 ), (X 2 , y 2 ), … (X m , y m )} trong đó 𝑋𝑖 ⊆ 𝑋 là tập các thể hiện {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛𝑖}, 𝑥𝑖𝑗 ∈ 𝑋 (𝑗 =1,2, … , 𝑛𝑖) và 𝑦𝑖 ∈ 𝑌 là nhãn của X i Ký hiệu n i là số thể hiện của tập 𝑋𝑖

Học máy đa thể hiện được đề xuất lần đầu tiên bởi các tác giả Dietterich, Thomas G., Richard H Lathrop, Tomás Lozano-Pérez [4] trong nghiên cứu dự

Trang 16

báo hoạt tính thuốc Thời gian qua đã có nhiều thuật toán học máy đa thể hiện được đề xuất, một vài trong số đó là thuật toán DD [9] được đề xuất bởi Oded Maron và Tomás Lozano-Pérez, thuật toán EM-DD [11] của Qi Zhang và Goldma, thuật toán MISVM [3] do Stuart Andrews và cộng sự đề xuất v.v Luận văn sẽ trình bày chi tiết các thuật toán DD [9], EM-DD [11] và MISVM [3] ở Chương 2 Các phương pháp học máy đa thể hiện được ứng dụng khá rộng rãi trong nhiều lĩnh vực [18] như phân loại và trích xuất ảnh, phân loại văn bản, khai phá web, phát hiện thư rác, nhận dạng khuôn mặt v.v Hình 1.3 là một ví dụ cho

dữ liệu của học máy đa thể hiện, từ một hình ảnh có thể trích xuất ra nhiều vùng ảnh (mỗi vùng ảnh tương ứng với một thể hiện) như: vùng ảnh rừng cây, vùng ảnh bầu trời và vùng ảnh vườn hoa

Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh Học máy đa nhãn – đa thể hiện được đề xuất bởi Zhi-Hua Zhou và cộng sự [17, 18] là khung học máy mới nhất trong số bốn khung học máy hiện nay Trong khung học máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà còn có nhiều thể hiện khác nhau, hay mỗi đối tượng được biểu diễn bởi tập các véc tơ đặc trưng (tập các thể hiện) và được gán với nhiều nhãn lớp Ví dụ, một hình ảnh

có thể bao gồm nhiều vùng khác nhau ứng với các thể hiện, và được gán nhiều nhãn khác nhau Hình 1.4 là một ví dụ về học máy đa nhãn - đa thể hiện Trong

Trang 17

đó, hình ảnh bao gồm nhiều vùng ảnh ứng với các thể hiện khác nhau như thể hiện instance1 ứng với vùng ảnh cây cối (tree), thể hiện instance2 ứng với vùng ảnh chứa con voi (elephant), v.v hình ảnh còn được gán các nhãn lớp tree, elephant

và lion Khung học máy MIML được định nghĩa một cách hình thức [17, 18] như sau:

Ký hiệu 𝑋 là không gian thể hiện, 𝑌 là tập các nhãn Học hàm ánh xạ 𝑓: 2𝑋 → 2𝑌 từ tập dữ liệu cho trước {(X 1 , Y 1 ), (X 2 , Y 2 ), … (X m , Y m )} trong đó 𝑋𝑖 ⊆

𝑋 là tập các thể hiện {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛𝑖}, 𝑥𝑖𝑗 ∈ 𝑋 (𝑗 = 1,2, … , 𝑛𝑖) và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1, 𝑦𝑖2, … , 𝑦𝑖𝑙𝑖}, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 = 1,2, … , 𝑙𝑖) Ký hiệu n i là số thể hiện của tập 𝑋𝑖, l i là số nhãn trong tập 𝑌𝑖

Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện [7]

Có thể thấy rằng, các khung học máy đa nhãn, học máy đa thể hiện và học máy đa nhãn – đa thể hiện là kết quả từ sự nhập nhằng trong việc biểu diễn các đối tượng của thế giới thực [17, 18] Học máy đa thể hiện nghiên cứu sự nhập nhằng của không gian dữ liệu đầu vào (hay không gian thể hiện), một đối tượng

có nhiều cách biểu diễn đầu vào (các thể hiện) khác nhau Học máy đa nhãn xem xét sự nhập nhằng của không gian đầu ra (hay không gian nhãn lớp), mỗi đối tượng có nhiều biểu diễn đầu ra (các nhãn lớp) Trong khi đó, học máy đa nhãn –

đa thể hiện xem xét sự nhập nhằng đồng thời của cả không gian đầu vào và đầu

ra Khi giải quyết các vấn đề của thế giới thực, việc biểu diễn tốt các vấn đề thường quan trọng hơn có thuật toán học máy tốt Do việc biểu diễn tốt vấn đề có thể thu được nhiều thông tin có ý nghĩa và làm cho việc học để giải quyết vấn đề được dễ dàng hơn Học máy đa nhãn – đa thể hiện biểu diễn các đối tượng có sự nhập nhằng cả về đầu vào và đầu ra, thuận tiện và tự nhiên hơn các khung học máy khác

Trang 18

1.2 Bài toán gán nhãn vùng ảnh

Hiện nay, sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh, mạng

xã hội như Instagram, Flickr, Facebook v.v đã sản sinh ra một lượng dữ liệu hình ảnh khổng lồ Theo một báo cáo của Instagram [19], trung bình mỗi ngày có hơn

80 triệu bức ảnh được chia sẻ qua ứng dụng Instagram Nội dung và chủ đề của các hình ảnh được chia sẻ rất phong phú như thể thao, giải trí, phong cảnh, con người, khoa học - công nghệ, thiên văn v.v Đây là nguồn dữ liệu rất tốt, có thể sử dụng cho nhiều mục đích khác nhau Cùng với sự gia tăng của lượng dữ liệu ảnh

là gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thông tin từ nguồn dữ liệu hình ảnh này Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi vùng ảnh có nội dung và mang ý nghĩa khác nhau Gán nhãn vùng ảnh nhằm hỗ trợ cho việc phân loại, tìm kiếm, nhận dạng, trích xuất thông tin từ ảnh dựa trên các từ khóa Do khối lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh thủ công tốn nhiều thời gian và công sức Vì vậy, nhu cầu gán nhãn vùng ảnh tự động càng trở nên cấp thiết

Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn hình ảnh nói chung và bài toán gán nhãn vùng ảnh nói riêng, yêu cầu bộ dữ liệu học đã được gán nhãn cho từng ảnh, vùng ảnh phải đủ lớn Để xây dựng bộ dữ liệu được gán nhãn chuẩn, đòi hỏi mất nhiều thời gian và chi phí để thuê các chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện Việc xây dựng

bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc xây dựng bộ dữ liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh

Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram

Trang 19

Hình ảnh được gán nhãn yếu [1, 13] (weak-labeling image hoặc labeled image) là các hình ảnh được gán nhãn ở cấp độ hình ảnh (túi thể hiện) thay vì gán nhãn chi tiết cho từng vùng (thể hiện) của ảnh, nhãn của mỗi hình ảnh

loosely-là tập các nhãn ứng với các vùng có trong hình ảnh đó Ta có thể tận dụng lượng

dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các ứng dụng chia

sẻ hình ảnh, mạng xã hội Hình 1.5 là một ví dụ về hình ảnh được gán nhãn yếu trên ứng dụng chia sẻ hình ảnh Instagram Nhãn của ảnh gồm một số nhãn như saturn, rings, space v.v đây là các nhãn tương ứng của các đối tượng có trong ảnh

Dữ liệu hình ảnh được gán nhãn yếu có một số ưu điểm [13]: (1) chúng có thể biểu diễn các đặc trưng trực quan khác nhau của các lớp đối tượng hiệu quả hơn; (2) có thể được thu thập dễ dàng hơn bằng cách cung cấp các nhãn của đối tượng được gán yếu ở cấp độ hình ảnh so với việc thu thập ở cấp độ đối tượng (hay vùng ảnh); và (3) đây là nguồn dữ liệu khởi đầu của việc nhận dạng cảnh và đối tượng trong thế giới thực do sự đa dạng của các nhãn và các đặc trưng của mình

Với những ưu điểm như vậy, ta có thể xây dựng được bộ dữ liệu huấn luyện được gán nhãn yếu với số lượng lớn cho việc huấn luyện phân lớp học máy đa nhãn - đa thể hiện Trong đó, mỗi ảnh được gán nhãn yếu được coi như một túi, mỗi vùng của ảnh được xem như một thể hiện, nhãn của ảnh là tập các nhãn của các thể hiện Bài toán gán nhãn vùng ảnh trở thành bài toán gán nhãn cho từng thể hiện trong túi

Trang 20

Chương tiếp theo, luận văn sẽ giới thiệu các phương pháp giải quyết bài toán học máy đa nhãn – đa thể hiện và một số phương pháp học máy đa thể hiện

Trang 21

CHƯƠNG 2 CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY

ĐA NHÃN – ĐA THỂ HIỆN 2.1 Hướng giải pháp phân rã bài toán

Từ Hình 1.1, ta có thể thấy học máy giám sát truyền thống là kết quả của

sự phân rã bài toán học máy đa nhãn hay học máy đa thể hiện Trong khi đó, học máy đa nhãn và học máy đa thể hiện là kết quả của việc phân rã bài toán học máy

đa nhãn – đa thể hiện thành các bài toán có độ phức tạp ít hơn Vì vậy, ý tưởng cơ bản để giải quyết bài toán học máy đa nhãn – đa thể hiện là phân rã bài toán sử dụng học máy đa nhãn, học máy đa thể hiện làm cầu nối [17, 18] (Hình 2.1)

Hình 2.1: Hai giải pháp phân rã bài toán học máy MIML [18]

Nhóm tác giả Zin-Hua Zhou và cộng sự [17, 18] đã đưa ra hai cách để phân

rã bài toán học máy đã nhãn – đa thể hiện (Hình 2.1)

Cách thứ nhất (Hình 2.1 Solution A) theo hướng lấy học máy đa thể hiện như một nhịp cầu để giảm số nhãn trước, chuyển đổi bài toán MIML thành bài toán đa thể hiện (MISL), sau đó chuyển thành bài toán học máy giám sát truyền thống (SISL)

Cách thứ hai (Hình 2.2 Solution B) theo hướng lấy học máy đa nhãn như một nhịp cầu để giảm số thể hiện trước, chuyển bài toán MIML thành bài toán học máy đa nhãn (SIML), sau đó chuyển thành bài toán học máy giám sát truyền thống (SISL)

Luận văn sẽ nghiên cứu một số thuật toán học đa thể hiện như DD [9],

EM-DD [11], MISVM [3] Từ đó đề xuất xây dựng thuật toán học máy MIML theo hướng phân rã sử dụng học máy đa thể hiện làm cầu nối, tích hợp các thuật toán

Trang 22

học máy đa thể hiện DD [9], EM-DD [11] và MISVM [3] vào ứng dụng giải quyết bài toán gán nhãn vùng ảnh

2.1.1 Lấy học máy đa nhãn làm cầu nối

Nhắc lại định nghĩa học máy MIML [17, 18]: Ký hiệu 𝑋 là không gian thể hiện, 𝑌 là tập các nhãn Học hàm ánh xạ 𝑓: 2𝑋 → 2𝑌 từ tập dữ liệu cho trước {(X 1 ,

Y 1 ), (X 2 , Y 2 ), … (X m , Y m )} trong đó 𝑋𝑖 ⊆ 𝑋 là tập các thể hiện {𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑛𝑖}

𝑥𝑖𝑗 ∈ 𝑋 (𝑗 = 1,2, … , 𝑛𝑖) và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1, 𝑦𝑖2, … , 𝑦𝑖𝑙𝑖}, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 =1,2, … , 𝑙𝑖) Ký hiệu n i là số thể hiện của tập 𝑋𝑖, l i là số nhãn trong tập 𝑌𝑖

Ta phân rã học máy MIML thành bài toán học máy đa nhãn bằng cách học hàm ánh xạ: 𝑓𝑀𝐿𝐿: 𝑍 → 2𝑌 [17, 18] Với mọi 𝑧𝑖 ∈ 𝑍, 𝑓𝑀𝐿𝐿(𝑧𝑖) = 𝑓𝑀𝐼𝑀𝐿(𝑋𝑖) nếu

𝑧𝑖 = 𝜙(𝑋𝑖), 𝜙: 2𝑋 → 𝑍 Các nhãn thích hợp cho bộ dữ liệu mới 𝑋∗ được xác định theo 𝑌∗ = 𝑓𝑀𝐿𝐿(𝜙(𝑋∗)) Ta có thể chuyển bài toán học máy đa nhãn này thành học máy giám sát truyền thống (SISL) bằng cách học hàm ánh xạ: 𝑓𝑆𝐼𝑆𝐿: 𝑍 × 𝑌 →{−1, +1} Với mỗi 𝑦 ∈ 𝑌, 𝑓𝑆𝐼𝑆𝐿(𝑧𝑖, 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖 và ngược lại cho giá trị

−1 Hay, hàm 𝑓𝑀𝐿𝐿(𝑧𝑖) = {𝑦|𝑓𝑆𝐼𝑆𝐿(𝑧𝑖, 𝑦) = +1} Trong đó hàm ánh xạ 𝜙 có thể được xây dựng bằng nhiều phương pháp, một trong số đó là thuật toán phân cụm

Nhóm tác giả Zin-Hua Zhou và cộng sự đã đề xuất thuật toán MIMLSVM [17, 18] dựa trên ý tưởng phân rã bài toán MIML thành bài toán học máy MLL Bước đầu tiên của MIMLSVM, với mỗi mẫu MIML (𝑋𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚), ta đưa 𝑋𝑢 vào một tập dữ liệu Γ Sau đó, ta áp dụng thuật toán phân cụm k-medoids

chia thành k cụm trên miền dữ liệu Γ Do dữ liệu trong tập Γ (tập 𝑋𝑢) là các túi thể hiện chưa được gán nhãn, nên ta sử dụng hàm khoảng cách Hausdorff để tính khoảng cách giữa các túi thể hiện Giả sử có hai túi thể hiện 𝐴 = {𝑎1, 𝑎2, … , 𝑎𝑛𝐴}

và B= {𝑏1, 𝑏2, … , 𝑏𝑛𝐵}, khoảng cách Hausdorff [18] giữa A và B được định nghĩa:

𝑑𝐻(𝐴, 𝐵) = 𝑚𝑎𝑥 {max

𝑎∈𝐴 min𝑏∈𝐵‖𝑎 − 𝑏‖ , max

𝑏∈𝐵 min𝑎∈𝐴‖𝑏 − 𝑎‖} (2.1) Trong đó ‖𝑎 − 𝑏‖ là khoảng cách Euclidean giữa hai thể hiện a và b

Sau khi tiến hành phân cụm, tập dữ liệu Γ được chia thành k cụm, các tâm cụm 𝑀𝑡 (𝑡 = 1,2, … , 𝑘) Với các tâm cụm M t thu được, ta chuyển ví dụ đa thể

hiện X u ban đầu thành vec tơ số k chiều 𝑧𝑢, với thành phần thứ 𝑖 (𝑖 = 1,2, … , 𝑘) của vec tơ 𝑧𝑢 là khoảng cách 𝑑𝐻(𝑋𝑢, 𝑀𝑖) giữa 𝑋𝑢 và 𝑀𝑖 Nói cách khác, 𝑧𝑢𝑖 mã hóa một số thông tin cấu trúc của dữ liệu, ở đây là mối quan hệ giữa 𝑋𝑢 và cụm thứ i của tập dữ liệu Γ Vây là, từ dữ liệu MIML ban đầu (𝑋𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚)

Trang 23

ta đã chuyển thành dữ liệu đa nhãn đơn thể hiện (𝑧𝑢, 𝑌𝑢) (𝑢 = 1,2, … , 𝑚) Sau đó,

ta sẽ thực hiện phân lớp đa nhãn MLSVM [4] cho bộ dữ liệu mới

2.1.2 Lấy học máy đa thể hiện làm cầu nối

Ta có thể chuyển đổi bài toán học máy đa nhãn – đa thể hiện (học hàm ánh

xạ 𝑓: 2𝑋 → 2𝑌) sang bài toán học máy đa thể hiện bằng cách học hàm ánh xạ

𝑓𝑀𝐼𝐿: 2𝑋 × 𝑌 → {−1, +1} [17, 18] Với mọi 𝑦 ∈ 𝑌, 𝑓𝑀𝐼𝐿(𝑋𝑖, 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖

và ngược lại cho giá trị −1 Các nhãn thích hợp cho bộ dữ liệu mới được xác định theo 𝑌∗ = {𝑦 | 𝑠𝑖𝑔𝑛[𝑓𝑀𝐼𝐿(𝑋∗, 𝑦)] = +1} Ta có thể chuyển bài toán học máy đa thể hiện này thành học máy giám sát truyền thống (SISL) bằng cách học hàm ánh

xạ 𝑓𝑆𝐼𝑆𝐿: 𝑋 × 𝑌 → {−1, +1}, với ràng buộc để thu được hàm 𝑓𝑀𝐼𝐿(𝑋𝑖, 𝑦) từ

𝑓𝑆𝐼𝑆𝐿(𝑥𝑖𝑗, 𝑦) (𝑗 = 1,2, … , 𝑛𝑖) Với mọi 𝑦 ∈ 𝑌, 𝑓𝑆𝐼𝑆𝐿(𝑥𝑖𝑗, 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖 và ngược lại cho giá trị −1 Có nhiều ràng buộc có thể được sử dụng, một trong số

đó là 𝑓𝑀𝐼𝐿(𝑋𝑖, 𝑦) = 𝑠𝑖𝑔𝑛[∑𝑛𝑖 𝑓𝑆𝐼𝑆𝐿(𝑥𝑖𝑗, 𝑦)

Luận văn sẽ trình bày chi tiết các bước chuyển đổi bài toán học máy đa nhãn – đa thể hiện sang bài toán học máy đa thể hiện, trong đó sử dụng các thuật toán học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] ở Chương 3

2.2 Hướng giải pháp giải quyết trực tiếp

Hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện thành các bài toán học máy có độ phức tạp ít hơn đôi khi làm mất thông tin trong quá trình phân rã, như không tận dụng được mối quan hệ giữa các nhãn, giữa các thể hiện

và các nhãn v.v Do vậy, một số nghiên cứu đã đưa ra giải pháp giải quyết bài toán học máy đa nhãn – đa thể hiện một cách toàn vẹn như D-MIMLSVM của Zhi-Hua Zhou và cộng sự [17, 18], MIML Bayes dựa trên quá trình Gaussian tiền nghiệm của Jianjun He và nhóm nghiên cứu [8], MIMLRBF của Min-Ling Zhang

và Zhi-Jian Wang [16] v.v

Thuật toán D-MIMLSVM của Zhi-Hua Zhou và cộng sự [17, 18] định nghĩa hàm mục tiêu cân bằng hàm loss giữa các nhãn đúng và các nhãn được dự đoán đối với các túi cũng như tập các thể hiện thành phần của túi Thuật toán dựa trên giả thiết các nhãn lớp của cùng một túi có quan hệ với nhau Tuy nhiên, trong thực tế không nhiều nhãn lớp có cùng tính chất [8] Ví dụ, nhãn ‘surfing’ có cùng tính chất với nhãn ‘water’ và nhãn ‘beach’, nhãn ‘elephant’ có cùng tính chất với nhãn ‘animal’ và nhãn ‘lion’ Tuy nhiên, các nhãn ‘surfing’, ‘beach’, ‘elephant’

và ‘lion’ thì không có cùng tính chất

Trang 24

Nhóm nghiên cứu Jianjun He [8] để xuất phương pháp học máy MIML Bayesian dựa trên quá trình Gaussian tiền nghiệm

Hình 2.2: Thuật toán MIML Bayes dựa trên quá trình Gaussian tiền nghiệm [7]

Ý tưởng cơ bản của thuật toán là giả sử tồn tại một hàm ẩn với quá trình Gaussian tiền nghiệm trong không gian thể hiện của mỗi nhãn, suy ra xác suất dự đoán của các nhãn bằng cách tích hợp không chắc chắn vào các hàm ẩn sử dụng cách tiếp cận Bayesian, mối liên kết giữa các thể hiện với các nhãn có thể được

sử dụng bằng cách xác định một hàm khả năng, tương quan giữa các nhãn được xác định bởi ma trận hiệp phương sai của các hàm ẩn Ngoài ra, sự khác nhau của các quan hệ giữa các thể hiện và các nhãn có thể biểu diễn bằng cách định nghĩa các hàm khả năng khác nhau

Thuật toán MIMLRBF của Min-Ling Zhang và Zhi-Jian Wang [16] đề xuất

sử dụng mạng nơ ron hàm cơ sở bán kính RBF để học từ các ví dụ MIML Lớp đầu tiên của của mạng nơ ron MIMLRBF gồm tập các tâm cụm (các túi thể hiện), được chuẩn hóa bằng thuật toán phân cụm k-Medoids sử dụng độ đo khoảng cách Hausdorff trung bình giữa các túi trên ví dụ MIML cho mỗi lớp dương Trọng số của mạng nơ ron MIMLRBF ở lớp thứ hai được tối ưu hóa bằng cực tiểu hóa hàm sai số tổng bình phương Hình 2.3 là mô tả cho cấu trúc mạng nơ ron MIMLRBF

Trang 25

Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF Với mạng nơ ron MIMLRBF, các mối liên kết giữa các thể hiện và các nhãn được sử dụng trực tiếp trong quá trình phân cụm ở lớp đầu tiên và quá trình tối ưu hóa ở lớp thứ hai

2.3 Một số phương pháp học máy đa thể hiện

2.3.1 Phương pháp DD

Phương pháp Diverse Density (mật độ đa dạng - DD) được Maron và Lozano-Perez [9] đề xuất năm 1998 để ứng dụng vào nhận dạng một người từ một tập các ảnh (trong đó, các ảnh được gán nhãn dương khi có người đó trong bức ảnh, ngược lại thì được gán nhãn âm) và cho vấn đề lựa chọn cổ phiếu

Maron và Lozano-Perez [9] đề xuất phương pháp DD với ví dụ về một phân

tử thuốc trong dự báo hoạt tính của thuốc Giả sử rằng, hình dạng của một phân

tử ứng cử viên được biểu diễn bởi một vec tơ đặc trưng Do đó, một thể hiện của phân tử thuốc được biểu diễn bằng một điểm trong không gian đặc trưng n chiều Khi phân tử thuốc thay đổi hình dạng, chúng sẽ sinh ra một đa tạp trong không gian đặc trưng n chiều Hình 2.4 (a) mô tả đường đi của bốn phân tử trong không gian đặc trưng hai chiều Nếu phân tử ứng cử viên được gán nhãn dương, thì ta có thể biết rằng ít nhất có một điểm của đa tạp, mà ở đó hình dạng của phân tử phù hợp với protein đích (đa tạp dương) Ngược lại, phân tử dược gán nhãn âm khi

Định dạng
Số trang	50
Dung lượng	1,62 MB