ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thôn
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
LUẬN VĂN THẠC SỸ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
Trang 3Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài luận văn
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em trong sáu năm học vừa qua
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn, các em sinh viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab và đề tài cấp ĐHQGHN GQ.14.13 đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt luận văn
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K53CB, K53CLC và K19HTTT đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường và thực hiện đề tài luận văn này
Tôi xin chân thành cảm ơn!
Học viên
Phan Thị Thơm
Trang 4PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG
QUẢN LÝ DANH TIẾNG Phan Thị Thơm
Khóa K19HTTT, ngành công nghệ thông tin
Tóm tắt Luận văn:
Hệ thống quản lý danh tiếng là một hệ thống quan trọng trong việc quản lý
thương hiệu, đã được sử dụng rộng rãi trong nhiều công ty và tổ chức khác nhau Đối
với mỗi công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập các
nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một
bản tổng kết quan điểm của người dùng về từng lớp đặc trưng của sản phẩm hay công
ty Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung,
và đa phần là dữ liệu đa nhãn đa thể hiện Vì vậy, vấn đề trọng tâm của hệ thống quản
lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện
Theo Zhou và cộng sự, 2012 [2], hướng tiếp cận để giải quyết bài toán phân lớp
dữ liệu đa nhãn, đa thể hiện (MIML) là sử dụng phương pháp phân rã bài toán MIML
thành những bài toán đơn giản Trong đó các thuật toán học máy MIML được phát
triển dựa trên các thuật toán học máy nền (SVM, Bayes, Boost, ) như MIMLSVM,
MIML Bayes, MIMLBoost Từ đây luận văn đề xuất một mô hình phân lớp quan điểm
người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM
Thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn
ở Việt Nam ở website (http://chudu24.com ) Kết quả phân lớp khi áp dụng phương
pháp phân lớp thông thường SVM là 84.84% và kết quả khi áp dụng mô hình phân lớp
quan điểm luận văn đề xuất là 85.76% Kết quả trên cho thấy phương pháp xây dựng
mô hình phân lớp quan điểm áp dụng MIMLSVM là có tính hiệu quả cao
Trang 5Lời cam đoan
Tôi xin cam đoan mô hình phân lớp quan điểm người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy
Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Hà Nội, ngày 09 tháng 04 năm 2015
Tác giả
Phan Thị Thơm
Trang 6Mục lục
Mở đầu 1
Chương 1: Giới thiệu chung về quản lý danh tiếng 2
1.1 Tổng quan về hệ thống quản lý danh tiếng 2
1.1.1 Hệ thống quản lý danh tiếng 2
1.1.2 Tầm quan trọng của hệ thống quản lý danh tiếng 4
1.2 Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng 5
Tổng kết chương một 7
Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML 8
2.1 Phân lớp đa nhãn đa thể hiện 8
2.2 Phương pháp chuyển đổi bài toán học máy MIML 10
2.2.1 MIMLSVM 10
2.2.2 MIMLBOOST 13
Tổng kết chương hai 16
Chương 3: Áp dụng phương pháp MIMLSVM trong bài toán quản lý danh tiếng 17
3.1 Mô tả phương pháp 17
3.2 Mô hình đề xuất 17
3.3 Pha 1: Huấn luyện mô hình 18
3.3.1 Tiền xử lý và xây dựng vector đặc trưng 18
3.3.2 Chuyển đổi từ MIML thành SIML 19
3.3.3 Chuyển đổi từ SIML thành SISL 19
3.4 Pha 2: Phân lớp sử dụng mô hình huấn luyện 21
Tổng kết chương ba 22
Chương 4 Thực nghiệm và đánh giá 23
4.1 Môi trường và các công cụ sử dụng thực nghiệm 23
4.1.1 Cấu hình phần cứng 23
4.1.2 Các phần mềm sử dụng 23
4.2 Xây dựng tập dữ liệu thử nghiệm 24
4.3 Thử nghiệm 25
Trang 74.5 Đánh giá hệ thống 26 Kết luận 27 Tài liệu tham khảo 28
Trang 8Danh sách hình vẽ
Hình 1.1 : Sơ đồ phân loại danh tiếng 2
Hình 1.2: Hai mô hình hệ thống 3
Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế 4
Hình 2.1: Dữ liệu đa nhãn đa thể hiện 8
Hình 3.1: Mô hình đề xuất 18
Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân 20
Hình 4.1: So sánh 2 thực nghiệm 26
Trang 9Danh sách bảng biểu
Bảng 4.1 Cấu hình hệ thống thử nghiệm 23
Bảng 4.2: Công cụ phần mềm sử dụng 23
Bảng 4.3 : Tập dữ liệu thực nghiệm 24
Bảng 4.4: Tập dữ liệu huấn luyện 24
Bảng 4.5: Kết quả của thực nghiệm 1 25
Bảng 4.6: Kết quả thực nghiệm 2 25
Trang 10Danh sách các từ viết tắt
MIML Multi instance multi label
SVM Support Vector Machine
MISL Multi-instance, single-label learning SISL Single-instance single-label learning SIML Single-instance, multi-label learning MIMLSVM Multi instance multi label Support Vector
Machine MIMLBOOST Multi instance multi label boost
Trang 11Mở đầu
Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao Ngày nay, Internet
là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần ba người dùng Internet coi đây là nguồn thông tin quan trọng Tuy nhiên, lượng thông tin trên Internet đang ngày một lớn và gây khó khăn cho người sử dụng khi tìm các thông tin để đánh giá một công ty hay một sản phẩm Vì thế, hệ thống quản lý danh tiếng là một trong những cách tốt nhất để giải quyết vấn đề này
Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dung, trong khi đó, ý kiến của người dùng thường nói đến nhiều khía cạnh của sản phẩm Vì thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa nhãn
đa thể hiện Luận văn đề xuất một mô hình phân lớp câu quan điểm trong bài toán quản lý danh tiếng sử dụng MIMLSVM và tiến hành thực nghiệm mô hình phân lớp với tập các nhận xét của người dùng về 1000 khách sạn ở Việt Nam và cho kết quả khả quan 85.76%
Nội dung của luận văn được chia thành các chương như sau:
Chương 1: Luận văn giới thiệu khái quát về hệ thống quản lý danh tiếng và tầm
quan trọng của hệ thống này trong thực tế Sau đó, luận văn còn trình bày về tầm quan trọng của việc phân lớp dữ liệu đa nhãn, đa thể hiện trong hệ thống quản lý danh tiếng
Chương 2: Luận văn trình bày một cách tổng quan về học máy phân lớp MIML,
các mô hình giải quyết như: MIMLSVM, MIMLBoost
Chương 3: Luận văn đề xuất mô hình phân lớp dữ liệu trong bài toán quản lý
danh tiếng bằng cách áp dụng MIMLSVM Đồng thời, luận văn cũng trình bày chi tiết các pha cũng như các bước trong mô hình
Chương 4 : Luận văn trình bày thực nghiệm trong việc áp dụng mô hình mà đề
xuất, từ đó đưa ra kết quả đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam
Phần kết luận : Tóm lược kết quả đạt được của luận văn và định hướng phát
triển tương lai
Trang 12Chương 1: Giới thiệu chung về quản lý danh tiếng
1.1 Tổng quan về hệ thống quản lý danh tiếng
1.1.1 Hệ thống quản lý danh tiếng
Theo như Từ điển Oxford (1992) thì danh tiếng được định nghĩa “là các ước lượng chung của con người về các phương diện đặc tính hoặc phẩm chất ; nó gần như
là sự yêu quý hay tin tưởng vào một người hay một tổ chức”
Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người hay một tổ chức được hình thành nhờ hành vi trong quá khứ, danh tiếng được phân loại dựa vào nguồn gốc xây dựng như sơ đồ sau:
Hình 1.1 : Sơ đồ phân loại danh tiếng
Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danh tiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed reputation), (iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối với chủ thể và khách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối ngẫu với tính “cá nhân hóa” trong các loại danh tiếng còn lại Trong sơ đồ phân loại danh tiếng trên đây, ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá nhân và danh tiếng nhóm cá nhân Danh tiếng nhóm cá nhân (công ty) được xác định theo một mô hình tích hợp danh tiếng cá nhân của tập thành viên trong nhóm (mô hình trung bình, mô hình phân cấp, các mô hình tích hợp khác [5]) Danh tiếng
cá nhân có thể phân chia theo hai loại là:
Trang 13 Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của những người là đồng nghiệp của nhau, …
Danh tiếng thu được từ những thông tin gián tiếp như : sự uy tín của nhóm mà cá nhân đó tham gia, các thông tin thu thập từ lời truyền miệng, …
Một trong những lợi thế lớn nhất mà Internet mang lại cho người dùng là làm giảm chi phí thời gian công sức trong việc tìm kiếm, thu thập thông tin Hàng ngày, hàng giờ, Internet luôn có hàng triệu người giao tiếp và chia sẻ các ý kiến cũng như kinh nghiệm với nhau Tận dụng lợi thế này, hệ thống quản lý danh tiếng làm nhiệm
vụ thu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông tin về uy tín của sản phẩm, … Sau đó tổng hợp thông tin này và công bố với mọi người Mọi người dùng khác có thể sử dụng thông tin mà hệ thống quản lý danh tiếng mang lại như một tài liệu tham khảo để đưa ra quyết định
Theo như các nhiên cứu gần đây, có hai cách tiếp cận để xây dựng hệ thống quản
lý danh tiếng Theo (Laudon, 2007) [7], (Stair và cộng sự, 2010) [8], hệ thống được xây dựng gồm bốn phần: Dữ liệu đầu vào, phần xử lý, đầu ra và phần phản hồi của người dùng như hình 3(a) Trong khi đó theo (Hoffman và cộng sự, 2009) [9], (Zheng
và Jin, 2009) [10], (Swamynathan và cộng sự, 2010) thì hệ thống chỉ được chia làm ba phần : phần thu thập thông tin, phần xử lý thông tin và phần hiển thị kết quả người dùng như hình 3(b)
Hình 1.2: Hai mô hình hệ thống
Trang 14Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế
So sánh hai cách tiếp cận trên thì mô hình thứ hai sử dụng thông tin được thu thập từ nguồn có uy tín sẽ cho độ chính xác cao hơn Không những thế cách tiếp cận này còn tránh được sự gian lận của người dùng hay tổ chức, vì cách tiếp cận này không sử dụng thông tin phản hồi như là nguồn dữ liệu Chính vì sự chính xác mà cách tiếp cận thứ hai mang lại nên luận văn quyết định xây dựng mô hình đánh giá danh tiếng cho 1000 khách sạn ở chương ba theo cách tiếp cận thứ hai
1.1.2 Tầm quan trọng của hệ thống quản lý danh tiếng
Trong cuộc sống, danh tiếng đóng một vai trò vô cùng quan trọng Đối với người tiêu dùng, danh tiếng giúp họ có được những lựa chọn hợp lý trong cuộc sống
Ví dụ như: trong trường hợp một người cần tìm gia sư tốt để dạy con cái họ, họ sẽ nhờ bạn bè và người thân giới thiệu hay cho kinh nghiệm Và kinh nghiệm trên chính là danh tiếng về gia sư
Đối với doanh nghiệp thì danh tiếng càng có tầm quan trọng lớn hơn Việc quản
lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêu cực về công ty đang quản lý Từ đó, công ty có thể tránh đươc những thảm họa tiềm ẩn như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc Ngoài khả năng phòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoài hiều hơn
Trang 15Trong xã hội hiện nay, khi mà tin học ngày càng đóng vai trò quan trọng trong cuộc sống cũng như trong kinh doanh thì sự cạnh tranh về danh tiếng đóng một vai trò
vô cùng quan trọng Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào cũng phải xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về danh tiếng đó Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có thể hủy hoại nó chỉ trong chốc nát Với danh tiếng tốt của doanh nghiệp sẽ thu hút khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao và giá cổ phiểu cao Và với thời gian, những công ty biết nuôi dưỡng danh tiếng của mình sẽ khiến mọi người tin tưởng và không chê bai hoặc quay lưng với họ trong những thời điểm khó khăn hay khủng hoảng
Sự thành công của eBay [4], một trang web bán hàng rất phổ biến đã là ví dụ điển hình cho thấy tầm quan trọng to lớn của danh tiếng, nơi mà các giá trị uy tín của người bán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung lập) Theo nghiên cứu của Resnich và Zeckhauser [5] đã chỉ ra rằng trên eBay 89% trong số 168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên
Và hầu như tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá bốn lần Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa những người không quen biết và danh tiếng là yếu tố quyết định của những giao dịch này
1.2 Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng
Theo BingLiu và cộng sự, 2010 [6] quan niệm rằng quan điểm là những thể hiện
chủ quan, miêu tả tình cảm, ý kiến hay những cảm xúc của con người hướng đến thực thể, sự kiện hay thuộc tính Khai phá quan điểm là lĩnh vực thu hút sự quan tâm của rất nhiều nhà khoa học, nhà sản xuất và các công ty Theo [6], khai phá quan điểm hay còn gọi là phân lớp nhận định có ba bài toán điển hình là:
Phân lớp quan điểm
Khái phá và tổng hợp quan điểm dựa trên đặc trưng
Khai phá quan hệ (so sánh)
Trong khi đó, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người dùng
về sản phẩm và các sự kiện, thông tin về uy tín của sản phẩm, … sau đó tổng hợp
Trang 16trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng tâm của quản lý danh tiếng
Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn đa thể hiện, có nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp với nhiều thể hiện khác nhau Ví dụ, một câu quan điểm của khách hàng nhận xét về khách
sạn như “Khách sạn rất đẹp, thoáng và có nhiều đồ ăn ngon” có thể thuộc lớp “Chất lượng phòng, khách sạn” hoặc “Chất lượng đồ ăn” và khi đó “đẹp” hay “thoáng” chính là một thể hiện cho “Chất lượng phòng, khách sạn” là tốt
Vì thế, vấn đề xử lý dữ liệu đa nhãn đa thể hiện là vấn đề mấu chốt của bài toán quản lý danh tiếng và luận văn đã sử dụng phương pháp phân lớp MIMLSVM để giải quyết vấn đề trên
Phân lớp dữ liệu đa nhãn đa thể hiện là nhiệm vụ phân loại tài liệu trong đó mỗi tài liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau và mỗi nhãn có nhiều thể hiện khác nhau Dữ liệu đa nhãn đa thể hiện thường được gặp trong thực tế hơn dữ liệu đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định Xét một
ví dụ về dữ liệu đa nhãn đa thể hiện như : một bức ảnh có chứa “sóng biển”, “thuyền”,
“núi”, “bờ biển” có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi, du lịch, và trong đó các thể hiện như “sóng biển”, “bờ biển” đều là thể hiện cho lớp bãi biển Do
tầm quan trọng của dữ liệu đa nhãn đa thể hiện, bài toán phân lớp dữ liệu đa nhãn đa thể hiện đã được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển của rất nhiều thuật toán phân lớp Một trong số những phương pháp mở rộng để phân loại dữ liệu đa nhãn đa thể hiện điển hình như MIMLSVM, MIMLBoost, MIML Bayes…
Theo những nghiên cứu gần đây có hai hướng tiếp cận để giải quyết bài toán phân lớp MIML Hướng thứ nhất là chuyển đổi bài toán học máy MIML thành các bài toán ít phức tạp hơn và xây dựng các thuật toán dựa trên việc tích hợp các thuật toán học máy cơ bản với các bài toán thành phần như Zhou và cộng sự, 2012 [2] Hướng thứ hai là thiết lập các đặc trưng liên quan đến mô hình phân lớp MIML toàn vẹn và xây dựng thuật toán MIML dựa trên các đặc trưng đã thiết lập (Jiajun He và cộng sự [3]) Luận văn lựa chọn hướng thứ nhất để giải quyết bài toán phân lớp trong quản lý danh tiếng
Trang 17Tổng kết chương một
Trong chương này, luận văn giới thiệu bài toán quản lý danh tiếng, các định nghĩa liên quan đến hệ thống quản lý danh tiếng Ngoài ra, luận văn còn nêu lên được tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong hệ thống quản
lý danh tiếng
Chương tiếp theo, luận văn sẽ trình bày tổng quan về phân lớp MIML, các mô hình giải quyết như: MIMLSVM, MIMLBoost, Từ những tìm hiểu đó, luận văn đề xuất mô hình phân lớp dữ liệu đa nhãn đa thể hiện hiệu quả cho hệ thống quản lý danh tiếng
Trang 18Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML
2.1 Phân lớp đa nhãn đa thể hiện
Trong học máy giám sát truyền thống, một đối tượng được biểu diễn bởi một thể hiện, một vector đặc trưng và chỉ liên quan đến duy nhất một nhãn Mặc dù phương pháp này rất thành công và phổ biến, song trong thế giới thực thì có rất nhiều ngữ cảnh không phù hợp với phương pháp này Thêm vào nữa, mỗi đối tượng trong
mô hình này chỉ được thuộc về một nội dung và theo đó nó cũng chỉ có một thể hiện liên quan đến một nhãn Tuy nhiên, chúng ta có thể dễ dàng bắt gặp trong thực tế các đối tượng rất phức tạp, chúng có chứa nhiều nội dung như hình 2.1 sau:
Hình 2.1: Dữ liệu đa nhãn đa thể hiện
Hình ảnh trên là một ví dụ tập hợp các ảnh thể hiện một khái niệm “châu Phi” Tuy nhiên trong một số trường hợp người dùng chỉ quan tâm đến một trong những thể hiện, ví dụ: sư tử, trong tập các thể hiện trên Ngoài ra trong một số trường hợp tập ảnh thể hiện trên còn có thể đại diện cho khái niệm “thiên nhiên” hay “châu Phi” hay “du lịch”, … Chính vì sự phức tạp trong khái niệm cũng như trong thể hiện mà Zhi-Hua Zhou và cộng sự [2] đã đưa ra mô hình bốn khung học máy phân lớp phổ biến:
Trang 19Hình 2.2 Bốn khung học máy phân lớp phổ biến [2]
Trong hình (a) là học máy phân lớp đơn nhãn – đơn thể hiện (single-instance, single-label learning: SISL) là khung học máy phân lớp sớm nhất, vì vậy được gọi là học máy lớp truyền thống, trong đó mỗi đối tượng được phân lớp chỉ thuộc một lớp và
nó chỉ có một thể hiện trong miền ứng dụng Tiếp đó, trong hình (b) là học máy phân lớp đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) hình thức hóa đầu tiên vào năm 1997 [2] Trong bài toán học máy này, mỗi đối tượng chỉ thuộc vào một lớp nhưng nó có thể có nhiều thể hiện, ví dụ như lớp “châu Phi” như hình 2.1 trên
có thể được thể hiện qua hình ảnh “sư tử”, “đồng cỏ”, … Hình (c) là mô tả cho học máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) trong đó mỗi đối tượng được phân lớp vào nhiều lớp và nó chỉ có một thể hiện trong miền ứng dụng Cuối cùng, hình (d) là học máy đa nhãn – đa thể hiện (multi-instance, multi-label learning: MIML) được Zhi-Hua Zhou và Min-Ling Zhang [2] công bố chính thức vào năm 2006 và đây là khung học máy phân lớp mới nhất trong bốn khung học máy phân lớp được đề cập Trong học máy MIML, mỗi đối tượng thuộc vào nhiều lớp và nó cũng có nhiều thể hiện trong miền dữ liệu
So với các phương pháp phân lớp truyền thống, MIML là phương pháp phù hợp với các đối tượng phức tạp và vì thế gần với đời sống tự nhiên hơn Zin-Hua Zhou và cộng sự [2] đưa ra hai giải pháp chung theo hướng giảm cấp phức tạp cho bài toán MIML (Hình 2.3) Giải pháp thứ nhất (A) theo hướng lấy học máy đa thể hiện như một bước trung gian để giảm nhãn trước, chuyển bài toán MIML thành bài toán MISL