ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆPhan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông ti
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
LUẬN VĂN THẠC SỸ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
LUẬN VĂN THẠC SỸNGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
HÀ NỘI – 2015
Trang 3Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo,PGS.TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ emtrong suốt quá trình thực hiện đề tài luận văn
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em trong sáu năm học vừa qua
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn, các em sinhviên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab và đề tài cấpĐHQGHN GQ.14.13 đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn đểhoàn thành tốt luận văn
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên,chăm sóc và khích lệ con trên mỗi bước đường học vấn
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớpK53CB, K53CLC và K19HTTT đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tậptrên giảng đường và thực hiện đề tài luận văn này
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 09 tháng 04 năm
2015Học viên
Trang 4PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG
QUẢN LÝ DANH TIẾNG Phan Thị Thơm
Khóa K19HTTT, ngành công nghệ thông tin.
Tóm tắt Luận văn:
Hệ thống quản lý danh tiếng là một hệ thống quan trọng trong việc quản lýthương hiệu, đã được sử dụng rộng rãi trong nhiều công ty và tổ chức khác nhau Đốivới mỗi công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập cácnhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra mộtbản tổng kết quan điểm của người dùng về từng lớp đặc trưng của sản phẩm hay công
ty Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung,
và đa phần là dữ liệu đa nhãn đa thể hiện Vì vậy, vấn đề trọng tâm của hệ thống quản
lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện
Theo Zhou và cộng sự, 2012 [2], hướng tiếp cận để giải quyết bài toán phân lớp
dữ liệu đa nhãn, đa thể hiện (MIML) là sử dụng phương pháp phân rã bài toán MIMLthành những bài toán đơn giản Trong đó các thuật toán học máy MIML được pháttriển dựa trên các thuật toán học máy nền (SVM, Bayes, Boost, ) như MIMLSVM,MIML Bayes, MIMLBoost Từ đây luận văn đề xuất một mô hình phân lớp quan điểmngười dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM
Thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn
ở Việt Nam ở website (http://chudu24.com ) Kết quả phân lớp khi áp dụng phươngpháp phân lớp thông thường SVM là 84.84% và kết quả khi áp dụng mô hình phân lớpquan điểm luận văn đề xuất là 85.76% Kết quả trên cho thấy phương pháp xây dựng
mô hình phân lớp quan điểm áp dụng MIMLSVM là có tính hiệu quả cao
Trang 5Lời cam đoan
Tôi xin cam đoan mô hình phân lớp quan điểm người dùng trong bài toán quản lý danhtiếng bằng cách áp dụng MIMLSVM được trình bày trong luận văn này là do tôi thực hiệndưới sự hướng dẫn của PGS.TS Hà Quang Thụy
Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc mộtcác rõ ràng từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không cóviệc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tàiliệu tham khảo
Hà Nội, ngày 09 tháng 04 năm
2015Tác giả
Trang 6Mục lục
Mở đầu 1
Chương 1: Giới thiệu chung về quản lý danh tiếng 2
1.1 Tổng quan về hệ thống quản lý danh tiếng 2
1.1.1 Hệ thống quản lý danh tiếng 2
1.1.2 Tầm quan trọng của hệ thống quản lý danh tiếng 4
1.2 Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng 5
Tổng kết chương một 7
Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML 8
2.1 Phân lớp đa nhãn đa thể hiện 8
2.2 Phương pháp chuyển đổi bài toán học máy MIML 10
2.2.1 MIMLSVM 10
2.2.2 MIMLBOOST 13
Tổng kết chương hai 16
Chương 3: Áp dụng phương pháp MIMLSVM trong bài toán quản lý danh tiếng 17
3.1 Mô tả phương pháp 17
3.2 Mô hình đề xuất 17
3.3 Pha 1: Huấn luyện mô hình 18
3.3.1 Tiền xử lý và xây dựng vector đặc trưng 18
3.3.2 Chuyển đổi từ MIML thành SIML 19
3.3.3 Chuyển đổi từ SIML thành SISL 19
3.4 Pha 2: Phân lớp sử dụng mô hình huấn luyện 21
Tổng kết chương ba 22
Chương 4 Thực nghiệm và đánh giá 23
4.1 Môi trường và các công cụ sử dụng thực nghiệm 23
4.1.1 Cấu hình phần cứng 23
4.1.2 Các phần mềm sử dụng 23
4.2 Xây dựng tập dữ liệu thử nghiệm 24
4.3 Thử nghiệm 25
4.4 Kết quả thực nghiệm 25
Trang 74.5 Đánh giá hệ thống 26
Kết luận 27
Tài liệu tham khảo 28
Trang 8Danh sách hình vẽ
Hình 1.1 : Sơ đồ phân loại danh tiếng 2
Hình 1.2: Hai mô hình hệ thống 3
Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế 4
Hình 2.1: Dữ liệu đa nhãn đa thể hiện 8
Hình 3.1: Mô hình đề xuất 18
Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân 20
Hình 4.1: So sánh 2 thực nghiệm 26
Trang 9Danh sách bảng biểu
Bảng 4.1 Cấu hình hệ thống thử nghiệm 23
Bảng 4.2: Công cụ phần mềm sử dụng 23
Bảng 4.3 : Tập dữ liệu thực nghiệm 24
Bảng 4.4: Tập dữ liệu huấn luyện 24
Bảng 4.5: Kết quả của thực nghiệm 1 25
Trang 11Mở đầu
Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao Ngày nay, Internet
là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội.Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần bangười dùng Internet coi đây là nguồn thông tin quan trọng Tuy nhiên, lượng thông tintrên Internet đang ngày một lớn và gây khó khăn cho người sử dụng khi tìm các thôngtin để đánh giá một công ty hay một sản phẩm Vì thế, hệ thống quản lý danh tiếng làmột trong những cách tốt nhất để giải quyết vấn đề này
Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dung,trong khi đó, ý kiến của người dùng thường nói đến nhiều khía cạnh của sản phẩm Vìthế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa nhãn
đa thể hiện Luận văn đề xuất một mô hình phân lớp câu quan điểm trong bài toánquản lý danh tiếng sử dụng MIMLSVM và tiến hành thực nghiệm mô hình phân lớpvới tập các nhận xét của người dùng về 1000 khách sạn ở Việt Nam và cho kết quả khảquan 85.76%
Nội dung của luận văn được chia thành các chương như sau:
Chương 1: Luận văn giới thiệu khái quát về hệ thống quản lý danh tiếng và tầm
quan trọng của hệ thống này trong thực tế Sau đó, luận văn còn trình bày về tầm quantrọng của việc phân lớp dữ liệu đa nhãn, đa thể hiện trong hệ thống quản lý danh tiếng
Chương 2: Luận văn trình bày một cách tổng quan về học máy phân lớp MIML,
các mô hình giải quyết như: MIMLSVM, MIMLBoost
Chương 3: Luận văn đề xuất mô hình phân lớp dữ liệu trong bài toán quản lý
danh tiếng bằng cách áp dụng MIMLSVM Đồng thời, luận văn cũng trình bày chi tiếtcác pha cũng như các bước trong mô hình
Chương 4 : Luận văn trình bày thực nghiệm trong việc áp dụng mô hình mà đề
xuất, từ đó đưa ra kết quả đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam
Phần kết luận : Tóm lược kết quả đạt được của luận văn và định hướng phát
triển tương lai
Trang 12Chương 1: Giới thiệu chung về quản lý danh tiếng
1.1 Tổng quan về hệ thống quản lý danh tiếng
1.1.1 Hệ thống quản lý danh tiếng
Theo như Từ điển Oxford (1992) thì danh tiếng được định nghĩa “là các ước
lượng chung của con người về các phương diện đặc tính hoặc phẩm chất ; nó gần như
là sự yêu quý hay tin tưởng vào một người hay một tổ chức”.
Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người haymột tổ chức được hình thành nhờ hành vi trong quá khứ, danh tiếng được phân loạidựa vào nguồn gốc xây dựng như sơ đồ sau:
Hình 1.1 : Sơ đồ phân loại danh tiếng
Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danhtiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed reputation),(iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối với chủ thể vàkhách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối ngẫu với tính “cánhân hóa” trong các loại danh tiếng còn lại Trong sơ đồ phân loại danh tiếng trên đây,
ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá nhân và danh tiếng nhóm cánhân Danh tiếng nhóm cá nhân (công ty) được xác định theo một mô hình tích hợpdanh tiếng cá nhân của tập thành viên trong nhóm (mô hình trung bình, mô hình phâncấp, các mô hình tích hợp khác [5]) Danh tiếng cá nhân có thể phân chia theo hai loạilà:
2
Trang 13 Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của những người là đồng nghiệp của nhau, …
Danh tiếng thu được từ những thông tin gián tiếp như : sự uy tín củanhóm mà cá nhân đó tham gia, các thông tin thu thập từ lời truyềnmiệng, …
Một trong những lợi thế lớn nhất mà Internet mang lại cho người dùng là làmgiảm chi phí thời gian công sức trong việc tìm kiếm, thu thập thông tin Hàng ngày,hàng giờ, Internet luôn có hàng triệu người giao tiếp và chia sẻ các ý kiến cũng nhưkinh nghiệm với nhau Tận dụng lợi thế này, hệ thống quản lý danh tiếng làm nhiệm vụthu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông tin về uy tín của sảnphẩm, … Sau đó tổng hợp thông tin này và công bố với mọi người Mọi người dùngkhác có thể sử dụng thông tin mà hệ thống quản lý danh tiếng mang lại như một tàiliệu tham khảo để đưa ra quyết định
Theo như các nhiên cứu gần đây, có hai cách tiếp cận để xây dựng hệ thống quản
lý danh tiếng Theo (Laudon, 2007) [7], (Stair và cộng sự, 2010) [8], hệ thống đượcxây dựng gồm bốn phần: Dữ liệu đầu vào, phần xử lý, đầu ra và phần phản hồi củangười dùng như hình 3(a) Trong khi đó theo (Hoffman và cộng sự, 2009) [9], (Zheng
và Jin, 2009) [10], (Swamynathan và cộng sự, 2010) thì hệ thống chỉ được chia làm baphần : phần thu thập thông tin, phần xử lý thông tin và phần hiển thị kết quả ngườidùng như hình 3(b)
Hình 1.2: Hai mô hình hệ thống
Trang 14Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế
So sánh hai cách tiếp cận trên thì mô hình thứ hai sử dụng thông tin được thuthập từ nguồn có uy tín sẽ cho độ chính xác cao hơn Không những thế cách tiếp cậnnày còn tránh được sự gian lận của người dùng hay tổ chức, vì cách tiếp cận này không
sử dụng thông tin phản hồi như là nguồn dữ liệu Chính vì sự chính xác mà cách tiếpcận thứ hai mang lại nên luận văn quyết định xây dựng mô hình đánh giá danh tiếngcho 1000 khách sạn ở chương ba theo cách tiếp cận thứ hai
1.1.2 Tầm quan trọng của hệ thống quản lý danh tiếng
Trong cuộc sống, danh tiếng đóng một vai trò vô cùng quan trọng Đối với ngườitiêu dùng, danh tiếng giúp họ có được những lựa chọn hợp lý trong cuộc sống Ví dụnhư: trong trường hợp một người cần tìm gia sư tốt để dạy con cái họ, họ sẽ nhờ bạn
bè và người thân giới thiệu hay cho kinh nghiệm Và kinh nghiệm trên chính là danhtiếng về gia sư
Đối với doanh nghiệp thì danh tiếng càng có tầm quan trọng lớn hơn Việc quản
lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêucực về công ty đang quản lý Từ đó, công ty có thể tránh đươc những thảm họa tiềm ẩnnhư: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc Ngoài khả năngphòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo luận xoayquanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoàihiều hơn
4
Trang 15Trong xã hội hiện nay, khi mà tin học ngày càng đóng vai trò quan trọng trongcuộc sống cũng như trong kinh doanh thì sự cạnh tranh về danh tiếng đóng một vai trò
vô cùng quan trọng Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nàocũng phải xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng vềdanh tiếng đó Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng cóthể hủy hoại nó chỉ trong chốc nát Với danh tiếng tốt của doanh nghiệp sẽ thu hútkhách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao và giá cổphiểu cao Và với thời gian, những công ty biết nuôi dưỡng danh tiếng của mình sẽkhiến mọi người tin tưởng và không chê bai hoặc quay lưng với họ trong những thờiđiểm khó khăn hay khủng hoảng
Sự thành công của eBay [4], một trang web bán hàng rất phổ biến đã là ví dụ điểnhình cho thấy tầm quan trọng to lớn của danh tiếng, nơi mà các giá trị uy tín của ngườibán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung lập).Theo nghiên cứu của Resnich và Zeckhauser [5] đã chỉ ra rằng trên eBay 89% trong số168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên Và hầunhư tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá bốn lần.Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa nhữngngười không quen biết và danh tiếng là yếu tố quyết định của những giao dịch này
1.2 Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng
Theo BingLiu và cộng sự, 2010 [6] quan niệm rằng quan điểm là những thể hiện
chủ quan, miêu tả tình cảm, ý kiến hay những cảm xúc của con người hướng đến thựcthể, sự kiện hay thuộc tính Khai phá quan điểm là lĩnh vực thu hút sự quan tâm của rấtnhiều nhà khoa học, nhà sản xuất và các công ty Theo [6], khai phá quan điểm haycòn gọi là phân lớp nhận định có ba bài toán điển hình là:
Phân lớp quan điểm
Khái phá và tổng hợp quan điểm dựa trên đặc trưng
Khai phá quan hệ (so sánh)
Trong khi đó, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người dùng
về sản phẩm và các sự kiện, thông tin về uy tín của sản phẩm, … sau đó tổng hợpthông tin này và công bố với mọi người Như vậy, quản lý danh tiếng được coi là tầng
Trang 16trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọngtâm của quản lý danh tiếng.
Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn đa thểhiện, có nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp vớinhiều thể hiện khác nhau Ví dụ, một câu quan điểm của khách hàng nhận xét về khách
sạn như “Khách sạn rất đẹp, thoáng và có nhiều đồ ăn ngon” có thể thuộc lớp “Chất
lượng phòng, khách sạn” hoặc “Chất lượng đồ ăn” và khi đó “đẹp” hay “thoáng”
chính là một thể hiện cho “Chất lượng phòng, khách sạn” là tốt.
Vì thế, vấn đề xử lý dữ liệu đa nhãn đa thể hiện là vấn đề mấu chốt của bài toánquản lý danh tiếng và luận văn đã sử dụng phương pháp phân lớp MIMLSVM để giảiquyết vấn đề trên
Phân lớp dữ liệu đa nhãn đa thể hiện là nhiệm vụ phân loại tài liệu trong đó mỗitài liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau và mỗi nhãn có nhiều thểhiện khác nhau Dữ liệu đa nhãn đa thể hiện thường được gặp trong thực tế hơn dữ liệuđơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định Xét một
ví dụ về dữ liệu đa nhãn đa thể hiện như : một bức ảnh có chứa “sóng biển”, “thuyền”,
“núi”, “bờ biển” có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi, du lịch, và trong đó các thể hiện như “sóng biển”, “bờ biển” đều là thể hiện cho lớp bãi biển Do
tầm quan trọng của dữ liệu đa nhãn đa thể hiện, bài toán phân lớp dữ liệu đa nhãn đathể hiện đã được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triểncủa rất nhiều thuật toán phân lớp Một trong số những phương pháp mở rộng để phânloại dữ liệu đa nhãn đa thể hiện điển hình như MIMLSVM, MIMLBoost, MIMLBayes…
Theo những nghiên cứu gần đây có hai hướng tiếp cận để giải quyết bài toánphân lớp MIML Hướng thứ nhất là chuyển đổi bài toán học máy MIML thành các bàitoán ít phức tạp hơn và xây dựng các thuật toán dựa trên việc tích hợp các thuật toánhọc máy cơ bản với các bài toán thành phần như Zhou và cộng sự, 2012 [2] Hướngthứ hai là thiết lập các đặc trưng liên quan đến mô hình phân lớp MIML toàn vẹn vàxây dựng thuật toán MIML dựa trên các đặc trưng đã thiết lập (Jiajun He và cộng sự[3]) Luận văn lựa chọn hướng thứ nhất để giải quyết bài toán phân lớp trong quản lýdanh tiếng
6
Trang 17Tổng kết chương một
Trong chương này, luận văn giới thiệu bài toán quản lý danh tiếng, các định nghĩaliên quan đến hệ thống quản lý danh tiếng Ngoài ra, luận văn còn nêu lên được tầmquan trọng của bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong hệ thống quản lýdanh tiếng
Chương tiếp theo, luận văn sẽ trình bày tổng quan về phân lớp MIML, các môhình giải quyết như: MIMLSVM, MIMLBoost, Từ những tìm hiểu đó, luận văn đềxuất mô hình phân lớp dữ liệu đa nhãn đa thể hiện hiệu quả cho hệ thống quản lý danhtiếng
Trang 18Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML
2.1 Phân lớp đa nhãn đa thể hiện
Trong học máy giám sát truyền thống, một đối tượng được biểu diễn bởi mộtthể hiện, một vector đặc trưng và chỉ liên quan đến duy nhất một nhãn Mặc dù phươngpháp này rất thành công và phổ biến, song trong thế giới thực thì có rất nhiều ngữ cảnhkhông phù hợp với phương pháp này Thêm vào nữa, mỗi đối tượng trong mô hình nàychỉ được thuộc về một nội dung và theo đó nó cũng chỉ có một thể hiện liên quan đếnmột nhãn Tuy nhiên, chúng ta có thể dễ dàng bắt gặp trong thực tế các đối tượng rấtphức tạp, chúng có chứa nhiều nội dung như hình 2.1 sau:
Hình 2.1: Dữ liệu đa nhãn đa thể hiện
Hình ảnh trên là một ví dụ tập hợp các ảnh thể hiện một khái niệm “châu Phi”.Tuy nhiên trong một số trường hợp người dùng chỉ quan tâm đến một trong những thểhiện, ví dụ: sư tử, trong tập các thể hiện trên Ngoài ra trong một số trường hợp tập ảnhthể hiện trên còn có thể đại diện cho khái niệm “thiên nhiên” hay “châu Phi” hay “dulịch”, … Chính vì sự phức tạp trong khái niệm cũng như trong thể hiện mà Zhi-HuaZhou và cộng sự [2] đã đưa ra mô hình bốn khung học máy phân lớp phổ biến:
8
Trang 19Hình 2.2 Bốn khung học máy phân lớp phổ biến [2]
Trong hình (a) là học máy phân lớp đơn nhãn – đơn thể hiện (single-instance,single-label learning: SISL) là khung học máy phân lớp sớm nhất, vì vậy được gọi làhọc máy lớp truyền thống, trong đó mỗi đối tượng được phân lớp chỉ thuộc một lớp và
nó chỉ có một thể hiện trong miền ứng dụng Tiếp đó, trong hình (b) là học máy phânlớp đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) hình thức hóađầu tiên vào năm 1997 [2] Trong bài toán học máy này, mỗi đối tượng chỉ thuộc vàomột lớp nhưng nó có thể có nhiều thể hiện, ví dụ như lớp “châu Phi” như hình 2.1 trên
có thể được thể hiện qua hình ảnh “sư tử”, “đồng cỏ”, … Hình (c) là mô tả cho họcmáy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) trong đó mỗiđối tượng được phân lớp vào nhiều lớp và nó chỉ có một thể hiện trong miền ứng dụng.Cuối cùng, hình (d) là học máy đa nhãn – đa thể hiện (multi-instance, multi-labellearning: MIML) được Zhi-Hua Zhou và Min-Ling Zhang [2] công bố chính thức vàonăm 2006 và đây là khung học máy phân lớp mới nhất trong bốn khung học máy phânlớp được đề cập Trong học máy MIML, mỗi đối tượng thuộc vào nhiều lớp và nócũng có nhiều thể hiện trong miền dữ liệu
So với các phương pháp phân lớp truyền thống, MIML là phương pháp phù hợpvới các đối tượng phức tạp và vì thế gần với đời sống tự nhiên hơn Zin-Hua Zhou vàcộng sự [2] đưa ra hai giải pháp chung theo hướng giảm cấp phức tạp cho bài toánMIML (Hình 2.3) Giải pháp thứ nhất (A) theo hướng lấy học máy đa thể hiện như mộtbước trung gian để giảm nhãn trước, chuyển bài toán MIML thành bài toán MISL vàsau đó chuyển thành bài toán SISL Giải pháp thứ hai (B) theo hướng lấy học máy
Trang 20đa nhãn như một nhịp cầu để giảm thể hiện trước, chuyển bài toán MIML thành bàitoán SIML và sau đó chuyển thành SISL.
Hình 2.3 Hai giải pháp giải quyết bài toán MIMLTương ứng với mỗi giải pháp, một thuật toán học máy MIML được đề xuất,thuật toán MIMLBoost tương ứng với giải pháp A và thuật toán MIMLSVM tươngứng với giải pháp B Vì thế trong phần 2.2, luận văn sẽ giới thiệu cụ thể hơn về haithuật toán này
2.2 Phương pháp chuyển đổi bài toán học máy MIML
2.2.1 MIMLSVM
Phương pháp MIMLSVM dựa theo giải pháp B mà phần 2.1 luận văn đã giớithiệu, giải pháp này sử dụng học máy đa nhãn làm cầu nối, đây chính là phương pháp
có nguồn gốc từ một thuật toán MIML khác Với một tập Ω bất kỳ, kí hiệu |Ω| là số
phần tử của tập; đưa ra (X i , Y i ) và z i (X i) trong đó , với mỗi y У , cho
z i , y1 nếu y Y ivà z i ,y1ngược lại, trong đólà hàm:Z
việc phân biệt nhãn có thể được tính bằng cách đo khoảng cách giữ mỗi tập với các tập đại diện được xác định qua phân cụm Mã giả của thuật toán được tóm tắt như sau:
10
Trang 21Bước 1: Trong bước đầu tiên của MIMLSVM, Xu của mỗi mẫu (Xu , Y u ) (u=1,2, ,m)
được thu thập và đưa vào bộ dữ liệu , X u| u 1, 2, , m
Bước 2: Phân cụm k đại diện được thực hiện trên bằng cách chọn ngẫu nhiên k phần
tử trong để khởi tạo các thành phần đại diện M tt 1, 2, , k Lặp lại các bước saucho đến khi tập đại diện Mt không thay đổi
Do mỗi đơn vị dữ liệu trong , ví dụ Xu, là một đa thể hiện chưa gán nhãn củamột đơn thể hiện, nên có thể sử dụng khoảng cách Hausdorff Cụ thể là, cho 2 tập
A a1 , a2 , , a n Avà B b1 , b2 , , b n B, khoảng cách Hausdorff giữa A và B được
định nghĩa như sau: