ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC H
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin
HÀ NỘI - 2012
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phan Thị Thơm
LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công Nghệ Thông Tin
Cán bộ đồng hướng dẫn: ThS Trần Mai Vũ
Trang 3VIETNAMNATIONALUNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Thom Phan Thi
FEATURES ENRICHING AND SELECTING
IN MULTI-LABEL CLASSIFICATION
IN REPUTATION MANAGEMENT
Major: Information of Technology
Supervisor:Assoc Prof Thuy Ha Quang Co-Supervisor:MSC Vu Tran Mai
HA NOI, 2012
Trang 4Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em trong bốn năm học vừa qua
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khóa luận
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K53CB, K53CLC và đặc biệt là các thành viên của phòng 420C-KTX Ngoại Ngữ đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài khóa luận này
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 15 tháng 05 năm 2012
Sinh viên
Phan Thị Thơm
Trang 5LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ
ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG
Phan Thị Thơm
Khóa QH-2008-I/CQ, ngành công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp:
Hệ thống quản lý danh tiếng là một chủ đề khoa học công nghệ thu hút sự quan tâm trên thế giới Hệ thống quản lý danh tiếng tiến hành thu thập ý kiến nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm cung cấp cho người dùng và công ty Nhận xét của người dùng thường đề cập tới nhiều khía cạnh của công
ty sản phNm nên chúng là những dữ liệu đa nhãn Vì vậy, một trong các vấn đề trọng tâm của
hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn
Bài toán phân lớp dữ liệu đa nhãn có đặc điểm là số lượng đặc trưng lớn [2] Việc tạo lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả của thuật toán phân lớp đa nhãn Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và Michel Verleysen, 2007 [3]
Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về
1000 khách sạn ở Việt Nam ở website ( http://chudu24.com ) Kết quả thu được cho thấy giải pháp kết hợp đặc trưng đã cải thiện kết quả phân lớp đa nhãn.
Từ khóa : reputation management, multi-label, classification, feature selection
Trang 6FEATURES ENRICHING AND SELECTINGIN MULTI-LABEL CLASSIFICATION IN REPUTATION MANAGEMENT
Thom Phan Thi
QH-2008-I/CQ course, information technology faculty
Abtract thesis:
From the late 20th century, the reputation systems have been commonly adopted by Internet companies For each companies or products, the reputation management crawled customer’s reviews Then they found the opinion customers in there and constructed the report about opinion customers in features products or features companies However, some customer review may belong to more than one class, almost them is multi-label data So the importation problem in reputation management is classification multi-label
According to Guyon and Elisseeff, 2003 [2], feature selection is an important task in classification multi-label, as it can improve the interpretability of the problems, together with performances and learning time of prediction algorithms Based on the methodology of Vanessa Gomez-Verdejo and Michel Verleysen, 2007 [3], we are given a methodology, which used features in hidden topic model and used mutual information to achieve feature selection in multi-label classification problems
We used the customer’s reviews about 1000 hotels in Viet Nam in website ( http://chudu24.com ) Result on this database clearly demonstrate the interest of the approach which allows one to sharply reduce the dimension of the problem and to enhance the performance of classifiers
Keywords: reputation management, multi-label, classification, feature selection
Trang 7Lời cam đoan
Tôi xin cam đoan giải pháp làm giàu đặc trưng chủ đề Nn LDA và phương pháp lựa chọn đặc trưng dựa trên độ tương hỗ MI được trình bày trong khóa luận này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai
Trang 8Mục lục
MỞ ĐẦU 1
CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG 3
1.1 Danh tiếng và các khái niệm liên quan 3
1.2 Giới thiệu chung về hệ thống quản lý danh tiếng 4
1.2.1 Sơ bộ về hệ thống quản lý danh tiếng 4
1.2.3 Tầm quan trọng của hệ thống quản lý danh tiếng 6
1.3 Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng 7
Kết luận chương một 9
CHƯƠNG 2 PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA 10
2.1 Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI) 10
2.1.1 Bài toán lựa chọn đặc trưng 10
2.1.2 Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI) 11
2.1.2.1 Độ tương hỗ MI 11
2.1.2.2 Phương pháp thực hiện 11
2.1.2.3 Cách đánh giá 12
2.2 Mô hình chủ đề Nn 12
2.2.1 Mô hình sinh trong LDA 14
2.2.2 Ước lượng tham số và suy luận 15
Kết luận chương hai 16
CHƯƠNG 3 PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN 17
3.1 Mô tả phương pháp 17
3.2 Mô hình đề xuất 18
Trang 93.4.1 Tiền xử lý dữ liệu 23
3.4.2 Lựa chọn đặc trưng 24
3.4.3 Đánh giá độ chính xác của hệ thống 24
Kết luận chương ba 26
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 27
4.1 Môi trường và các cộng cụ sử dụng thực nghiệm 27
4.1.1 Cấu hình phần cứng 27
4.1.2 Các phần mềm sử dụng 28
4.2 Xây dựng tập dữ liệu thử nghiệm 28
4.3 Thử nghiệm 30
4.4 Kết quả thực nghiệm 31
4.5 Đánh giá hệ thống 35
Kết luận 36
Tài liệu tham khảo 37
Trang 10Danh sách hình vẽ
Hình 1.1 : Sơ đồ phân loại danh tiếng 3
Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti; 5
(c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d) 5
Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25] 6
Hình 2.1: Mô hình biểu diễn của LDA 14
Hình 3.1: Mô hình đề xuất 18
Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân 22
Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2 33
Hình 4.2: So sánh 4 thực nghiệm 34
Trang 11Danh sách bảng biểu
Bảng 3.1: Ví dụ về kết quả của mô hình chủ đề Nn cho tài liệu t 19
Bảng 3.2: Bảng ký hiệu 25
Bảng 4.1 Cấu hình hệ thống thử nghiệm 27
Bảng 4.2: Công cụ phần mềm sử dụng 28
Bảng 4.3 : Tập dữ liệu thực nghiệm 29
Bảng 4.4: Tập dữ liệu huấn luyện 29
Bảng 4.5: Tập dữ liệu cho mô hình chủ đề Nn 30
Bảng 4.6: Kết quả của thực nghiệm 1 31
Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15 32
Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20 32
Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25 32
Bảng 4.10: Kết quả thực nghiệm 3 33
Bảng 4.11: Kết quả thực nghiệm 4 34
Trang 13MỞ ĐẦU
Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao Ngày nay, Internet
là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần ba người dùng Internet coi đây là nguồn thông tin quan trọng Tuy nhiên, lượng thông tin trên Internet đang ngày một lớn hơn và gây khó khăn cho người sử dụng khi tìm các thông tin đánh giá một công ty hay một sản phNm Vì thế, hệ thống quản lý danh tiếng
là một trong những cách tốt nhất để giải quyết vấn đề này
Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dùng
Vì thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa nhãn Theo nghiên cứu của Guyon và Elisseeff, 2003 [2], việc lựa chọn đặc trưng hiệu quả có thể cải tiến đáng kể chất lượng của bộ phân lớp
Trong khóa luận này, chúng tôi sử dụng phương pháp lựa chọn đặc trưng của Vanessa Gomez-Verdejo và Michel Verleysen, 2007 [3] Chúng tôi đề xuất một phương pháp xây dựng tập đặc trưng cho việc phân lớp câu quan điểm trong bài toán quản lý danh tiếng Theo đó, chúng tôi áp dụng đặc trưng mô hình chủ đề Nn LDA kết hợp với lựa chọn đặc trưng dựa vào độ tương hỗ (MI) Phương pháp phân lớp Maximum Entropy được lựa chọn vì phương pháp này phù hợp với việc phân lớp dữ liệu có nhiều đặc trưng
Nội dung của khóa luận được chia thành các chương như sau :
Chương 1: Giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh
tiếng và tầm quan trọng của hệ thống này trong thực tế Sau đó, khóa luận còn trình bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn trong hệ thống quản lý danh tiếng, tầm quan trọng của việc lựa chọn đặc trưng
Chương 2 : Trình bày về bài toán lựa chọn đặc trưng trong việc phân lớp dữ liệu
đa nhãn cùng một số nghiên cứu liên quan Ngoài ra, khóa luận còn trình bày về phương pháp mô hình chủ đề Nn LDA và giải pháp do khóa luận đề xuất
Chương 3 : Khóa luận đề xuất phương pháp xây dựng tập đặc trưng dựa vào việc
bổ xung đặc trưng thu được từ mô hình chủ đề Nn LDA kết hợp với phương pháp lựachọn đặc trưng dựa vào độ tưng hỗ(MI) trên miền dữ liệu Tiếng Việt Đồng thời, khóa luận cũng trình bày chi tiết các pha cũng như các bước trong mô hình
Trang 14Chương 4 : Khóa luận trình bày một số thực nghiệm trong việc áp dụng phương
pháp xây dựng tập đặc trưng mà khóa luận đề xuất Từ đó, khóa luận sử dụng để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam
Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định hướng phát
triển tương lai
Trang 15CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG
1.1 Danh tiếng và các khái niệm liên quan
Theo như Từ điển Oxford(1992) thì danh tiếng được định nghĩa “là các ước
lượng chung của con người về các phương diện đặc tính hoặc phm chất ; nó gần như
là sự yêu quý hay tin tưởng vào một người hay một tổ chức”
Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người hay một tổ chức được hình thành nhờ hành vi trong quá khứ Theo Lik Mui, 2002 [5], danh tiếng được phân loại dựa vào nguồn gốc xây dựng như sơ đồ sau:
Hình 1.1 : Sơ đồ phân loại danh tiếng
Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danh tiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed reputation), (iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối với chủ thể và khách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối ngẫu với tính “cá nhân hóa” trong các loại danh tiếng còn lại Trong sơ đồ phân loại danh tiếng trên đây,
ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá nhân và danh tiếng nhóm cá nhân.Danh tiếng nhóm cá nhân (công ty) được xác định theo một mô hình tích hợp danh tiếng cá nhân của tập thành viên trong nhóm (mô hình trung bình, mô hình phân cấp, các mô hình tích hợp khác [5]).Danh tiếng cá nhân có thể phân chia theo hai loại là:
• Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của những người là đồng nghiệp của nhau, …
Trang 16• Danh tiếng thu
nhóm mà cá nhân miệng, …
1.2 Giới thiệu chung
1.2.1 Sơ bộ về hệ th
Một trong những lợi th
giảm chi phí thời gian công s
hàng giờ, Internet luôn có hàng tri
kinh nghiệm với nhau Tận d
vụ thu thập ý kiến của ngườ
u chung về hệ thống quản lý danh tiếng
thống quản lý danh tiếng
i thế lớn nhất mà Internet mang lại cho ngư
i gian công sức trong việc tìm kiếm, thu thập thông tin Hàng ngày, , Internet luôn có hàng triệu người giao tiếp và chia sẻ các ý ki
n dụng lợi thế này, hệ thống quản lý danh ti
ời dùng về sản phNm và các sự kiện, thông tin v
ng hợp thông tin này và công bố với mọi ngư
ng thông tin mà hệ thống quản lý danh tiếng mang lđưa ra quyết định
n lý danh tiếng làm nhiệm
n, thông tin về uy tín của
i người Mọi người
ng mang lại như một
Trang 17(c) (d)
Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti;
(c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d)
1.2.2 Mô hình của hệ thống quản lý danh tiếng
Theo Liu Ling (2011, [4]), mô hình hệ thống quản lý danh tiếng được xây dựng
từ mô hình hệ thống thông tin song đi theo hai hướng tiếp cận có hoặc không có thành phần phản hồi J Laudon và K Laudon (2007, [13]), Stair và cộng sự (2010, [14]) đề nghị hệ thống quản lý danh tiếng được xây dựng như một hệ thống thông tin bao gồm
bốn thành phần: Đầu vào, Xử lý, Đầu ra và Phản hồi người dùng như hình 3(a) Trong
khi đó, Hoffman và cộng sự (2009, [15]), Zheng và Jin (2009, [16]), Swamynathan và
cộng sự (2010, [24]) coi rằng hệ thống danh tiếng bao gồm ba thành phần: Thu thập
thông tin, Xử lý thông tin và Hiển thị kết quả người dùng như hình 3(b)
(a) Mô hình kiểu Hệ thống thông tin [4] (b) Mô hình kiểu ba thành phần [4]
Trang 18(c) Một mô hình năm thành phần [25]
Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25]
Thành phần Phản hồi người dùng là rất quan trọng trong hệ thống danh tiếng,
và vì vậy, mô hình ba thành phần có một khiếm khuyết là thiếu vắng thành phần này Tuy nhiên, trong nhiều trường hợp, mô hình ba thành phần cho một thiết kế đơn giản,
dễ thi hành
Liu Ling [4] nhận định rằng cả hai mô hình nói trên còn thiếu một thành phần
quan trọng là Thành phần lưu trữ và tác giả cho rằng đây cũng là một thiếu sót lớn
theo phương diện thiết kế hệ thống Liu Ling đề nghị mô hình thiết kế hệ thống quản
lý danh tiếng gồm năm thành phần như thể hiện ở Hình 2(c)
Khóa luận này cũng tiếp cận theo mô hình ba, trong đó tập trung chủ yếu vào phần xử thông tin, đặc biệt là phần xử lý thông tin đa nhãn Khóa luận đề xuất giải pháp xây dựng tập đặc trưng bằng cách kết hợp đặc trưng mô hình chủ đề Nn và
Trang 19cái họ, họ sẽ nhờ bạn bè và người thân giới thiệu hay cho kinh nghiệm Và kinh nghiệm trên chính là danh tiếng về gia sư
Đối với bản thân doanh nghiệp, danh tiếng càng có tầm quan trọng lớn hơn Việc quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêu cực về công ty đang quản lý Từ đó, công ty có thể tránh đươc những thảm họa tiềm Nn như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc Ngoài khả năng phòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoài hiều hơn
Trong xã hội hiện nay, sự cạnh tranh về danh tiếng đóng một vai trò vô cùng quan trọng Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào cũng phải xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về danh tiếng đó Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có thể hủy hoại nó chỉ trong chốc nát Công ty Enron, ngành công nghiệp kế toán kiểm toán sau vụ Andersen, Wall Street,… là những ví dụ nổi bật Với danh tiếng tốt của doanh nghiệp
sẽ thu hút khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao
Sự thành công của eBay [5], một trang web bán hàng rất phổ biến đã là ví dụ điển hình cho thấy tầm quan trọng to lớn của danh tiếng, các giá trị uy tín của người bán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung lập) Nghiên cứu của Resnich và Zeckhauser [6] đã chỉ ra rằng trên eBay 89% trong số 168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên Và hầu như tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá bốn lần Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa những người không quen biết và danh tiếng là yếu tố quyết định của những giao dịch này Như đã nói ở trên, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người dùng về sản phNm và các sự kiện, thông tin về uy tín của sản phNm, … sau đó tổng hợp thông tin này và công bố với mọi người Như vậy, quản lý danh tiếng được coi là tầng trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng tâm của quản lý danh tiếng
1.3 Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng
Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn, có nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp Ví dụ, một câu
Trang 20quan điểm của khách hàng nhận xét về khách sạn như “Khách sạn rất đẹp, thoáng và
có nhiều đồ ăn ngon” có thể thuộc lớp “Chất lượng phòng, khách sạn” hoặc “Chất
lượng đồ ăn” Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại tài liệu trong đó mỗi tài liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau Dữ liệu đa nhãn thường được gặp trong thực tế hơn dữ liệu đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định Xét một ví dụ về phân lớp dữ liệu văn bản như : một bài báo về
nghị định Kyoto, bài báo này có thể được gán nhãn là chính trị hoặc môi trường Một
ví dụ khác như, một bức ảnh có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi,
du lịch, Do tầm quan trọng của dữ liệu đa nhãn, bài toán phân lớp dữ liệu đa nhãn đã được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển của rất nhiều thuật toán phân lớp Một trong số những phương pháp mở rộng để phân loại dữ liệu đa nhãn điển hình như AdaBoost [8], học máy hỗ trợ (SVM) [9] hoặc K-láng giềng gần nhất [10], …
Một trong những cách tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực hiện các chuyển đổi về phân lớp dữ liệu đơn nhãn Sau đó, có thể sử dụng trực tiếp các thuật toán học máy để phân loại dữ liệu đơn nhãn Theo [11], phương pháp chuyển đổi đơn giản nhất là phương pháp chuyển đổi nhị phân (BR), tức là với mỗi nhãn khác nhau sẽ được xây dựng một bộ phân lớp khác nhau Nói cách khác, tức là việc chuyển đổi phân lớp dữ liệu C nhãn thành C bộ phân lớp cho mỗi nhãn
Phương pháp Label Powerset (LP) là một phương pháp chuyển đổi của phân lớp
dữ liệu đa nhãn mà có xem xét đến sự phụ thuộc của các nhãn lớp Ý tưởng của phương pháp này là coi một tập con các nhãn như là một nhãn và tiến hành phân lớp như việc phân lớp dữ liệu đơn nhãn Theo phương pháp này thì số lượng các tập con nhãn được tạo ra là rất lớn, nên Read và công sự [12] đã đề xuất một phương pháp tỉa
để giảm bớt số lượng các tập nhãn, phương pháp này gọi là tiếp cNn chuyển đổi bằng phương pháp tỉa (PPT) Phương pháp PPT quy định mỗi tập nhãn phải có một số lượng tối thiểu dữ liệu, đối với dữ liệu quá hiếm có thể loại bỏ khỏi tập dữ liệu và đưa vào nhãn mới
Trang 21Kết luận chương một
Trong chương này, khóa luận giới thiệu bài toán quản lý danh tiếng, các định nghĩa liên quan đến danh tiếng và hệ thống quản lý danh tiếng Ngoài ra, khóa luận còn nêu lên được tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn và lựa chọn đặc trưng trong hệ thống quản lý danh tiếng
Chương tiếp theo, khóa luận sẽ đi sâu vào phân tích bài toán lựa chọn đặc trưng trong miền dữ liệu đa nhãn, giới thiệu các nghiên cứu liên quan, phương pháp bổ xung đặc trưng bằng mô hình chủ đề Nn LDA Từ những tìm hiểu đó, khóa luận đề xuất giải pháp xây dựng tập đặc trưng hiệu quả cho hệ thống quản lý danh tiếng
Trang 22CHƯƠNG 2 PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP
ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA
2.1 Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI)
2.1.1 Bài toán lựa chọn đặc trưng
Lựa chọn đặc trưng là việc lựa chọn từ một tập hợp các đặc trưng đầu vào để đưa
ra một tập nhỏ các đặc trưng có giá trị nhất Xét với một vector đặc trưng đầu vào ngẫu nhiên X={X1,…, Xd} và Y là giá trị đầu ra có thể dự đoán từ vector đặc trưng X Nhiệm vụ lựa chọn đặc trưng chính là việc tìm ra các đặc trưng Xi có liên quan nhất đến dự đoán giá trị Y
Lựa chọn đặc trưng có tầm quan rất lớn trong thực tế, đặc biệt là trong các phương pháp K-láng giềng gần nhất, học máy vector hỗ trợ (SVM) Những phương pháp này bị ảnh hưởng rất lớn vào yếu tố đầu vào, khả năng phân lớp của thuật toán có
xu hướng giảm khi các biến không có giá trị được thêm vào
Khi dữ liệu có số lượng đặc trưng lớn, việc tìm kiếm tập các đặc trưng tối ưu là rất khó Theo các nghiên cứu trước đây, có một số phương pháp tìm kiếm tập đặc trưng tối ưu bằng cách làm ngược lại với thông thường, tức là loại bỏ các đặc trưng xấu, ví dụ như, phương pháp tỉa MultiLayer Perceptron, phương pháp Generalized Relevance Learning Vector Quantization, các phương pháp này đều phải xây dựng mô hình và khởi tạo là toàn bộ các đặc trưng Khi số lượng các đặc trưng quá lớn, thì việc tính toán lớn, vấn đề hội tụ,…sẽ gây khó khăn cho thuật toán và những cách tiếp cận trên đây đều bị ràng buộc bởi một mô hình cụ thể
Trong khi đó, phương pháp lựa chọn đặc trưng Forward-Backward có thể được
áp dụng bởi bất kỳ mô hình nào và được bắt đầu bằng một tập hợp nhỏ các đặc trưng Tuy nhiên, phương pháp này cũng gặp khó khăn khi tập đặc trưng là quá lớn, vì phương pháp này phải thực hiện việc tìm kiếm về phía trước bằng mô hình dự đoán trực tiếp Để giải quyết vấn đề này, phương pháp ước tính dự đoán bằng phương pháp
Trang 23luận này, khóa luận sẽ sử dụng giải pháp tìm kiếm Forward-Backward kết hợp với độ
đo tương hỗ cho việc lựa chọn đặc trưng của dữ liệu đa nhãn
2.1.2 Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI)
2.1.2.1 Độ tương hỗ MI
MI là một độ đo về khoảng cách lượng thông tin giữa hai biến Độ đo này được
sử dụng rộng rãi trong việc lựa chọn đặc trưng vì nó có khả năng phát hiện ra các mối quan hệ phi tuyến tính giữa các biến Hơn nữa, MI được định nghĩa cho các nhóm của các biến, cho phép đo sự phụ thuộc của một nhóm đặc trưng với một lớp trong quá trình lựa chọn đặc trưng
Ký hiệu các giá trị xác suất cận biên cho X và Y lần lượt là px(x) và py(y) và xác suất cận biên của X, Y là px,y(x,y) thì MI được định nghĩa là :
2.1.2.2 Phương pháp thực hiện
Có rất nhiều cách thức để lựa chọn ra một tập nhỏ đặc trưng từ tập lớn ban đầu Theo Vanessa Gomez-Verdejo và cộng sự [3], thì phương pháp Forward-Backward là phương pháp hiệu quả trong việc lựa chọn đặc trưng cho phân lớp dữ liệu Phương pháp được biểu diễn qua 4 bước sau :
Bước 1 : Lựa chọn đặc trưng đầu tiên trong tập đặc trưng {X1,…, Xn} trong đó giá trị MI của đặc trưng lựa chọn với lớp Y là cao nhất
= , 1 ≤ ! ≤ "
Bước 2 : Các đặc trưng tiếp theo được lựa chọn sao cho giá trị MI của tập đặc
trưng lựa chọn với lớp Y đạt giá trị cao nhất Trong đó, nếu thuật toán thực hiện được tới vòng thứ t, tập đặc trưng lúc đó là #, … , %&', đặc trưng tiếp theo được lựa chọn % phải thỏa mãn điều kiện sau :
% = (, … , %&, ),
1 ≤ ! ≤ "
Trang 24∉ #, … , '
Bước 3: Sau khi thêm một đặc trưng %, thuật toán tiến hành kiểm tra bằng cách loại bỏ lần lượt các đặc trưng ứng viên, khi đó giá trị MI có thể tăng lên Nếu việc loại bỏ đặc trưng có thể làm tăng giá trị MI, thì tập đặc trưng mới được thay thế tập đặc trưng cũ
%+, = -./(, … , &, 0, … , %), 1 ≤ ! ≤ 1
Nếu : (, … , &, 0, … , %), > #, … , %',
Bước 4: Thuật toán dừng lại khi giá trị MI không tăng lên nữa hoặc số lượng đặc
trưng tối đa đã tìm được
2.1.2.3 Cách đánh giá
Có hai tiêu chí phổ biến được dùng để đánh giá trong trường hợp này là : độ mất mát dữ liệu Hamming và độ chính xác Với |M| là số lượng điểm dữ liệu có trong tập kiểm tra M, Yi, i=1…|M|, tập các nhãn đúng và 34là tập các nhãn chính xác trong phân
Trang 25Hiện nay, có nhiều nhiên cứu để khai thác một cách hiệu quả mối quan hệ giữa các dữ liệu Trong đó, mô hình chủ đề Nn [17] là một bước tiến quan trọng trong việc
mô hình hóa dữ liệu văn bản Chúng được xây dựng dựa trên ý tưởng rằng mỗi tài liệu
có một xác suất phân phối vào các chủ đề, và mỗi chủ đề là sự phân phối kết hợp giữa các từ khóa Biểu diễn các từ và tài liệu dưới dạng phân phối xác suất có lợi ích rất lớn
so với không gian vector thông thường
Ý tưởng của các mô hình chủ đề Nn là xây dựng những tài liệu mới dựa theo phân phối xác suất Trước hết, để tạo ra một tài liệu mới, cần chọn ra một phân phối những chủ đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề khác nhau, với những phân phối khác nhau Tiếp đó, để sinh các từ cho tài liệu ta có thể lựa chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề
Một cách hoàn toàn ngược lại, cho một tập các tài liệu, có thể xác định một tập các chủ đề Nn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề Hai ví
dụ về phân tích chủ đề sử dụng mô hình Nn là Probabilistic Latent Semantic Analysis (pLSA) và Latent Dirichlet Allocation (LDA)
PLSA là một kỹ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời [18] Phương pháp này được phát triển dựa trên LSA và các cộng sự (2003) [17], mặc
dù LPSA là một bước quan trọng trong việc mô hình hóa dữ liệu văn bản, tuy nhiên nó vẫn còn chưa hoàn thiện ở chỗ chưa xây dựng được một mô hình xác suất tốt ở mức độ tài liệu Điều đó dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến tính khi kích thước của tập dữ liệu tăng
LDA là một mô hình hoàn thiện hơn so với PLSA và có thể khắc phục được những nhược điểm ở trên Mô hình chủ đề Nn này sẽ được sử dụng trong việc xây dựng
hệ thống của khóa luận
LDA là một mô hình sinh xác suất cho tập dữ liệu rời rạc LDA được xây dựng dựa trên ý tưởng : mỗi tài liệu là sự trộn lẫn của nhiều chủ đề (topic) Về bản chất, LDA là một mô hình Bayes phân cấp 3 mức (mức kho ngữ liệu, mức tài liệu và mức từ ngữ) Mỗi tài liệu trong tập hợp được coi là một hỗn hợp xác định trên tập cơ bản các chủ đề Mỗi chủ đề là một hỗn hợp không xác định trên tập cơ bản các xác suất chủ đề
Về khía cạnh mô hình hóa văn bản, các xác suất chủ đề là một biểu diễn cụ thể, rõ ràng cho một tài liệu
... "Bước : Các đặc trưng lựa chọn cho giá trị MI tập đặc
trưng lựa chọn với lớp Y đạt giá trị cao Trong đó, thuật tốn thực tới vịng thứ t, tập đặc trưng lúc #,... thêm đặc trưng %, thuật toán tiến hành kiểm tra cách loại bỏ đặc trưng ứng viên, giá trị MI tăng lên Nếu việc loại bỏ đặc trưng làm tăng giá trị MI, tập đặc trưng. .. mới, cần chọn phân phối chủ đề cho tài liệu đó, điều có nghĩa tài liệu tạo nên từ chủ đề khác nhau, với phân phối khác Tiếp đó, để sinh từ cho tài liệu ta lựa chọn ngẫu nhiên từ dựa vào phân phối