ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thảo CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thảo
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN
VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin
Hà Nội - 2013
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thảo
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN
VĂN BẢN TIẾNG VIỆT
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS Nguyễn Cẩm Tú
Cán bộ đồng hướng dẫn: ThS Phạm Thị Ngân
Hà Nội - 2013
Trang 3VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Thao Nguyen Thi
MULTI-LABEL CLASSICATION METHODS
VIETNAMESE DOCUMENTS
Major: Information Technology
Supervisor: Ph.D Tu Nguyen Cam
Co-Supervisor: MSc Ngan Pham Thi
HA NOI - 2013
Trang 4i
Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo Hà Quang Thụy, các chị, TS Nguyễn Cẩm Tú và ThS Phạm Thị Ngân đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em bốn năm vừa qua
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt nghiệp khóa luận
Con xin nói lên lòng biết ơn vô hạn đối với Cha Dì, anh chị em trong gia đình luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn; đặc biệt là Mẹ nơi suối vàng luôn là động lực mỗi khi tôi gặp khó khăn trên đường đời Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K54CB, K54CLC và đặc biệt là các thành viên của phòng 214A-KTX Ngoại Ngữ đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài khóa luận này
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 15 tháng 05 năm 2013
Sinh viên
Nguyễn Thị Thảo
Trang 5ii
CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT
Nguyễn Thị Thảo
Khóa QH-2009-I/CQ, ngành công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp:
Phân lớp đa nhãn là một trong những bài toán cơ bản và quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên Nó là một nghiên cứu đầy thách thức trong nhiều ứng dụng hiện đại: phân loại âm nhạc [1], chức năng phân loại protein [2] [3] , phân loại ngữ nghĩa của hình ảnh [4] [5], chú thích ảnh [6]
Khóa luận quan tâm nghiên cứu các giải pháp cho hai thách thức của bài toán phân lớp
đa nhãn: (1) các nhãn có mối liên hệ với nhau, (2) dữ liệu có kích thước vô cùng lớn Để giải quyết thách thức thứ (1) ngoài các phương pháp học đa nhãn MLL đơn giản như: Binary relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), khóa luận nghiên cứu áp dụng các thuật toán: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], trong đó có tích hợp mối quan hệ đa nhãn vào phân lớp Về thách thức (2), khóa luận áp dụng các phân phối chủ đề
từ mô hình chủ đề ẩn LDA [9] cho việc giảm số chiều đặc trưng đầu vào, sau đó kết hợp các phương pháp học máy đa nhãn
Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập các văn bản tiếng Việt ở website (http://vnexpress.net/) với gần 3000 bài báo Tính hiệu quả của các phương pháp kết hợp giảm
số chiều đặc trưng vận dụng mô hình LDA, bổ sung đặc trưng từ mô hình chủ đề ẩn LDA và các phương pháp phân lớp đa nhãn MLL đã được đánh giá bằng thực nghiệm
Từ khóa : multi-label, classification
Trang 6iii
MULTI-LABEL CLASSICATION METHODS VIETNAMESE DOCUMENTS
Thao Nguyen Thi
QH-2009-I/CQ course, information technology faculty
Abtract thesis :
Multi-label Classification is one of the basic and important problems in the field of natural language processing It is the challenging research in many modern applications: music classification [1], protein classification [2] [3], sematic classification of images [4] [5], caption
of images [6]
Thesis research solutions for two challenges of multi-label classification problem: (1) labels are related together, (2) the size of data is extremely large To solve the first challenge (1) in addition to the multi-label learning methods of the simple MLL such as: Binary relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), thesis also researches to apply the algorithms: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], in which integrating multi-brand relationships into classification To solve the second challenge (2), thesis applied the distribution topics from hidden topic model – LDA [9] to reduce dimensionality of the feature input, then combining of multi-label machine learning methods
Thesis coducted experiments on the data domain is the set of Vietnamese documents in website (http://vnexpress.net/) with nearly 3000 articles The effectiveness of combining to reduce the feature of dimensionality methods which was applied LDA model, feature addition
of the hide topic model-LDA, and the MLL multi-label classification methods was evaluated
by experiment
Keywords: multi-label, classification
Trang 7iv
Lời cam đoan
Tôi xin cam đoan giải pháp giảm số chiều đặc trưng vận dụng mô hình chủ đề ẩn LDA và phương pháp học máy đa nhãn cho bài toán gán nhãn tiếng Việt được trình bày trong khóa luận này là do tôi thực hiện dưới sự hướng dẫn của Tiến sỹ Nguyễn Cẩm Tú
và Thạc sỹ Phạm Thị Ngân
Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Hà Nội, ngày 15 tháng 05 năm 2013
Tác giả
Nguyễn Thị Thảo
Trang 8v
MỤC LỤC
MỞ ĐẦU 1
Chương 1 Giới thiệu chung về đa nhãn và phân lớp đa nhãn 3
1.1 Đa nhãn - phân lớp đa nhãn 3
1.2 Bài toán phân lớp đa nhãn - những thách thức của bài toán phân lớp đa nhãn 5
1.2.1 Bài toán phân lớp đa nhãn: 5
1.2.2 Những thách thức của bài toán phân lớp đa nhãn 6
Kết luận chương một 6
Chương 2 Các phương pháp phân lớp đa nhãn và mô hình chủ đề ẩn 7
2.1 Các phương pháp Multi-Label Learning (MLL) 7
2.1.1 Binary relevance (BR) 7
2.1.2 Multi - label k-Nearest Neighbors (MLkNN) 7
2.1.3 Random k-labelsets (RAKEL) 11
2.1.4 ClassifierChain (CC) 11
2.2 Phương pháp và một số độ đo đánh giá các mô hình phân lớp đa nhãn 12
2.2.1 Phương pháp đánh giá các mô hình phân lớp đa nhãn 12
2.2.2 Một số độ đo để đánh giá mô hình phân lớp đa nhãn 13
2.3 Mô hình chủ đề ẩn LDA 14
2.3.1 Mô hình sinh LDA 15
2.3.2 Ước lượng giá trị tham số và inference thông qua Gibbs Sampling cho mô hình LDA 17
2.3.3 Một số ví dụ các chủ đề ẩn được sinh ra bởi LDA 18
Kết luận chương 2 20
Chương 3 Mô hình phân lớp đa nhãn cho văn bản tiếng việt 21
3.1 Mô tả phương pháp 21
3.2 Mô hình đề xuất 21
Trang 9vi
3.3 Pha 1 Huấn luyện mô hình 23
3.3.1 Quá trình tiền xử lý dữ liệu 23
3.3.2 Phân tích chủ đề ẩn LDA 24
3.3.3 Học máy đa nhãn 25
3.4 Pha 2 Phân lớp sử dụng mô hình 26
Kết luận chương ba 26
Chương 4 Thực nghiệm và đánh giá 27
4.1 Giới thiệu thực nghiệm 27
4.2 Môi trường và các công cụ sử dụng thực nghiệm 27
4.2.1 Cấu hình phần cứng 27
4.2.2 Các phần mềm sử dụng 28
4.3 Xây dựng tập dữ liệu 29
4.4 Thực nghiệm 32
4.5 Kết quả thực nghiệm 32
Kết luận 39
Tài liệu tham khảo 40
Trang 10vii
DANH SÁCH HÌNH VẼ
Hình 1.1 Ví dụ dữ liệu đa nhãn 3
Hình 1.2 Học giám sát truyền thống [10] 4
Hình 1.3 Học đa nhãn [10] 4
Hình 1.4 Bài toán phân lớp văn bản 5
Hình 2.1 Mã giả thuật toán ML-kNN 10
Hình 2.2 Mã giả thuật toán RAKEL 11
Hình 2.3 Mô hình sinh của LDA [17] 15
Hình 2.4 Mã giả các bước xử lí trong mô hình LDA 16
Hình 3.1 Mô hình đề xuất 22
Hình 4.1 Dạng file dữ liệu 31
Hình 4.2 So sánh thời gian giữa ba thực nghiệm 36
Hình 4.3 So sánh độ chính xác trung bình giữa 3 thực nghiệm 37
Trang 11viii
DANH SÁCH BẢNG BIỂU
Bảng 2.1 Chuyển đổi nhị phân giữa BR và CC [8] 12
Bảng 2.2 Minh họa phương pháp k-fold cross validation 12
Bảng 2.3 Mô hình chủ đề 5 18
Bảng 2.4 Mô hình chủ đề 11 19
Bảng 2.5Mô hình chủ đề 33 19
Bảng 4.1 Cấu hình hệ thống thử ngiệm 27
Bảng 4.2 Công cụ phát triển 28
Bảng 4.3 Danh sách một số nhãn 29
Bảng 4.4 Kết quả thực nghiệm 1 33
Bảng 4.5 Kết quả thực nghiệm 2 34
Bảng 4.6 Kết quả thực nghiệm 3 35
Trang 13Nguyễn Thị Thảo 1 Khóa luận tốt nghiệp
MỞ ĐẦU
Trong những năm gần đây, sự phát triển và ứng dụng của Internet, tạo ra khối lượng dữ liệu khổng lồ và tăng không ngừng Sự mở rộng và phát triển ứng dụng công nghệ thông tin rộng khắp đã và đang gây khó khăn cho việc lưu trữ cũng như tìm kiếm thông tin trên Internet Một phương pháp truyền thống cho quản lý thông tin là người dùng tự gán nhãn ngữ nghĩa (tagging) cho nội dung số (ảnh, tài liệu, văn bản) Tuy nhiên, việc gán nhãn thủ công cho các tài liệu số rất tốn thời gian và công sức
Bài toán phân lớp đa nhãn tự động là một trong những giải pháp cho các vấn đề nêu trên Khóa luận áp dụng các thuật toán phân lớp đa nhãn mới cho bài toán gán nhãn văn bản tiếng Việt
Khóa luận không chỉ áp dụng các phương pháp học đa nhãn MLL (Multi Label Learning) đơn giản như: Binary relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), mà còn nghiên cứu áp dụng các thuật toán: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], trong đó có tích hợp mối quan hệ đa nhãn vào phân lớp Ngoài ra, khóa luận còn áp dụng các phân phối chủ đề từ mô hình chủ đề ẩn LDA [9] cho việc giảm số chiều đặc trưng đầu vào, sau đó kết hợp các phương pháp học máy đa nhãn
Đóng góp của khóa luận có bốn phần:
1) Nghiên cứu và đánh giá các thuật toán phân lớp đa nhãn dựa trên thực nghiệm
2) Áp dụng các phương pháp học máy đa nhãn cho bài toán gán nhãn tiếng Việt
3) Đánh giá phương pháp kết hợp giảm số chiều đặc trưng vận dụng mô hình LDA và các phương pháp phân lớp đa nhãn
4) Làm giàu đặc trưng từ mô hình chủ đề ẩn LDA, sau đó kết hợp với các phương pháp phân lớp đa nhãn
Nội dung của khóa luận được chia thành các chương như sau:
Chương 1: Giới thiệu khái quát về đa nhãn và phân lớp đa nhãn văn bản Ngoài
ra, khóa luận còn trình bày thách thức của phân lớp đa nhãn Từ đó, khóa luận nêu ý nghĩa của lựa chọn đặc trưng
Chương 2: Trình bày về các phương pháp phân lớp đa nhãn mà khóa luận sẽ áp
dụng Tiếp theo, khóa luận còn trình bày về phương pháp đánh giá các mô hình phân
Trang 14Nguyễn Thị Thảo 2 Khóa luận tốt nghiệp
lớp đa nhãn và đưa ra một số độ đo đánh giá chúng mà khóa luận sẽ cài đặt Cuối cùng, khóa luận trình bày khái quát về mô hình chủ đề ẩn LDA
Chương 3: Khóa luận trình bày về bài toán phân lớp đa nhãn trong văn bản Khóa
luận áp dụng ba phương pháp biểu diễn dữ liệu (TF, LDA, TF+LDA) trong đó phương pháp LDA là nhằm giảm số chiều dữ liệu, và phương pháp TF+LDA nhằm làm giàu biểu diễn TF với các chủ đề ẩn của LDA Các phương pháp biểu diễn này sau đó được kết hợp với các phương pháp phân lớp đa nhãn MLL
Chương 4: Khóa luận trình bày một số thực nghiệm cho các mô hình cho bài toán
phân lớp đa nhãn tiếng Việt Khóa luận đánh giá bốn phương pháp phân lớp đa nhãn với
ba phương pháp biểu diễn dữ liệu cho dữ liệu tiếng Việt trên trang web http://vnexpress.net
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển
tương lai
Trang 15
Nguyễn Thị Thảo 3 Khóa luận tốt nghiệp
ĐA NHÃN
Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại dữ liệu trong đó mỗi dữ liệu có thể thuộc đồng thời vào nhiều nhãn khác nhau Ví dụ, dữ liệu đa nhãn:
Hình 1.1 Ví dụ dữ liệu đa nhãn
Trong ví dụ trên, phần đầu chính là nội dung của bài báo “Tăng cường trách nhiệm
cá nhân của Thủ tướng” Nội dung đó, có đa nhãn là phần dưới của Hình 1.1: “Hiến pháp 1992”, “Bộ Tư pháp”, “Hoàng Thế Liên”, “sửa đổi Hiến pháp”
Theo cách truyền thống, đơn nhãn dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định Nó được định nghĩa như sau:
Cho X là không gian thể hiện, Y là tập của các nhãn lớp Theo Zhi-Hua Zhou và các đồng nghiệp [10], đơn nhãn đơn thể hiện (học giám sát truyền thống), để học một hàm f: X → Y từ một tập dữ liệu {(x1, y1), (x2, y2) … (xm, ym)}, với xi 𝜖 X là một thể hiện và yi 𝜖 Y là nhãn xác định của xi
Trang 16Nguyễn Thị Thảo 4 Khóa luận tốt nghiệp
Hình 1.2 Học giám sát truyền thống [10]
Trong thực tế, dữ liệu đa nhãn gặp nhiều trong thực tế hơn là dữ liệu đơn nhãn Theo Theo Zhi-Hua Zhou và các đồng nghiệp [10], học đa nhãn (đơn thể hiện) được định nghĩa như sau:
Để học một hàm f: X → 2y từ tập dữ liệu {(x1, Y1), (x2, Y2) … (xm, Ym)}, với xi 𝜖
X là một thể hiện và Yi Y là tập của các nhãn {yi1, yi2 … yi,li}, yik 𝜖 Y (k = 1, 2
… li) Với, li là số của các nhãn trong Yi
Hình 1.3 Học đa nhãn [10]
Theo Grigorios Tsoumakas và Ioannis Vlahavas [11], phân lớp đơn nhãn truyền thống chỉ liên quan đến một nhãn λ từ tập hợp các nhãn tách rời nhau L, với |L| > 1 (đơn nhãn chỉ thuộc vào một nhãn cố định) Nếu |L| = 2, gọi là phân lớp nhị phân Nếu |L| >
2, gọi là phân lớp đa nhãn Trong phân lớp đa nhãn, tập các ví dụ là kết hợp tập của tập các nhãn 𝑌 ⊂ 𝐿
Phân lớp văn bản (Text Classification) là quá trình gán nhãn các văn bản ngôn ngữ
tự nhiên một cách tự động vào một hoặc nhiều lớp cho trước
Trang 17Nguyễn Thị Thảo 5 Khóa luận tốt nghiệp
Hình 1.4 Bài toán phân lớp văn bản
Ngày nay, hầu hết các thông tin được sinh ra và lưu trữ điện tử, sự mở rộng và phát triển ứng dụng công nghệ thông tin rộng khắp … đã tạo ra nguồn thông tin vô cùng phong phú Để dễ quản lí và lưu trữ dữ liệu, một trong những phương pháp truyền thống
là người dùng tự gán nhãn ngữ nghĩa (tagging) cho nội dung số (ảnh, tài liệu, văn bản) Tuy nhiên, việc gán nhãn thủ công cho các tài liệu số rất tốn thời gian và công sức Do
đó, khóa luận xây dựng bộ phân lớp đa nhãn cho văn bản Phân lớp đa nhãn văn bản là nhiệm vụ phân loại tài liệu trong đó mỗi tài liệu có thể đồng thời thuộc nhiều nhãn khác nhau Các kĩ thuật phân lớp văn bản sẽ giúp cho nguồn dữ liệu này được lưu trữ tự động một cách hiệu quả và được tìm kiếm nhanh chóng
Bài toán phân lớp đa nhãn đã được nghiên cứu khá rộng rãi từ vài năm gần đây,
từ đó dẫn tới sự phát triển của rất nhiều thuật toán phân lớp Một trong những cách tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực hiện chuyển đổi về phân lớp dữ liệu đơn nhãn Sau đó, sử dụng trực tiếp các thuật toán học máy để phân loại dữ liệu đơn nhãn Một số phương pháp phân loại dữ liệu đa nhãn điển hình như: Binary relevance (BR) [12], Multi-label k-Nearest Neighbors (MLkNN) [13], Random k-labelsets (RAKEL) [7], ClassifierChain [8]
1.2 Bài toán phân lớp đa nhãn - những thách thức của bài toán phân lớp đa nhãn
1.2.1 Bài toán phân lớp đa nhãn:
Đầu vào: Tập các văn bản
Đầu ra: Mô hình bộ phân lớp đa nhãn
Tập văn bản
Thuật toán phân lớp
Lớp 1
Lớp 2
Lớp n
Trang 18Nguyễn Thị Thảo 6 Khóa luận tốt nghiệp
1.2.2 Những thách thức của bài toán phân lớp đa nhãn
Bài toán phân lớp đa nhãn có vai trò quan trọng trong thực tiễn, nó có nhiều ứng dụng trong cuộc sống hiện đại Tuy nhiên, Bài toán phân lớp đa nhãn đặt ra hai thách thức: (1) các nhãn có mối liên hệ với nhau, (2) dữ liệu có kích thước vô cùng lớn.Trong hầu hết cácứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn dữ liệu có kích thước rất lớn Dữ liệu có kích thước lớn nên tập từ vựng của tập hợp văn bản lại vô cùng lớn, ví dụ tập dữ liệu của khóa luận có 2694 bài báo, tập hợp dữ liệu có 36 457 từ mục khác nhau Chính vì số lượng từ mục lớn như vậy nên việc tìm kiếm tập các đặc trưng trở lên khó khăn Với tập văn bản, mỗi văn bản có thể thuộc vào nhiều nhãn khác nhau,
và mỗi văn bản được biểu diễn bằng một tập đặc trưng Bên cạnh đó, nhiều thuộc tính không mang thông tin, nhập nhằng hoặc bị nhiễu
Do đó, lựa chọn đặc trưng có ý nghĩa và tầm quan trọng rất lớn trong thực tế, đặc biệt là đối với một số phương pháp bị ảnh hưởng rất lớn vào yếu tố đầu vào Lựa chọn đặc trưng là lựa chọn những thuộc tính mang nhiều thông tin nhất thong tập thuộc tính
và loại bỏ những thuộc tính nhiễu Để giải quyết vấn đề đó, ta chỉ giữ những từ mục có giá trị về thông tin Lựa chọn đặc trưng giúp giảm thời gian học và tăng chất lượng dự đoán
Kết luận chương một
Trong chương này, khóa luận giới thiệu khái quát về một số khái niệm, nội dung của đa nhãn và phân lớp đa nhãn văn bản Ngoài ra, khóa luận còn phát biểu được bài toán đa nhãn văn bản và nêu lên tầm quan trọng của lựa chọn đặc trưng đối với bài toán phân lớp đa nhãn
Chương tiếp theo, khóa luận sẽ giới thiệu, phân tích một số phương pháp học phân lớp đa nhãn mà khóa luận sẽ áp dụng Đồng thời, khóa luận còn làm rõ mô hình chủ đề
ẩn LDA cho việc giảm số chiều đặc trưng
Trang 19Nguyễn Thị Thảo 7 Khóa luận tốt nghiệp
dữ liệu theo phương pháp này:
Bảng 2.1Biểu diễn dữ liệu theo phương pháp nhị phân
Example Label 0 Label 1 (⌐ label 0) … (⌐ label 0) Label 99 (⌐ label 0)
Example Label 0(⌐label 1) Label 1 … (⌐label 1) Label 99 (⌐ label 1)
2.1.2 Multi - label k-Nearest Neighbors (MLkNN)
Thuật toán kNN [14] (k-Nearest Neighbors) là phương pháp học máy được sử dụng rộng rãi, thuật toán tìm hàng xóm gần nhất của một đối tượng thử nghiệm trong không gian đặc trưng
Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nó được xây dựng bằng cách lưu trữ tất cả các đối tượng trong tập huấn luyện Để phân lớp cho một điểm dữ liệu mới x’, trước hết bộ phân lớp
sẽ tính khoảng cách từ điểm dữ liệu mới tới các điểm dữ liệu trong tập huấn luyện Qua
đó tìm được tập N (x’, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x’ gần nhất
Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách Euclidean để tính khoảng cách giữa các điểm dữ liệu với nhau Sau
Trang 20Nguyễn Thị Thảo 8 Khóa luận tốt nghiệp
khi xác định được tập N (x’, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x’ bằng lớp chiếm đại đa số trong tập N (x’, D, k)
Công thức tính Euclidean để tính khoảng cách giữa các điểm dữ liệu: Giả sử có hai phần tử dữ liệu X1=(x11, x12 … x1n) và X2=(x21, x22, x2n), độ đo khoảng cách Euclide được tính bằng công thức:
𝐷𝑖𝑠𝑡(𝑋1, 𝑋2) = √∑(𝑥1𝑖 − 𝑥2𝑖)
𝑛
𝑖=1
2
Mô tả thuật toán:
Đầu vào: tập dữ liệu học D đã có nhãn và đối tượng kiểm tra z
Tiến trình:
- Tính d (x, x’) khoảng cách giữa đối tượng kiểm tra và mọi đối tượng (x, y) ϵ D
- Lựa chọn tập Dz gồm k đối tượng ϵ
Đầu ra: nhãn của đối tượng kiểm tra được xác định là
- X là đối tượng xét, y là nhãn của nó
Nhược điểm của thuật toán k-NN: Đòi hỏi không gian lưu trữ lớn
Thuật toán MLkNN [13] là thuật toán k-NN áp dụng cho bài toán gán đa nhãn Phát biểu bài toán: cho 1 thể hiện x và tập nhãn kết hợp Y ү, k láng giềng được nhắc tới trong phương pháp ML-KNN Cho là yx vector phân loại cho x, với l-th là thành phần yx (l) (l ү) mang giá trị 1 nếu l Y và 0 trong trường hợp ngược lại Thêm vào đó, cho N (x) tập của k láng giềng của x trong tập dữ liệu huấn luyện Theo đó, nền tảng trên tập nhãn của những người hàng xóm láng giềng, một vector thành viên được định nghĩa như sau:
Trang 21Nguyễn Thị Thảo 9 Khóa luận tốt nghiệp
Cx tổng số trong láng giềng x tới lớp thứ l
Trong mỗi trường hợp kiểm tra t, ML-KNN có k hàng xóm N (t) trong mỗi tập huấn luyện Kí hiệu Hl
Trang 22Nguyễn Thị Thảo 10 Khóa luận tốt nghiệp
// Tính toán xác suất trước P (Hl
b) (3) Nhận dạng N (xi), i {1, 2 … m};
j | H l
0 ) = (s + c’[j]) / (s x (K + 1) +
k
p 0c' [p]) // tính toán yt và N t
H
) (
Trang 23Nguyễn Thị Thảo 11 Khóa luận tốt nghiệp
2.1.3 Random k-labelsets (RAKEL)
Phương pháp Label Powerset (LP) là một phương pháp chuyển đổi của phân lớp
dữ liệu đa nhãn mà có xem xét đến sự phụ thuộc của các nhãn lớp Ý tưởng của phương pháp này là coi một tập con các nhãn như là một nhãn và tiến hành phân lớp như việc phân lớp dữ liệu đơn nhãn Theo phương pháp này thì số lượng các tập con nhãn được tạo ra là rất lớn, Grigorios và đồng nghiệp [11] đã đề xuất phương pháp RAKEL với mục đích tính đến độ tương quan giữa các nhãn, đồng thời tránh những vấn đề nói trên của LP
Định nghĩa tập K nhãn, cho tập nhãn L của phân lớp đa nhãn, L= {λi}, với i = 1…|L| Một tập Y L với K = |L| gọi là tập K nhãn Ta sử dụng giới hạn LK là tập của tất cả tập nhãn K khác nhau trên L Kích thước LK cho bởi công thức: |LK| = (|L|
K) Thuật toán RAKEL là cấu trúc toàn bộ của m phân loại LP, với i = 1 …m, chọn ngẫu nhiên một tập K nhãn, Yi, từ Lk Sau đó, học phân loại LP ℎ𝑖: 𝑋 → 𝑃(𝑌𝑖) Thủ tục của RAKEL:
Đầu vào: số của các mô hình m, kích thước của tập K nhãn, tập của các
Hình 2.2 Mã giả thuật toán RAKEL
Số của sự lặp lại (m) là một tham số cụ thể cùng dãy giá trị có thể chấp nhận được
từ 1 tới |LK| Kích cỡ của tập K nhãn là một tham số cụ thể cùng dãy giá trị từ 2 tới |L|
-1 Cho K = 1 và m = |L| ta phân loại toàn bộ nhị phân của phương pháp Binary Relevance, khi K = |L| (m = 1) Giả thiết việc sử dụng tập nhãn có kích thước nhỏ, số lặp vừa đủ, khi đó Rakel sẽ quản lý để mô hình nhãn tương quan hiệu quả
2.1.4 ClassifierChain (CC)
Thuật toán này bao gồm chuyển đổi nhị phân L như BR Thuật toán này khác với thuật toán BR trong không gian thuộc tính cho mỗi mô hình nhị phân, nó được mở rộng
Trang 24Nguyễn Thị Thảo 12 Khóa luận tốt nghiệp
cùng nhãn 0/1 cho tất cả phân lớp trước đó [8] Ví dụ, chuyển đổi giữa BR và CC cho (x, y) với y = [1, 0, 0, 1, 0] và x = [0, 1, 0, 1, 0, 0, 1, 1, 0] (giả sử, cho đơn giản, không
gian nhị phân) Mỗi phân loại hj được huấn luyện dự đoán yj ϵ {0, 1}
Bảng 2.1 Chuyển đổi nhị phân giữa BR và CC [8]
h: x→ y h: x’→ y h1: [0, 1, 0, 1, 0, 0, 1, 1, 0] 1
2.2.1 Phương pháp đánh giá các mô hình phân lớp đa nhãn
Để đánh giá các mô hình phân lớp đa nhãn MLL, khóa luận đã sử dụng phương pháp k-fold cross validation tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2 … Sk Quá trình học và kiểm tra được thực hiện tại k lần Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập còn lại hợp thành dữ liệu huấn luyện Có nghĩa là, đầu tiên chạy được thực hiện trên tập S2, S3 … Sk, sau đó test trên tập S1; tiếp tục quá trình dạy được thực hiện trên tập S1, S3, S4 … Sk, sau đó test trên tập S2; và cứ tiếp tục như thế
Ví dụ, k = 10, thì phương pháp k-fold cross validation được minh họa hình dưới:
Bảng 2.2 Minh họa phương pháp k-fold cross validation
Trang 25Nguyễn Thị Thảo 13 Khóa luận tốt nghiệp
2.2.2 Một số độ đo để đánh giá mô hình phân lớp đa nhãn
Đánh giá kết quả phương pháp phân lớp đa nhãn có sự khác biệt với đơn nhãn Khóa luận đánh giá các phương pháp phân lớp đa nhãn dựa trên một số độ đo sau: Hamming Loss [15], One-error [15], Coverage [15], Ranking Loss [15], Average Precision, Mean Average Precision
Cho một tập S = {(x1, Y1) … (xn, Yn)} của n ví dụ kiểm tra Cho Y*i = h (xi) là tập hợp nhãn dự đoán cho kiểm tra xi, khi Yi là tập nhãn cho xi
Hamming Loss: độ mất mát dữ liệu, được tính như sau:
hloss (h) = 1
𝑄
𝑛 𝑖=1 ∑𝑄𝑞=1(𝛿(𝑞 𝜖 𝑌 ∗𝑖 𝛬 𝑞 )𝑌𝑖) + 𝛿 (q 𝑌 ∗𝑖 𝛬 𝑞𝜖𝑌𝑖) Trong đó, 𝛿 là một hàm mà đầu ra là 1 nếu một nội dung đúng và 0 trong trường hợp ngược lại Nhỏ hơn giá trị của hloss (h), thực thi tốt hơn Trong Trường hợp lí tưởng, hloss (h) = 0
One-error: đánh giá lỗi cho nhãn xếp hạng đầu:
Coverage: Để đánh giá hiệu suất của một hệ thống cho tất cả các nhãn của một
mẫu (đếm số lượng tất cả các nhãn) Coverage được định nghĩa như khoảng cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm:
Trang 26Nguyễn Thị Thảo 14 Khóa luận tốt nghiệp
Average Precision: độ chính xác trung bình của P@K tại các mức K có đối tượng
đúng Gọi I (K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) = 1 và ngược lại I(K) = 0, khi đó:
AP = ∑𝑛𝐾=1𝑃@𝐾 𝑋 𝐼(𝐾)
∑𝑛𝑗=1𝐼(𝑗)Với n là số đối tượng được xét, P@K là độ chính xác của K đối tượng đầu bảng xếp hạng Xác định số đối tượng đúng ở K vị trí đầu tiên của xếp hạng và gọi là
Match@K và ta có P@K = 𝑀𝑎𝑡𝑐ℎ@𝐾
𝐾
Mean Average Precision: Độ chính xác trung bình trên N xếp hạng (N truy vấn,
mỗi truy vấn có một thứ tự xếp hạng kết quả tương ứng)
MAP = ∑ 𝐴𝑃𝑖
𝑁 𝑖=1𝑁Xét ví dụ: giả sử có có 5 đối tượng được xếp hạng tương ứng là: c, a, e, b, d
Một xếp hạng của đối tượng cần đánh giá là: c, a, e, d, b
Mô hình phân tích chủ đề LDA (Latent Dirichlet Allocation) là một mô hình sinh xác suất cho tập dữ liệu rời rạc dựa trên phân phối Dirichlet, được David M Blei, Andrew Y Ng và Michael I Jordan xây dựng vào năm 2003 [9]