CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thảo CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Thảo

CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN

VĂN BẢN TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠ HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

Hà Nội - 2013

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN

VĂN BẢN TIẾNG VIỆT

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: TS Nguyễn Cẩm Tú

Cán bộ đồng hướng dẫn: ThS Phạm Thị Ngân

Hà Nội - 2013

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Thao Nguyen Thi

MULTI-LABEL CLASSICATION METHODS

VIETNAMESE DOCUMENTS

Major: Information Technology

Supervisor: Ph.D Tu Nguyen Cam

Co-Supervisor: MSc Ngan Pham Thi

HA NOI - 2013

Trang 4

i

Lời cảm ơn

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo Hà Quang Thụy, các chị, TS Nguyễn Cẩm Tú và ThS Phạm Thị Ngân đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận

Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin

đã truyền đạt kiến thức quý báu cho em bốn năm vừa qua

Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt nghiệp khóa luận

Con xin nói lên lòng biết ơn vô hạn đối với Cha Dì, anh chị em trong gia đình luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn; đặc biệt là Mẹ nơi suối vàng luôn là động lực mỗi khi tôi gặp khó khăn trên đường đời Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K54CB, K54CLC và đặc biệt là các thành viên của phòng 214A-KTX Ngoại Ngữ đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài khóa luận này

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 15 tháng 05 năm 2013

Sinh viên

Nguyễn Thị Thảo

Trang 5

ii

CÁC PHƯƠNG PHÁP PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT

Khóa QH-2009-I/CQ, ngành công nghệ thông tin

Tóm tắt Khóa luận tốt nghiệp:

Phân lớp đa nhãn là một trong những bài toán cơ bản và quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên Nó là một nghiên cứu đầy thách thức trong nhiều ứng dụng hiện đại: phân loại âm nhạc [1], chức năng phân loại protein [2] [3] , phân loại ngữ nghĩa của hình ảnh [4] [5], chú thích ảnh [6]

Khóa luận quan tâm nghiên cứu các giải pháp cho hai thách thức của bài toán phân lớp

đa nhãn: (1) các nhãn có mối liên hệ với nhau, (2) dữ liệu có kích thước vô cùng lớn Để giải quyết thách thức thứ (1) ngoài các phương pháp học đa nhãn MLL đơn giản như: Binary relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), khóa luận nghiên cứu áp dụng các thuật toán: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], trong đó có tích hợp mối quan hệ đa nhãn vào phân lớp Về thách thức (2), khóa luận áp dụng các phân phối chủ đề

từ mô hình chủ đề ẩn LDA [9] cho việc giảm số chiều đặc trưng đầu vào, sau đó kết hợp các phương pháp học máy đa nhãn

Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập các văn bản tiếng Việt ở website (http://vnexpress.net/) với gần 3000 bài báo Tính hiệu quả của các phương pháp kết hợp giảm

số chiều đặc trưng vận dụng mô hình LDA, bổ sung đặc trưng từ mô hình chủ đề ẩn LDA và các phương pháp phân lớp đa nhãn MLL đã được đánh giá bằng thực nghiệm

Từ khóa : multi-label, classification

Trang 6

iii

MULTI-LABEL CLASSICATION METHODS VIETNAMESE DOCUMENTS

Thao Nguyen Thi

QH-2009-I/CQ course, information technology faculty

Abtract thesis :

Multi-label Classification is one of the basic and important problems in the field of natural language processing It is the challenging research in many modern applications: music classification [1], protein classification [2] [3], sematic classification of images [4] [5], caption

of images [6]

Thesis research solutions for two challenges of multi-label classification problem: (1) labels are related together, (2) the size of data is extremely large To solve the first challenge (1) in addition to the multi-label learning methods of the simple MLL such as: Binary relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), thesis also researches to apply the algorithms: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], in which integrating multi-brand relationships into classification To solve the second challenge (2), thesis applied the distribution topics from hidden topic model – LDA [9] to reduce dimensionality of the feature input, then combining of multi-label machine learning methods

Thesis coducted experiments on the data domain is the set of Vietnamese documents in website (http://vnexpress.net/) with nearly 3000 articles The effectiveness of combining to reduce the feature of dimensionality methods which was applied LDA model, feature addition

of the hide topic model-LDA, and the MLL multi-label classification methods was evaluated

by experiment

Keywords: multi-label, classification

Trang 7

iv

Lời cam đoan

Tôi xin cam đoan giải pháp giảm số chiều đặc trưng vận dụng mô hình chủ đề ẩn LDA và phương pháp học máy đa nhãn cho bài toán gán nhãn tiếng Việt được trình bày trong khóa luận này là do tôi thực hiện dưới sự hướng dẫn của Tiến sỹ Nguyễn Cẩm Tú

và Thạc sỹ Phạm Thị Ngân

Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày 15 tháng 05 năm 2013

Tác giả

Nguyễn Thị Thảo

Trang 8

v

MỤC LỤC

MỞ ĐẦU 1

Chương 1 Giới thiệu chung về đa nhãn và phân lớp đa nhãn 3

1.1 Đa nhãn - phân lớp đa nhãn 3

1.2 Bài toán phân lớp đa nhãn - những thách thức của bài toán phân lớp đa nhãn 5

1.2.1 Bài toán phân lớp đa nhãn: 5

1.2.2 Những thách thức của bài toán phân lớp đa nhãn 6

Kết luận chương một 6

Chương 2 Các phương pháp phân lớp đa nhãn và mô hình chủ đề ẩn 7

2.1 Các phương pháp Multi-Label Learning (MLL) 7

2.1.1 Binary relevance (BR) 7

2.1.2 Multi - label k-Nearest Neighbors (MLkNN) 7

2.1.3 Random k-labelsets (RAKEL) 11

2.1.4 ClassifierChain (CC) 11

2.2 Phương pháp và một số độ đo đánh giá các mô hình phân lớp đa nhãn 12

2.2.1 Phương pháp đánh giá các mô hình phân lớp đa nhãn 12

2.2.2 Một số độ đo để đánh giá mô hình phân lớp đa nhãn 13

2.3 Mô hình chủ đề ẩn LDA 14

2.3.1 Mô hình sinh LDA 15

2.3.2 Ước lượng giá trị tham số và inference thông qua Gibbs Sampling cho mô hình LDA 17

2.3.3 Một số ví dụ các chủ đề ẩn được sinh ra bởi LDA 18

Kết luận chương 2 20

Chương 3 Mô hình phân lớp đa nhãn cho văn bản tiếng việt 21

3.1 Mô tả phương pháp 21

3.2 Mô hình đề xuất 21

Trang 9

vi

3.3 Pha 1 Huấn luyện mô hình 23

3.3.1 Quá trình tiền xử lý dữ liệu 23

3.3.2 Phân tích chủ đề ẩn LDA 24

3.3.3 Học máy đa nhãn 25

3.4 Pha 2 Phân lớp sử dụng mô hình 26

Kết luận chương ba 26

Chương 4 Thực nghiệm và đánh giá 27

4.1 Giới thiệu thực nghiệm 27

4.2 Môi trường và các công cụ sử dụng thực nghiệm 27

4.2.1 Cấu hình phần cứng 27

4.2.2 Các phần mềm sử dụng 28

4.3 Xây dựng tập dữ liệu 29

4.4 Thực nghiệm 32

4.5 Kết quả thực nghiệm 32

Kết luận 39

Tài liệu tham khảo 40

Trang 10

vii

DANH SÁCH HÌNH VẼ

Hình 1.1 Ví dụ dữ liệu đa nhãn 3

Hình 1.2 Học giám sát truyền thống [10] 4

Hình 1.3 Học đa nhãn [10] 4

Hình 1.4 Bài toán phân lớp văn bản 5

Hình 2.1 Mã giả thuật toán ML-kNN 10

Hình 2.2 Mã giả thuật toán RAKEL 11

Hình 2.3 Mô hình sinh của LDA [17] 15

Hình 2.4 Mã giả các bước xử lí trong mô hình LDA 16

Hình 3.1 Mô hình đề xuất 22

Hình 4.1 Dạng file dữ liệu 31

Hình 4.2 So sánh thời gian giữa ba thực nghiệm 36

Hình 4.3 So sánh độ chính xác trung bình giữa 3 thực nghiệm 37

Trang 11

viii

DANH SÁCH BẢNG BIỂU

Bảng 2.1 Chuyển đổi nhị phân giữa BR và CC [8] 12

Bảng 2.2 Minh họa phương pháp k-fold cross validation 12

Bảng 2.3 Mô hình chủ đề 5 18

Bảng 2.4 Mô hình chủ đề 11 19

Bảng 2.5Mô hình chủ đề 33 19

Bảng 4.1 Cấu hình hệ thống thử ngiệm 27

Bảng 4.2 Công cụ phát triển 28

Bảng 4.3 Danh sách một số nhãn 29

Bảng 4.4 Kết quả thực nghiệm 1 33

Trang 13

Nguyễn Thị Thảo 1 Khóa luận tốt nghiệp

MỞ ĐẦU

Trong những năm gần đây, sự phát triển và ứng dụng của Internet, tạo ra khối lượng dữ liệu khổng lồ và tăng không ngừng Sự mở rộng và phát triển ứng dụng công nghệ thông tin rộng khắp đã và đang gây khó khăn cho việc lưu trữ cũng như tìm kiếm thông tin trên Internet Một phương pháp truyền thống cho quản lý thông tin là người dùng tự gán nhãn ngữ nghĩa (tagging) cho nội dung số (ảnh, tài liệu, văn bản) Tuy nhiên, việc gán nhãn thủ công cho các tài liệu số rất tốn thời gian và công sức

Bài toán phân lớp đa nhãn tự động là một trong những giải pháp cho các vấn đề nêu trên Khóa luận áp dụng các thuật toán phân lớp đa nhãn mới cho bài toán gán nhãn văn bản tiếng Việt

Khóa luận không chỉ áp dụng các phương pháp học đa nhãn MLL (Multi Label Learning) đơn giản như: Binary relevance (BR), Multi-label k-Nearest Neighbors (MLkNN), mà còn nghiên cứu áp dụng các thuật toán: Random k-labelsets (RAKEL) [7], ClassifierChain (CC) [8], trong đó có tích hợp mối quan hệ đa nhãn vào phân lớp Ngoài ra, khóa luận còn áp dụng các phân phối chủ đề từ mô hình chủ đề ẩn LDA [9] cho việc giảm số chiều đặc trưng đầu vào, sau đó kết hợp các phương pháp học máy đa nhãn

Đóng góp của khóa luận có bốn phần:

1) Nghiên cứu và đánh giá các thuật toán phân lớp đa nhãn dựa trên thực nghiệm

2) Áp dụng các phương pháp học máy đa nhãn cho bài toán gán nhãn tiếng Việt

3) Đánh giá phương pháp kết hợp giảm số chiều đặc trưng vận dụng mô hình LDA và các phương pháp phân lớp đa nhãn

4) Làm giàu đặc trưng từ mô hình chủ đề ẩn LDA, sau đó kết hợp với các phương pháp phân lớp đa nhãn

Nội dung của khóa luận được chia thành các chương như sau:

Chương 1: Giới thiệu khái quát về đa nhãn và phân lớp đa nhãn văn bản Ngoài

ra, khóa luận còn trình bày thách thức của phân lớp đa nhãn Từ đó, khóa luận nêu ý nghĩa của lựa chọn đặc trưng

Chương 2: Trình bày về các phương pháp phân lớp đa nhãn mà khóa luận sẽ áp

dụng Tiếp theo, khóa luận còn trình bày về phương pháp đánh giá các mô hình phân

Trang 14

lớp đa nhãn và đưa ra một số độ đo đánh giá chúng mà khóa luận sẽ cài đặt Cuối cùng, khóa luận trình bày khái quát về mô hình chủ đề ẩn LDA

Chương 3: Khóa luận trình bày về bài toán phân lớp đa nhãn trong văn bản Khóa

luận áp dụng ba phương pháp biểu diễn dữ liệu (TF, LDA, TF+LDA) trong đó phương pháp LDA là nhằm giảm số chiều dữ liệu, và phương pháp TF+LDA nhằm làm giàu biểu diễn TF với các chủ đề ẩn của LDA Các phương pháp biểu diễn này sau đó được kết hợp với các phương pháp phân lớp đa nhãn MLL

Chương 4: Khóa luận trình bày một số thực nghiệm cho các mô hình cho bài toán

phân lớp đa nhãn tiếng Việt Khóa luận đánh giá bốn phương pháp phân lớp đa nhãn với

ba phương pháp biểu diễn dữ liệu cho dữ liệu tiếng Việt trên trang web http://vnexpress.net

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển

tương lai

Trang 15

ĐA NHÃN

Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại dữ liệu trong đó mỗi dữ liệu có thể thuộc đồng thời vào nhiều nhãn khác nhau Ví dụ, dữ liệu đa nhãn:

Hình 1.1 Ví dụ dữ liệu đa nhãn

Trong ví dụ trên, phần đầu chính là nội dung của bài báo “Tăng cường trách nhiệm

cá nhân của Thủ tướng” Nội dung đó, có đa nhãn là phần dưới của Hình 1.1: “Hiến pháp 1992”, “Bộ Tư pháp”, “Hoàng Thế Liên”, “sửa đổi Hiến pháp”

Theo cách truyền thống, đơn nhãn dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định Nó được định nghĩa như sau:

Cho X là không gian thể hiện, Y là tập của các nhãn lớp Theo Zhi-Hua Zhou và các đồng nghiệp [10], đơn nhãn đơn thể hiện (học giám sát truyền thống), để học một hàm f: X → Y từ một tập dữ liệu {(x1, y1), (x2, y2) … (xm, ym)}, với xi 𝜖 X là một thể hiện và yi 𝜖 Y là nhãn xác định của xi

Trang 16

Hình 1.2 Học giám sát truyền thống [10]

Trong thực tế, dữ liệu đa nhãn gặp nhiều trong thực tế hơn là dữ liệu đơn nhãn Theo Theo Zhi-Hua Zhou và các đồng nghiệp [10], học đa nhãn (đơn thể hiện) được định nghĩa như sau:

Để học một hàm f: X → 2y từ tập dữ liệu {(x1, Y1), (x2, Y2) … (xm, Ym)}, với xi 𝜖

X là một thể hiện và Yi Y là tập của các nhãn {yi1, yi2 … yi,li}, yik 𝜖 Y (k = 1, 2

… li) Với, li là số của các nhãn trong Yi

Hình 1.3 Học đa nhãn [10]

Theo Grigorios Tsoumakas và Ioannis Vlahavas [11], phân lớp đơn nhãn truyền thống chỉ liên quan đến một nhãn λ từ tập hợp các nhãn tách rời nhau L, với |L| > 1 (đơn nhãn chỉ thuộc vào một nhãn cố định) Nếu |L| = 2, gọi là phân lớp nhị phân Nếu |L| >

2, gọi là phân lớp đa nhãn Trong phân lớp đa nhãn, tập các ví dụ là kết hợp tập của tập các nhãn 𝑌 ⊂ 𝐿

Phân lớp văn bản (Text Classification) là quá trình gán nhãn các văn bản ngôn ngữ

tự nhiên một cách tự động vào một hoặc nhiều lớp cho trước

Trang 17

Hình 1.4 Bài toán phân lớp văn bản

Ngày nay, hầu hết các thông tin được sinh ra và lưu trữ điện tử, sự mở rộng và phát triển ứng dụng công nghệ thông tin rộng khắp … đã tạo ra nguồn thông tin vô cùng phong phú Để dễ quản lí và lưu trữ dữ liệu, một trong những phương pháp truyền thống

là người dùng tự gán nhãn ngữ nghĩa (tagging) cho nội dung số (ảnh, tài liệu, văn bản) Tuy nhiên, việc gán nhãn thủ công cho các tài liệu số rất tốn thời gian và công sức Do

đó, khóa luận xây dựng bộ phân lớp đa nhãn cho văn bản Phân lớp đa nhãn văn bản là nhiệm vụ phân loại tài liệu trong đó mỗi tài liệu có thể đồng thời thuộc nhiều nhãn khác nhau Các kĩ thuật phân lớp văn bản sẽ giúp cho nguồn dữ liệu này được lưu trữ tự động một cách hiệu quả và được tìm kiếm nhanh chóng

Bài toán phân lớp đa nhãn đã được nghiên cứu khá rộng rãi từ vài năm gần đây,

từ đó dẫn tới sự phát triển của rất nhiều thuật toán phân lớp Một trong những cách tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực hiện chuyển đổi về phân lớp dữ liệu đơn nhãn Sau đó, sử dụng trực tiếp các thuật toán học máy để phân loại dữ liệu đơn nhãn Một số phương pháp phân loại dữ liệu đa nhãn điển hình như: Binary relevance (BR) [12], Multi-label k-Nearest Neighbors (MLkNN) [13], Random k-labelsets (RAKEL) [7], ClassifierChain [8]

1.2 Bài toán phân lớp đa nhãn - những thách thức của bài toán phân lớp đa nhãn

1.2.1 Bài toán phân lớp đa nhãn:

Đầu vào: Tập các văn bản

Đầu ra: Mô hình bộ phân lớp đa nhãn

Tập văn bản

Thuật toán phân lớp

Lớp 1

Lớp 2

Lớp n

Trang 18

1.2.2 Những thách thức của bài toán phân lớp đa nhãn

Bài toán phân lớp đa nhãn có vai trò quan trọng trong thực tiễn, nó có nhiều ứng dụng trong cuộc sống hiện đại Tuy nhiên, Bài toán phân lớp đa nhãn đặt ra hai thách thức: (1) các nhãn có mối liên hệ với nhau, (2) dữ liệu có kích thước vô cùng lớn.Trong hầu hết cácứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn dữ liệu có kích thước rất lớn Dữ liệu có kích thước lớn nên tập từ vựng của tập hợp văn bản lại vô cùng lớn, ví dụ tập dữ liệu của khóa luận có 2694 bài báo, tập hợp dữ liệu có 36 457 từ mục khác nhau Chính vì số lượng từ mục lớn như vậy nên việc tìm kiếm tập các đặc trưng trở lên khó khăn Với tập văn bản, mỗi văn bản có thể thuộc vào nhiều nhãn khác nhau,

và mỗi văn bản được biểu diễn bằng một tập đặc trưng Bên cạnh đó, nhiều thuộc tính không mang thông tin, nhập nhằng hoặc bị nhiễu

Do đó, lựa chọn đặc trưng có ý nghĩa và tầm quan trọng rất lớn trong thực tế, đặc biệt là đối với một số phương pháp bị ảnh hưởng rất lớn vào yếu tố đầu vào Lựa chọn đặc trưng là lựa chọn những thuộc tính mang nhiều thông tin nhất thong tập thuộc tính

và loại bỏ những thuộc tính nhiễu Để giải quyết vấn đề đó, ta chỉ giữ những từ mục có giá trị về thông tin Lựa chọn đặc trưng giúp giảm thời gian học và tăng chất lượng dự đoán

Kết luận chương một

Trong chương này, khóa luận giới thiệu khái quát về một số khái niệm, nội dung của đa nhãn và phân lớp đa nhãn văn bản Ngoài ra, khóa luận còn phát biểu được bài toán đa nhãn văn bản và nêu lên tầm quan trọng của lựa chọn đặc trưng đối với bài toán phân lớp đa nhãn

Chương tiếp theo, khóa luận sẽ giới thiệu, phân tích một số phương pháp học phân lớp đa nhãn mà khóa luận sẽ áp dụng Đồng thời, khóa luận còn làm rõ mô hình chủ đề

ẩn LDA cho việc giảm số chiều đặc trưng

Trang 19

dữ liệu theo phương pháp này:

Bảng 2.1Biểu diễn dữ liệu theo phương pháp nhị phân

Example Label 0 Label 1 (⌐ label 0) … (⌐ label 0) Label 99 (⌐ label 0)

Example Label 0(⌐label 1) Label 1 … (⌐label 1) Label 99 (⌐ label 1)

2.1.2 Multi - label k-Nearest Neighbors (MLkNN)

Thuật toán kNN [14] (k-Nearest Neighbors) là phương pháp học máy được sử dụng rộng rãi, thuật toán tìm hàng xóm gần nhất của một đối tượng thử nghiệm trong không gian đặc trưng

Bộ phân lớp dựa trên thuật toán K người láng giềng gần nhất là một bộ phân lớp dựa trên bộ nhớ, đơn giản vì nó được xây dựng bằng cách lưu trữ tất cả các đối tượng trong tập huấn luyện Để phân lớp cho một điểm dữ liệu mới x’, trước hết bộ phân lớp

sẽ tính khoảng cách từ điểm dữ liệu mới tới các điểm dữ liệu trong tập huấn luyện Qua

đó tìm được tập N (x’, D, k) gồm k điểm dữ liệu mẫu có khoảng cách đến x’ gần nhất

Ví dụ nếu các dữ liệu mẫu được biểu diễn bởi không gian vector thì chúng ta có thể sử dụng khoảng cách Euclidean để tính khoảng cách giữa các điểm dữ liệu với nhau Sau

Trang 20

khi xác định được tập N (x’, D, k), bộ phân lớp sẽ gán nhãn cho điểm dữ liệu x’ bằng lớp chiếm đại đa số trong tập N (x’, D, k)

Công thức tính Euclidean để tính khoảng cách giữa các điểm dữ liệu: Giả sử có hai phần tử dữ liệu X1=(x11, x12 … x1n) và X2=(x21, x22, x2n), độ đo khoảng cách Euclide được tính bằng công thức:

𝐷𝑖𝑠𝑡(𝑋1, 𝑋2) = √∑(𝑥1𝑖 − 𝑥2𝑖)

𝑛

𝑖=1

2

Mô tả thuật toán:

 Đầu vào: tập dữ liệu học D đã có nhãn và đối tượng kiểm tra z

 Tiến trình:

- Tính d (x, x’) khoảng cách giữa đối tượng kiểm tra và mọi đối tượng (x, y) ϵ D

- Lựa chọn tập Dz gồm k đối tượng ϵ

 Đầu ra: nhãn của đối tượng kiểm tra được xác định là

- X là đối tượng xét, y là nhãn của nó

Nhược điểm của thuật toán k-NN: Đòi hỏi không gian lưu trữ lớn

Thuật toán MLkNN [13] là thuật toán k-NN áp dụng cho bài toán gán đa nhãn Phát biểu bài toán: cho 1 thể hiện x và tập nhãn kết hợp Y  ү, k láng giềng được nhắc tới trong phương pháp ML-KNN Cho là yx vector phân loại cho x, với l-th là thành phần yx (l) (l  ү) mang giá trị 1 nếu l  Y và 0 trong trường hợp ngược lại Thêm vào đó, cho N (x) tập của k láng giềng của x trong tập dữ liệu huấn luyện Theo đó, nền tảng trên tập nhãn của những người hàng xóm láng giềng, một vector thành viên được định nghĩa như sau:

Trang 21

Cx tổng số trong láng giềng x tới lớp thứ l

Trong mỗi trường hợp kiểm tra t, ML-KNN có k hàng xóm N (t) trong mỗi tập huấn luyện Kí hiệu Hl

Trang 22

// Tính toán xác suất trước P (Hl

b) (3) Nhận dạng N (xi), i {1, 2 … m};

j | H l

0 ) = (s + c’[j]) / (s x (K + 1) +  

k

p 0c' [p]) // tính toán yt và N t

H

) (

Trang 23

2.1.3 Random k-labelsets (RAKEL)

Phương pháp Label Powerset (LP) là một phương pháp chuyển đổi của phân lớp

dữ liệu đa nhãn mà có xem xét đến sự phụ thuộc của các nhãn lớp Ý tưởng của phương pháp này là coi một tập con các nhãn như là một nhãn và tiến hành phân lớp như việc phân lớp dữ liệu đơn nhãn Theo phương pháp này thì số lượng các tập con nhãn được tạo ra là rất lớn, Grigorios và đồng nghiệp [11] đã đề xuất phương pháp RAKEL với mục đích tính đến độ tương quan giữa các nhãn, đồng thời tránh những vấn đề nói trên của LP

Định nghĩa tập K nhãn, cho tập nhãn L của phân lớp đa nhãn, L= {λi}, với i = 1…|L| Một tập Y  L với K = |L| gọi là tập K nhãn Ta sử dụng giới hạn LK là tập của tất cả tập nhãn K khác nhau trên L Kích thước LK cho bởi công thức: |LK| = (|L|

K) Thuật toán RAKEL là cấu trúc toàn bộ của m phân loại LP, với i = 1 …m, chọn ngẫu nhiên một tập K nhãn, Yi, từ Lk Sau đó, học phân loại LP ℎ𝑖: 𝑋 → 𝑃(𝑌𝑖) Thủ tục của RAKEL:

 Đầu vào: số của các mô hình m, kích thước của tập K nhãn, tập của các

Hình 2.2 Mã giả thuật toán RAKEL

Số của sự lặp lại (m) là một tham số cụ thể cùng dãy giá trị có thể chấp nhận được

từ 1 tới |LK| Kích cỡ của tập K nhãn là một tham số cụ thể cùng dãy giá trị từ 2 tới |L|

-1 Cho K = 1 và m = |L| ta phân loại toàn bộ nhị phân của phương pháp Binary Relevance, khi K = |L| (m = 1) Giả thiết việc sử dụng tập nhãn có kích thước nhỏ, số lặp vừa đủ, khi đó Rakel sẽ quản lý để mô hình nhãn tương quan hiệu quả

2.1.4 ClassifierChain (CC)

Thuật toán này bao gồm chuyển đổi nhị phân L như BR Thuật toán này khác với thuật toán BR trong không gian thuộc tính cho mỗi mô hình nhị phân, nó được mở rộng

Trang 24

cùng nhãn 0/1 cho tất cả phân lớp trước đó [8] Ví dụ, chuyển đổi giữa BR và CC cho (x, y) với y = [1, 0, 0, 1, 0] và x = [0, 1, 0, 1, 0, 0, 1, 1, 0] (giả sử, cho đơn giản, không

gian nhị phân) Mỗi phân loại hj được huấn luyện dự đoán yj ϵ {0, 1}

Bảng 2.1 Chuyển đổi nhị phân giữa BR và CC [8]

h: x→ y h: x’→ y h1: [0, 1, 0, 1, 0, 0, 1, 1, 0] 1

2.2.1 Phương pháp đánh giá các mô hình phân lớp đa nhãn

Để đánh giá các mô hình phân lớp đa nhãn MLL, khóa luận đã sử dụng phương pháp k-fold cross validation tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1, S2 … Sk Quá trình học và kiểm tra được thực hiện tại k lần Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập còn lại hợp thành dữ liệu huấn luyện Có nghĩa là, đầu tiên chạy được thực hiện trên tập S2, S3 … Sk, sau đó test trên tập S1; tiếp tục quá trình dạy được thực hiện trên tập S1, S3, S4 … Sk, sau đó test trên tập S2; và cứ tiếp tục như thế

Ví dụ, k = 10, thì phương pháp k-fold cross validation được minh họa hình dưới:

Bảng 2.2 Minh họa phương pháp k-fold cross validation

Trang 25

2.2.2 Một số độ đo để đánh giá mô hình phân lớp đa nhãn

Đánh giá kết quả phương pháp phân lớp đa nhãn có sự khác biệt với đơn nhãn Khóa luận đánh giá các phương pháp phân lớp đa nhãn dựa trên một số độ đo sau: Hamming Loss [15], One-error [15], Coverage [15], Ranking Loss [15], Average Precision, Mean Average Precision

Cho một tập S = {(x1, Y1) … (xn, Yn)} của n ví dụ kiểm tra Cho Y*i = h (xi) là tập hợp nhãn dự đoán cho kiểm tra xi, khi Yi là tập nhãn cho xi

Hamming Loss: độ mất mát dữ liệu, được tính như sau:

hloss (h) = 1

𝑄

𝑛 𝑖=1 ∑𝑄𝑞=1(𝛿(𝑞 𝜖 𝑌 ∗𝑖 𝛬 𝑞  )𝑌𝑖) + 𝛿 (q  𝑌 ∗𝑖 𝛬 𝑞𝜖𝑌𝑖) Trong đó, 𝛿 là một hàm mà đầu ra là 1 nếu một nội dung đúng và 0 trong trường hợp ngược lại Nhỏ hơn giá trị của hloss (h), thực thi tốt hơn Trong Trường hợp lí tưởng, hloss (h) = 0

One-error: đánh giá lỗi cho nhãn xếp hạng đầu:

Coverage: Để đánh giá hiệu suất của một hệ thống cho tất cả các nhãn của một

mẫu (đếm số lượng tất cả các nhãn) Coverage được định nghĩa như khoảng cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm:

Trang 26

Average Precision: độ chính xác trung bình của P@K tại các mức K có đối tượng

đúng Gọi I (K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) = 1 và ngược lại I(K) = 0, khi đó:

AP = ∑𝑛𝐾=1𝑃@𝐾 𝑋 𝐼(𝐾)

∑𝑛𝑗=1𝐼(𝑗)Với n là số đối tượng được xét, P@K là độ chính xác của K đối tượng đầu bảng xếp hạng Xác định số đối tượng đúng ở K vị trí đầu tiên của xếp hạng và gọi là

Match@K và ta có P@K = 𝑀𝑎𝑡𝑐ℎ@𝐾

𝐾

Mean Average Precision: Độ chính xác trung bình trên N xếp hạng (N truy vấn,

mỗi truy vấn có một thứ tự xếp hạng kết quả tương ứng)

MAP = ∑ 𝐴𝑃𝑖

𝑁 𝑖=1𝑁Xét ví dụ: giả sử có có 5 đối tượng được xếp hạng tương ứng là: c, a, e, b, d

Một xếp hạng của đối tượng cần đánh giá là: c, a, e, d, b

Mô hình phân tích chủ đề LDA (Latent Dirichlet Allocation) là một mô hình sinh xác suất cho tập dữ liệu rời rạc dựa trên phân phối Dirichlet, được David M Blei, Andrew Y Ng và Michael I Jordan xây dựng vào năm 2003 [9]

Tiêu đề	Các Phương Pháp Phân Lớp Đa Nhãn Văn Bản Tiếng Việt
Tác giả	Nguyễn Thị Thảo
Người hướng dẫn	TS. Nguyễn Cẩm Tú, ThS. Phạm Thị Ngân
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2013
Thành phố	Hà Nội

Định dạng
Số trang	53
Dung lượng	1,24 MB