Toàn văn tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng

Mô hình không gian vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ từ xuất hiện trong toàn bộ tập văn bản.. Luận án nghiên cứu, phát triển qui trình khai thác văn bản s

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

  

NGUYỄN HOÀNG TÚ ANH

TIẾP CẬN ĐỒ THỊ BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Đảm bảo toán học cho máy tính và hệ thống tính toán

Phản biện độc lập 3: PGS.TS Nguyễn Kim Anh

NGƯỜI HƯỚNG DẪN KHOA HỌC

Tp Hồ Chí Minh – Năm 2011

Trang 2

Mục lục



Mở đầu 1

Dẫn nhập 1

Mục tiêu và đĩng gĩp của luận án 2

Nội dung luận án 5

Chương 1 Tổng quan về khai thác dữ liệu văn bản 7

1.1 Tổng quan 7

1.1.1 Giới thiệu 7

1.1.2 Các bài tốn chính của khai thác văn bản 8

1.2 Mơ hình biểu diễn văn bản 9

1.3 Bài tốn phân loại văn bản 12

1.3.1 Phương pháp k-láng giềng gần nhất (k-NN) 13

1.3.2 Phương pháp Nạve Bayes 14

1.3.3 Phương pháp SVM 16

1.4 Bài tốn gom cụm văn bản 17

1.4.1 Phương pháp k-Means 18

1.4.2 Phương pháp HAC 19

1.5 Bài tốn tĩm tắt văn bản 21

1.5.1 Phương pháp Heuristic 23

1.5.2 Các phương pháp khác 24

1.6 Kết luận 26

Chương 2 Mơ hình biểu diễn văn bản bằng đồ thị 27

2.1 Giới thiệu 27

2.2 Mơ hình đồ thị khái niệm 28

2.3 Mơ hình đồ thị hình sao 29

2.4 Mơ hình đồ thị tần số vơ hướng 31

2.5 Mơ hình đồ thị đơn giản 32

2.6 Mơ hình đồ thị khoảng cách n đơn giản 33

2.7 Mơ hình đồ thị đỉnh là câu 34

2.8 Mơ hình đồ thị lưỡng phần 35

2.9 Phân loại các mơ hình đồ thị [CT4] 37

2.10 Kết luận 40

Trang 3

Chương 3 Phân loại văn bản dựa trên tiếp cận đồ thị 41

3.2 Các công trình nghiên cứu liên quan 42

3.2.1 Khai thác đồ thị con phổ biến 42

3.2.2 Phân loại văn bản dựa trên tiếp cận đồ thị 44

3.2.3 Phân loại văn bản tiếng Việt 45

3.3 Qui trình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị 46

3.3.1 Tiền xử lý văn bản 47

3.3.2 Mô hình hóa văn bản thành đồ thị 48

3.3.3 Rút trích đặc trưng đồ thị 48

3.3.4 Xây dựng vectơ đại diện lớp 55

3.3.5 Bộ phân loại 56

3.4 Kết quả thử nghiệm 58

3.4.1 Thử nghiệm trên tập dữ liệu email tiếng Anh 58

3.4.1 Thử nghiệm trên tập dữ liệu tiếng Việt 65

3.5 Kết luận 71

Chương 4 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị 73

4.2.1 Gom cụm văn bản động 75

4.2.2 Gom cụm văn bản dựa trên tiếp cận đồ thị 77

4.2.3 Gom cụm văn bản tiếng Việt 78

4.3 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị 79

4.3.3 Rút trích đặc trưng đồ thị 82

4.3.4 Xác định độ tương tự giữa các văn bản 84

4.3.5 Kỹ thuật chọn lựa động đặc trưng 86

4.3.6 Thuật toán gom cụm động Incremental DBSCAN cải tiến 88

Chương 5 Tóm tắt văn bản dựa trên biểu diễn đồ thị 106

5.2.1 Tóm tắt văn bản dựa trên tiếp cận đồ thị 108

5.2.2 Tóm tắt văn bản tiếng Việt 110

Trang 4

5.3 Mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị và kỹ

thuật xếp hạng 111

5.3.3 Xếp hạng câu 116

5.3.4 Tạo bản tóm tắt 119

5.4.1 Kết quả tóm tắt văn bản đơn 121

5.4.1 Kết quả tóm tắt tập văn bản 123

Kết luận 128

Các kết quả đạt được 128

Hướng phát triển 130

Danh mục công trình của tác giả 131

Tài liệu tham khảo 133

Phụ lục A Các độ đo đánh giá 145

A.1 Đánh giá phương pháp phân loại 145

A.2 Đánh giá chất lượng gom cụm 145

A.3 Đánh giá bản tóm tắt 147

Phụ lục B Ví dụ biểu diễn văn bản bằng đồ thị 149

Phụ lục C Kiểm định giả thiết thống kê 153

C.1 Khái niệm [4] 153

C.2 Kiểm định giả thiết về số trung bình của tổng thể 153

C.3 Kiểm định giả thiết về tỷ lệ của tổng thể 154

C.4 Kiểm định giả thiết về sự khác biệt giữa hai trung bình của tổng thể 155

C.5 Kiểm định giả thiết về sự bằng nhau giữa hai tỷ lệ của tổng thể 156

Phụ lục D Ví dụ kết quả tóm tắt văn bản 158

D.1 Ví dụ tóm tắt văn bản đơn 158

D.2 Ví dụ tóm tắt tập văn bản 162

Trang 5

Mở đầu

Dẫn nhập

Sự tiến bộ vượt bậc của cơng nghệ thơng tin đã cung cấp nhiều phương pháp thu thập, lưu trữ khối lượng dữ liệu khổng lồ một cách hiệu quả và ít tốn kém Rất nhiều thơng tin chiến lược quan trọng đang nằm trong các cơ sở dữ liệu to lớn này Các phương pháp xử lý, tìm kiếm, phân tích và rút trích thơng tin truyền thống khơng cịn thích hợp nữa Như Rutherford D Rogers đã viết trên báo NewYork Times vào năm 1985: “Chúng ta ngập chìm trong dữ liệu nhưng lại đĩi tri thức” Việc tìm kiếm các thơng tin giá trị, tiềm ẩn trong khối lượng lớn dữ liệu địi hỏi những cơng cụ mới ngồi các cơng cụ truy vấn thơng tin cổ điển Chính vì vậy trong những năm gần đây,

lĩnh vực Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) hay cịn được gọi là Khai thác dữ liệu (Data mining) đã ra đời và phát triển

nhanh chĩng

Lĩnh vực khai thác dữ liệu từ khi ra đời đã nhận được sự ủng hộ tích cực của các nhà nghiên cứu và phát triển mạnh mẽ trong vịng hai mươi năm qua Cĩ thể liệt kê một số nhà khoa học hàng đầu, cĩ những đĩng gĩp nổi bật cho lĩnh vực khai thác dữ liệu như Rakesh Agrawal, Usama Fayyad, Gregory Piatetsky-Shapiro, Heikki Manila, Jiawei Han, Padhraic Smyth, Christos Faloutsos, Osmar Zạane, … Hàng trăm cơng

ty trên thế giới đang cung cấp các cơng cụ khai thác dữ liệu và được áp dụng vào rất nhiều lĩnh vực trong cuộc sống: kinh tế, thương mại, y tế, sinh học, …

Tuy nhiên rất nhiều vấn đề cịn đang bỏ ngỏ, dở dang, cần nghiên cứu [101] Ví

dụ như giảm độ phức tạp tính tốn, tìm những phương pháp khai thác hiệu quả cĩ thể

áp dụng trên các kiểu dữ liệu phức tạp (đa phương tiện, văn bản, chuỗi, thời gian, WWW, …), vấn đề bảo vệ bí mật cá nhân, áp dụng kỹ thuật khai thác dữ liệu giải quyết các bài tốn thực tế phức tạp, …

Trang 6

Theo đánh giá của công ty Oracle [76], hiện có đến 80% dữ liệu trên thế giới là dữ liệu văn bản, vì vậy khai thác dữ liệu phức tạp mà cụ thể hơn là khai thác dữ liệu văn bản (text mining) là vấn đề quan trọng, đầy thử thách và cần được đầu tư nghiên cứu Đặc điểm của dữ liệu phức tạp nói chung hay dữ liệu văn bản nói riêng là dữ liệu thường không có cấu trúc hoặc bán cấu trúc, cơ sở dữ liệu rất lớn, đa chiều và hay bị nhiễu Ngoài ra đối với dữ liệu văn bản chúng ta còn phải đối mặt với vấn đề nhập nhằng ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa)

Luận án này tập trung nghiên cứu khai thác dữ liệu văn bản, hay còn gọi là khai thác văn bản Khai thác văn bản là lĩnh vực liên ngành, liên quan đến truy vấn thông tin, khai thác dữ liệu và xử lý ngôn ngữ tự nhiên Khai thác văn bản bao gồm quá trình cấu trúc hóa văn bản đầu vào, tìm kiếm các mẫu mới, chưa biết trước, có ích từ

dữ liệu đã cấu trúc hoá và đánh giá, diễn giải kết quả thu được Các bài toán chính của khai thác văn bản là phân loại, gom cụm văn bản, rút trích thông tin và tóm tắt tài liệu Mặc dù đã có nhiều tiến bộ trong nghiên cứu khai thác văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu ứng dụng và các kết quả đạt được Luận án tập trung nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu hiện có, cũng như những

kỹ thuật phân tích dữ liệu văn bản nhằm tích hợp chúng và tăng cường hiệu quả giải quyết bài toán khai thác dữ liệu văn bản

Mục tiêu và đóng góp của luận án

Với mục tiêu khai thác tập văn bản, đầu tiên ta cần tiền xử lý văn bản và lưu trữ thông tin dưới dạng có cấu trúc phù hợp với các bước xử lý sau này Mô hình không gian vectơ [80] là một phương pháp biểu diễn văn bản phổ biến Mô hình không gian vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản Tuy nhiên, phương pháp này không lưu trữ được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận, vị trí xuất hiện của từ trong văn bản

Những năm gần đây, mô hình biểu diễn văn bản bằng đồ thị (trong luận án này

Trang 7

nhau của khai thác văn bản như phân loại [11], [61], gom cụm [35], [81], rút trích thông tin [89] và tóm tắt văn bản [29], [68] Các kết quả áp dụng mô hình đồ thị trên văn bản tiếng Anh cho thấy mô hình này có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc mà biểu diễn vectơ đã bỏ qua

Bên cạnh đó, mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng

có đặc tính chung với các ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) như khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, ngữ pháp so với tiếng Anh

Tiếng Việt thuô ̣c ngôn ngữ đơn lâ ̣p1, tứ c là mỗi mô ̣t tiếng (âm tiết) đươ ̣c phát âm tách rời nhau và được thể hiện b ằng mô ̣t chữ viết Đặc điểm này thể hiện rõ rệt ở tất

cả các mặt ngữ âm, hình thái, ngữ pháp Trong tiếng Viê ̣t có một loại đơn vị đặc biệt gọi là "tiếng" Về mă ̣t ngữ âm, mỗi tiếng là mô ̣t âm tiết Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn vi ̣ cơ sở của hê ̣ thống các đơn vi ̣ có nghĩa của tiếng Viê ̣t Từ tiếng, người ta tạo ra các đơ n vi ̣ từ vựng khác để đi ̣nh danh sự vâ ̣t, hiê ̣n tươ ̣ng , chủ yếu nhờ phương thức ghép và phương thức láy Từ của tiếng Viê ̣t không

biến đổi hình thái Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi

trọng trật tự từ Viê ̣c sắp xếp các từ theo mô ̣t trâ ̣t tự nhất đi ̣nh là cách chủ yếu để biểu

thị các quan hệ cú pháp Trong tiếng Viê ̣t khi nói "Anh ta lại đến " là khác với "Lại

đến anh ta"

Như vậy việc xác định ranh giới từ trong tiếng Việt là bài toán khó [27] do đơn vị

cơ bản trong tiếng Việt là “tiếng” chứ không phải từ Từ được cấu trúc từ “tiếng” Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n < 5), bao gồm từ láy và từ ghép Trong khi đó, từ trong tiếng Anh là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu

Do đó, khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây dựng thành công

1

http://www.vietlex.vn/vietnamese.htm

Trang 8

giải pháp cho việc tách từ trong văn bản tiếng Việt hoặc sử dụng mô hình biểu diễn

có thể hạn chế được ảnh hưởng của bài toán tách từ

Phần lớn các nghiên cứu về khai thác văn bản tiếng Việt [1], [2], [3], [6], [8], [9], [25], [27], [41] sử dụng mô hình không gian vectơ biểu diễn văn bản và đòi hỏi công

cụ tách từ tốt Ngoài ra, mô hình không gian vectơ không quan tâm đến trật tự của từ trong câu trong khi đối với tiếng Việt, trật từ của từ rất quan trọng Chẳng hạn nhờ

trâ ̣t tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình"

Hiện nay, mới chỉ có nhóm của Đỗ Phúc cùng các đồng sự áp dụng thuật toán SOM (Self Organizing Map) trên đồ thị để gom cụm văn bản và từ đó rút ra ý chính của tập văn bản [7], [26] Chất lượng gom cụm văn bản sử dụng đồ thị theo độ đo F

có kết quả tốt hơn khi dùng biểu diễn vectơ

Nhận thấy tiềm năng ứng dụng của tiếp cận đồ thị, luận án tập trung nghiên cứu,

hệ thống hóa và phân tích khả năng ứng dụng của mô hình đồ thị vào biểu diễn và khai thác văn bản Luận án nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu đã có

để áp dụng hiệu quả trên đồ thị biểu diễn văn bản Luận án nghiên cứu, phát triển qui trình khai thác văn bản sử dụng tiếp cận đồ thị nhằm giải quyết một số bài toán chính: phân loại, gom cụm tập văn bản có biến động và tóm tắt văn bản

Các đóng góp chính của luận án:

1 Hệ thống hóa các mô hình biểu diễn văn bản bằng đồ thị Phân tích khả năng ứng dụng của từng loại mô hình và lựa chọn mô hình biểu diễn đồ thị phù hợp cho các nhiệm vụ khai thác văn bản

2 Cải tiến thuật toán gSpan khai thác đồ thị con phổ biến cho tập đồ thị có hướng

3 Cải tiến kỹ thuật trộn cụm của thuật toán gom cụm động Incremental DBSCAN

4 Đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác đồ thị con phổ biến cải tiến

Trang 9

5 Đề xuất qui trình gom cụm tập văn bản có biến động sử dụng đồ thị biểu diễn văn bản kết hợp kỹ thuật chọn lựa động đặc trưng và thuật toán Incremental DBSCAN cải tiến

6 Đề xuất mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị kết hợp

kỹ thuật xếp hạng đỉnh

7 Tiến hành thử nghiệm khai thác văn bản tiếng Việt dựa trên tiếp cận đồ thị theo các mô hình đề xuất

Nội dung luận án

Nội dung của luận án bao gồm:

 Phần mở đầu trình bày tổng quan về luận án, mục tiêu của luận án

điểm của dữ liệu văn bản Chương này phân tích các bài toán chính liên quan:

mô hình biểu diễn dữ liệu văn bản, bài toán phân loại, gom cụm và tóm tắt văn bản

phân loại các mô hình đồ thị, các phân tích về khả năng ứng dụng của chúng

và lựa chọn mô hình biểu diễn đồ thị phù hợp cho nhiệm vụ khai thác văn bản Một phần của chương này đã được công bố trong công trình số 4

 Chương 3 trình bày qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ

thuật khai thác đồ thị con phổ biến cải tiến Một phần của chương này đã được công bố trong công trình số 3, 6, 9, 10

diễn đồ thị kết hợp với kỹ thuật chọn lựa động đặc trưng và thuật toán Incremental DBSCAN cải tiến Một phần của chương này đã được công bố trong công trình số 2, 5, 7

Trang 10

 Chương 5 trình bày mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ

thị và sử dụng kỹ thuật xếp hạng đỉnh để xác định các câu quan trọng trong văn bản Một phần của chương này đã được công bố trong công trình số 1, 8

 Phần kết luận và hướng phát triển

 Phụ lục A trình bày các độ đo đánh giá kết quả phân loại, gom cụm và chất

lượng bản tóm tắt

 Phụ lục B nêu ví dụ biểu diễn văn bản bằng đồ thị

 Phụ lục C trình bày về kiểm định giả thiết thống kê

 Phụ lục D nêu các ví dụ tóm tắt văn bản

Trang 11

Khai thác văn bản là “sự tìm kiếm thông tin mới, chưa biết bằng cách dùng máy tính rút trích tự động tri thức từ nhiều nguồn văn bản khác nhau” [37]

Khai thác văn bản khác biệt với khai thác dữ liệu truyền thống ở chỗ: khai thác dữ liệu rút trích, phân tích, tóm tắt dữ liệu có cấu trúc, trong khi khai thác văn bản xử lý khối lượng dữ liệu văn bản khổng lồ không cấu trúc hoặc bán cấu trúc như email, tài liệu ở dạng văn bản, các tập tin HTML, … Như vậy để khai thác văn bản cần thực hiện tiền xử lý và cấu trúc hóa dữ liệu

Khai thác văn bản là giải pháp tốt để tích hợp và quản lý một lượng lớn các loại cấu trúc dữ liệu khác nhau Tuy nhiên, hiện nay phần lớn các nghiên cứu và nỗ lực phát triển đều tập trung vào khai thác dữ liệu truyền thống có cấu trúc vì khai thác văn bản phải đối mặt với nhiều thách thức do đặc trưng riêng của kiểu dữ liệu văn bản:

 Cơ sở dữ liệu văn bản thường rất lớn và thay đổi liên tục Trong kỷ nguyên

số, văn bản do các cá nhân, công ty và tổ chức chính quyền tạo ra đang tăng với tốc độ chóng mặt Số lượng trang web theo tính toán của Google

là trên 1000 tỷ trang2 Bên cạnh đó, bản thân một văn bản cũng có thể thường xuyên bị thay đổi, chẳng hạn như nội dung trang web

2

http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html , 7/2008

Trang 12

 Dữ liệu văn bản có số chiều lớn Nếu ta coi mỗi từ hay cụm từ là một chiều thì vì số lượng từ/ cụm từ rất lớn Ví dụ theo thống kê năm 2009, số lượng

từ tiếng Anh đã vượt qua con số một triệu3, còn trên tiếng Việt thì từ điển lớn nhất hiện nay cũng có khoảng hơn 70.000 từ

 Dữ liệu văn bản là dữ liệu không được tổ chức tốt Văn bản thường có dạng bán cấu trúc hoặc không có cấu trúc Chẳng hạn văn bản có thể chứa một số trường có cấu trúc như tiêu đề, tác giả, ngày xuất bản, loại, … Nhưng nó chứa phần lớn các thành phần không cấu trúc như nội dung và tóm tắt

 Tính hỗn loạn (không đồng nhất): Các kho văn bản có thể chứa văn bản từ nhiều nguồn khác nhau (như tin tức, bài báo nghiên cứu, sách, thư viện điện tử, email và các trang web) và có định dạng, cũng như mục đích sử dụng khác nhau

 Tính nhập nhằng: Sự nhập nhằng trong văn bản thể hiện ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa)

Qui trình khai thác văn bản thường bao gồm các bước chính:

 Tiền xử lý văn bản: Đầu tiên ta tiến hành phân tích cú pháp văn bản như phân đoạn từ, gán nhãn từ loại, … Sau đó chuyển đổi văn bản về dạng có cấu trúc bằng mô hình biểu diễn văn bản Trong quá trình biểu diễn văn bản, ta cần xác định, chọn lựa đặc trưng, loại các đặc trưng không liên quan

 Khai thác văn bản: Sử dụng kỹ thuật khác nhau như phân loại, gom cụm, tóm tắt, …nhằm rút trích các mẫu hay tri thức hữu ích, đáng quan tâm

 Phân tích, đánh giá kết quả thu được: Với mục đích xác định độ tin cậy của các mẫu hay tri thức tìm được trước khi đưa vào ứng dụng trong thực tế

1.1.2 Các bài toán chính của khai thác văn bản

Các nghiên cứu hiện tại trong lĩnh vực khai thác văn bản quan tâm chính đến vấn

đề biểu diễn văn bản, phân loại, gom cụm, tóm tắt [20]

Trang 13

 Mơ hình biểu diễn văn bản: Mơ hình chuyển đổi văn bản thành dạng cĩ cấu trúc Nhằm giảm kích thước lưu trữ của văn bản và dễ dàng sử dụng, văn bản cần được chuyển đổi thành dạng phù hợp và cĩ thể mơ tả nội dung của văn bản Mơ hình khơng gian vectơ là phương pháp được sử dụng phổ biến trong cộng đồng truy vấn thơng tin Mơ hình biểu diễn bằng đồ thị,

mơ hình n-gram là các phương pháp được đề xuất sau này

 Phân loại: Văn bản được phân loại vào các chủ đề xác định trước Một số phương pháp phân loại phổ biến là k-NN, SVM, Nạve Bayes, …[84]

 Gom cụm: Các văn bản được tự động gom thành một số cụm dựa trên nội dung Gom cụm văn bản được quan tâm nhiều trong thời gian gần đây Khảo sát chi tiết về gom cụm văn bản cĩ thể xem trong [20], [75], [87]

 Tĩm tắt: Tĩm tắt văn bản được áp dụng cho từng văn bản và tập văn bản Bản tĩm tắt cĩ thể là dạng trích lược (chỉ gồm nội dung nguyên bản từ văn bản đầu vào) hay dạng tĩm lược (tương tự như bản tĩm tắt của con người

và gồm các nội dung tổng hợp từ văn bản đầu vào) [60]

Ngồi ra cịn các nghiên cứu về trực quan hĩa văn bản, rút trích thơng tin, phát hiện xu thế,… nhưng khơng phải là mục tiêu chính của luận án này

Những phần tiếp theo trình bày và phân tích chi tiết hơn các bài tốn chính nêu trên

1.2 Mơ hình biểu diễn văn bản

Khi khai thác tập văn bản, ta cần tiền xử lý văn bản và lưu trữ thơng tin ở dạng cấu trúc phù hợp hơn để xử lý sau này thay vì các tập tin văn bản thuần túy Mơ hình biểu diễn văn bản là một trong những nhân tố quan trọng của quá trình khai thác văn bản

Hiện nay, cĩ nhiều mơ hình biểu diễn văn bản Mơ hình đơn giản nhất là mơ hình túi từ Tồn bộ từ trong tập văn bản được sử dụng cho việc xây dựng vectơ nhị phân biểu diễn văn bản Mỗi chiều của vectơ đại diện cho một từ và nhận giá trị 1 khi từ xuất hiện trong văn bản và ngược lại Mơ hình khơng gian vectơ là mơ hình phát triển

Trang 14

từ mô hình túi từ Trong mô hình này, mỗi văn bản được biểu diễn thành một vectơ của các thuật ngữ (từ/cụm từ) với giá trị của mỗi chiều thường là trọng số của thuật ngữ Mô hình biểu diễn bằng đồ thị là mô hình với đỉnh có thể là từ, cụm từ hay câu hoặc kết hợp câu và từ Cạnh nối giữa các đỉnh thể hiện mối quan hệ trong đồ thị Mô hình N-gram là mô hình được sử dụng phổ biến trong xử lý ngôn ngữ tự nhiên với các từ được biểu diễn như chuỗi ký tự có độ dài N Trong mô hình N-gram, văn bản

được tách ra thành các chuỗi n ký tự liên tục và thường không sử dụng thông tin ngữ

nghĩa hay đặc trưng ngôn ngữ Phần tiếp theo tập trung giới thiệu mô hình không gian vectơ

Mô hình không gian vectơ là phương pháp biểu diễn văn bản phổ biến trong lĩnh vực truy vấn thông tin và trong một số tiếp cận khai thác văn bản Với mô hình này,

các văn bản được biểu diễn thành vectơ trong không gian m - chiều Mỗi chiều của

không gian tương ứng với một thuật ngữ (có thể là từ đơn lẻ, từ khóa hay cụm từ dài) riêng biệt Hay nói một cách khác, tất cả các thuật ngữ trong CSDL tạo thành “không gian” với mỗi thuật ngữ đại diện cho một “chiều” Với mục đích phân biệt văn bản này với văn bản khác, trọng số được gán cho từng thuật ngữ nhằm xác định độ quan trọng của thuật ngữ trong văn bản Giá trị của mỗi thành phần trong vectơ là trọng số của thuật ngữ tương ứng Có nhiều cách tính trọng số này, trong đó TF×IDF [80] là phương pháp phổ biến nhất

Định nghĩa 1.1: Trọng số TF×IDF (Term Frequency – Inverse Document

Frequency)

Trọng số TF×IDF của thuật ngữ t j trong tài liệu d i là [80]:

)log(

j ij

j ij ij

n

N TF

IDF TF

Trong đó:

 TFij: Tần suất của thuật ngữ t j hay số lần xuất hiện của thuật ngữ thứ j trong tài

liệu d i

 IDFj: Nghịch đảo tần suất tài liệu, với N là tổng số tài liệu trong tập dữ liệu, n j

là số tài liệu chứa thuật ngữ t

Trang 15

Khi sử dụng TF×IDF, các thuật ngữ xuất hiện quá ít hoặc quá nhiều sẽ có thứ hạng thấp hơn những thuật ngữ khác

Ví dụ 1.1: Cho tập dữ liệu gồm ba văn bản Các văn bản này đã qua công đoạn tiền xử lý: tách từ, loại bỏ hư từ

Chỉ số chứng khoán giao dịch

Chứng khoán giao dịch

Giá trị chứng khoán giao dịch

Chứng khoán ngân hàng Sán giao dịch cổ phiếu Chứng khoán nhà nước

Giá cổ phiếu trái phiếu Chỉ số chứng khoán ngân hàng Trái phiếu ngân hàng

Hình 1.1 Ví dụ văn bản cho mô hình không gian vectơ

Ta có không gian vectơ:

V = (chỉ số, chứng khoán, cổ phiếu, giao dịch, giá, giá trị, ngân hàng, nhà nước, sàn, trái phiếu)

Khi đó, ta có vectơ biểu diễn tương ứng cho từng văn bản như sau:

Định nghĩa 1.2: Độ đo tương tự giữa các văn bản

Độ tương tự giữa hai văn bản được tính bằng hệ số cosine [36] giữa hai vectơ biểu diễn các văn bản và định nghĩa như sau:

2 1

2 1 2

1, ) (

v v

v v v

v

(1 2)

Trang 16

Trong đĩ: v 1 và v 2 là hai vectơ biểu diễn văn bản, dấu • thể hiện phép nhân vectơ

vơ hướng và ║ ║ là độ lớn của vectơ

Mơ hình khơng gian vectơ đơn giản và sử dụng phổ biến trong các bài tốn phân lớp, gom cụm, tìm kiếm, tĩm tắt Bên cạnh đĩ các hạn chế của mơ hình là: số chiều khơng gian rất lớn (tương ứng với số lượng thuật ngữ lớn) và phải giả thiết các thuật ngữ độc lập với nhau Do số lượng thuật ngữ lớn, trong vectơ văn bản cĩ nhiều giá trị

0 Hạn chế lớn nhất là mơ hình khơng gian vectơ chỉ tập trung vào tần suất xuất hiện của thuật ngữ và bỏ qua thứ tự xuất hiện các thuật ngữ hay vị trí của thuật ngữ trong văn bản

1.3 Bài tốn phân loại văn bản

Phân loại văn bản là nhiệm vụ gán các nhãn lớp đã xác định trước cho văn bản mới, chưa phân loại [104] Chẳng hạn ta xác định thể loại cho tin tức mới thuộc chủ

đề “thể thao”, “chính trị” hay “văn hĩa” Các nhãn lớp được xác định dựa trên tập văn bản đã gán nhãn lớp và được gọi là tập huấn luyện

Giả sử ta cĩ tập văn bản huấn luyện D={d 1 , d 2 , …, d N} cĩ gán nhãn lớp và tập các

lớp C={ C 1 , C 2 , …, C M } Mỗi văn bản d iD; 1 ≤ i ≤ N chỉ thuộc về một lớp C jC; 1 ≤

j ≤ M Khi đĩ ta cần xây dựng mơ hình phân loại cĩ thể xác định chính xác lớp cho

văn bản mới d

j

C d

f C

D

f :  ( )  (1 3)

Khá nhiều kỹ thuật phân lớp áp dụng vào bài tốn phân loại văn bản như thuật tốn SVM [45], k – láng giềng gần nhất (K-NN) [64], cây quyết định [14], kỹ thuật Linear Least Square Fit [103], mạng Nơron [96] và Nạve Bayes [17] Các phương pháp này đều sử dụng mơ hình biểu diễn văn bản là mơ hình khơng gian vectơ Theo các kết quả nghiên cứu [104], thuật tốn SVM và k-NN là những thuật tốn phân loại tốt nhất

Trong mơ hình khơng gian vectơ, số chiều (đặc trưng) rất lớn vì nĩ tương ứng với

số thuật ngữ trong tập văn bản Một số đặc trưng khơng đĩng gĩp gì cho kết quả phân

Trang 17

lớp và cịn làm giảm độ chính xác Vì vậy khi tiền xử lý văn bản, cần tiến hành bước chọn lựa đặc trưng Các phương pháp chọn lựa đặc trưng đều nhằm mục đích giảm chiều dữ liệu và làm ảnh hưởng ít nhất đến các thơng tin biểu diễn bởi vectơ đặc trưng Cĩ nhiều phương pháp chọn đặc trưng hiệu quả như [105]: DF- tần suất tài liệu,

IG - độ lợi thơng tin, 2

Phần dưới đây sẽ trình bày chi tiết một số kỹ thuật phân loại văn bản phổ biến Thống kê và phân tích các phương pháp khác cĩ thể xem thêm trong [84], [104]

Phương pháp k-NN là phương pháp đơn giản, khơng cần quá trình huấn luyện, nhận dạng mẫu như các phương pháp khác [84] Chính vì vậy mà người ta cịn xếp k-

NN vào nhĩm thuật tốn phân loại “thụ động” để phân biệt với nhĩm thuật tốn “tích

cực” như cây quyết định, Nạve Bayes, SVM K-NN phân loại mẫu mới dựa trên k

láng giềng gần nhất của nĩ Giả định rằng việc phân loại một mẫu là dựa trên những mẫu khác tương tự với nĩ Mỗi văn bản trong tập huấn luyện được biểu diễn bằng vectơ đặc trưng Ta cĩ thể dùng tần suất xuất hiện của thuật ngữ trong văn bản như đặc trưng

Khi phân loại mẫu mới, vectơ đặc trưng tương ứng của nĩ được khởi tạo và so sánh với vectơ đặc trưng của tất cả các mẫu trong tập huấn luyện Độ đo tương tự thường dùng là độ đo khoảng cách ví dụ như độ đo cosine (như trong cơng thức (1 2)) Chỉ những thuật ngữ xuất hiện trong cả văn bản mới và văn bản huấn luyện mới được xem xét Độ đo cosine này cĩ giá trị lớn khi hai vectơ tương tự nhau Giá trị 1 cho biết rằng hai vectơ là đồng nhất với nhau, trong khi giá trị 0 cho biết hai vectơ khơng cĩ quan hệ với nhau

Trang 18

Người ta chọn k mẫu huấn luyện cĩ khoảng cách gần với mẫu mới nhất Khi xác định nhãn lớp cho mẫu mới ta cĩ thể lấy nhãn lớp chiếm đại đa số trong k láng giềng của nĩ Muốn chọn được tham số k tốt nhất cho việc phân loại, ta phải thực hiện thử nghiệm trên nhiều giá trị k khác nhau Thơng thường trên bộ dữ liệu văn bản tiếng

Anh, giá trị tốt nhất k được chọn từ 30 đến 45 (theo [104])

Phương pháp k-NN cĩ ưu điểm huấn luyện rất nhanh, khơng làm mất thơng tin Một số nghiên cứu cho thấy k-NN là một trong những phương pháp phân loại văn bản tốt nhất [45] Kết quả phân loại theo độ đo F1 trên bộ dữ liệu tiếng Anh (Reuters)

là 0.856 [84] Ngồi ra, k-NN ít bị ảnh hưởng bởi dữ liệu nhiễu

Hạn chế của hướng tiếp cận này là khơng gian đặc trưng lớn Vấn đề sẽ nảy sinh khi kích thước của tập huấn luyện tăng lên Trong phương pháp k-NN, chi phí cho việc phân lớp mẫu khá tốn kém do cần phải tính độ tương tự văn bản với tất cả các văn bản trong tập huấn luyện Do đĩ, những kỹ thuật lập chỉ mục hiệu quả các mẫu lúc huấn luyện là nhu cầu thực tế và quan trọng nhằm rút ngắn thời gian tính tốn lúc phân loại mẫu mới

Hạn chế thứ hai là k-NN dễ bị ảnh hưởng bởi những thuộc tính khơng liên quan Khi xây dựng vectơ đặc trưng, ta thường xem xét tất cả thuộc tính của mẫu và từ đĩ rút ra những mẫu tương tự từ tập huấn luyện Nếu đặc trưng phân loại mẫu chỉ phụ thuộc vào một ít trong số nhiều thuộc tính sẵn cĩ của các mẫu thì những mẫu thật sự

“tương tự” nhất cĩ thể rất cách xa nhau Một số mở rộng của phương pháp này được trình bày trong [84]

Phương pháp Nạve Bayes sử dụng định luật Bayes xác định xác suất mẫu mới rơi vào lớp nào đĩ Phương pháp này dựa vào xác suất cĩ điều kiện giữa thuật ngữ xuất hiện trong văn bản mới với lớp (lớp cĩ thể là chủ đề của văn bản như „thể thao”, „văn hĩa”, …) để dự đốn lớp của văn bản này Điểm quan trọng của phương pháp Nạve Bayes là ở giả thiết rằng sự xuất hiện của tất cả các thuật ngữ trong văn bản đều độc lập với nhau

Trang 19

Giả sử ta cĩ tập các lớp C={ C 1 , C 2 , …, C M } và tập các thuật ngữ T = {t 1 , t 2 , t 3 ,

…, t n } Sử dụng định luật Bayes, ta cĩ thể dự đốn xác suất của lớp C jC; 1 ≤ j ≤ M

với điều kiện cĩ mặt tập T là:

)(

)()

|()

|(

T p

C p C T p T C

Ta cĩ thể gán văn bản mới vào lớp cho giá trị xác suất cĩ điều kiện trên lớn nhất Khi phân loại văn bản, Nạve Bayes giả thiết rằng các thuật ngữ độc lập với nhau Khi đĩ xác suất một thuật ngữ xuất hiện trong văn bản khi cĩ mặt lớp là độc lập với xác suất cĩ điều kiện của các thuật ngữ khác xuất hiện trong văn bản đĩ, nghĩa là:

C T p

1

)

|()

)

|()()

|

T p

C t p C p T C p

n

k

j k j

j





Trong giai đoạn huấn luyện, Nạve Bayes chỉ yêu cầu tính tốn xác suất của từng

thuật ngữ p(t k │C j ) trong từng lớp và xác suất xuất hiện của mỗi lớp p(C j) trong tập huấn luyện Trong giai đoạn phân lớp, các giá trị xác suất đã tính được dùng để phân lớp văn bản mới theo định luật Bayes

Mặc dù giả thiết thuật ngữ xuất hiện độc lập là khơng thực tế và thường khơng chính xác, nhưng nĩ thực sự làm đơn giản hố việc tính tốn xác suất của thuật ngữ Hiệu quả của phương pháp này khá cao và tương đương với các kỹ thuật khác như cây quyết định và mạng nơron [45] Kết quả phân loại theo độ đo F1 trên bộ dữ liệu tiếng Anh (Reuters) là 0.795 [84]

Tuy nhiên Nạve Bayes cĩ thể cho kết quả tồi nếu tập dữ liệu huấn luyện nghèo nàn Bên cạnh đĩ, giả thiết về tính độc lập giữa các thuật ngữ làm giảm độ chính xác của mơ hình phân loại

Trang 20

1.3.3 Phương pháp SVM

Phương pháp SVM được Vapnik giới thiệu vào năm 1979 [92], nhưng mới trở nên phổ biến vào thập kỷ 90 của thế kỷ XX SVM là thuật toán phân loại có giám sát

và áp dụng thành công vào bài toán phân loại văn bản [45], [84]

Giả sử ta có một tập huấn luyện được biểu diễn trong không gian vectơ với mỗi văn bản là một điểm Chúng ta hãy xem xét trường hợp đơn giản nhất ứng với không gian vectơ có thể phân chia tuyến tính thành hai lớp + và lớp - Ta cần tìm một mặt phẳng quyết định (gọi là siêu phẳng) có thể chia tốt nhất các mẫu dương và

âm Khoảng cách cực đại, còn gọi là lề (margin) xác định khoảng cách giữa các mẫu

dương và âm gần mặt siêu phẳng nhất SVM thực chất là một bài toán tối ưu với mục tiêu tìm một siêu phẳng nằm giữa các mẫu dương và âm của tập huấn luyện sao cho sai số phân loại là thấp nhất Hình 1.2 minh họa cho thuật toán SVM Đường nét liền trong Hình 1.2 cho thấy siêu phẳng phân chia các mẫu huấn luyện dương và

âm, đường đứt nét ở mỗi bên định rõ lề - khoảng cách mà siêu phẳng có thể dịch chuyển mà không gây ra sự phân loại sai Siêu phẳng trong Hình 1.2 có lề cực đại

và bất kỳ một mặt phẳng quyết định nào khác sẽ đều có lề nhỏ hơn lề được biểu diễn

Siêu phẳng với lề cực đại phân chia tối ưu các mẫu dương và âm được xác định bởi phương trình sau:

Trong đó w là vectơ trọng số, b là tham số ngưỡng Khi thay đổi w và b, hướng và

khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi Mục tiêu của phương pháp

SVM là ước lượng w và b để cực đại hóa lề giữa các lớp dữ liệu dương và âm Các

văn bản nằm cách siêu phẳng một khoảng lề gọi là vectơ hỗ trợ và quyết định vị trí thực tế của siêu phẳng

Văn bản mới x được phân loại vào lớp + nếu (w × x + b) > 0 và ngược lại sẽ vào

lớp - Trong trường hợp các vectơ văn bản của hai lớp không phân chia tuyến tính thì siêu phẳng được chọn sao cho có ít nhất có thể vectơ văn bản nằm sai bên

Trang 21

lề+

1.4 Bài toán gom cụm văn bản

Gom cụm văn bản là một quá trình học không giám sát, gom các tài liệu thành một hay nhiều cụm, sao cho mỗi cụm gồm những tài liệu có nội dung tương tự nhau

và có chủ đề khác xa với các cụm khác Gom cụm văn bản được xem là một trong những bài toán quan trọng của khai thác dữ liệu văn bản, bên cạnh những bài toán khác như phân loại, tóm tắt văn bản Chúng được đặt ra do nhu cầu tổ chức, truy vấn thông tin nhanh chóng và chính xác trong thời đại bùng nổ thông tin hiện nay

Các phương pháp gom cụm nói chung có thể phân chia thành các loại chính như sau [36]: phân hoạch, phân cấp, dựa trên mật độ, dựa trên lưới và dựa trên mô hình Phương pháp phân hoạch k-means [58] và phương pháp phân cấp tích tụ HAC (Hierarchical Agglomerative Clustering) [43] là hai kỹ thuật gom cụm được áp dụng phổ biến cho bài toán gom cụm văn bản [87] Khảo sát chi tiết về các phương pháp gom cụm văn bản có thể xem trong [20], [75], [87]

Trang 22

Ngoài cách phân loại trên, dựa trên trạng thái của tập văn bản mà có thể chia các phương pháp gom cụm thành hai dạng: gom cụm trên tập dữ liệu tĩnh và trên tập dữ liệu có biến động [71] Gom cụm trên tập dữ liệu tĩnh (trong luận án này gọi tắt là gom cụm tĩnh) được hiểu theo nghĩa tất cả dữ liệu cần gom cụm phải có sẵn trước khi

áp dụng thuật toán và không bị thay đổi trong quá trình gom cụm Nếu tập dữ liệu được bổ sung thêm dữ liệu mới (hay gọi là tập dữ liệu có biến động), người ta phải gom cụm lại toàn bộ dữ liệu và cập nhật thông tin cụm Trong khi đó, các thuật toán gom cụm trên tập dữ liệu có biến động (gọi tắt là gom cụm động) làm việc theo cách: gán các đối tượng vào cụm tương ứng khi chúng được đưa vào cơ sở dữ liệu So với thuật toán gom cụm tĩnh, do không cần tái gom cụm mỗi khi dữ liệu thay đồi nên thuật toán gom cụm động hiệu quả hơn mà vẫn cho kết quả tương đương hoặc gần tương đương Do đó, chúng thích hợp cho các cơ sở dữ liệu lớn và thường xuyên thay đổi Nhìn chung có hai chiến lược chính giải quyết vấn đề gom cụm động [71]: xây dựng thuật toán gom cụm động mới, quản lý trực tiếp các thay đổi trong cơ sở dữ liệu hoặc phát triển phương pháp tóm tắt dữ liệu động, nhằm thu nhỏ cơ sở dữ liệu lại và sau đó áp dụng thuật toán gom cụm tĩnh đã có lên dữ liệu đã tóm tắt được

Tất cả các thuật toán gom cụm đều dựa trên một độ đo tương tự nào đó Độ đo tương tự phổ biến là độ đo cosine áp dụng trên mô hình không gian vectơ biểu diễn văn bản

Chất lượng của kết quả gom cụm văn bản thường được đánh giá bằng sự khác biệt giữa các cụm “tự nhiên” và các cụm do thuật toán sinh ra Các độ đo chất lượng được dùng rộng rãi là độ do F và Entropy (trình bày chi tiết ở Phụ lục A)

Các phần tiếp theo trình bày hai phương pháp gom cụm văn bản phổ biến là means và HAC Đây cũng là các phương pháp gom cụm tĩnh Trong chương 4, luận

k-án sẽ phân tích một số phương pháp gom cụm văn bản động

K-means [58] là một trong những thuật toán gom cụm phổ biến trong lĩnh vực thống kê và khai thác dữ liệu Trong lĩnh vực khai thác văn bản k-means cho kết quả

Trang 23

K-means và các biến thể của nó đại diện cho lớp các thuật toán gom cụm tạo ra

phân cụm phẳng, không phân cấp gồm k cụm K-means được phát triển dựa trên ý

tưởng: điểm trung tâm có thể đại diện cho cụm dữ liệu Thuật toán k-means đơn giản

với số cụm k có thể mô tả như sau:

Thuật toán k-means đơn giản, dễ cài đặt và có độ phức tạp tính toán tuyến tính so với số văn bản [87] Thuật toán có thể phát triển và áp dụng cho tập dữ liệu lớn

Nhược điểm chính của k-means là sự lựa chọn tham số đầu vào – số cụm k có thể dẫn tới kết quả gom cụm tồi, cũng như việc lựa chọn k trung tâm cụm đầu tiên Hạn chế

khác của k-means là không thích hợp cho các cụm dữ liệu có kích thước thay đổi lớn, nhạy cảm với dữ liệu nhiễu (có thể ảnh hưởng đáng kể đến trung tâm cụm và làm giảm độ chính xác gom cụm)

Thuật toán HAC (Hierarchical Agglomerative Clustering) [43] là một phương pháp gom cụm phân cấp phổ biến HAC xây dựng cấu trúc phân cấp từ dưới lên bằng cách lặp đi lặp lại quá trình tính độ tương tự giữa tất cả các cặp cụm và gộp hai cụm gần nhau nhất thành một

Các bước của thuật toán HAC có thể mô tả như trong Hình 1.3 Sơ đồ nhánh (dendrograms) dùng để biểu diễn cấu trúc phân cấp của các cụm Sơ đồ nhánh cho phép tính số cụm dựa trên khoảng cách các cụm đã gộp Hình 1.4 bên dưới minh họa

sơ đồ nhánh của quá trình gom cụm cho bốn văn bản

1 Chọn k đối tượng dữ liệu làm k trung tâm nhóm

2 Gán tất cả các đối tượng vào nhóm có tâm gần nó nhất

3 Xác định lại trung tâm nhóm

4 Lặp lại bước 2 và 3 cho đến khi các trung tâm nhóm không thay đổi

Trang 24

1 Gán mỗi văn bản vào một cụm

2 Tính toán độ tương tự giữa các cặp cụm Lưu trữ độ tương tự giữa các cụm vào

ma trận độ tương tự với vị trí ij thể hiện độ tương tự giữa cụm thứ i và thứ j

3 Gộp hai cụm có khoảng cách nhỏ nhất (tức là giống nhau nhất) thành cụm mới

4 Cập nhật ma trận độ tương tự với các giá trị tương tự giữa cụm mới và các cụm ban đầu

5 Lặp lại bước 3 và 4 cho đến khi chỉ còn một cụm duy nhất

Hình 1.3 Thuật toán HAC

Hình 1.4 Sơ đồ nhánh đơn giản

Khi tính toán khoảng cách giữa các cụm, có nhiều phương pháp tính độ tương tự như sự liên kết cực tiểu (single linkage), sự liên kiết cực đại (complete linkage) hay

sự liên kết trung bình (average linkage) Kết quả phân cụm sẽ phụ thuộc vào độ đo tương tự sử dụng

HAC xây dựng các cụm có chất lượng tốt nhưng độ phức tạp tính toán cao Theo các nghiên cứu [75], [87], phương pháp sử dụng liên kết trung bình dường như cho kết quả khá hơn các phương pháp khác Phương pháp tính độ tương tự dựa trên liên kết cực tiểu mặc dù là phương pháp duy nhất phù hợp với các tập dữ liệu văn bản lớn, nhưng lại không cho kết quả gom cụm cao

Thuật toán HAC không có khả năng thực hiện việc điều chỉnh một khi việc gộp các cụm đã tiến hành Tính không linh hoạt này thường làm giảm độ chính xác gom cụm Việc lựa chọn được chính xác phương pháp tính độ tương tự giữa các cụm lại

Trang 25

nhiên, nhược điểm lớn nhất của HAC là đòi hỏi nhiều bộ nhớ để lưu trữ ma trận

tương tự gồm n(n-1)/2 thành phần với n – số văn bản

Với thời gian thực thi O(n 2 ) – tồi hơn nhiều so với thời gian thực thi tuyến tính

của k-means nên khó áp dụng HAC cho các tập văn bản lớn Theo [87], khi so sánh kết quả gom cụm của k-means và HAC trên 8 bộ dữ liệu khác nhau đều cho thấy k-means cho kết quả tốt hơn Ưu điểm của HAC là hiệu quả hơn k-means khi làm việc với dữ liệu nhiễu và cá biệt

1.5 Bài toán tóm tắt văn bản

Tóm tắt văn bản chính thức được nghiên cứu lần đầu tiên vào năm 1958 bởi Luhn (1958) [57], tiếp theo đó là Edmundson (1969) [28] Tóm tắt văn bản được quan tâm

và nghiên cứu tích cực trong những năm gần đây cùng với sự bùng nổ thông tin trên web Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn (hoặc nhiều nguồn) và tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể, cho người dùng cụ thể [60] Tóm tắt văn bản có thể áp dụng cho từng văn bản lẫn tập văn bản (các văn bản cùng chung chủ đề) Tóm tắt tập văn bản có độ phức tạp cao hơn rất nhiều so với tóm tắt từng văn bản vì phải giải quyết nhiều vấn đề như: chi phí thuật toán, thông tin phải được tổng hợp, chọn lọc từ nhiều văn bản và phải đảm bảo tính súc tích, cô đọng, không trùng lắp thông tin

Nội dung của bản tóm tắt phụ thuộc vào nhu cầu của người dùng Bản tóm tắt theo truy vấn tập trung vào câu truy vấn của người dùng và rút trích các thông tin liên quan đến câu truy vấn này từ văn bản Ngược lại bản tóm tắt tổng quát cố gắng bao quát đầy đủ các nội dung và bảo toàn cấu trúc chung của văn bản gốc

Bản tóm tắt có thể có dạng trích lược (extract) hoặc tóm lược (abstract) Bản tóm tắt dạng trích lược gồm tập các câu từ văn bản gốc Trong bản tóm tắt dạng tóm lược, nội dung của văn bản gốc được viết lại, có thể chứa những câu hoàn toàn mới so với văn bản gốc, những câu ngắn gọn hơn, trau chuốt hơn nhưng vẫn chuyển tải đầy đủ nội dung của tài liệu Mặc dù các bản tóm tắt do người dùng biên soạn thường không

ở dạng trích lược, nhưng phần lớn các nghiên cứu hiện này đều tập trung vào tóm tắt theo dạng trích lược Tóm lược văn bản đòi hỏi nhiều ở những tri thức chuyên sâu và

Trang 26

liên quan đến ngôn ngữ học, mà đặc biệt là các thành tựu của lĩnh vực xử lý ngôn ngữ

tự nhiên Đó là lý do khiến bản tóm lược hiện nay chưa đạt kết quả tốt như bản trích lược Thật sự bài toán tóm tắt dạng trích lược chưa đạt đến mức độ hoàn chỉnh và các nghiên cứu đi theo hướng này còn hạn chế Các công cụ tóm lược hiện tại thường dựa trên các thành phần trích lược đã xử lý trước Kết quả đầu ra của quá trình trích lược

sẽ được cắt, dán hay tổng hợp và tạo ra bản tóm lược [44], [49], [97]

Bài toán tóm tắt văn bản hiện nay thường có khuynh hướng nghiêng về dạng trích lược và sẽ được trình bày kỹ trong phần tiếp theo dưới đây Mục đích của tóm tắt dạng trích lược là xác định và lựa chọn các câu quan trọng nhất trong văn bản để tạo thành bản tóm tắt Từ đây trở đi, trong luận án sẽ gọi bản tóm tắt dạng trích lược là bản tóm tắt Có thể phân loại các phương pháp tóm tắt dạng trích lược theo các tiếp cận: sử dụng đặc trưng ngôn ngữ [66], [70], đặc trưng Heuristic [28], [57], thống kê [29], [50], [79] và kết hợp của các phương pháp trên [33], [83], [46]

Trong các tiếp cận này, mặc dù phương pháp sử dụng đặc trưng Heuristic được nghiên cứu từ những năm 50 nhưng ý tưởng đó vẫn còn được sử dụng rộng rãi tại thời điểm hiện nay Từ những năm 90 đến nay, các hướng tiếp cận khác dựa trên thống kê, các phương pháp máy học và lý thuyết đồ thị trở thành tiêu điểm của các nghiên cứu, đạt được nhiều kết quả khả quan và trở thành hướng tiếp cận chính cho bài toán tóm tắt dạng trích lược

Đánh giá chất lượng bản tóm tắt là vấn đề khá khó khăn và phức tạp Một bản tóm tắt đạt yêu cầu khi nó thỏa các điều kiện sau: chuyển tải được toàn bộ nội dung chính của văn bản một cách gãy gọn, thể hiện phải mạch lạc, không bị trùng lắp hay dư thừa thông tin Nhưng làm sao đánh giá được những tiêu chí này thì vẫn còn là một câu hỏi khó Một số phương pháp đánh giá đã được đề xuất như đánh giá dựa trên độ tương tự về nội dung (độ đo cosine), đánh giá dựa trên độ chính xác (Precision), độ bao phủ (Recall) Độ chính xác là phần trăm số câu của bản tóm tắt cần đánh giá trùng với bản tóm tắt chuẩn, còn độ bao phủ là tỷ lệ giữa số câu trùng nhau với số câu trong bản tóm tắt chuẩn

Trang 27

Gần đây, các tác giả [54] đã xây dựng công cụ ROUGE (Recall Oriented Understudy for Gisting Evaluation), một công cụ đánh giá tóm tắt sử dụng phương pháp n-gram Ý tưởng chính là xác định sự tương tự giữa các bản tóm tắt dựa trên số lượng n-gram trùng nhau Đây là phương pháp đánh giá tự động có độ chính xác cao, độc lập ngôn ngữ và gần như tương đồng với đánh giá của con người Công cụ ROUGE được sử dụng phổ biến trong các nghiên cứu về tóm tắt văn bản trên thế giới (xem Phụ lục A.3)

Phần dưới đây sẽ trình bày chi tiết phương pháp tóm tắt sử dụng Heuristic và các phương pháp khác Nhiều kỹ thuật tóm tắt khác được khảo sát trong [60], [86] và tổng quan các hệ thống tóm tắt cùng với đặc trưng và kỹ thuật sử dụng có thể xem trong [13]

 Ngữ chỉ thị: Ngữ chỉ thị (cue) là những từ mang ý nghĩa đánh dấu như hầu

như không, không thể, hay những từ làm tăng ý nghĩa như do đó, vì thế, cho nên, kết quả là, những từ làm giảm ý nghĩa như trái lại, nhưng, tuy nhiên và những từ không làm thay đổi ý nghĩa như trợ động từ, hư từ như thì, là, cái Độ quan trọng của câu là tổng hợp giá trị của các từ trong câu

Khi tính độ quan trọng của câu, ta lần lượt so sánh các từ xuất hiện trong câu với từ điển ngữ chỉ thị Các từ làm tăng nghĩa và các từ đánh dấu sẽ có trọng số cao hơn các từ loại khác

 Tần suất từ: Những từ thường xuyên xuất hiện trong văn bản có thể là những từ có ý nghĩa Vì vậy, độ quan trọng của câu được xác định dựa trên tần suất xuất hiện trong văn bản của các từ thuộc câu đó Sau đó những câu

Trang 28

có độ quan trọng lớn nhất sẽ đưa vào bản tóm tắt Phương pháp này cho kết quả khá tốt tuy nhiên thời gian xử lý chậm

 Nhan đề: Các câu có chứa từ của câu nhan đề (title) hoặc câu tiêu đề (heading) sẽ có độ quan trọng cao và độ quan trọng của câu chứa từ thuộc nhan đề cao hơn câu có chứa từ của tiêu đề Tuy nhiên phương pháp này phụ thuộc khá nhiều vào cấu trúc của văn bản Chúng ta sẽ gặp rất nhiều khó khăn trong việc tóm tắt văn bản mà không có câu nhan đề

 Vị trí: điều này phụ thuộc vào loại tài liệu Ví dụ trong các tài liệu kỹ thuật, những câu nằm ở đoạn cuối có trọng số cao ngược lại với bài báo tin tức thì các câu đầu tiên là quan trọng

Độ quan trọng của câu (hay trọng số của câu) được tính như sau:

S i = w 1 * C i + w 2 * K i + w 3 * T i + w 4 * L i (1 8)

Trong đó: S i là độ quan trọng của câu thứ i C i , K i và T i là trọng số của câu i dựa trên các từ ngữ chỉ thị, tần suất từ và từ thuộc tiêu đề có trong câu Li là trọng số của câu dựa vào vị trí trong văn bản w 1 , w 2 , w 3 , w 4 là hệ số tuyến tính thể hiện sự đóng góp của từng trọng số

Phương pháp này phụ thuộc vào cấu trúc và dạng của văn bản Bên cạnh đó vấn

đề trùng lắp thông tin trong bản tóm tắt chưa được xem xét đến

1.5.2 Các phương pháp khác

 Phương pháp thống kê thuần túy: Phương pháp thống kê chủ yếu sử dụng sự

phân bố của các câu, từ trong văn bản Phương pháp này tạo bản tóm tắt bằng cách phân tích, tổng hợp, thống kê dựa trên các mối quan hệ, các liên kết nội tại của văn bản Cấu trúc và liên kết giữa các đoạn của văn bản được phân tích, rút trích những đoạn quan trọng nhất và biểu diễn thành bản tóm tắt [79] Với

mô hình ngôn ngữ, các tác giả [19] chọn ra những thuật ngữ nên xuất hiện trong bản tóm tắt, sau đó kết hợp các thuật ngữ lại bằng mô hình ngôn ngữ trigram và tạo ra bản tóm tắt

Trang 29

 Thống kê kết hợp ngôn ngữ: Phương pháp này kết hợp kỹ thuật thống kê và

các tri thức về ngôn ngữ học khi tạo bản tóm tắt Bản tóm tắt được tạo ra dựa trên việc thống kê nhiều yếu tố khác nhau như: trọng số của thuật ngữ, câu truy vấn mở rộng, từ điển đồng nghĩa-phản nghĩa mở rộng, lề cực đại tương ứng (MMR) [22], hay sự đồng hiện, độ chính xác, sự không trùng lắp [83] Các tri thức về ngôn ngữ hỗ trợ quá trình phân tích nghĩa của từ, phân tích cấu trúc văn bản,… Trọng số của các thuật ngữ còn xác định trọng tâm nội dung của văn bản [46] Sau đó, các câu thỏa mãn những tiêu chí cho trước được tổng hợp, bố trí cho đúng cấu trúc ngữ pháp và tạo thành bản tóm tắt

 Phương pháp máy học: Phương pháp này mô hình hóa bài toán tóm tắt thành

bài toán phân lớp [50] và sử dụng các thuật toán máy học như mô hình Markov ẩn [24], mô hình độ hỗn loạn tối đa (Maximum Entropy) [77] hay SVM [39] nhằm mục đích chọn lọc ra các câu tốt nhất đưa vào bản tóm tắt Phương pháp này có ưu điểm là ít phụ thuộc vào kiến trúc ngôn ngữ và cũng không đòi hỏi những tri thức sâu về lĩnh vực ngôn ngữ, nhưng lại yêu cầu khá nhiều dữ liệu huấn luyện có chất lượng mới có thể cho ra một bản tóm tắt hoàn chỉnh

 Phương pháp dựa trên đồ thị: Phương pháp này mô hình hoá văn bản thành đồ

thị với đỉnh biểu diễn đoạn văn [79], hay câu [29], [67], [95], [109], hay thuật ngữ hoặc cụm từ trong văn bản [53], [59] và cạnh nối giữa hai đỉnh thể hiện mối quan hệ giữa chúng Từ đồ thị, ta có thể xác định các đỉnh đại diện cho những thành phần mang thông tin chính yếu của văn bản Các đỉnh này có thể

là các đỉnh trung tâm của đồ thị, hay là trọng tâm của các cụm đỉnh được phân chia trên đồ thị, hoặc cũng có thể là các đỉnh xếp thứ hạng cao về độ quan trọng Ưu điểm của phương pháp này là không yêu cầu những kiến thức sâu về mặt ngôn ngữ và không cần tập dữ liệu huấn luyện

Mỗi phương pháp tóm tắt văn bản trình bày trên đây đều có ưu điểm và nhược điểm riêng Vì vậy, trong thực tế, một hệ thống tóm tắt thường là sự kết hợp của

Trang 30

nhiều phương pháp khác nhau để khai thác các ưu điểm, đồng thời khắc phục các nhược điểm của từng phương pháp để tạo ra một hệ thống tóm tắt hoàn chỉnh nhất

1.6 Kết luận

Chương này giới thiệu tổng quan về khai thác văn bản và phân tích các đặc điểm khác biệt đối với khai thác dữ liệu truyền thống Các bài toán chính của khai thác văn bản như biểu diễn văn bản, phân loại, gom cụm và tóm tắt văn bản được trình bày chi tiết Đối với từng bài toán, luận án phân tích các kỹ thuật giải quyết phổ biến cùng với

ưu, nhược điểm

Trang 31

Chương 2

Mô hình biểu diễn văn bản bằng đồ thị

2.1 Giới thiệu

Hiện nay, chúng ta dùng các mô hình biểu diễn để giải quyết hầu hết những vấn

đề liên quan đến văn bản Các mô hình biểu diễn đóng vai trò trung gian giữa ngôn ngữ tự nhiên dạng văn bản và chương trình xử lý trong các lĩnh vực khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên Sau khi được tái thể hiện, văn bản trở thành những cấu trúc dữ liệu trực quan, đơn giản và có thể xử lý được Vì vậy, các mô hình biểu diễn không ngừng phát triển, hàm chứa được nhiều hơn những suy nghĩ mà con người muốn diễn đạt, đồng thời nâng cao hiệu quả sử dụng Mô hình biểu diễn văn bản truyền thống như: mô hình túi từ và không gian vectơ là các mô hình được sử dụng phổ biến nhất Mô hình không gian vectơ [80] (do Salton G đề xuất năm 1975) biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản Trọng số các đặc trưng thường được tính qua độ

đo TF×IDF Tuy nhiên, mô hình này không nắm bắt được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận của từ, vị trí xuất hiện của từ trong văn bản Nhằm giải quyết các hạn chế trên, mô hình đồ thị được đề xuất và được đánh giá có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc mà mô hình túi từ và không gian vectơ đã bỏ qua

Mô hình đồ thị biểu diễn văn bản, cụ thể là mô hình đồ thị khái niệm (Conceptual Graphs_ CGs), được John F Sowa trình bày lần đầu tiên vào năm 1976 [85] Hiện nay, mô hình đồ thị không ngừng phát triển dựa trên ý tưởng của mô hình CGs, được ứng dụng vào dãy rộng các bài toán liên quan đến xử lý văn bản và trở nên khá phong phú Khi ứng dụng vào từng loại bài toán khác nhau, các thành phần thích hợp nhất trong văn bản trở thành đỉnh của đồ thị và mối quan hệ hiệu quả nhất giữa các đỉnh được chọn để xây dựng cạnh của đồ thị Đỉnh của đồ thị có thể biểu diễn câu, từ, hay

Trang 32

câu kết hợp từ Cạnh có thể thể hiện những mối quan hệ khác nhau giữa các đỉnh như: trật tự xuất hiện, tần suất đồng hiện, vị trí xuất hiện, độ tương đồng

Các mô hình đồ thị được sử dụng hiện nay tương đối đa dạng và mỗi mô hình mang nét đặc trưng riêng Sau quá trình nghiên cứu và hệ thống, luận án giới thiệu những đặc tính khái quát của một số mô hình đồ thị biểu diễn văn bản chính như sau Mỗi đồ thị là một văn bản hoặc biểu diễn cho tập văn bản Đỉnh của đồ thị có thể

là câu, hoặc từ, hoặc kết hợp các thành phần khác nhau của văn bản (ví dụ như câu và từ) Cạnh nối giữa các đỉnh là vô hướng hoặc có hướng, thể hiện mối quan hệ trong

đồ thị Nhãn đỉnh thường là tần suất xuất hiện của đỉnh Còn nhãn cạnh là tên mối liên kết khái niệm giữa hai đỉnh, hay tần suất xuất hiện chung của hai đỉnh trong một phạm vi nào đó, hay tên vùng mà đỉnh xuất hiện

Chẳng hạn trong bài toán rút trích thông tin, đỉnh là từ [89] hay từ kết hợp câu

[109], cạnh thể hiện tần suất đồng hiện Trong bài toán phân lớp văn bản, đỉnh là từ, cạnh thể hiện trật tự xuất hiện của từ hay vị trí xuất hiện của từ trong văn bản [11],

[61], [82] Còn trong bài toán tóm tắt văn bản thì đỉnh là câu, cạnh thể hiện sự tương đồng giữa các câu [68]

Do thông tin cấu trúc quan trọng của văn bản thể hiện ở trật tự xuất hiện của từ, vùng lân cận của từ, cũng như vị trí xuất hiện của từ trong văn bản nên mô hình đồ thị

sử dụng đỉnh là từ được nghiên cứu sâu hơn và có nhiều biến thể nhất

Sau đây, luận án sẽ trình bày chi tiết một số mô hình đại diện với đỉnh biểu diễn

từ Đó là mô hình đồ thị khái niệm, đồ thị hình sao, đồ thị tần số xuất hiện vô hướng,

đồ thị đơn giản, đồ thị khoảng cách n đơn giản Bên cạnh đó mô hình với đỉnh là câu

và mô hình đồ thị lưỡng phần cũng đề cập đến

2.2 Mô hình đồ thị khái niệm

Mô hình đồ thị khái niệm (Conceptual Graphs – CGs) sử dụng mạng ngữ nghĩa biểu diễn văn bản thành đồ thị

Trang 33

Định nghĩa 2.1: Mô hình đồ thị khái niệm

Mô hình đồ thị khái niệm là mô hình coi mỗi từ trong văn bản là một khái niệm

và được biểu diễn bằng đỉnh hình vuông Đỉnh hình oval thể hiện mối quan hệ giữa các khái niệm [85]

Các đỉnh hình vuông được nối với nhau dựa trên mối quan hệ trong mạng ngữ nghĩa và qua trung gian là đỉnh hình oval

Ví dụ 2.1: Ta có câu: “Jonh is going to Boston by bus”

Hình 2.1 Ví dụ mô hình đồ thị khái niệm

(nguồn http://www.jfsowa.com/cg/cgexamp.htm)

Mô hình đồ thị khái niệm biểu diễn câu trên như trong Hình 2.1 Trong đó: các khái niệm là [Go], [Person: John], [City: Boston] và [Bus], các mối quan hệ là (Agnt)– tác nhân, (Dest) – nơi đến và (Inst) – phương tiện

Ưu điểm của CGs là mô hình hoá văn bản một cách trực quan, chính xác và logic Điểm hạn chế của CGs là độ phức tạp, đòi hỏi phân tích ngữ nghĩa sâu và phụ thuộc vào lĩnh vực

2.3 Mô hình đồ thị hình sao

Định nghĩa 2.2: Mô hình đồ thị hình sao

Mô hình đồ thị hình sao là mô hình có đỉnh trung tâm mang tên cấu trúc đặc trưng của từng loại văn bản và các đỉnh còn lại biểu diễn từ trong văn bản Các đỉnh liên kết với đỉnh trung tâm và cạnh nối được gán nhãn thể hiện mối quan hệ giữa đỉnh và đỉnh trung tâm [12]

Bus

Inst

Trang 34

Trên đồ thị hình sao, đỉnh trung tâm là nét khái quát cấu trúc của văn bản Sau khi đỉnh trung tâm được xác lập, các đỉnh còn lại sẽ được triển khai Chẳng hạn một văn bản không có cấu trúc gì đặc biệt thì chỉ có một đỉnh trung tâm mang tên “Văn bản” Khi xem xét văn bản Web, ta có thể sử dụng ba đỉnh trung tâm tương ứng với cấu trúc của trang HTML: “Head”, „Title”, “Body”, hoặc có thể chỉ dùng một đỉnh trung tâm là „Trang Web”

Ngoài đỉnh trung tâm, các đỉnh còn lại biểu diễn từ trong văn bản Cạnh nối giữa các đỉnh được gán nhãn, thể hiện mối quan hệ giữa các đỉnh

Ví dụ 2.2: Chẳng hạn khi mô hình hoá một văn bản thì nhãn của cạnh có thể là:

“tiêu đề”, “chứa” như trong Hình 2.2

Thế mạnh của mô hình đồ thị hình sao khi áp dụng vào bài toán phân lớp nói chung và đặc biệt trong phân loại email là nắm bắt được các thông tin cấu trúc của email (phần tiêu đề, phần nội dung), mối quan hệ giữa từ với các phần cấu trúc (đồng hiện của từ trong các phần tiêu đề, nội dung, ) Tuy nhiên, các thông tin về sự liền

kề của từ, thứ tự của từ trong văn bản thì lại bị bỏ qua

Ví dụ 2.3: Mô hình hoá một email với đỉnh trung tâm là „Email”, “Header”,

“Body”, còn nhãn của cạnh có thể là: “has”, “from”, “to” như trong Hình 2.3

Văn bản

cảnh báo

toàn cầu cảnh báo

Trang 35

Hình 2.3 Ví dụ mô hình đồ thị hình sao biểu diễn email [CT10]

2.4 Mô hình đồ thị tần số vô hướng

Mô hình đồ thị tần số vô hướng là đồ thị vô hướng sử dụng tần suất xuất hiện Trong mô hình đồ thị này, đỉnh và cạnh đều được gán nhãn, nhãn của đỉnh và cạnh là tần suất xuất hiện của đỉnh và cạnh tương ứng

Định nghĩa 2.3: Mô hình đồ thị tần số vô hướng

Mô hình đồ thị tần số vô hướng là mô hình với đỉnh là từ trong văn bản Nhãn đỉnh thể hiện tần suất xuất hiện của từ trong văn bản Cạnh được nối giữa hai đỉnh nếu hai từ xuất hiện chung trong tập hợp (câu hoặc nhóm từ hoặc trang) và có tần suất xuất hiện chung lớn hơn ngưỡng cho phép và nhãn cạnh là tần suất xuất hiện chung của hai từ trong tập hợp [89]

Hình 2.4 là ví dụ mô hình đồ thị vô hướng sử dụng tần số xuất hiện Nhãn cạnh

và nhãn đỉnh là giá trị tần suất xuất hiện của từ và cụm từ tương ứng (đã chuẩn hóa

về [0 1])

Ưu điểm của mô hình này là khai thác được mối quan hệ giữa từ với từ trong cấu trúc văn bản, cũng như tần suất xuất hiện của từ và hỗ trợ cho quá trình tìm kiếm thông tin nhanh chóng

Trang 36

Hình 2.4 Ví dụ mô hình đồ thị tần số vô hướng [89]

2.5 Mô hình đồ thị đơn giản

Mô hình đồ thị đơn giản là đồ thị có hướng, cạnh không gán nhãn

Định nghĩa 2.4: Mô hình đồ thị đơn giản

Mô hình đồ thị đơn giản là mô hình với đỉnh là từ và cạnh nối từ đỉnh A đến đỉnh

B khi từ tương ứng với đỉnh A đứng ngay trước từ tương ứng với đỉnh B trong văn bản [82]

Trong dạng mô hình đơn giản này, mỗi đỉnh biểu diễn một từ riêng biệt và chỉ xuất hiện một lần trên đồ thị (ngay cả khi từ đó xuất hiện nhiều lần trong văn bản) Nhãn đỉnh là duy nhất và là tên của từ Sau bước tiền xử lý văn bản, nếu từ “X” đứng ngay trước từ “Y” sẽ có cạnh nối từ đỉnh “X” đến đỉnh “Y” (không kể các trường hợp phân cách bởi dấu câu)

Ví dụ 2.4: Ta có văn bản sau:”Microsoft sẽ giới thiệu hệ điều hành Vista và

trưng bày các công nghệ bổ trợ được xây dựng để cải tiến hệ điều hành”.

Hình 2.5 là mô hình đồ thị đơn giản biểu diễn văn bản trên sau khi đã qua bước loại bỏ bớt hư từ và các từ có trọng số thấp

Trang 37

Hình 2.5 Ví dụ mô hình đồ thị đơn giản [CT4 ]

Điểm mạnh của mô hình là lưu trữ được các thông tin cấu trúc như thứ tự xuất hiện, vị trí của từ trong văn bản và làm tăng hiệu quả của bài toán phân lớp [62], [82], cũng như gom cụm văn bản [35], [81]

2.6 Mô hình đồ thị khoảng cách n đơn giản

Mô hình đồ thị khoảng cách n đơn giản là đồ thị có hướng, cạnh có gán nhãn,

cạnh là khoảng cách giữa hai từ trong văn bản

Định nghĩa 2.5: Mô hình đồ thị khoảng cách n đơn giản

Mô hình đồ thị khoảng cách n đơn giản là mô hình với đỉnh là từ và cạnh nối từ

đỉnh A đến đỉnh B khi từ tương ứng với đỉnh A xuất hiện trước từ tương ứng với đỉnh

B trong văn bản và số từ xuất hiện nhiều nhất giữa chúng là (n-1) từ [82]

Trong cách biểu diễn này, người dùng cung cấp tham số n Thay vì chỉ quan tâm

từ “X” trực tiếp ngay trước từ “Y”, ta còn chú ý đến n từ đứng trước từ “Y” Cạnh được xây dựng giữa hai từ khi giữa chúng có số từ xuất hiện nhiều nhất là (n-1) từ

(ngoại trừ trường hợp các từ được phân cách bởi các dấu câu)

Ưu điểm của mô hình là tận dụng được mối quan hệ giữa các từ, vùng lân cận của

từ trong câu và có thể áp dụng vào bài toán phân lớp văn bản

Ví dụ 2.5: Ta có câu sau: “Cánh đồng lúa xanh bát ngát”.

Với n=2, Hình 2.6 là đồ thị biểu diễn câu trên

xây dựng Vista

cải tiến

hệ điều hành giới thiệu

Trang 38

Hình 2.6 Ví dụ mô hình đồ thị khoảng cách n đơn giản [CT4 ]

2.7 Mô hình đồ thị đỉnh là câu

Định nghĩa 2.6: Mô hình đồ thị đỉnh là câu

Mô hình đồ thị đỉnh là câu là đồ thị với đỉnh biểu diễn câu trong văn bản và cạnh được nối giữa hai đỉnh khi độ tương tự giữa chúng lớn hơn ngưỡng cho trước [68] Trong mô hình này, mỗi câu trở thành một đỉnh của đồ thị Đồ thị có thể có hướng hoặc vô hướng Cạnh được tạo giữa hai đỉnh khi hai câu tương ứng với hai đỉnh có sự trùng lắp về nội dung Có rất nhiều phương pháp tính độ tương tự câu từ đơn giản đến phức tạp [10] như dựa trên sự trùng lắp: word-overlap, Dice, Jaccard; dựa trên trọng

số TF×IDF của từ: Cosine hay dựa trên ngôn ngữ học: thứ tự của từ, mối liên hệ về ngữ nghĩa giữa các câu

Định nghĩa 2.7: Độ đo tương tự Word-overlap

Cho hai câu S i và S j, độ đo tương tự Word-overlap giữa hai câu được định nghĩa như sau [68]:

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 𝑆𝑖, 𝑆𝑗 = 𝑤𝑘 𝑤𝑘 𝜖 𝑆𝑖 & 𝑤𝑘 𝜖 𝑆𝑗

log 𝑆𝑖 + log( 𝑆𝑖 )

(2.1)

Trong đó:

- S i = {𝑤1𝑖, 𝑤2𝑖,…, 𝑤𝑛𝑖}, với n là số từ xuất hiện trong câu S i

- 𝑤𝑘 𝑤𝑘 𝜖 𝑆𝑖 & 𝑤𝑘 𝜖 𝑆𝑗 : số từ thuộc câu S i lẫn câu S j

- 𝑆𝑖 , 𝑆𝑗 : tổng số từ có trong câu S i và S j tương ứng

xanh bát ngát

lúa cánh đồng

Trang 39

Ví dụ 2.6: Ta có văn bản gồm 4 câu như sau:

S 1 = Thủ thành số một của Barcelona, Victor Valdes đã đồng ý đặt bút ký vào bản hợp đồng mới có thời hạn tới năm 2014 với đội bóng chủ sân Nou Camp

S 2 = Với việc Valdes đồng ý ở lại, Barcelona sẽ không phải chạy đôn chạy đáo tìm kiếm một thủ môn bắt chính cho mùa giải năm sau

S 3 = Theo thông tin của tờ Marca, giám đốc kỹ thuật Txiki Begiristain đã có buổi nói chuyện với người đại diện của Valdes và đôi bên đã đạt được thoả thuận về việc gia hạn hợp đồng

S 4 = "Cuộc đàm phán đã được khép lại”, lời đầu tiên của Gines Carvajal, người đại diện của Valdes, sau khi bước ra khỏi văn phòng

Hình 2.7 là đồ thị vô hướng biểu diễn văn bản trên sử dụng độ đo tương tự overlap Giá trị trên cạnh nối hai đỉnh là độ tương tự giữa các câu tương ứng Ngưỡng tạo cạnh là 0.2

Word-Hình 2.7 Ví dụ mô hình đồ thị với đỉnh là câu

0.476

0.471

1 1 1 1

4

Trang 40

Mô hình đồ thị lưỡng phần là mô hình sử dụng hai loại đỉnh tương ứng với các thành phần khác nhau của văn bản Cạnh chỉ nối giữa hai loại đỉnh và thể hiện mối quan hệ giữa chúng trong văn bản [109]

Các thành phần khác nhau trong văn bản có thể là từ, nhóm từ, câu, đoạn hay toàn

bộ văn bản Trong đó, các thành phần sử dụng phổ biến nhất là câu và từ Trong mô hình đỉnh là câu và từ, đỉnh loại 1 biểu diễn câu trong văn bản, đỉnh loại 2 biểu diễn

từ trong văn bản Cạnh nối giữa đỉnh loại 1 với đỉnh loại 2 thể hiện mối quan hệ giữa hai đỉnh hay xác định sự xuất hiện của từ trong câu Nhãn của cạnh xác định mối liên

hệ giữa từ với câu và thường là tần suất xuất hiện của từ trong câu tương ứng

Ví dụ 2.7: Ta có văn bản gồm 2 câu sau:

S 1 = Việc sử dụng một hệ thống điều hành điện tử cũng không quá phức tạp, nếu không muốn nói là đơn giản

S 2 = Có thể nói, bất cứ ai, hễ biết đọc, biết viết thì chỉ cần cầu thị và có một chút quyết tâm là có thể sử dụng, khai thác hệ thống này

Từ văn bản, ta có tập hợp từ T = {t1, t2, …, tn} với t1= “ai”; t2= “biết”; t3= “điện tử”; t4= “hệ thống”; t5= “khai thác”; …; tn= “việc” Hình 2.8 minh họa đồ thị lưỡng

phần kết hợp giữa từ và câu cho văn bản trên, trong đó t j đại diện cho từ và S i đại diện cho các câu trong văn bản Nhãn cạnh là tần suất xuất hiện của từ trong câu tương ứng

1

2

1 1

1

Hình 2.8 Minh họa mô hình đồ thị lƣỡng phần với đỉnh là câu và từ

Định dạng
Số trang	155
Dung lượng	5,92 MB