Toàn văn luận án Tiếp cận đồ thị biểu diễn , khai thác văn bản và ứng dụng

Danh mục các thuật ngữ, ký hiệu, chữ viết tắt  Average link : liên kết trung bình Bag of words model : mô hình túi từ Clustering : gom cụm Complete link : liên kết đầy đủ Cross-valid

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

  

NGUYỄN HOÀNG TÚ ANH

TIẾP CẬN ĐỒ THỊ BIỂU DIỄN, KHAI THÁC VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Đảm bảo toán học cho máy tính và hệ thống tính toán

Phản biện độc lập 3: PGS.TS Nguyễn Kim Anh

NGƯỜI HƯỚNG DẪN KHOA HỌC

Trang 2

Mục lục



Mở đầu 1

Dẫn nhập 1

Mục tiêu và đĩng gĩp của luận án 2

Nội dung luận án 5

Chương 1 Tổng quan về khai thác dữ liệu văn bản 7

1.1 Tổng quan 7

1.1.1 Giới thiệu 7

1.1.2 Các bài tốn chính của khai thác văn bản 8

1.2 Mơ hình biểu diễn văn bản 9

1.3 Bài tốn phân loại văn bản 12

1.3.1 Phương pháp k-láng giềng gần nhất (k-NN) 13

1.3.2 Phương pháp Nạve Bayes 14

1.3.3 Phương pháp SVM 16

1.4 Bài tốn gom cụm văn bản 17

1.4.1 Phương pháp k-Means 18

1.4.2 Phương pháp HAC 19

1.5 Bài tốn tĩm tắt văn bản 21

1.5.1 Phương pháp Heuristic 23

1.5.2 Các phương pháp khác 24

1.6 Kết luận 26

Chương 2 Mơ hình biểu diễn văn bản bằng đồ thị 27

2.1 Giới thiệu 27

2.2 Mơ hình đồ thị khái niệm 28

2.3 Mơ hình đồ thị hình sao 29

2.4 Mơ hình đồ thị tần số vơ hướng 31

2.5 Mơ hình đồ thị đơn giản 32

2.6 Mơ hình đồ thị khoảng cách n đơn giản 33

2.7 Mơ hình đồ thị đỉnh là câu 34

2.8 Mơ hình đồ thị lưỡng phần 35

2.9 Phân loại các mơ hình đồ thị [CT4] 37

2.10 Kết luận 40

Trang 3

Chương 3 Phân loại văn bản dựa trên tiếp cận đồ thị 41

3.2 Các công trình nghiên cứu liên quan 42

3.2.1 Khai thác đồ thị con phổ biến 42

3.2.2 Phân loại văn bản dựa trên tiếp cận đồ thị 44

3.2.3 Phân loại văn bản tiếng Việt 45

3.3 Qui trình phân loại văn bản dựa trên kỹ thuật khai thác đồ thị 46

3.3.1 Tiền xử lý văn bản 47

3.3.2 Mô hình hóa văn bản thành đồ thị 48

3.3.3 Rút trích đặc trưng đồ thị 48

3.3.4 Xây dựng vectơ đại diện lớp 55

3.3.5 Bộ phân loại 56

3.4 Kết quả thử nghiệm 58

3.4.1 Thử nghiệm trên tập dữ liệu email tiếng Anh 58

3.4.1 Thử nghiệm trên tập dữ liệu tiếng Việt 65

3.5 Kết luận 71

Chương 4 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị 73

4.2.1 Gom cụm văn bản động 75

4.2.2 Gom cụm văn bản dựa trên tiếp cận đồ thị 77

4.2.3 Gom cụm văn bản tiếng Việt 78

4.3 Gom cụm tập văn bản có biến động dựa trên biểu diễn đồ thị 79

4.3.3 Rút trích đặc trưng đồ thị 82

4.3.4 Xác định độ tương tự giữa các văn bản 84

4.3.5 Kỹ thuật chọn lựa động đặc trưng 86

4.3.6 Thuật toán gom cụm động Incremental DBSCAN cải tiến 88

Chương 5 Tóm tắt văn bản dựa trên biểu diễn đồ thị 106

Trang 4

5.3 Mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị và kỹ

thuật xếp hạng 111

5.3.3 Xếp hạng câu 116

5.3.4 Tạo bản tóm tắt 119

5.4.1 Kết quả tóm tắt văn bản đơn 121

5.4.1 Kết quả tóm tắt tập văn bản 123

Kết luận 128

Các kết quả đạt được 128

Hướng phát triển 130

Danh mục công trình của tác giả 131

Tài liệu tham khảo 133

Phụ lục A Các độ đo đánh giá 145

A.1 Đánh giá phương pháp phân loại 145

A.2 Đánh giá chất lượng gom cụm 145

A.3 Đánh giá bản tóm tắt 147

Phụ lục B Ví dụ biểu diễn văn bản bằng đồ thị 149

Phụ lục C Kiểm định giả thiết thống kê 153

C.1 Khái niệm [4] 153

C.2 Kiểm định giả thiết về số trung bình của tổng thể 153

C.3 Kiểm định giả thiết về tỷ lệ của tổng thể 154

C.4 Kiểm định giả thiết về sự khác biệt giữa hai trung bình của tổng thể 155

C.5 Kiểm định giả thiết về sự bằng nhau giữa hai tỷ lệ của tổng thể 156

Phụ lục D Ví dụ kết quả tóm tắt văn bản 158

D.1 Ví dụ tóm tắt văn bản đơn 158

D.2 Ví dụ tóm tắt tập văn bản 162

Trang 5

Danh mục các thuật ngữ, ký hiệu, chữ viết tắt



Average link : liên kết trung bình

Bag of words model : mô hình túi từ

Clustering : gom cụm

Complete link : liên kết đầy đủ

Cross-validation : đánh giá chéo

Data mining : khai thác dữ liệu

Dendrograms : sơ đồ nhánh

Document : tài liệu

Graph-based model : mô hình biểu diễn bằng đồ thị

Hyperplane : siêu phẳng

Information extraction : trích chọn thông tin

Information retrieval : truy vấn thông tin

Single link : liên kết đơn

Text mining : khai thác dữ liệu văn bản (khai thác văn bản)

CGs : mô hình đồ thị khái niệm - Conceptual Graphs

DC-Tree : cây gom cụm tài liệu – Document Clustering Tree

DF : tần suất xuất hiện của tài liệu – Document frequency DIG : đồ thị chỉ mục tài liệu - Document Index Graph

DUC : Document Understanding Conference

HAC : gom cụm phân cấp tích tụ - Hierachical Agglomerative

Clustering

Trang 6

IDF : nghịch đảo tần suất xuất hiện của tài liệu - Inverse

Document Frequency

IG : độ lợi thông tin – Information gain

KDD : khám phá tri thức trong cơ sở dữ liệu - Knowledge

discovery in databases k-NN : k - láng giềng gần nhất - k- Nearest Neighbor

KTTL : kích thước của văn bản/email

KTLop : kích thước thư mục /lớp

MCS : đồ thị con chung cực đại - Maximal Common Subgraph MDL : độ dài mô tả cực tiểu - Minimum description length

MMR : mức độ cực đại tương ứng - Maximal Marginal Relevance

ROUGE : Recall Oriented Understudy for Gisting Evaluation

SOM : bản đồ tự tổ chức - Self Organizing Map

SVM : máy vectơ hỗ trợ - Support Vector Machine

STC : gom cụm dựa trên cây tiền tố - Suffix Tree Clustering

TF : tần suất xuất hiện của thuật ngữ - Term Frequency

VSM : mô hình không gian vectơ - Vector Space Model

Trang 7

Danh mục các hình



Hình 1.1 Ví dụ văn bản cho mô hình không gian vectơ 11

Hình 1.2 Siêu phẳng (đường nét liền) với lề cực đại Các vectơ hỗ trợ – các điểm trên các đường đứt nét 17

Hình 1.3 Thuật toán HAC 20

Hình 1.4 Sơ đồ nhánh đơn giản 20

Hình 2.1 Ví dụ mô hình đồ thị khái niệm 29

Hình 2.2 Ví dụ mô hình đồ thị hình sao biểu diễn văn bản [CT4] 30

Hình 2.3 Ví dụ mô hình đồ thị hình sao biểu diễn email [CT10] 31

Hình 2.4 Ví dụ mô hình đồ thị tần số vô hướng [89] 32

Hình 2.5 Ví dụ mô hình đồ thị đơn giản [CT4] 33

Hình 2.6 Ví dụ mô hình đồ thị khoảng cách n đơn giản [CT4] 34

Hình 2.7 Ví dụ mô hình đồ thị với đỉnh là câu 35

Hình 2.8 Minh họa mô hình đồ thị lưỡng phần với đỉnh là câu và từ 36

Hình 3.1 Sơ đồ giai đoạn huấn luyện 46

Hình 3.2 Sơ đồ giai đoạn phân loại 47

Hình 3.3 Mã giả thuật toán gSpan nguyên thủy [100] 50

Hình 3.4 Ví dụ mã DFS cho đồ thị có hướng s 51

Hình 3.5 Ví dụ đồ thị con phổ biến của chủ đề Khoa học, Văn hóa 55

Hình 3.6 Kết quả phân loại email theo kích thước thư mục [CT10] 62

Hình 3.7 Kết quả phân loại theo thư mục của eClass và eMailSift [CT10] 62

Hình 3.8 Kết quả phân loại theo thư mục của eTCG và eClass 63

Hình 3.9 Độ chính xác phân loại theo người dùng [CT10] 64

Hình 3.10 So sánh kết quả phân loại dùng độ đo Dice và Manhattan [CT3] 68

Hình 3.11 So sánh kết quả phân loại theo chủ đề [CT3] 70

Hình 4.1 Qui trình gom cụm văn bản động [CT2] 79

Hình 4.2 Qui trình xây dựng đồ thị [CT7] 81

Hình 4.3 Thuật toán DIG [35] 83

Trang 8

Hình 4.6 Mã giả cho kỹ thuật trộn cụm của Incremental DBSCAN cải tiến 92

Hình 4.7 So sánh thời gian gom cụm giữa các mô hình biểu diễn văn bản 96

Hình 4.8 Đánh giá chất lượng gom cụm giữa mô hình không gian vectơ truyền thống và mô hình đồ thị theo độ đo F (a) và Entropy (b)[CT2] 97

Hình 4.9 So sánh kết quả giữa các hệ thống gom cụm theo độ đo F 98

Hình 4.10 So sánh kết quả gom cụm theo độ đo F khi sử dụng và không sử dụng kỹ thuật chọn lựa động đặc trưng 99

Hình 4.11 Đánh giá thuật toán Incremental DBSCAN cải tiến theo độ đo F và Entropy [CT7] 101

Hình 5.1 Mô hình tóm tắt văn bản tiếng Việt [CT1] 112

Hình 5.2 Qui trình bộ tóm tắt văn bản đơn [CT8] 113

Hình 5.3 Đồ thị biểu diễn văn bản [CT8] 115

Hình 5.4 Thuật toán xếp hạng câu 118

Hình 5.5 Kết quả đánh giá bản tóm tắt văn bản đơn theo ROUGE-1 [CT8] 123

Hình 5.6 Kết quả đánh giá bản tóm tắt văn bản đơn theo ROUGE-2 123

Hình 5.7 So sánh theo ROUGE-1 trên các chủ đề 126

Hình 5.8 So sánh theo ROUGE-2 trên các chủ đề 126

Hình B.1 Ví dụ biểu diễn văn bản bằng đồ thị 152

Trang 9

Danh mục các bảng



Bảng 2.1 So sánh các mô hình biểu diễn văn bản bằng đồ thị [CT4] 38

Bảng 3.1 Thống kê trên tập dữ liệu ENRON [CT10] 60

Bảng 3.2 Mô tả các hệ thống thử nghiệm 61

Bảng 3.3 Tập dữ liệu thử nghiệm TC1 cho bài toán phân loại văn bản [CT9] 66

Bảng 3.4 Kết quả thử nghiệm phân loại [CT3] 67

Bảng 3.5 So sánh kết quả phân loại theo giá trị F1 trung bình [CT6] 69

Bảng 3.6 So sánh thời gian huấn luyện và phân loại văn bản 71

Bảng 4.1 Thống kê trên tập dữ liệu TC2 94

Bảng 4.2 Thống kê tập dữ liệu thử nghiệm [CT2] 94

Bảng 4.3 So sánh chất lượng gom cụm theo độ đo F [CT5] 95

Bảng 4.4 So sánh chất lượng gom cụm theo độ đo Entropy [CT5] 96

Bảng 4.5 Sự cải thiện chất lượng gom cụm của ICG [CT2] 100

Bảng 4.6 So sánh số lượng cụm thu được giữa ICG và SHC [CT2] 100

Bảng 4.7 Kết quả cập nhật dữ liệu động [CT2] 102

Bảng 4.8 Các từ khóa đặc trưng đại diện cho cụm [CT2] 103

Bảng 5.1 Ma trận biểu diễn đồ thị văn bản [CT8] 115

Bảng 5.2 Tập dữ liệu thử nghiệm T1 cho bài toán tóm tắt văn bản đơn [CT8] 120

Bảng 5.3 Tập dữ liệu thử nghiệm T2 cho bài toán tóm tắt tập văn bản [CT1] 121

Bảng 5.4 Kết quả đánh giá bản tóm tắt văn bản đơn [CT8] 122

Bảng 5.5 So sánh các hệ thống tóm tắt trên tập T2 [CT1] 124

Bảng 5.6 So sánh kết quả tóm tắt theo độ đo ROUGE trên từng chủ đề [CT1] 125

Trang 10

Danh mục công trình của tác giả

[CT1] Nguyen Hoang Tu Anh, Nguyen Hoang Khai, Tran Quang Vinh (2010), “An

Efficient Vietnamese Text Summarization Approach Based on Graph

Model”, IEEE International Conference on Computing & Communication

Technologies - Research, Innovation and Vision for the Future (RIVF2010),

Hà nội, Việt Nam, 1-4 tháng 11 năm 2010, pp 41-46

[CT2] Tu Anh Nguyen Hoang, Kiem Hoang (2009), “Efficient Approach for

Incremental Vietnamese Document Clustering”, 11th ACM International

Workshop on Web Information and Data Management (WIDM 2009), Hong

Kong, China, 2 tháng 11 năm 2009, ISBN 978-1-60558-808-7, pp.47-54

http://doi.acm.org/10.1145/1651587.1651599

[CT3] Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2009), “Áp dụng kỹ thuật khai thác

đồ thị vào bài toán phân loại văn bản”, Tạp chí Tin học và Điều khiển học,

T.25, S.1(2009), pp.43-52

[CT4] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi (2009),

“Mô hình biểu diễn văn bản thành đồ thị”, Tạp chí Phát triển Khoa học và

Công nghệ, ĐHQG-HCM, Tập 12, số 07/2009, pp.5-14

[CT5] Tu-Anh Nguyen-Hoang, Kiem Hoang, Danh Bui-Thi, Anh-Thy Nguyen

(2009), “Incremental Document Clustering Based on Graph Model”, 5th

International Conference on Advanced Data Mining and Application

(ADMA 2009), Beijing, China, 17-19 tháng 8 năm 2009, LNAI, Vol 5678,

Springer-Verlag Berlin Heidelberg, ISBN 978-3-642-03347-6, pp.569-576 [CT6] Tu Anh Hoang Nguyen, Kiem Hoang (2009), “Frequent Subgraph-Based

Approach for Classifying Vietnamese Text Documents”, 11th International

Conference on Enterprise Information Systems (ICEIS 2009), Milan, Italy,

6-10 tháng 5 năm 2009, Part II, LNBIP, Vol 24, Springer-Verlag Berlin Heidelberg, ISBN 978-3-642-01346-1, pp.299-308

Trang 11

[CT7] Nguyễn Hoàng Tú Anh, Bùi Thị Danh, Nguyễn Anh Thy (2008), “Gom cụm

văn bản động dựa trên mô hình đồ thị kết hợp IncrementalDBSCAN”, Hội

thảo Công nghệ Thông tin & Truyền thông lần thứ nhất (ICTFIT 2008), Tp

Hồ Chí Minh, 14 tháng 11 năm 2008, Tuyển tập Công trình nghiên cứu Công nghệ thông tin và Truyền thông 2008, NXB Khoa học và Kỹ thuật, pp 56-64

[CT8] Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2008), “Tóm tắt văn bản tiếng Việt

dựa trên mô hình đồ thị”, Đặc san Các công trình nghiên cứu khoa học,

nghiên cứu triển khai Công nghệ thông tin và Truyền thông, Tạp chí Công nghệ thông tin và Truyền thông, kỳ 3, số 20, tháng 10 năm 2008, pp 91-100

[CT9] Nguyễn Hoàng Tú Anh, Hoàng Kiếm (2007), “Phân loại văn bản tiếng Việt

dựa trên khai thác đồ thị con phổ biến”, Kỷ yếu Hội thảo Quốc gia lần thứ 3

về Nghiên cứu cơ bản & ứng dụng Công nghệ thông tin (FAIR‟07), Nha

Trang, 09-10 tháng 08 năm 2007, NXB Khoa học và kỹ thuật, pp.258-268 [CT10] Nguyễn Hoàng Tú Anh, Nguyễn Công Hoan, Nguyễn Huy Hùng (2006),

“Áp dụng kỹ thuật khai thác đồ thị trong bài toán phân loại email”, Kỷ yếu

Hội nghị Khoa học Kỷ niệm 30 năm thành lập Viện CNTT, Hà nội, Việt

Nam, 27-28 tháng 12 năm 2006, NXB Khoa học tự nhiên và Công nghệ, pp.37-46

Trang 12

Mở đầu

Dẫn nhập

Sự tiến bộ vượt bậc của cơng nghệ thơng tin đã cung cấp nhiều phương pháp thu thập, lưu trữ khối lượng dữ liệu khổng lồ một cách hiệu quả và ít tốn kém Rất nhiều thơng tin chiến lược quan trọng đang nằm trong các cơ sở dữ liệu to lớn này Các phương pháp xử lý, tìm kiếm, phân tích và rút trích thơng tin truyền thống khơng cịn thích hợp nữa Như Rutherford D Rogers đã viết trên báo NewYork Times vào năm 1985: “Chúng ta ngập chìm trong dữ liệu nhưng lại đĩi tri thức” Việc tìm kiếm các thơng tin giá trị, tiềm ẩn trong khối lượng lớn dữ liệu địi hỏi những cơng cụ mới ngồi các cơng cụ truy vấn thơng tin cổ điển Chính vì vậy trong những năm gần đây,

lĩnh vực Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) hay cịn được gọi là Khai thác dữ liệu (Data mining) đã ra đời và phát triển

nhanh chĩng

Lĩnh vực khai thác dữ liệu từ khi ra đời đã nhận được sự ủng hộ tích cực của các nhà nghiên cứu và phát triển mạnh mẽ trong vịng hai mươi năm qua Cĩ thể liệt kê một số nhà khoa học hàng đầu, cĩ những đĩng gĩp nổi bật cho lĩnh vực khai thác dữ liệu như Rakesh Agrawal, Usama Fayyad, Gregory Piatetsky-Shapiro, Heikki Manila, Jiawei Han, Padhraic Smyth, Christos Faloutsos, Osmar Zạane, … Hàng trăm cơng

ty trên thế giới đang cung cấp các cơng cụ khai thác dữ liệu và được áp dụng vào rất nhiều lĩnh vực trong cuộc sống: kinh tế, thương mại, y tế, sinh học, …

Tuy nhiên rất nhiều vấn đề cịn đang bỏ ngỏ, dở dang, cần nghiên cứu [101] Ví

dụ như giảm độ phức tạp tính tốn, tìm những phương pháp khai thác hiệu quả cĩ thể

áp dụng trên các kiểu dữ liệu phức tạp (đa phương tiện, văn bản, chuỗi, thời gian, WWW, …), vấn đề bảo vệ bí mật cá nhân, áp dụng kỹ thuật khai thác dữ liệu giải quyết các bài tốn thực tế phức tạp, …

Trang 13

Theo đánh giá của công ty Oracle [76], hiện có đến 80% dữ liệu trên thế giới là dữ liệu văn bản, vì vậy khai thác dữ liệu phức tạp mà cụ thể hơn là khai thác dữ liệu văn bản (text mining) là vấn đề quan trọng, đầy thử thách và cần được đầu tư nghiên cứu Đặc điểm của dữ liệu phức tạp nói chung hay dữ liệu văn bản nói riêng là dữ liệu thường không có cấu trúc hoặc bán cấu trúc, cơ sở dữ liệu rất lớn, đa chiều và hay bị nhiễu Ngoài ra đối với dữ liệu văn bản chúng ta còn phải đối mặt với vấn đề nhập nhằng ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa)

Luận án này tập trung nghiên cứu khai thác dữ liệu văn bản, hay còn gọi là khai thác văn bản Khai thác văn bản là lĩnh vực liên ngành, liên quan đến truy vấn thông tin, khai thác dữ liệu và xử lý ngôn ngữ tự nhiên Khai thác văn bản bao gồm quá trình cấu trúc hóa văn bản đầu vào, tìm kiếm các mẫu mới, chưa biết trước, có ích từ

dữ liệu đã cấu trúc hoá và đánh giá, diễn giải kết quả thu được Các bài toán chính của khai thác văn bản là phân loại, gom cụm văn bản, rút trích thông tin và tóm tắt tài liệu Mặc dù đã có nhiều tiến bộ trong nghiên cứu khai thác văn bản nhưng vẫn còn khoảng cách khá xa giữa nhu cầu ứng dụng và các kết quả đạt được Luận án tập trung nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu hiện có, cũng như những

kỹ thuật phân tích dữ liệu văn bản nhằm tích hợp chúng và tăng cường hiệu quả giải quyết bài toán khai thác dữ liệu văn bản

Mục tiêu và đóng góp của luận án

Với mục tiêu khai thác tập văn bản, đầu tiên ta cần tiền xử lý văn bản và lưu trữ thông tin dưới dạng có cấu trúc phù hợp với các bước xử lý sau này Mô hình không gian vectơ [80] là một phương pháp biểu diễn văn bản phổ biến Mô hình không gian vectơ biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản Tuy nhiên, phương pháp này không lưu trữ được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận, vị trí xuất hiện

Trang 14

nhau của khai thác văn bản như phân loại [11], [61], gom cụm [35], [81], rút trích thông tin [89] và tóm tắt văn bản [29], [68] Các kết quả áp dụng mô hình đồ thị trên văn bản tiếng Anh cho thấy mô hình này có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc mà biểu diễn vectơ đã bỏ qua

Bên cạnh đó, mặc dù được viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng

có đặc tính chung với các ngôn ngữ châu Á đơn lập khác (tiếng Hoa, Lào, Thái) như khó xác định ranh giới giữa các từ và có các điểm khác biệt về ngữ âm, ngữ pháp so với tiếng Anh

Tiếng Việt thuô ̣c ngôn ngữ đơn lâ ̣p1, tứ c là mỗi mô ̣t tiếng (âm tiết) đươ ̣c phát âm tách rời nhau và được thể hiện b ằng mô ̣t chữ viết Đặc điểm này thể hiện rõ rệt ở tất

cả các mặt ngữ âm, hình thái, ngữ pháp Trong tiếng Viê ̣t có một loại đơn vị đặc biệt gọi là "tiếng" Về mă ̣t ngữ âm, mỗi tiếng là mô ̣t âm tiết Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn vi ̣ cơ sở của hê ̣ thống các đơn vi ̣ có nghĩa của tiếng Viê ̣t Từ tiếng, người ta tạo ra các đơ n vi ̣ từ vựng khác để đi ̣nh danh sự vâ ̣t, hiê ̣n tươ ̣ng , chủ yếu nhờ phương thức ghép và phương thức láy.Từ của tiếng Viê ̣t không

biến đổi hình thái Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi

trọng trật tự từ Viê ̣c sắp xếp các từ theo mô ̣t trâ ̣t tự nhất đi ̣nh là cách chủ yếu để biểu

thị các quan hệ cú pháp Trong tiếng Viê ̣t khi nói "Anh ta lại đến " là khác với "Lại

đến anh ta"

Như vậy việc xác định ranh giới từ trong tiếng Việt là bài toán khó [27] do đơn vị

cơ bản trong tiếng Việt là “tiếng” chứ không phải từ Từ được cấu trúc từ “tiếng” Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n < 5), bao gồm từ láy và từ ghép Trong khi đó, từ trong tiếng Anh là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu

Do đó, khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên tiếng Anh cho tiếng Việt nếu không xây dựng thành công

1

http://www.vietlex.vn/vietnamese.htm

Trang 15

giải pháp cho việc tách từ trong văn bản tiếng Việt hoặc sử dụng mô hình biểu diễn

có thể hạn chế được ảnh hưởng của bài toán tách từ

Phần lớn các nghiên cứu về khai thác văn bản tiếng Việt [1], [2], [3], [6], [8], [9], [25], [27], [41] sử dụng mô hình không gian vectơ biểu diễn văn bản và đòi hỏi công

cụ tách từ tốt Ngoài ra, mô hình không gian vectơ không quan tâm đến trật tự của từ trong câu trong khi đối với tiếng Việt, trật từ của từ rất quan trọng Chẳng hạn nhờ

trâ ̣t tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình"

Hiện nay, mới chỉ có nhóm của Đỗ Phúc cùng các đồng sự áp dụng thuật toán SOM (Self Organizing Map) trên đồ thị để gom cụm văn bản và từ đó rút ra ý chính của tập văn bản [7], [26] Chất lượng gom cụm văn bản sử dụng đồ thị theo độ đo F

có kết quả tốt hơn khi dùng biểu diễn vectơ

Nhận thấy tiềm năng ứng dụng của tiếp cận đồ thị, luận án tập trung nghiên cứu,

hệ thống hóa và phân tích khả năng ứng dụng của mô hình đồ thị vào biểu diễn và khai thác văn bản Luận án nghiên cứu, phát triển các kỹ thuật khai thác dữ liệu đã có

để áp dụng hiệu quả trên đồ thị biểu diễn văn bản Luận án nghiên cứu, phát triển qui trình khai thác văn bản sử dụng tiếp cận đồ thị nhằm giải quyết một số bài toán chính: phân loại, gom cụm tập văn bản có biến động và tóm tắt văn bản

Các đóng góp chính của luận án:

1 Hệ thống hóa các mô hình biểu diễn văn bản bằng đồ thị Phân tích khả năng ứng dụng của từng loại mô hình và lựa chọn mô hình biểu diễn đồ thị phù hợp cho các nhiệm vụ khai thác văn bản

2 Cải tiến thuật toán gSpan khai thác đồ thị con phổ biến cho tập đồ thị có hướng

3 Cải tiến kỹ thuật trộn cụm của thuật toán gom cụm động Incremental DBSCAN

4 Đề xuất qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ thuật khai thác đồ thị con phổ biến cải tiến

Trang 16

5 Đề xuất qui trình gom cụm tập văn bản có biến động sử dụng đồ thị biểu diễn văn bản kết hợp kỹ thuật chọn lựa động đặc trưng và thuật toán Incremental DBSCAN cải tiến

6 Đề xuất mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ thị kết hợp

kỹ thuật xếp hạng đỉnh

7 Tiến hành thử nghiệm khai thác văn bản tiếng Việt dựa trên tiếp cận đồ thị theo các mô hình đề xuất

Nội dung luận án

Nội dung của luận án bao gồm:

 Phần mở đầu trình bày tổng quan về luận án, mục tiêu của luận án

 Chương 1 trình bày tổng quan về lĩnh vực khai thác dữ liệu văn bản, các đặc

điểm của dữ liệu văn bản Chương này phân tích các bài toán chính liên quan:

mô hình biểu diễn dữ liệu văn bản, bài toán phân loại, gom cụm và tóm tắt văn bản

 Chương 2 trình bày chi tiết về mô hình biểu diễn văn bản thành đồ thị, cách

phân loại các mô hình đồ thị, các phân tích về khả năng ứng dụng của chúng

và lựa chọn mô hình biểu diễn đồ thị phù hợp cho nhiệm vụ khai thác văn bản Một phần của chương này đã được công bố trong công trình số 4

 Chương 3 trình bày qui trình phân loại văn bản dựa trên biểu diễn đồ thị và kỹ

thuật khai thác đồ thị con phổ biến cải tiến Một phần của chương này đã được công bố trong công trình số 3, 6, 9, 10

 Chương 4 trình bày qui trình gom cụm tập văn bản có biến động dựa trên biểu

diễn đồ thị kết hợp với kỹ thuật chọn lựa động đặc trưng và thuật toán Incremental DBSCAN cải tiến Một phần của chương này đã được công bố trong công trình số 2, 5, 7

Trang 17

 Chương 5 trình bày mô hình tóm tắt văn bản tiếng Việt dựa trên biểu diễn đồ

thị và sử dụng kỹ thuật xếp hạng đỉnh để xác định các câu quan trọng trong văn bản Một phần của chương này đã được công bố trong công trình số 1, 8

 Phần kết luận và hướng phát triển

 Phụ lục A trình bày các độ đo đánh giá kết quả phân loại, gom cụm và chất

lượng bản tóm tắt

 Phụ lục B nêu ví dụ biểu diễn văn bản bằng đồ thị

 Phụ lục C trình bày về kiểm định giả thiết thống kê

 Phụ lục D nêu các ví dụ tóm tắt văn bản

Trang 18

Khai thác văn bản là “sự tìm kiếm thông tin mới, chưa biết bằng cách dùng máy tính rút trích tự động tri thức từ nhiều nguồn văn bản khác nhau” [37]

Khai thác văn bản khác biệt với khai thác dữ liệu truyền thống ở chỗ: khai thác dữ liệu rút trích, phân tích, tóm tắt dữ liệu có cấu trúc, trong khi khai thác văn bản xử lý khối lượng dữ liệu văn bản khổng lồ không cấu trúc hoặc bán cấu trúc như email, tài liệu ở dạng văn bản, các tập tin HTML, … Như vậy để khai thác văn bản cần thực hiện tiền xử lý và cấu trúc hóa dữ liệu

Khai thác văn bản là giải pháp tốt để tích hợp và quản lý một lượng lớn các loại cấu trúc dữ liệu khác nhau Tuy nhiên, hiện nay phần lớn các nghiên cứu và nỗ lực phát triển đều tập trung vào khai thác dữ liệu truyền thống có cấu trúc vì khai thác văn bản phải đối mặt với nhiều thách thức do đặc trưng riêng của kiểu dữ liệu văn bản:

 Cơ sở dữ liệu văn bản thường rất lớn và thay đổi liên tục Trong kỷ nguyên

số, văn bản do các cá nhân, công ty và tổ chức chính quyền tạo ra đang tăng với tốc độ chóng mặt Số lượng trang web theo tính toán của Google

là trên 1000 tỷ trang2 Bên cạnh đó, bản thân một văn bản cũng có thể thường xuyên bị thay đổi, chẳng hạn như nội dung trang web

2

http://googleblog.blogspot.com/2008/07/we-knew-web-was-big.html , 7/2008

Trang 19

 Dữ liệu văn bản có số chiều lớn Nếu ta coi mỗi từ hay cụm từ là một chiều thì vì số lượng từ/ cụm từ rất lớn Ví dụ theo thống kê năm 2009, số lượng

từ tiếng Anh đã vượt qua con số một triệu3, còn trên tiếng Việt thì từ điển lớn nhất hiện nay cũng có khoảng hơn 70.000 từ

 Dữ liệu văn bản là dữ liệu không được tổ chức tốt Văn bản thường có dạng bán cấu trúc hoặc không có cấu trúc Chẳng hạn văn bản có thể chứa một số trường có cấu trúc như tiêu đề, tác giả, ngày xuất bản, loại, … Nhưng nó chứa phần lớn các thành phần không cấu trúc như nội dung và tóm tắt

 Tính hỗn loạn (không đồng nhất): Các kho văn bản có thể chứa văn bản từ nhiều nguồn khác nhau (như tin tức, bài báo nghiên cứu, sách, thư viện điện tử, email và các trang web) và có định dạng, cũng như mục đích sử dụng khác nhau

 Tính nhập nhằng: Sự nhập nhằng trong văn bản thể hiện ở nhiều cấp độ (cấp độ về từ, ngữ, câu), ở nhiều khía cạnh (hình thái, ngữ pháp, ngữ nghĩa)

Qui trình khai thác văn bản thường bao gồm các bước chính:

 Tiền xử lý văn bản: Đầu tiên ta tiến hành phân tích cú pháp văn bản như phân đoạn từ, gán nhãn từ loại, … Sau đó chuyển đổi văn bản về dạng có cấu trúc bằng mô hình biểu diễn văn bản Trong quá trình biểu diễn văn bản, ta cần xác định, chọn lựa đặc trưng, loại các đặc trưng không liên quan

 Khai thác văn bản: Sử dụng kỹ thuật khác nhau như phân loại, gom cụm, tóm tắt, …nhằm rút trích các mẫu hay tri thức hữu ích, đáng quan tâm

 Phân tích, đánh giá kết quả thu được: Với mục đích xác định độ tin cậy của các mẫu hay tri thức tìm được trước khi đưa vào ứng dụng trong thực tế

1.1.2 Các bài toán chính của khai thác văn bản

Các nghiên cứu hiện tại trong lĩnh vực khai thác văn bản quan tâm chính đến vấn

đề biểu diễn văn bản, phân loại, gom cụm, tóm tắt [20]

Trang 20

 Mơ hình biểu diễn văn bản: Mơ hình chuyển đổi văn bản thành dạng cĩ cấu trúc Nhằm giảm kích thước lưu trữ của văn bản và dễ dàng sử dụng, văn bản cần được chuyển đổi thành dạng phù hợp và cĩ thể mơ tả nội dung của văn bản Mơ hình khơng gian vectơ là phương pháp được sử dụng phổ biến trong cộng đồng truy vấn thơng tin Mơ hình biểu diễn bằng đồ thị,

mơ hình n-gram là các phương pháp được đề xuất sau này

 Phân loại: Văn bản được phân loại vào các chủ đề xác định trước Một số phương pháp phân loại phổ biến là k-NN, SVM, Nạve Bayes, …[84]

 Gom cụm: Các văn bản được tự động gom thành một số cụm dựa trên nội dung Gom cụm văn bản được quan tâm nhiều trong thời gian gần đây Khảo sát chi tiết về gom cụm văn bản cĩ thể xem trong [20], [75], [87]

 Tĩm tắt: Tĩm tắt văn bản được áp dụng cho từng văn bản và tập văn bản Bản tĩm tắt cĩ thể là dạng trích lược (chỉ gồm nội dung nguyên bản từ văn bản đầu vào) hay dạng tĩm lược (tương tự như bản tĩm tắt của con người

và gồm các nội dung tổng hợp từ văn bản đầu vào) [60]

Ngồi ra cịn các nghiên cứu về trực quan hĩa văn bản, rút trích thơng tin, phát hiện xu thế,… nhưng khơng phải là mục tiêu chính của luận án này

Những phần tiếp theo trình bày và phân tích chi tiết hơn các bài tốn chính nêu trên

1.2 Mơ hình biểu diễn văn bản

Khi khai thác tập văn bản, ta cần tiền xử lý văn bản và lưu trữ thơng tin ở dạng cấu trúc phù hợp hơn để xử lý sau này thay vì các tập tin văn bản thuần túy Mơ hình biểu diễn văn bản là một trong những nhân tố quan trọng của quá trình khai thác văn bản

Hiện nay, cĩ nhiều mơ hình biểu diễn văn bản Mơ hình đơn giản nhất là mơ hình túi từ Tồn bộ từ trong tập văn bản được sử dụng cho việc xây dựng vectơ nhị phân biểu diễn văn bản Mỗi chiều của vectơ đại diện cho một từ và nhận giá trị 1 khi từ xuất hiện trong văn bản và ngược lại Mơ hình khơng gian vectơ là mơ hình phát triển

Trang 21

từ mô hình túi từ Trong mô hình này, mỗi văn bản được biểu diễn thành một vectơ của các thuật ngữ (từ/cụm từ) với giá trị của mỗi chiều thường là trọng số của thuật ngữ Mô hình biểu diễn bằng đồ thị là mô hình với đỉnh có thể là từ, cụm từ hay câu hoặc kết hợp câu và từ Cạnh nối giữa các đỉnh thể hiện mối quan hệ trong đồ thị Mô hình N-gram là mô hình được sử dụng phổ biến trong xử lý ngôn ngữ tự nhiên với các từ được biểu diễn như chuỗi ký tự có độ dài N Trong mô hình N-gram, văn bản

được tách ra thành các chuỗi n ký tự liên tục và thường không sử dụng thông tin ngữ

nghĩa hay đặc trưng ngôn ngữ Phần tiếp theo tập trung giới thiệu mô hình không gian vectơ

Mô hình không gian vectơ là phương pháp biểu diễn văn bản phổ biến trong lĩnh vực truy vấn thông tin và trong một số tiếp cận khai thác văn bản Với mô hình này,

các văn bản được biểu diễn thành vectơ trong không gian m - chiều Mỗi chiều của

không gian tương ứng với một thuật ngữ (có thể là từ đơn lẻ, từ khóa hay cụm từ dài) riêng biệt Hay nói một cách khác, tất cả các thuật ngữ trong CSDL tạo thành “không gian” với mỗi thuật ngữ đại diện cho một “chiều” Với mục đích phân biệt văn bản này với văn bản khác, trọng số được gán cho từng thuật ngữ nhằm xác định độ quan trọng của thuật ngữ trong văn bản Giá trị của mỗi thành phần trong vectơ là trọng số của thuật ngữ tương ứng Có nhiều cách tính trọng số này, trong đó TF×IDF [80] là phương pháp phổ biến nhất

Định nghĩa 1.1: Trọng số TF×IDF (Term Frequency – Inverse Document

Frequency)

Trọng số TF×IDF của thuật ngữ t j trong tài liệu d i là [80]:

)log(

j ij

j ij ij

n

N TF

IDF TF

Trong đó:

 TFij: Tần suất của thuật ngữ t j hay số lần xuất hiện của thuật ngữ thứ j trong tài

liệu d i

Trang 22

Khi sử dụng TF×IDF, các thuật ngữ xuất hiện quá ít hoặc quá nhiều sẽ có thứ hạng thấp hơn những thuật ngữ khác

Ví dụ 1.1: Cho tập dữ liệu gồm ba văn bản Các văn bản này đã qua công đoạn tiền xử lý: tách từ, loại bỏ hư từ

Văn bản 1 Văn bản 2 Văn bản 3

Chỉ số chứng khoán giao dịch

Chứng khoán giao dịch

Giá trị chứng khoán giao dịch

Chứng khoán ngân hàng Sán giao dịch cổ phiếu Chứng khoán nhà nước

Giá cổ phiếu trái phiếu Chỉ số chứng khoán ngân hàng Trái phiếu ngân hàng

Hình 1.1 Ví dụ văn bản cho mô hình không gian vectơ

Ta có không gian vectơ:

V = (chỉ số, chứng khoán, cổ phiếu, giao dịch, giá, giá trị, ngân hàng, nhà nước, sàn, trái phiếu)

Khi đó, ta có vectơ biểu diễn tương ứng cho từng văn bản như sau:

Định nghĩa 1.2: Độ đo tương tự giữa các văn bản

Độ tương tự giữa hai văn bản được tính bằng hệ số cosine [36] giữa hai vectơ biểu diễn các văn bản và định nghĩa như sau:

2 1

2 1 2

1, ) (

v v

v v v

v

(1 2)

Trang 23

Trong đĩ: v 1 và v 2 là hai vectơ biểu diễn văn bản, dấu • thể hiện phép nhân vectơ

vơ hướng và ║ ║ là độ lớn của vectơ

Mơ hình khơng gian vectơ đơn giản và sử dụng phổ biến trong các bài tốn phân lớp, gom cụm, tìm kiếm, tĩm tắt Bên cạnh đĩ các hạn chế của mơ hình là: số chiều khơng gian rất lớn (tương ứng với số lượng thuật ngữ lớn) và phải giả thiết các thuật ngữ độc lập với nhau Do số lượng thuật ngữ lớn, trong vectơ văn bản cĩ nhiều giá trị

0 Hạn chế lớn nhất là mơ hình khơng gian vectơ chỉ tập trung vào tần suất xuất hiện của thuật ngữ và bỏ qua thứ tự xuất hiện các thuật ngữ hay vị trí của thuật ngữ trong văn bản

1.3 Bài tốn phân loại văn bản

Phân loại văn bản là nhiệm vụ gán các nhãn lớp đã xác định trước cho văn bản mới, chưa phân loại [104] Chẳng hạn ta xác định thể loại cho tin tức mới thuộc chủ

đề “thể thao”, “chính trị” hay “văn hĩa” Các nhãn lớp được xác định dựa trên tập văn bản đã gán nhãn lớp và được gọi là tập huấn luyện

Giả sử ta cĩ tập văn bản huấn luyện D={d 1 , d 2 , …, d N} cĩ gán nhãn lớp và tập các

lớp C={ C 1 , C 2 , …, C M } Mỗi văn bản d iD; 1 ≤ i ≤ N chỉ thuộc về một lớp C jC; 1 ≤

j ≤ M Khi đĩ ta cần xây dựng mơ hình phân loại cĩ thể xác định chính xác lớp cho

văn bản mới d

j

C d

f C

D

Khá nhiều kỹ thuật phân lớp áp dụng vào bài tốn phân loại văn bản như thuật tốn SVM [45], k – láng giềng gần nhất (K-NN) [64], cây quyết định [14], kỹ thuật Linear Least Square Fit [103], mạng Nơron [96] và Nạve Bayes [17] Các phương pháp này đều sử dụng mơ hình biểu diễn văn bản là mơ hình khơng gian vectơ Theo các kết quả nghiên cứu [104], thuật tốn SVM và k-NN là những thuật tốn phân loại tốt nhất

Trang 24

lớp và cịn làm giảm độ chính xác Vì vậy khi tiền xử lý văn bản, cần tiến hành bước chọn lựa đặc trưng Các phương pháp chọn lựa đặc trưng đều nhằm mục đích giảm chiều dữ liệu và làm ảnh hưởng ít nhất đến các thơng tin biểu diễn bởi vectơ đặc trưng Cĩ nhiều phương pháp chọn đặc trưng hiệu quả như [105]: DF- tần suất tài liệu,

IG - độ lợi thơng tin, 2

Phần dưới đây sẽ trình bày chi tiết một số kỹ thuật phân loại văn bản phổ biến Thống kê và phân tích các phương pháp khác cĩ thể xem thêm trong [84], [104]

1.3.1 Phương pháp k-láng giềng gần nhất (k-NN)

Phương pháp k-NN là phương pháp đơn giản, khơng cần quá trình huấn luyện, nhận dạng mẫu như các phương pháp khác [84] Chính vì vậy mà người ta cịn xếp k-

NN vào nhĩm thuật tốn phân loại “thụ động” để phân biệt với nhĩm thuật tốn “tích

cực” như cây quyết định, Nạve Bayes, SVM K-NN phân loại mẫu mới dựa trên k

láng giềng gần nhất của nĩ Giả định rằng việc phân loại một mẫu là dựa trên những mẫu khác tương tự với nĩ Mỗi văn bản trong tập huấn luyện được biểu diễn bằng vectơ đặc trưng Ta cĩ thể dùng tần suất xuất hiện của thuật ngữ trong văn bản như đặc trưng

Khi phân loại mẫu mới, vectơ đặc trưng tương ứng của nĩ được khởi tạo và so sánh với vectơ đặc trưng của tất cả các mẫu trong tập huấn luyện Độ đo tương tự thường dùng là độ đo khoảng cách ví dụ như độ đo cosine (như trong cơng thức (1 2)) Chỉ những thuật ngữ xuất hiện trong cả văn bản mới và văn bản huấn luyện mới được xem xét Độ đo cosine này cĩ giá trị lớn khi hai vectơ tương tự nhau Giá trị 1 cho biết rằng hai vectơ là đồng nhất với nhau, trong khi giá trị 0 cho biết hai vectơ khơng cĩ quan hệ với nhau

Trang 25

Người ta chọn k mẫu huấn luyện cĩ khoảng cách gần với mẫu mới nhất Khi xác định nhãn lớp cho mẫu mới ta cĩ thể lấy nhãn lớp chiếm đại đa số trong k láng giềng của nĩ Muốn chọn được tham số k tốt nhất cho việc phân loại, ta phải thực hiện thử nghiệm trên nhiều giá trị k khác nhau Thơng thường trên bộ dữ liệu văn bản tiếng

Anh, giá trị tốt nhất k được chọn từ 30 đến 45 (theo [104])

Phương pháp k-NN cĩ ưu điểm huấn luyện rất nhanh, khơng làm mất thơng tin Một số nghiên cứu cho thấy k-NN là một trong những phương pháp phân loại văn bản tốt nhất [45] Kết quả phân loại theo độ đo F1 trên bộ dữ liệu tiếng Anh (Reuters)

là 0.856 [84] Ngồi ra, k-NN ít bị ảnh hưởng bởi dữ liệu nhiễu

Hạn chế của hướng tiếp cận này là khơng gian đặc trưng lớn Vấn đề sẽ nảy sinh khi kích thước của tập huấn luyện tăng lên Trong phương pháp k-NN, chi phí cho việc phân lớp mẫu khá tốn kém do cần phải tính độ tương tự văn bản với tất cả các văn bản trong tập huấn luyện Do đĩ, những kỹ thuật lập chỉ mục hiệu quả các mẫu lúc huấn luyện là nhu cầu thực tế và quan trọng nhằm rút ngắn thời gian tính tốn lúc phân loại mẫu mới

Hạn chế thứ hai là k-NN dễ bị ảnh hưởng bởi những thuộc tính khơng liên quan Khi xây dựng vectơ đặc trưng, ta thường xem xét tất cả thuộc tính của mẫu và từ đĩ rút ra những mẫu tương tự từ tập huấn luyện Nếu đặc trưng phân loại mẫu chỉ phụ thuộc vào một ít trong số nhiều thuộc tính sẵn cĩ của các mẫu thì những mẫu thật sự

“tương tự” nhất cĩ thể rất cách xa nhau Một số mở rộng của phương pháp này được trình bày trong [84]

1.3.2 Phương pháp Nạve Bayes

Phương pháp Nạve Bayes sử dụng định luật Bayes xác định xác suất mẫu mới rơi vào lớp nào đĩ Phương pháp này dựa vào xác suất cĩ điều kiện giữa thuật ngữ xuất hiện trong văn bản mới với lớp (lớp cĩ thể là chủ đề của văn bản như „thể thao”, „văn hĩa”, …) để dự đốn lớp của văn bản này Điểm quan trọng của phương pháp Nạve Bayes là ở giả thiết rằng sự xuất hiện của tất cả các thuật ngữ trong văn

Trang 26

Giả sử ta cĩ tập các lớp C={ C 1 , C 2 , …, C M } và tập các thuật ngữ T = {t 1 , t 2 , t 3 ,

…, t n } Sử dụng định luật Bayes, ta cĩ thể dự đốn xác suất của lớp C jC; 1 ≤ j ≤ M

với điều kiện cĩ mặt tập T là:

)(

)()

|()

|(

T p

C p C T p T C

Ta cĩ thể gán văn bản mới vào lớp cho giá trị xác suất cĩ điều kiện trên lớn nhất Khi phân loại văn bản, Nạve Bayes giả thiết rằng các thuật ngữ độc lập với nhau Khi đĩ xác suất một thuật ngữ xuất hiện trong văn bản khi cĩ mặt lớp là độc lập với xác suất cĩ điều kiện của các thuật ngữ khác xuất hiện trong văn bản đĩ, nghĩa là:

C T p

1

)

|()

)

|()()

|

T p

C t p C p T C p

n

k

j k j

j





Trong giai đoạn huấn luyện, Nạve Bayes chỉ yêu cầu tính tốn xác suất của từng

thuật ngữ p(t k │C j ) trong từng lớp và xác suất xuất hiện của mỗi lớp p(C j) trong tập huấn luyện Trong giai đoạn phân lớp, các giá trị xác suất đã tính được dùng để phân lớp văn bản mới theo định luật Bayes

Mặc dù giả thiết thuật ngữ xuất hiện độc lập là khơng thực tế và thường khơng chính xác, nhưng nĩ thực sự làm đơn giản hố việc tính tốn xác suất của thuật ngữ Hiệu quả của phương pháp này khá cao và tương đương với các kỹ thuật khác như cây quyết định và mạng nơron [45] Kết quả phân loại theo độ đo F1 trên bộ dữ liệu tiếng Anh (Reuters) là 0.795 [84]

Tuy nhiên Nạve Bayes cĩ thể cho kết quả tồi nếu tập dữ liệu huấn luyện nghèo nàn Bên cạnh đĩ, giả thiết về tính độc lập giữa các thuật ngữ làm giảm độ chính xác của mơ hình phân loại

Trang 27

1.3.3 Phương pháp SVM

Phương pháp SVM được Vapnik giới thiệu vào năm 1979 [92], nhưng mới trở nên phổ biến vào thập kỷ 90 của thế kỷ XX SVM là thuật toán phân loại có giám sát

và áp dụng thành công vào bài toán phân loại văn bản [45], [84]

Giả sử ta có một tập huấn luyện được biểu diễn trong không gian vectơ với mỗi văn bản là một điểm Chúng ta hãy xem xét trường hợp đơn giản nhất ứng với không gian vectơ có thể phân chia tuyến tính thành hai lớp + và lớp - Ta cần tìm một mặt phẳng quyết định (gọi là siêu phẳng) có thể chia tốt nhất các mẫu dương và

âm Khoảng cách cực đại, còn gọi là lề (margin) xác định khoảng cách giữa các mẫu

dương và âm gần mặt siêu phẳng nhất SVM thực chất là một bài toán tối ưu với mục tiêu tìm một siêu phẳng nằm giữa các mẫu dương và âm của tập huấn luyện sao cho sai số phân loại là thấp nhất Hình 1.2 minh họa cho thuật toán SVM Đường nét liền trong Hình 1.2 cho thấy siêu phẳng phân chia các mẫu huấn luyện dương và

âm, đường đứt nét ở mỗi bên định rõ lề - khoảng cách mà siêu phẳng có thể dịch chuyển mà không gây ra sự phân loại sai Siêu phẳng trong Hình 1.2 có lề cực đại

và bất kỳ một mặt phẳng quyết định nào khác sẽ đều có lề nhỏ hơn lề được biểu diễn

Siêu phẳng với lề cực đại phân chia tối ưu các mẫu dương và âm được xác định bởi phương trình sau:

Trong đó w là vectơ trọng số, b là tham số ngưỡng Khi thay đổi w và b, hướng và

khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi Mục tiêu của phương pháp

SVM là ước lượng w và b để cực đại hóa lề giữa các lớp dữ liệu dương và âm Các

văn bản nằm cách siêu phẳng một khoảng lề gọi là vectơ hỗ trợ và quyết định vị trí thực tế của siêu phẳng

Văn bản mới x được phân loại vào lớp + nếu (w × x + b) > 0 và ngược lại sẽ vào

Trang 28

1.4 Bài toán gom cụm văn bản

Gom cụm văn bản là một quá trình học không giám sát, gom các tài liệu thành một hay nhiều cụm, sao cho mỗi cụm gồm những tài liệu có nội dung tương tự nhau

và có chủ đề khác xa với các cụm khác Gom cụm văn bản được xem là một trong những bài toán quan trọng của khai thác dữ liệu văn bản, bên cạnh những bài toán khác như phân loại, tóm tắt văn bản Chúng được đặt ra do nhu cầu tổ chức, truy vấn thông tin nhanh chóng và chính xác trong thời đại bùng nổ thông tin hiện nay

Các phương pháp gom cụm nói chung có thể phân chia thành các loại chính như sau [36]: phân hoạch, phân cấp, dựa trên mật độ, dựa trên lưới và dựa trên mô hình Phương pháp phân hoạch k-means [58] và phương pháp phân cấp tích tụ HAC (Hierarchical Agglomerative Clustering) [43] là hai kỹ thuật gom cụm được áp dụng phổ biến cho bài toán gom cụm văn bản [87] Khảo sát chi tiết về các phương pháp gom cụm văn bản có thể xem trong [20], [75], [87]

Trang 29

Ngoài cách phân loại trên, dựa trên trạng thái của tập văn bản mà có thể chia các phương pháp gom cụm thành hai dạng: gom cụm trên tập dữ liệu tĩnh và trên tập dữ liệu có biến động [71] Gom cụm trên tập dữ liệu tĩnh (trong luận án này gọi tắt là gom cụm tĩnh) được hiểu theo nghĩa tất cả dữ liệu cần gom cụm phải có sẵn trước khi

áp dụng thuật toán và không bị thay đổi trong quá trình gom cụm Nếu tập dữ liệu được bổ sung thêm dữ liệu mới (hay gọi là tập dữ liệu có biến động), người ta phải gom cụm lại toàn bộ dữ liệu và cập nhật thông tin cụm Trong khi đó, các thuật toán gom cụm trên tập dữ liệu có biến động (gọi tắt là gom cụm động) làm việc theo cách: gán các đối tượng vào cụm tương ứng khi chúng được đưa vào cơ sở dữ liệu So với thuật toán gom cụm tĩnh, do không cần tái gom cụm mỗi khi dữ liệu thay đồi nên thuật toán gom cụm động hiệu quả hơn mà vẫn cho kết quả tương đương hoặc gần tương đương Do đó, chúng thích hợp cho các cơ sở dữ liệu lớn và thường xuyên thay đổi Nhìn chung có hai chiến lược chính giải quyết vấn đề gom cụm động [71]: xây dựng thuật toán gom cụm động mới, quản lý trực tiếp các thay đổi trong cơ sở dữ liệu hoặc phát triển phương pháp tóm tắt dữ liệu động, nhằm thu nhỏ cơ sở dữ liệu lại và sau đó áp dụng thuật toán gom cụm tĩnh đã có lên dữ liệu đã tóm tắt được

Tất cả các thuật toán gom cụm đều dựa trên một độ đo tương tự nào đó Độ đo tương tự phổ biến là độ đo cosine áp dụng trên mô hình không gian vectơ biểu diễn văn bản

Chất lượng của kết quả gom cụm văn bản thường được đánh giá bằng sự khác biệt giữa các cụm “tự nhiên” và các cụm do thuật toán sinh ra Các độ đo chất lượng được dùng rộng rãi là độ do F và Entropy (trình bày chi tiết ở Phụ lục A)

Các phần tiếp theo trình bày hai phương pháp gom cụm văn bản phổ biến là means và HAC Đây cũng là các phương pháp gom cụm tĩnh Trong chương 4, luận

k-án sẽ phân tích một số phương pháp gom cụm văn bản động

1.4.1 Phương pháp k-Means

K-means [58] là một trong những thuật toán gom cụm phổ biến trong lĩnh vực

Trang 30

K-means và các biến thể của nó đại diện cho lớp các thuật toán gom cụm tạo ra

phân cụm phẳng, không phân cấp gồm k cụm K-means được phát triển dựa trên ý

tưởng: điểm trung tâm có thể đại diện cho cụm dữ liệu Thuật toán k-means đơn giản

với số cụm k có thể mô tả như sau:

Thuật toán k-means đơn giản, dễ cài đặt và có độ phức tạp tính toán tuyến tính so với số văn bản [87] Thuật toán có thể phát triển và áp dụng cho tập dữ liệu lớn

Nhược điểm chính của k-means là sự lựa chọn tham số đầu vào – số cụm k có thể dẫn tới kết quả gom cụm tồi, cũng như việc lựa chọn k trung tâm cụm đầu tiên Hạn chế

khác của k-means là không thích hợp cho các cụm dữ liệu có kích thước thay đổi lớn, nhạy cảm với dữ liệu nhiễu (có thể ảnh hưởng đáng kể đến trung tâm cụm và làm giảm độ chính xác gom cụm)

1.4.2 Phương pháp HAC

Thuật toán HAC (Hierarchical Agglomerative Clustering) [43] là một phương pháp gom cụm phân cấp phổ biến HAC xây dựng cấu trúc phân cấp từ dưới lên bằng cách lặp đi lặp lại quá trình tính độ tương tự giữa tất cả các cặp cụm và gộp hai cụm gần nhau nhất thành một

Các bước của thuật toán HAC có thể mô tả như trong Hình 1.3 Sơ đồ nhánh (dendrograms) dùng để biểu diễn cấu trúc phân cấp của các cụm Sơ đồ nhánh cho phép tính số cụm dựa trên khoảng cách các cụm đã gộp Hình 1.4 bên dưới minh họa

sơ đồ nhánh của quá trình gom cụm cho bốn văn bản

1 Chọn k đối tượng dữ liệu làm k trung tâm nhóm

2 Gán tất cả các đối tượng vào nhóm có tâm gần nó nhất

3 Xác định lại trung tâm nhóm

4 Lặp lại bước 2 và 3 cho đến khi các trung tâm nhóm không thay đổi

Trang 31

1 Gán mỗi văn bản vào một cụm

2 Tính toán độ tương tự giữa các cặp cụm Lưu trữ độ tương tự giữa các cụm vào

ma trận độ tương tự với vị trí ij thể hiện độ tương tự giữa cụm thứ i và thứ j

3 Gộp hai cụm có khoảng cách nhỏ nhất (tức là giống nhau nhất) thành cụm mới

4 Cập nhật ma trận độ tương tự với các giá trị tương tự giữa cụm mới và các cụm ban đầu

5 Lặp lại bước 3 và 4 cho đến khi chỉ còn một cụm duy nhất

Hình 1.3 Thuật toán HAC

Hình 1.4 Sơ đồ nhánh đơn giản

Khi tính toán khoảng cách giữa các cụm, có nhiều phương pháp tính độ tương tự như sự liên kết cực tiểu (single linkage), sự liên kiết cực đại (complete linkage) hay

sự liên kết trung bình (average linkage) Kết quả phân cụm sẽ phụ thuộc vào độ đo tương tự sử dụng

HAC xây dựng các cụm có chất lượng tốt nhưng độ phức tạp tính toán cao Theo các nghiên cứu [75], [87], phương pháp sử dụng liên kết trung bình dường như cho kết quả khá hơn các phương pháp khác Phương pháp tính độ tương tự dựa trên liên kết cực tiểu mặc dù là phương pháp duy nhất phù hợp với các tập dữ liệu văn bản lớn, nhưng lại không cho kết quả gom cụm cao

Thuật toán HAC không có khả năng thực hiện việc điều chỉnh một khi việc gộp các cụm đã tiến hành Tính không linh hoạt này thường làm giảm độ chính xác gom

Trang 32

nhiên, nhược điểm lớn nhất của HAC là đòi hỏi nhiều bộ nhớ để lưu trữ ma trận

tương tự gồm n(n-1)/2 thành phần với n – số văn bản

Với thời gian thực thi O(n 2 ) – tồi hơn nhiều so với thời gian thực thi tuyến tính

của k-means nên khó áp dụng HAC cho các tập văn bản lớn Theo [87], khi so sánh kết quả gom cụm của k-means và HAC trên 8 bộ dữ liệu khác nhau đều cho thấy k-means cho kết quả tốt hơn Ưu điểm của HAC là hiệu quả hơn k-means khi làm việc với dữ liệu nhiễu và cá biệt

1.5 Bài toán tóm tắt văn bản

Tóm tắt văn bản chính thức được nghiên cứu lần đầu tiên vào năm 1958 bởi Luhn (1958) [57], tiếp theo đó là Edmundson (1969) [28] Tóm tắt văn bản được quan tâm

và nghiên cứu tích cực trong những năm gần đây cùng với sự bùng nổ thông tin trên web Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn (hoặc nhiều nguồn) và tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể, cho người dùng cụ thể [60] Tóm tắt văn bản có thể áp dụng cho từng văn bản lẫn tập văn bản (các văn bản cùng chung chủ đề) Tóm tắt tập văn bản có độ phức tạp cao hơn rất nhiều so với tóm tắt từng văn bản vì phải giải quyết nhiều vấn đề như: chi phí thuật toán, thông tin phải được tổng hợp, chọn lọc từ nhiều văn bản và phải đảm bảo tính súc tích, cô đọng, không trùng lắp thông tin

Nội dung của bản tóm tắt phụ thuộc vào nhu cầu của người dùng Bản tóm tắt theo truy vấn tập trung vào câu truy vấn của người dùng và rút trích các thông tin liên quan đến câu truy vấn này từ văn bản Ngược lại bản tóm tắt tổng quát cố gắng bao quát đầy đủ các nội dung và bảo toàn cấu trúc chung của văn bản gốc

Bản tóm tắt có thể có dạng trích lược (extract) hoặc tóm lược (abstract) Bản tóm tắt dạng trích lược gồm tập các câu từ văn bản gốc Trong bản tóm tắt dạng tóm lược, nội dung của văn bản gốc được viết lại, có thể chứa những câu hoàn toàn mới so với văn bản gốc, những câu ngắn gọn hơn, trau chuốt hơn nhưng vẫn chuyển tải đầy đủ nội dung của tài liệu Mặc dù các bản tóm tắt do người dùng biên soạn thường không

ở dạng trích lược, nhưng phần lớn các nghiên cứu hiện này đều tập trung vào tóm tắt theo dạng trích lược Tóm lược văn bản đòi hỏi nhiều ở những tri thức chuyên sâu và

Trang 33

liên quan đến ngôn ngữ học, mà đặc biệt là các thành tựu của lĩnh vực xử lý ngôn ngữ

tự nhiên Đó là lý do khiến bản tóm lược hiện nay chưa đạt kết quả tốt như bản trích lược Thật sự bài toán tóm tắt dạng trích lược chưa đạt đến mức độ hoàn chỉnh và các nghiên cứu đi theo hướng này còn hạn chế Các công cụ tóm lược hiện tại thường dựa trên các thành phần trích lược đã xử lý trước Kết quả đầu ra của quá trình trích lược

sẽ được cắt, dán hay tổng hợp và tạo ra bản tóm lược [44], [49], [97]

Bài toán tóm tắt văn bản hiện nay thường có khuynh hướng nghiêng về dạng trích lược và sẽ được trình bày kỹ trong phần tiếp theo dưới đây Mục đích của tóm tắt dạng trích lược là xác định và lựa chọn các câu quan trọng nhất trong văn bản để tạo thành bản tóm tắt Từ đây trở đi, trong luận án sẽ gọi bản tóm tắt dạng trích lược là bản tóm tắt Có thể phân loại các phương pháp tóm tắt dạng trích lược theo các tiếp cận: sử dụng đặc trưng ngôn ngữ [66], [70], đặc trưng Heuristic [28], [57], thống kê [29], [50], [79] và kết hợp của các phương pháp trên [33], [83], [46]

Trong các tiếp cận này, mặc dù phương pháp sử dụng đặc trưng Heuristic được nghiên cứu từ những năm 50 nhưng ý tưởng đó vẫn còn được sử dụng rộng rãi tại thời điểm hiện nay Từ những năm 90 đến nay, các hướng tiếp cận khác dựa trên thống kê, các phương pháp máy học và lý thuyết đồ thị trở thành tiêu điểm của các nghiên cứu, đạt được nhiều kết quả khả quan và trở thành hướng tiếp cận chính cho bài toán tóm tắt dạng trích lược

Đánh giá chất lượng bản tóm tắt là vấn đề khá khó khăn và phức tạp Một bản tóm tắt đạt yêu cầu khi nó thỏa các điều kiện sau: chuyển tải được toàn bộ nội dung chính của văn bản một cách gãy gọn, thể hiện phải mạch lạc, không bị trùng lắp hay dư thừa thông tin Nhưng làm sao đánh giá được những tiêu chí này thì vẫn còn là một câu hỏi khó Một số phương pháp đánh giá đã được đề xuất như đánh giá dựa trên độ tương tự về nội dung (độ đo cosine), đánh giá dựa trên độ chính xác (Precision), độ bao phủ (Recall) Độ chính xác là phần trăm số câu của bản tóm tắt cần đánh giá trùng với bản tóm tắt chuẩn, còn độ bao phủ là tỷ lệ giữa số câu trùng nhau với số câu

Trang 34

Gần đây, các tác giả [54] đã xây dựng công cụ ROUGE (Recall Oriented Understudy for Gisting Evaluation), một công cụ đánh giá tóm tắt sử dụng phương pháp n-gram Ý tưởng chính là xác định sự tương tự giữa các bản tóm tắt dựa trên số lượng n-gram trùng nhau Đây là phương pháp đánh giá tự động có độ chính xác cao, độc lập ngôn ngữ và gần như tương đồng với đánh giá của con người Công cụ ROUGE được sử dụng phổ biến trong các nghiên cứu về tóm tắt văn bản trên thế giới (xem Phụ lục A.3)

Phần dưới đây sẽ trình bày chi tiết phương pháp tóm tắt sử dụng Heuristic và các phương pháp khác Nhiều kỹ thuật tóm tắt khác được khảo sát trong [60], [86] và tổng quan các hệ thống tóm tắt cùng với đặc trưng và kỹ thuật sử dụng có thể xem trong [13]

 Ngữ chỉ thị: Ngữ chỉ thị (cue) là những từ mang ý nghĩa đánh dấu như hầu

như không, không thể, hay những từ làm tăng ý nghĩa như do đó, vì thế, cho nên, kết quả là, những từ làm giảm ý nghĩa như trái lại, nhưng, tuy nhiên và những từ không làm thay đổi ý nghĩa như trợ động từ, hư từ như thì, là, cái Độ quan trọng của câu là tổng hợp giá trị của các từ trong câu

Khi tính độ quan trọng của câu, ta lần lượt so sánh các từ xuất hiện trong câu với từ điển ngữ chỉ thị Các từ làm tăng nghĩa và các từ đánh dấu sẽ có trọng số cao hơn các từ loại khác

 Tần suất từ: Những từ thường xuyên xuất hiện trong văn bản có thể là những từ có ý nghĩa Vì vậy, độ quan trọng của câu được xác định dựa trên tần suất xuất hiện trong văn bản của các từ thuộc câu đó Sau đó những câu

Trang 35

có độ quan trọng lớn nhất sẽ đưa vào bản tóm tắt Phương pháp này cho kết quả khá tốt tuy nhiên thời gian xử lý chậm

 Nhan đề: Các câu có chứa từ của câu nhan đề (title) hoặc câu tiêu đề (heading) sẽ có độ quan trọng cao và độ quan trọng của câu chứa từ thuộc nhan đề cao hơn câu có chứa từ của tiêu đề Tuy nhiên phương pháp này phụ thuộc khá nhiều vào cấu trúc của văn bản Chúng ta sẽ gặp rất nhiều khó khăn trong việc tóm tắt văn bản mà không có câu nhan đề

 Vị trí: điều này phụ thuộc vào loại tài liệu Ví dụ trong các tài liệu kỹ thuật, những câu nằm ở đoạn cuối có trọng số cao ngược lại với bài báo tin tức thì các câu đầu tiên là quan trọng

Độ quan trọng của câu (hay trọng số của câu) được tính như sau:

S i = w 1 * C i + w 2 * K i + w 3 * T i + w 4 * L i (1 8)

Trong đó: S i là độ quan trọng của câu thứ i C i , K i và T i là trọng số của câu i dựa trên các từ ngữ chỉ thị, tần suất từ và từ thuộc tiêu đề có trong câu Li là trọng số của câu dựa vào vị trí trong văn bản w 1 , w 2 , w 3 , w 4 là hệ số tuyến tính thể hiện sự đóng góp của từng trọng số

Phương pháp này phụ thuộc vào cấu trúc và dạng của văn bản Bên cạnh đó vấn

đề trùng lắp thông tin trong bản tóm tắt chưa được xem xét đến

1.5.2 Các phương pháp khác

 Phương pháp thống kê thuần túy: Phương pháp thống kê chủ yếu sử dụng sự

phân bố của các câu, từ trong văn bản Phương pháp này tạo bản tóm tắt bằng cách phân tích, tổng hợp, thống kê dựa trên các mối quan hệ, các liên kết nội tại của văn bản Cấu trúc và liên kết giữa các đoạn của văn bản được phân tích, rút trích những đoạn quan trọng nhất và biểu diễn thành bản tóm tắt [79] Với

mô hình ngôn ngữ, các tác giả [19] chọn ra những thuật ngữ nên xuất hiện trong bản tóm tắt, sau đó kết hợp các thuật ngữ lại bằng mô hình ngôn ngữ

Trang 36

 Thống kê kết hợp ngôn ngữ: Phương pháp này kết hợp kỹ thuật thống kê và

các tri thức về ngôn ngữ học khi tạo bản tóm tắt Bản tóm tắt được tạo ra dựa trên việc thống kê nhiều yếu tố khác nhau như: trọng số của thuật ngữ, câu truy vấn mở rộng, từ điển đồng nghĩa-phản nghĩa mở rộng, lề cực đại tương ứng (MMR) [22], hay sự đồng hiện, độ chính xác, sự không trùng lắp [83] Các tri thức về ngôn ngữ hỗ trợ quá trình phân tích nghĩa của từ, phân tích cấu trúc văn bản,… Trọng số của các thuật ngữ còn xác định trọng tâm nội dung của văn bản [46] Sau đó, các câu thỏa mãn những tiêu chí cho trước được tổng hợp, bố trí cho đúng cấu trúc ngữ pháp và tạo thành bản tóm tắt

 Phương pháp máy học: Phương pháp này mô hình hóa bài toán tóm tắt thành

bài toán phân lớp [50] và sử dụng các thuật toán máy học như mô hình Markov ẩn [24], mô hình độ hỗn loạn tối đa (Maximum Entropy) [77] hay SVM [39] nhằm mục đích chọn lọc ra các câu tốt nhất đưa vào bản tóm tắt Phương pháp này có ưu điểm là ít phụ thuộc vào kiến trúc ngôn ngữ và cũng không đòi hỏi những tri thức sâu về lĩnh vực ngôn ngữ, nhưng lại yêu cầu khá nhiều dữ liệu huấn luyện có chất lượng mới có thể cho ra một bản tóm tắt hoàn chỉnh

 Phương pháp dựa trên đồ thị: Phương pháp này mô hình hoá văn bản thành đồ

thị với đỉnh biểu diễn đoạn văn [79], hay câu [29], [67], [95], [109], hay thuật ngữ hoặc cụm từ trong văn bản [53], [59] và cạnh nối giữa hai đỉnh thể hiện mối quan hệ giữa chúng Từ đồ thị, ta có thể xác định các đỉnh đại diện cho những thành phần mang thông tin chính yếu của văn bản Các đỉnh này có thể

là các đỉnh trung tâm của đồ thị, hay là trọng tâm của các cụm đỉnh được phân chia trên đồ thị, hoặc cũng có thể là các đỉnh xếp thứ hạng cao về độ quan trọng Ưu điểm của phương pháp này là không yêu cầu những kiến thức sâu về mặt ngôn ngữ và không cần tập dữ liệu huấn luyện

Mỗi phương pháp tóm tắt văn bản trình bày trên đây đều có ưu điểm và nhược điểm riêng Vì vậy, trong thực tế, một hệ thống tóm tắt thường là sự kết hợp của

Trang 37

nhiều phương pháp khác nhau để khai thác các ưu điểm, đồng thời khắc phục các nhược điểm của từng phương pháp để tạo ra một hệ thống tóm tắt hoàn chỉnh nhất

1.6 Kết luận

Chương này giới thiệu tổng quan về khai thác văn bản và phân tích các đặc điểm khác biệt đối với khai thác dữ liệu truyền thống Các bài toán chính của khai thác văn bản như biểu diễn văn bản, phân loại, gom cụm và tóm tắt văn bản được trình bày chi tiết Đối với từng bài toán, luận án phân tích các kỹ thuật giải quyết phổ biến cùng với

ưu, nhược điểm

Trang 38

Chương 2

Mô hình biểu diễn văn bản bằng đồ thị

2.1 Giới thiệu

Hiện nay, chúng ta dùng các mô hình biểu diễn để giải quyết hầu hết những vấn

đề liên quan đến văn bản Các mô hình biểu diễn đóng vai trò trung gian giữa ngôn ngữ tự nhiên dạng văn bản và chương trình xử lý trong các lĩnh vực khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên Sau khi được tái thể hiện, văn bản trở thành những cấu trúc dữ liệu trực quan, đơn giản và có thể xử lý được Vì vậy, các mô hình biểu diễn không ngừng phát triển, hàm chứa được nhiều hơn những suy nghĩ mà con người muốn diễn đạt, đồng thời nâng cao hiệu quả sử dụng Mô hình biểu diễn văn bản truyền thống như: mô hình túi từ và không gian vectơ là các mô hình được sử dụng phổ biến nhất Mô hình không gian vectơ [80] (do Salton G đề xuất năm 1975) biểu diễn văn bản như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản Trọng số các đặc trưng thường được tính qua độ

đo TF×IDF Tuy nhiên, mô hình này không nắm bắt được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận của từ, vị trí xuất hiện của từ trong văn bản Nhằm giải quyết các hạn chế trên, mô hình đồ thị được đề xuất và được đánh giá có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc mà mô hình túi từ và không gian vectơ đã bỏ qua

Mô hình đồ thị biểu diễn văn bản, cụ thể là mô hình đồ thị khái niệm (Conceptual Graphs_ CGs), được John F Sowa trình bày lần đầu tiên vào năm 1976 [85] Hiện nay, mô hình đồ thị không ngừng phát triển dựa trên ý tưởng của mô hình CGs, được ứng dụng vào dãy rộng các bài toán liên quan đến xử lý văn bản và trở nên khá phong phú Khi ứng dụng vào từng loại bài toán khác nhau, các thành phần thích hợp nhất trong văn bản trở thành đỉnh của đồ thị và mối quan hệ hiệu quả nhất giữa các đỉnh được chọn để xây dựng cạnh của đồ thị Đỉnh của đồ thị có thể biểu diễn câu, từ, hay

Trang 39

câu kết hợp từ Cạnh có thể thể hiện những mối quan hệ khác nhau giữa các đỉnh như: trật tự xuất hiện, tần suất đồng hiện, vị trí xuất hiện, độ tương đồng

Các mô hình đồ thị được sử dụng hiện nay tương đối đa dạng và mỗi mô hình mang nét đặc trưng riêng Sau quá trình nghiên cứu và hệ thống, luận án giới thiệu những đặc tính khái quát của một số mô hình đồ thị biểu diễn văn bản chính như sau Mỗi đồ thị là một văn bản hoặc biểu diễn cho tập văn bản Đỉnh của đồ thị có thể

là câu, hoặc từ, hoặc kết hợp các thành phần khác nhau của văn bản (ví dụ như câu và từ) Cạnh nối giữa các đỉnh là vô hướng hoặc có hướng, thể hiện mối quan hệ trong

đồ thị Nhãn đỉnh thường là tần suất xuất hiện của đỉnh Còn nhãn cạnh là tên mối liên kết khái niệm giữa hai đỉnh, hay tần suất xuất hiện chung của hai đỉnh trong một phạm vi nào đó, hay tên vùng mà đỉnh xuất hiện

Chẳng hạn trong bài toán rút trích thông tin, đỉnh là từ [89] hay từ kết hợp câu [109], cạnh thể hiện tần suất đồng hiện Trong bài toán phân lớp văn bản, đỉnh là từ, cạnh thể hiện trật tự xuất hiện của từ hay vị trí xuất hiện của từ trong văn bản [11], [61], [82] Còn trong bài toán tóm tắt văn bản thì đỉnh là câu, cạnh thể hiện sự tương đồng giữa các câu [68]

Do thông tin cấu trúc quan trọng của văn bản thể hiện ở trật tự xuất hiện của từ, vùng lân cận của từ, cũng như vị trí xuất hiện của từ trong văn bản nên mô hình đồ thị

sử dụng đỉnh là từ được nghiên cứu sâu hơn và có nhiều biến thể nhất

Sau đây, luận án sẽ trình bày chi tiết một số mô hình đại diện với đỉnh biểu diễn

từ Đó là mô hình đồ thị khái niệm, đồ thị hình sao, đồ thị tần số xuất hiện vô hướng,

đồ thị đơn giản, đồ thị khoảng cách n đơn giản Bên cạnh đó mô hình với đỉnh là câu

và mô hình đồ thị lưỡng phần cũng đề cập đến

2.2 Mô hình đồ thị khái niệm

Mô hình đồ thị khái niệm (Conceptual Graphs – CGs) sử dụng mạng ngữ nghĩa biểu diễn văn bản thành đồ thị

Trang 40

Định nghĩa 2.1: Mô hình đồ thị khái niệm

Mô hình đồ thị khái niệm là mô hình coi mỗi từ trong văn bản là một khái niệm

và được biểu diễn bằng đỉnh hình vuông Đỉnh hình oval thể hiện mối quan hệ giữa các khái niệm [85]

Các đỉnh hình vuông được nối với nhau dựa trên mối quan hệ trong mạng ngữ nghĩa và qua trung gian là đỉnh hình oval

Ví dụ 2.1: Ta có câu: “Jonh is going to Boston by bus”

Hình 2.1 Ví dụ mô hình đồ thị khái niệm

(nguồn http://www.jfsowa.com/cg/cgexamp.htm)

Mô hình đồ thị khái niệm biểu diễn câu trên như trong Hình 2.1 Trong đó: các khái niệm là [Go], [Person: John], [City: Boston] và [Bus], các mối quan hệ là (Agnt)– tác nhân, (Dest) – nơi đến và (Inst) – phương tiện

Ưu điểm của CGs là mô hình hoá văn bản một cách trực quan, chính xác và logic Điểm hạn chế của CGs là độ phức tạp, đòi hỏi phân tích ngữ nghĩa sâu và phụ thuộc vào lĩnh vực

2.3 Mô hình đồ thị hình sao

Định nghĩa 2.2: Mô hình đồ thị hình sao

Mô hình đồ thị hình sao là mô hình có đỉnh trung tâm mang tên cấu trúc đặc trưng của từng loại văn bản và các đỉnh còn lại biểu diễn từ trong văn bản Các đỉnh liên kết với đỉnh trung tâm và cạnh nối được gán nhãn thể hiện mối quan hệ giữa đỉnh và đỉnh trung tâm [12]

Bus

Inst

Định dạng
Số trang	162
Dung lượng	6,27 MB