Nghiên cứu cải tiến hiệu quả tóm tắt văn bản dựa trên đồ thị

DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU, CHỮ VIẾT TẮT Average link liên kết trung bình Bag of words model mô hình túi từ Complete link liên kết đầy đủ Cross-validation đánh giá chéo Data mining

Trang 1

SƠN LA, NĂM 2017

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC TÂY BẮC

BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ

NGHIÊN CỨU CẢI TIẾN HIỆU QUẢ TÓM TẮT VĂN BẢN DỰA TRÊN ĐỒ THỊ

Mã số: TB2017 - 14

CHỦ NHIỆM ĐỀ TÀI: PHAN TRUNG KIÊN

Trang 2

MỤC LỤC

MỤC LỤC 1

DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU, CHỮ VIẾT TẮT 3

DANH MỤC CÁC HÌNH 5

MỞ ĐẦU 6

1 Tính cấp thiết của đề tài 6

2 Mục tiêu đề tài 6

3 Đối tượng, phạm vi nghiên cứu 6

4 Phương pháp nghiên cứu 7

5 Nội dung 7

CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 8

1.1 Giới thiệu về tóm tắt văn bản 8

1.2 Phân loại các hệ thống tóm tắt văn bản 9

1.3 Tình hình nghiên cứu trong và ngoài nước 11

1.3.1 Ngoài nước 11

1.3.2 Trong nước 14

1.4 Mô hình biểu diễn văn bản 15

CHƯƠNG 2 BIỂU DIỄN VĂN BẢN BẰNG ĐỒ THỊ 16

2.1 Tổng quan về đồ thị 16

2.1.1 Khái niệm cơ sở 16

2.1.2 Các độ đo trên đồ thị 18

2.2 Mô hình biểu diễn văn bản bằng đồ thị 23

2.2.1 Mô hình đồ thị khái niệm 24

2.2.2 Mô hình đồ thị hình sao 25

2.2.3 Mô hình đồ thị tần số vô hướng 26

Trang 3

2.2.4 Mô hình đồ thị đơn giản 27

2.2.5 Mô hình đồ thị khoảng cách n đơn giản 28

2.2.5 Mô hình đồ thị đỉnh là câu 29

2.2.6 Mô hình đồ thị lưỡng phần 30

CHƯƠNG 3 TÓM TẮT VĂN BẢN DỰA TRÊN ĐỒ THỊ 32

3.1 Tiền xử lý văn bản 33

3.2 Mô hình hóa văn bản thành đồ thị 34

3.3 Xếp hạng câu 36

3.4 Tạo bản tóm tắt 38

3.5 Kết quả thử nghiệm 39

3.5.1 Dữ liệu thử nghiệm 39

3.5.2 Kết quả thử nghiệm 40

KẾT LUẬN 42

1 Kết luận 42

2 Hướng phát triển của đề tài 42

TÀI LIỆU THAM KHẢO 43

Trang 4

DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU, CHỮ VIẾT TẮT

Average link liên kết trung bình

Bag of words model mô hình túi từ

Complete link liên kết đầy đủ

Cross-validation đánh giá chéo

Data mining khai thác dữ liệu

Dendrograms sơ đồ nhánh

Graph-based model mô hình biểu diễn bằng đồ thị

Information extraction trích chọn thông tin

Information retrieval truy vấn thông tin

Single link liên kết đơn

Text mining khai thác dữ liệu văn bản (khai thác văn bản)

CGs mô hình đồ thị khái niệm - Conceptual Graphs

DC-Tree cây gom cụm tài liệu – Document Clustering Tree

DF tần suất xuất hiện của tài liệu – Document frequency DIG đồ thị chỉ mục tài liệu - Document Index Graph

HAC gom cụm phân cấp tích tụ - Hierachical Agglomerative Clustering

ICG gom cụm động dựa trên đồ thị - Incremental Clustering

based on Graph IDF nghịch đảo tần suât xuât hiện của tài liệu - Inverse

Document Frequency

IG độ lợi thông tin - Information gain

Trang 5

KDD khám phá tri thức trong cơ sở dữ liệu - Knowledge

discovery in databases k-NN k - láng giềng gần nhât - k- Nearest Neighbor

KTLOP kích thước thư mục /lớp

MCS đồ thị con chung cực đại - Maximal Common Subgraph MDL độ dài mô tả cực tiểu - Minimum description length MMR mức độ cực đại tương ứng - Maximal Marginal Relevance

ROUGE Recall Oriented Understudy for Gisting Evaluation

SOM bản đồ tự tổ chức - Self Organizing Map

SVM máy vectơ hỗ trợ - Support Vector Machine

STC gom cụm dựa trên cây tiền tố - Suffix Tree Clustering

TF tần suất xuất hiện của thuật ngữ - Term Frequency

VSM mô hình không gian vectơ - Vector Space Model

Trang 6

DANH MỤC CÁC HÌNH

Hình 1.1 Framework chung cho hệ thống TTVB bằng phương pháp học máy 13

Hình 2.1 Ví dụ mô hình đồ thị khái niệm 25

Hình 2.2 Ví dụ mô hình đồ thị hình sao biểu diễn văn bản 26

Hình 2.3 Ví dụ mô hình đồ thị hình sao biểu diễn email 26

Hình 2.4 Ví dụ mô hình đồ thị tần số vô hướng 27

Hình 2.5 Ví dụ mô hình đồ thị đơn giản 28

Hình 2.6 Ví dụ mô hình đồ thị khoảng cách n đơn giản 29

Hình 2.7 Ví dụ mô hình đồ thị với đỉnh là câu 30

Hình 2.8 Minh họa mô hình đồ thị lưỡng phần với đỉnh là câu và từ 31

Hình 3.1 Mô hình tóm tắt văn bản tiếng Việt 32

Hình 3.2 Qui trình bộ tóm tắt văn bản đơn 33

Hình 3.3 Đồ thị biểu diễn văn bản 35

Hình 3.4 Thuật toán xếp hạng câu 37

Hình 3.5 Kết quả đánh giá bản tóm tắt văn bản đơn theo ROUGE-1 41

Hình 3.6 Kết quả đánh giá bản tóm tắt văn bản đơn theo ROUGE-2 41

Trang 7

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Một ứng dụng phổ biến của dữ liệu đồ thị là biểu diễn văn bản, thường ở dạng XML Ngày nay, với sự phát triển bùng nổ của Internet, lượng thông tin văn bản được sinh ra mỗi ngày vô cùng lớn đã mang lại nhiều lợi ích cho con người Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có đủ thời gian và sức lực

để đọc hết được chúng khiến cho chúng ta khó khăn trong việc tìm kiếm, phân loại và tổng hợp thông tin Một giải pháp cho vấn đề này là tóm tắt văn bản tự động

Đặc điểm của dữ liệu văn bản là thường không có cấu trúc hoặc bán cấu trúc, cơ

sở dữ liệu rất lớn, đa chiều Những năm gần đây, mô hình biểu diễn văn bản bằng đồ thị được đề xuất và sử dụng trong các bài toán khác nhau của khai thác văn bản và cho kết quả tốt vì tận dụng được các thông tin quan trọng về cấu trúc văn bản

Tóm tắt văn bản tự động được xác định là một bài toán thuộc lĩnh vực khái phá dữ liệu văn bản; việc áp dụng tóm tắt văn bản sẽ giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả đánh chỉ mục cho máy tìm kiếm

Tại trường Đại học Tây Bắc chưa có nghiên cứu nhiều về tóm tắt văn bản Do đó chúng tôi chọn đề tài này nhằm nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp tóm tắt văn bản hiệu quả Qua đó nâng cao trình độ và giúp cho các giảng viên, sinh viên có thêm tài liệu để tham khảo, nghiên cứu sâu hơn trong lĩnh vực khai phá dữ liệu

2 Mục tiêu đề tài

Nghiên cứu đồ thị, các dạng biểu diễn văn bản dựa trên đồ thị

Nghiên cứu các phương pháp tóm tắt văn bản dựa trên đồ thị

Đề xuất giải pháp nâng cao hiệu quả tóm tắt văn bản dựa trên đồ thị

Thử nghiệm và đánh giá

3 Đối tượng, phạm vi nghiên cứu

- Đối tượng nghiên cứu

Bài toán tóm tắt văn bản tự động

Trang 8

- Phạm vi nghiên cứu

Biểu diễn văn bản dựa trên đồ thị và một số phương pháp tóm tắt văn bản theo hướng tiếp cận học máy

4 Phương pháp nghiên cứu

- Phương pháp phân tích, tổng hợp tài liệu

- Phương pháp thực nghiệm

5 Nội dung

Ngoài phần mở đầu và kết luận, đề tài có những nội dung sau:

Chương 1 Tổng quan về tóm tắt văn bản

Chương 2 Tóm tắt văn bản dựa trên đồ thị

Chương 3 Thực nghiệm và đánh giá

Trang 9

CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

1.1 Giới thiệu về tóm tắt văn bản

Tóm tắt văn bản chính thức được nghiên cứu lần đầu tiên vào năm 1958 bởi Luhn (1958) [1], tiếp theo đó là Edmundson (1969) [2] Tóm tắt văn bản được quan tâm và nghiên cứu tích cực trong những năm gần đây cùng với sự bùng nổ thông tin trên web Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn (hoặc nhiều nguồn) và tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể, cho người dùng cụ thể Tóm tắt văn bản có thể áp dụng cho từng văn bản lẫn tập văn bản (các văn bản cùng chung chủ đề) Tóm tắt tập văn bản có độ phức tạp cao hơn rất nhiều

so với tóm tắt từng văn bản vì phải giải quyết nhiều vấn đề như: chi phí thuật toán, thông tin phải được tổng hợp, chọn lọc từ nhiều văn bản và phải đảm bảo tính súc tích, cô đọng, không trùng lắp thông tin

Nội dung của bản tóm tắt phụ thuộc vào nhu cầu của người dùng Bản tóm tắt theo truy vấn tập trung vào câu truy vấn của người dùng và rút trích các thông tin liên quan đến câu truy vấn này từ văn bản Ngược lại bản tóm tắt tổng quát cố gắng bao quát đầy

đủ các nội dung và bảo toàn cấu trúc chung của văn bản gốc

Bản tóm tắt có thể có dạng trích lược (extract) hoặc tóm lược (abstract) [3] Bản tóm tắt dạng trích lược gồm tập các câu từ văn bản gốc Trong bản tóm tắt dạng tóm lược, nội dung của văn bản gốc được viết lại, có thể chứa những câu hoàn toàn mới so với văn bản gốc, những câu ngắn gọn hơn, trau chuốt hơn nhưng vẫn chuyển tải đầy đủ nội dung của tài liệu Mặc dù các bản tóm tắt do người dùng biên soạn thường không ở dạng trích lược, nhưng phần lớn các nghiên cứu hiện này đều tập trung vào tóm tắt theo dạng trích lược Tóm lược văn bản đòi hỏi nhiều ở những tri thức chuyên sâu và liên quan đến ngôn ngữ học, mà đặc biệt là các thành tựu của lĩnh vực xử lý ngôn ngữ tự nhiên Đó là lý do khiến bản tóm lược hiện nay chưa đạt kết quả tốt như bản trích lược Thật sự bài toán tóm tắt dạng trích lược chưa đạt đến mức độ hoàn chỉnh và các nghiên cứu đi theo hướng này còn hạn chế Các công cụ tóm lược hiện tại thường dựa trên các thành phần trích lược đã xử lý trước Kết quả đầu ra của quá trình trích lược sẽ được cắt, dán hay tổng hợp và tạo ra bản tóm lược [4]

Trang 10

Bài toán tóm tắt văn bản hiện nay thường có khuynh hướng nghiêng về dạng trích lược và sẽ được trình bày kỹ trong phần tiếp theo dưới đây Mục đích của tóm tắt dạng trích lược là xác định và lựa chọn các câu quan trọng nhất trong văn bản để tạo thành bản tóm tắt Có thể phân loại các phương pháp tóm tắt dạng trích lược theo các tiếp cận [5]: sử dụng đặc trưng ngôn ngữ, đặc trưng Heuristic, thống kê và kết hợp của các phương pháp trên

Trong các tiếp cận này, mặc dù phương pháp sử dụng đặc trưng Heuristic được nghiên cứu từ những năm 50 nhưng ý tưởng đó vẫn còn được sử dụng rộng rãi tại thời điểm hiện nay Từ những năm 90 đến nay, các hướng tiếp cận khác dựa trên thống kê, các phương pháp máy học và lý thuyết đồ thị trở thành tiêu điểm của các nghiên cứu, đạt được nhiều kết quả khả quan và trở thành hướng tiếp cận chính cho bài toán tóm tắt dạng trích lược

Đánh giá chất lượng bản tóm tắt là vấn đề khá khó khăn và phức tạp Một bản tóm tắt đạt yêu cầu khi nó thỏa các điều kiện sau: chuyển tải được toàn bộ nội dung chính của văn bản một cách gãy gọn, thể hiện phải mạch lạc, không bị trùng lắp hay dư thừa thông tin Nhưng làm sao đánh giá được những tiêu chí này thì vẫn còn là một câu hỏi khó Một số phương pháp đánh giá đã được đề xuất như đánh giá dựa trên độ tương tự

về nội dung (độ đo cosine), đánh giá dựa trên độ chính xác (Precision), độ bao phủ (Recall) Độ chính xác là phần trăm số câu của bản tóm tắt cần đánh giá trùng với bản tóm tắt chuẩn, còn độ bao phủ là tỷ lệ giữa số câu trùng nhau với số câu trong bản tóm tắt chuẩn

Gần đây, các tác giả [6] đã xây dựng công cụ ROUGE (Recall Oriented Understudy for Gisting Evaluation), một công cụ đánh giá tóm tắt sử dụng phương pháp n-gram Ý tưởng chính là xác định sự tương tự giữa các bản tóm tắt dựa trên số lượng n-gram trùng nhau Đây là phương pháp đánh giá tự động có độ chính xác cao, độc lập ngôn ngữ và gần như tương đồng với đánh giá của con người Công cụ ROUGE được sử dụng phổ biến trong các nghiên cứu về tóm tắt văn bản trên thế giới

1.2 Phân loại các hệ thống tóm tắt văn bản

Trang 11

số cách phân loại tiêu biểu [15]:

Theo kết quả (output):

Tóm tắt trích rút (Extract): là một bản tóm tắt bao gồm các đơn vị văn bản quan trọng như câu, đoạn được trích rút từ văn bản gốc

Tóm tắt tóm lược (Abstract): tương tự như cách con người thực hiện tóm tắt, nghĩa

là đầu tiên phải hiểu các khái niệm chính của một văn bản, sau đó tạo ra bản tóm tắt có chứa các nội dung không được thể hiện trong văn bản [3]

Theo mục đích hay chức năng tóm tắt (Function):

Tóm tắt chỉ thị (Indicative): tóm tắt nhằm cung cấp một chức năng tham khảo để chọn tài liệu đọc chi tiết hơn (ứng dụng trong tóm tắt kết quả tìm kiếm)

Ví dụ: Trong tóm tắt tin tức, tóm tắt đưa ra chi tiết chính của từng sự kiện

Tóm tắt thông tin (Information): tóm tắt bao gồm tất cả các thông tin nổi bật của văn bản gốc ở nhiều mức độ chi tiết khác nhau

Tóm tắt đánh giá (Evaluation): tóm tắt nhằm mục đích đánh giá vấn đề chính của văn bản gốc theo quan điểm của người đánh giá

Theo nội dung:

Tóm tắt chung (Generalized): tóm tắt nhằm mục đích đưa ra các nội dung quan trọng phản ánh toàn bộ nội dung văn bản gốc

Tóm tắt hướng truy vấn (Query-based): tóm tắt nhằm mục đích đưa ra kết quả dựa vào câu truy vấn của người Tóm tắt này thường được sử dụng trong quá trình tìm kiếm thông tin (information retreival)

Theo miền dữ liệu:

Tóm tắt trên một miền dữ liệu (Domain): tóm tắt nhắm vào một miền nội dung nào

đó, như tin tức khủng bố, tin tức tài chính

Tóm tắt trên một thể loại (Genre): tóm tắt nhắm vào một thể loại văn bản nào đó, như báo chí, email, web, bài báo

Tóm tắt độc lập (Independent): tóm tắt cho nhiều thể loại và nhiều miền dữ liệu

Trang 12

Theo mức độ chi tiết:

Tóm tắt tổng quan (overview): tóm tắt miêu tả tổng quan tất cả các nội dung nổi bật trong văn bản nguồn

- Tóm tắt tập trung sự kiện (event): tóm tắt miêu tả một sự kiện cụ thể nào đó trong văn bản nguồn

Theo số lượng:

- Tóm tắt đơn văn bản: Nếu một bản tóm tắt được tạo thành từ một văn bản riêng

lẻ thì hệ thống tóm tắt đó được gọi là hệ thống tóm tắt đơn văn bản

- Tóm tắt đa văn bản: Nếu một bản tóm tắt được tạo thành từ nhiều văn bản liên quan tới một chủ đề riêng lẻ thì hệ thống tóm tắt đó gọi là hệ thống tóm tắt đa văn bản

số mà hệ thống tóm tắt trên một ngôn ngữ được chọn

Tóm tắt xuyên ngôn ngữ (cross-language): Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng

và tóm tắt cho phù hợp Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo

Trang 13

a Các phương pháp tiên phong

Nghiên cứu đầu tiên về tóm tắt văn bản vào những năm 50 của thế kỷ 20 là của Luhn [1] được dựa trên tần suất các từ trong văn bản với quan điểm từ xuất hiện thường xuyên là từ quan trọng nhất Câu chứa nhiều từ thường xuyên quan trọng hơn các câu khác và được chọn trong bản tóm tắt

Sau nghiên cứu của Luhn, các nhà nghiên cứu đề xuất rất nhiều phương pháp khác dựa trên các đặc trưng đơn giản khác như các từ khóa/cụm từ khóa, vị trí câu [5]

Ví dụ số các lần xuất hiện của từ “automobile” được tăng lên nếu ta đã thấy từ “car” Một ứng dụng tóm tắt khác dựa trên thống kê là của Kupiec, trong đó phân loại Bayes được dùng để trích rút câu Trong phương pháp này tác giả dùng một kho ngữ liệu các bản văn và các bản tóm tắt để huấn luyện hệ thống Các đặc trưng được sử dụng trong hệ thống này là tần suất xuất hiện các từ, các từ viết hoa, độ dài câu, vị trí trong các đoạn và cấu trúc cụm từ

c Các phương pháp dựa trên kết nối bản văn

Phương pháp này liên quan tới các bài toán tham chiếu tới các phần đã được đề cập của một văn bản Các phương pháp sử dụng chuỗi từ vựng và Lý thuyết cấu trúc tu

từ RST (Rhetorical Structure Theory)

Phương pháp chuỗi từ vựng là một thuật toán nổi tiếng sử dụng kết nối bản văn Trong phương pháp này, mối tương quan ngữ nghĩa của các từ (tính đồng nghĩa, tính trái nghĩa, ) được thực hiện bằng cách sử dụng các từ điển và WordNet Các chuỗi từ vựng có mối tương quan ngữ nghĩa được xây dựng được sử dụng để trích rút các câu quan trọng trong một văn bản

Trang 14

Các phương pháp dựa trên RST để tổ chức các đơn vị bản văn thành cấu trúc dạng cây Sau đĩ cấu trúc này được sử dụng để thực hiện tĩm tắt [8]

d Các phương pháp dựa trên đồ thị [9]

Phương pháp đồ thị được xây dựng dựa trên các thuật tốn HITS và Google’s PageRank Các thuật tốn này sau đĩ được dùng trong tĩm tắt văn bản

Hi ̀nh 1.1 Framework chung cho hệ thống TTVB bằng phương pháp học máy

Trong bài tốn tĩm tắt văn bản dựa vào đồ thị, các đỉnh biểu diễn các câu, cịn các cạnh biểu diễn độ tương tự giữa các câu Các giá trị đo độ tương tự được tính tốn bằng cách sử dụng độ tương tự giữa các từ hoặc các cụm từ Các câu cĩ độ tương tự cao nhất với các câu khác được chọn ra cho bản tĩm tắt đầu ra theo tỷ lệ tĩm tắt Điển hình cho hướng tiếp cận tĩm tắt văn bản dựa trên đồ thị là hai phương pháp TextRank và Cluster LexRank

e Các phương pháp dựa vào học máy [10]

Các phương pháp dựa vào học máy cũng được sử dụng cho tĩm tắt văn bản với sự

hỗ trợ của các tiến bộ trong học máy và xử lý ngơn ngữ tự nhiên Các phương pháp đầu tiên sử dụng giả thiết các đặc trưng độc lập với nhau Các phương pháp phát triển sau

đĩ lại sử dụng giả thiết các đặc trưng phụ thuộc lẫn nhau Các thuật tốn tĩm tắt dựa trên học máy sử dụng các kỹ thuật như Nạve- Bayes, mơ hình Markov ẩn HMM, các

Trang 15

mô hình logarit tuyến tính (Log-linear Models) mạng nơ-ron và giải thuật phỏng sinh học như

1.3.1.2 Các phương pháp tóm tắt theo hướng tóm lược [3], [11], [12]

Các phương pháp tóm tắt tóm lược cố gắng để hiểu đầy đủ các văn bản cần tóm tắt, ngay cả các văn bản có chủ đề không rõ ràng Sau đó, tạo ra các câu mới cho bản tóm tắt theo tỉ lệ của người dùng yêu cầu Phương pháp này rất giống với cách tóm tắt của con người Nhưng về mặt thực tế, để đạt được biểu diễn của con người rất khó Do

đó, các nghiên cứu đã dựa vào các đơn vị đặc trưng như từ, cụm từ, thành phần câu quan trọng để sinh ra các câu mới cho tóm tắt văn bản

Theo hướng này có: phương pháp dựa vào các từ hay cụm từ quan trọng để tạo ra các câu cho bản tóm tắt, phương pháp dựa trên kỹ thuật cô đọng văn bản, phương pháp dựa trên kỹ thuật rút gọn văn bản, nối hai hay nhiều câu thành một câu, phương pháp dựa trên kỹ thuật rút gọn câu để tạo ra bản tóm tắt

1.3.2 Trong nước

Tại Việt Nam hiện nay, lĩnh vực xử lý ngôn ngữ tự nhiên đã có được thành tích trong các bài toán phân tách từ, phân lớp và phân nhóm văn bản Tuy nhiên bài toán tóm tắt văn bản chưa có nhiều nghiên cứu và đa phần các công trình nghiên cứu đều sử dụng hoặc cải tiến các phương pháp dựa trên thống kê, cũng có một số nghiên cứu có dựa trên ngữ nghĩa để nâng cao độ chính xác

Có thể kể đến một số công trình nghiên cứu như:

Đỗ Phúc, Hoàng Kiếm (2006) [13] đã sử dụng cây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, dùng từ điển đồng nghĩa và WordNet tiếng Việt để giải quyết vấn đề nghĩa của từ, rồi dùng kĩ thuật gom cụm để gom các câu trong văn bản (vector đặc trưng cho câu) và hình thành các vector đặc trưng cụm, sau đó rút ra câu chứa nhiều thành phần của các vector đặc trưng cụm

Vương Toàn (2007) [14] đã đề xuất quy trình tóm tắt văn bản khoa học Theo đó, đầu tiên cho máy đọc lướt văn bản và tìm xem có sẵn những đoạn văn mang tính chất

“tóm tắt” hay không; tiếp theo là định chủ đề, xác định 4-5 tiêu đề đề mục hoặc từ khoá

để máy tự động chọn lưu tất cả những câu có các từ khoá đó

Công trình nghiên cứu của Nguyễn Trọng Phúc, Lê Thanh Hương (2008) [15] lại

sử dụng cấu trúc diễn ngôn để tóm tắt văn bản Theo đó, xây dựng cây cấu trúc diễn

Trang 16

ngôn biểu diễn mỗi quan hệ diễn ngôn giữa các đoạn văn bản (như các quan hệ quả, liệt kê, diễn giải, ), rồi từ cây cấu trúc diễn ngôn này đánh giá được độ quan trọng của các đoạn văn bản và tiến hành trích xuất tạo ra tóm tắt nội dung cho văn bản Với hướng tiếp cận tóm tắt đa văn bản dựa vào trích xuất câu, Trần Mai Vũ (2009) [16] đã xây dựng đồ thị quan hệ thực thể để tăng cường tính ngữ nghĩa cho độ tương đồng câu để áp dụng cho tóm tắt đa văn bản tiếng Việt

nhân-1.4 Mô hình biểu diễn văn bản

Khi khai thác tập văn bản, ta cần tiền xử lý văn bản và lưu trữ thông tin ở dạng cấu trúc phù hợp hơn để xử lý sau này thay vì các tập tin văn bản thuần túy Mô hình biểu diễn văn bản là một trong những nhân tố quan trọng của quá trình khai thác văn bản Hiện nay, có nhiều mô hình biểu diễn văn bản Mô hình đơn giản nhất là mô hình túi từ Toàn bộ từ trong tập văn bản được sử dụng cho việc xây dựng vectơ nhị phân biểu diễn văn bản Mỗi chiều của vectơ đại diện cho một từ và nhận giá trị 1 khi từ xuất hiện trong văn bản và ngược lại Mô hình không gian vectơ là mô hình phát triển từ mô hình túi từ Trong mô hình này, mỗi văn bản được biểu diễn thành một vectơ của các thuật ngữ (từ/cụm từ) với giá trị của mỗi chiều thường là trọng số của thuật ngữ Mô hình biểu diễn bằng đồ thị là mô hình với đỉnh có thể là từ, cụm từ hay câu hoặc kết hợp câu và từ Cạnh nối giữa các đỉnh thể hiện mối quan hệ trong đồ thị Mô hình N-gram là

mô hình được sử dụng phổ biến trong xử lý ngôn ngữ tự nhiên với các từ được biểu diễn như chuỗi ký tự có độ dài N Trong mô hình N-gram, văn bản được tách ra thành các chuỗi n ký tự liên tục và thường không sử dụng thông tin ngữ nghĩa hay đặc trưng ngôn ngữ Phần tiếp theo tập trung giới thiệu mô hình không gian vectơ

Mô hình không gian vectơ là phương pháp biểu diễn văn bản phổ biến trong lĩnh vực truy vấn thông tin và trong một số tiếp cận khai thác văn bản Với mô hình này, các văn bản được biểu diễn thành vectơ trong không gian m - chiều Mỗi chiều của không gian tương ứng với một thuật ngữ (có thể là từ đơn lẻ, từ khóa hay cụm từ dài) riêng biệt Hay nói một cách khác, tất cả các thuật ngữ trong CSDL tạo thành “không gian” với mỗi thuật ngữ đại diện cho một “chiều” Với mục đích phân biệt văn bản này với văn bản khác, trọng số được gán cho từng thuật ngữ nhằm xác định độ quan trọng của thuật ngữ trong văn bản Giá trị của mỗi thành phần trong vectơ là trọng số của thuật ngữ tương ứng Có nhiều cách tính trọng số này, trong đó TFxIDF là phương pháp phổ biến nhất

Trang 17

CHƯƠNG 2 BIỂU DIỄN VĂN BẢN BẰNG ĐỒ THỊ

2.1 Tổng quan về đồ thị

Dữ liệu đồ thị đã và đang được quan tâm nghiên cứu nhiều vì chúng có ứng dụng

đa dạng phong phú trong lý thuyết cũng như trong thực tế ở rất nhiều lĩnh vực khác nhau: xử lý ngôn ngữ tự nhiên, văn bản được biểu diễn theo cấu trúc chuỗi, cây, hoặc

đồ thị; trong tin sinh học, các chuỗi DNA, RNA, proteins được biểu diễn ở dạng chuỗi

và đồ thị; trong lĩnh vực phân tích các mạng xã hội [17], phân tích các liên kết web

2.1.1 Khái niệm cơ sở

Định nghĩa 2.1 Cho đồ thị G  V E, , trong đó V là tập các đỉnh và E là tập các cạnh Đường đi có độ dài n đi từ nút v đến w là dãy các cạnh

v0, v1 , v v1, 2, , v n1, v n, trong đó v 0 = v, v n = w và v v i, i1E Đường đi đơn là đường đi không đi qua một đỉnh nào quá một lần Hiển nhiên đường đi ngắn nhất đi từ

đỉnh s đến đỉnh t là đường đi đơn có độ dài (số cạnh) ít nhất trong số các đường đi giữa

hai đỉnh

Hai cạnh được gọi là cạnh bội hay song song nếu chúng cùng tương ứng với một

cặp đỉnh Một cạnh (v, w) của đồ thị G được gọi là khuyên (loop) nếu v = w Đồ thị

không có các cạnh bội được gọi là đơn đồ thị, ngược lại gọi là đa đồ thị Trong phần này chúng ta chỉ xét những đơn đồ thị, gọi tắt là đồ thị

Hai đỉnh u và v trong đồ thị G được gọi là liền kề nếu (u, v)  E, hoặc (v, u)  E

Nếu e = (u, v) thì e gọi là cạnh liên thuộc với các đỉnh u và v Các đỉnh u và v gọi là các điểm đầu mút của cạnh e Một đồ thị có k cạnh (|E| = k) được gọi là k-đồ thị

Định nghĩa 2.2 Bậc của đỉnh v trong đồ thị G, ký hiệu deg v , là số các cạnh liên

thuộc với nó, Đỉnh v gọi là đỉnh treo nếu deg(v) = 1 và gọi là đỉnh cô lập nếu deg v 0 Bậc của đỉnh là số các đỉnh liền kề với đỉnh đó

Tính chất 2.1 Mọi đơn đồ thị n đỉnh n2 có tổng bậc của hai đỉnh tuỳ ý không nhỏ hơn n đều là đồ thị liên thông

Tính chất 2.2 Nếu một đồ thị có đúng hai đỉnh bậc lẻ thì hai đỉnh này phải liên

thông, tức là có một đường đi nối chúng

Trang 18

Định nghĩa 2.3 Danh sách liền kề (Adjacency List) Với mỗi đỉnh i của đồ thị

chúng ta lưu trữ danh sách các đỉnh kề với nó, ký hiệu là List i ,

  { : ,   or , }

List i  j V i j E j i E ,

Với cách biểu diễn này, mỗi đỉnh i của đồ thị tương ứng với một danh sách tất cả

các đỉnh kề với nó và được ký hiệu là List(i) Để biểu diễn List(i), ta có thể dùng các

kiểu dữ liệu kiểu tập hợp, mảng hoặc danh sách liên kết (DSLK)

Định nghĩa 2.4 Giả sử G = (V, E) là đồ thị có n đỉnh V n V, v v1, 2, ,v n

Ma trận liền kề (adjacency matrix) của đồ thị G ứng với thứ tự các đỉnh v 1 , v 2 , , v n là

ma trận Aa i j, |i j, 1 n, trong đó a i,j = 1 nếu (v i , v j)  E, ngược lại a i,j = 0

Cho trước một đồ thị có tập đỉnh V = {v 1 , v 2 ,…, v n } thì sẽ có n! ma trận liền kề tương ứng, bởi vì ứng mỗi cách sắp xếp các đỉnh (một hoán vị của V) thì ta có một ma trận liền kề Cho trước đồ thị G, ta ký hiệu AM(G) là tập các ma trận liền kề của G

Với đồ thị không có trọng số chúng ta có tính chất sau:

Tính chất 2.3 Cho G là một đồ thị (vô hướng không có trọng số) với ma trận liền

kề A theo thứ tự các đỉnh v 1 , v 2 , , v n Khi đó số các đường đi khác nhau độ dài r từ v i tới v j trong đó r là một số nguyên dương, bằng giá trị của phần tử dòng i cột j của ma trận A r

Định nghĩa 2.5 Giả sử A là ma trận liền kề của một đồ thị Ta ký hiệu diag[A] là

vector biểu diễn tất cả các phần tử trên đường chéo chính của A Tương tự, upper[A] là vector biểu diễn tất cả các phần tử phần tam giác trên của A (không kể các phần tử trên

đường chéo chính)

Định nghĩa 2.6 Cho đồ thị vô hướng G = (V, E), với v 1 , v 2 ,…, v n là các đỉnh và e 1 ,

e 2 , , e m là các cạnh của G Ma trận liên thuộc của G theo thứ tự trên của V và E là ma trận A = {a i,j | i = 1 n, j = 1 m}, trong đó a i,j là bằng 1 nếu cạnh e j nối với đỉnh vi và

bằng 0 nếu cạnh e j không nối với đỉnh v i

Định nghĩa 2.7 Hợp của hai đơn đồ thị G 1 = (V 1 , E 1 ) và G 2 = (V 2 , E 2) là một đơn

đồ thị G có tập các đỉnh là V 1 V 2 và tập các cạnh là E l E 2 , ký hiệu là G = G 1  G 2

Trang 19

Định nghĩa 2.8 Đơn đồ thị G’V E, ’ được gọi là đồ thị bù của đơn đồ thị

Định nghĩa 2.10 Cạnh eE được gọi là cầu nối (bridge) nếu G - e có số thành

phần liên thông nhiều hơn G

Trong đó, G - e = (V, E - {e}), là đồ thị thu được bằng cách bỏ đi cạnh e

Định nghĩa 2.11 Đỉnh v  V được gọi là đỉnh khớp (articulation) của đồ thị G nếu

G - V có số thành phần liên thông hơn G Trong đó, G - V = (V - {v}, E - {(v, u) E | u

 V}) , là đồ thị thu được bằng cách bỏ đi đỉnh V và các cạnh liền kề với V

Nhận xét:

(i) Hai đỉnh liền kề của cạnh cầu nối là các đỉnh khớp

(ii) Nếu e là cầu nối thì mọi đường đi từ các đỉnh của một thành phần liên thông

tới các đỉnh của một thành phần liên thông khác của G-e đều phải đi qua e

Ngoài ra, dễ nhận thấy, các đỉnh khớp là những đỉnh có tần quan trọng trong việc liên kết với nhiều thành phần liên thông trên mạng Tương tự, cạnh cầu nối là đóng vai trò quan trọng trong các mối liên kết, truyền thông trên mạng

2.1.2 Các độ đo trên đồ thị

Giả thiết có một đồ thị vô hướng, liên thông G = (V, E), trong đó V là tập các đỉnh,

E là tập các cạnh Ta qui ước, những đỉnh gần nhau (closed) nếu chúng có cạnh nối trực

tiếp, ngược lại là xa nhau (distant) Khoảng cách giữa đỉnh x và y V, ký hiệu là d(x, y),

có thể định nghĩa d(x, y) theo hai cách:

■ d(x, y) = 0 nếu (x, y)  E, ngược lại là d(x, y) = 1

■ Hoặc d(x, y) = 1 nếu có cạnh nối giữa chúng, và bằng ∞ khi chúng xa nhau

Trang 20

Tuy nhiên, cả hai trường hợp trên đều không phải là định nghĩa độ đo khoảng cách thực sự (metric), bởi chúng không thỏa mãn bất đẳng thức tam giác

3.1 Độ trung tâm theo bậc của đỉnh

Độ trung tâm theo bậc của đỉnh được định nghĩa là số các đường liên kết (các cạnh) với một đỉnh Những đỉnh có bậc cao hơn sẽ có độ trung tâm (quan trọng) cao hơn

Độ trung tâm theo bậc của đỉnh v là: C D (V) = deg(v)

Độ trung tâm theo bậc của đỉnh v V được chuẩn hóa như sau:

C D (V) = deg(v) / (n-1)

Các độ trung tâm theo bậc được xếp theo thứ tự giản dần và số thứ tự của từng độ

đo sẽ xác định thứ hạng (ranking) của đỉnh tương ứng trên đồ thị

Tính chất 2.4 Giả sử K  R n là vector bậc của các đỉnh V = {v 1 , v 2 , , v n } và I

R n là vector đơn vị (tất cả thành phần là 1), A là ma trận liền kề của đồ thị G = (V, E)

Khi đó: K = AI

3.2 Độ trung gian của đỉnh

Xét một đồ thị G = (V, E) liên thông, vô hướng Xét cặp đỉnh {v i , v j } bất kỳ của G,

không phân biệt thứ tự Giữa chúng có thể có một hoặc nhiều đường đi Trong số các

đường đi đó sẽ có một số đường đi ngắn nhất Nếu {v i , v j }, {v i , v j} E, thi đường đi ngắn

nhất sẽ có độ dài là 1 Trường hợp đường đi ngắn nhất lớn hơn 1 thi chắc chắn phải có

ít nhất một đỉnh khác nằm trên đường đi ngắn nhất nối giữa v i với v j và những đỉnh này

có tiềm năng để điều khiển sự liên kết hay truyền thông giữa các đỉnh v i , v j

Độ trung gian (Betweenness) là độ đo trung tâm của các đỉnh trong đồ thị Những đỉnh xuất hiện trên nhiều đường đi ngắn nhất giữa các đỉnh có độ trung gian cao hơn những đỉnh không nằm trên những đường đi ngắn nhất đó

Để tiện lợi việc tính toán các độ đo trung gian, độ trung tâm của các đỉnh trên đồ thị, chúng ta sử dụng các ký hiệu sau:

- st là số đường đi ngắn nhất đi từ s tới t

- st (v) là số đường đi ngắn nhất từ s tới t, đi qua v

Trang 21

- s (v) = st( ) / st

t V  v 

 là độ phụ thuộc của đỉnh nguồn s vào v

Lưu ý: vì ở đây ta xét đồ thị vô hướng nên các cạnh có tính đối xứng, do đó đường

đi cũng có tính đổi xứng, nghĩa là st (v)= ts (v) và st (v) = ts (v)

Định nghĩa 2.12 Cho đồ thị G = (V, E) có n đỉnh, độ trung gian của đỉnh v, ký hiệu

là CB(v) xác định như sau:

- Với mỗi cặp đỉnh (s, t), tính tất cả các đường đi ngắn nhất nối giữa chúng - σst;

- Với mỗi cặp đỉnh (s, t), tính phân số giữa những đường đi ngắn nhất σ st (v) có đi

qua v và số tất cả các đường đi ngắn nhất từ s tới t là: σ st (v)/ σ st;

- Tính tổng các phân số của tất cả các cặp đỉnh (s, t) vào v C B (v) được tính cụ thể

Độ trung gian có thể chuẩn hóa bằng cách chia cho số các cặp đỉnh không kể đỉnh

v, nghĩa là đối với đồ thị có hướng là chia cho (n − 1)(n − 2), còn đối với đồ thị vô hướng thì chia cho (n − 1)(n − 2)/2

Việc tính CB(v) phụ thuộc vào hai yếu tố chính: sắp xếp các cạnh để xác định vị trí của v và những đường đi ngắn nhất giữa các cặp đỉnh; Số đỉnh n trên đồ thị

Chúng ta nhận thấy, độ trung gian của đỉnh v đạt được giá trị cực đại khi mọi đỉnh khác trong G đều có cạnh nối với v và v nằm trên tất cả các đường đi ngắn nhất có độ

dài lớn hơn 1 Những đồ thị như thế sẽ có dạng hình sao hoặc bánh xe Trong đồ thị, khi mọi đỉnh đều đến được (có đường đi) tới tất cả các đỉnh khác (trực tiếp hoặc gián tiếp đi

qua v) thì số đường đi giữa chúng là n * (n – 1) / 2, trong đó có n-1 được nối với đỉnh v

Vậy, độ trung gian cực đại của đỉnh v sẽ là:

Lưu ý 1: Tất cả các đỉnh treo w (có bậc là 1) đều có C B (w) = 0

Trang 22

3.3 Độ gần nhau theo khoắng cách trắc địa

Trong lý thuyết đồ thị, độ gần nhau là độ đo trung tâm của các đỉnh trong một đồ thị Những đỉnh che bóng các đỉnh khác (những đỉnh có khuynh hướng có những khoảng cách trắc địa ngắn (short geodesic distances) tới những đỉnh khác sẽ có độ gần nhau nhiều hơn

Trong lý thuyết mạng, độ gần nhau là độ trung tâm khá phức tạp Nó được định nghĩa theo những khoảng cách trắc địa (geodesic distance), là số các đường đi ngắn nhất

giữa đỉnh v và những đình khác mà nó có đường đi tới Cụ thể:

Trong đó, σvt là số đường đi ngắn nhất đi từ v đến t Độ gần nhau được xem như

là độ dài mà luồng thông tin có thể đi qua từ một đỉnh cho trước tới những đỉnh khác

Độ gần nhau Cc(v) của đỉnh v được định nghĩa là tỷ lệ nghịch với tổng các khoảng cách trắc địa tới tất cả các đỉnh của V:

3.4 Độ đo trung tâm của đồ thị

Độ đo trung tâm của đồ thị được xác định theo hai cách Cách thứ nhất dựa vào lý thuyết đồ thị, trung tâm của đồ thị được đánh giá theo bậc (degre) của các đỉnh trong đồ thị Những đỉnh có bậc cực đại có thể được xem như là tâm điểm của đồ thị Đo theo cách này thì việc ứng dụng sẽ bị hạn chế, bởi nó chỉ áp dụng được cho những bài toán như thiết kế truyền thông với mục đích là nhằm đạt được hiệu quả truyền thông cực đại Cách thứ hai là dựa vào ưu thế trội (Domination) của các đỉnh Một đỉnh có ưu thế trội

là đỉnh có thể điều khiển sự truyền thông trên đồ thị

Định nghĩa 2.13 Đỉnh trung tâm của đồ thị G là đỉnh v k * có độ trung gian C’(v k*) đạt giá trị cực đại Khi đó, độ trội (ưu thế) của đỉnh trung tâm nhất trong đồ thị sẽ là:

Đây là độ lệch trung bình của đỉnh trung tâm nhất so với các đỉnh khác Giá trị CG

luôn nằm trong khoảng 0 và 1 Dễ nhận thấy, C

Định dạng
Số trang	45
Dung lượng	1,32 MB