Rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

Mục tiêu của đề tài là cải tiến hiệu suất của SemiRank, một phương pháp đánh giá vai trò của các cụm từ dựa trên mối quan hệ ngữ nghĩa và tập các cụm từ khóa ban đầu.. Từ những cải tiến

Trang 1

NGUYỄN KIM HUYỀN

RÖT TRÍCH CÁC CỤM TỪ KHÓA DỰA TRÊN VAI TRÕ

VÀ ĐẶC ĐIỂM CỦA CÁC CỤM TỪ TRONG VĂN BẢN

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 11 năm 2013

Trang 2

Công trình được hoàn thành tại: Trường Đại Học Bách Khoa –ĐHQG-HCM

Cán bộ hướng dẫn khoa học: GS.TS Cao Hoàng Trụ

Cán bộ chấm nhận xét 1: GS.TS Phan Thị Tươi …

Cán bộ chấm nhận xét 2: ………

Luận văn thạc sĩ được bảo vệ tại: Trường Đại Học Bách Khoa, ĐHQG TP HCM

ngày 25 tháng 12 năm 2013

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 PGS.TS Quản Thành Thơ

2 TS Nguyễn Hứa Phùng

3 GS.TS Phan Thị Tươi

4 TS Hồ Bảo Quốc

5 GS.TS Cao Hoàng Trụ

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA…………

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN KIM HUYỀN MSHV: 11070455

Ngày, tháng, năm sinh: 16/07/1983 Nơi sinh: Biên Hòa- ĐN Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 604801

I TÊN ĐỀ TÀI:

Rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

II NHIỆM VỤ VÀ NỘI DUNG:

III NGÀY GIAO NHIỆM VỤ : 02/07/2012

IV NGÀY HOÀN THÀNH NHIỆM VỤ:21/06/2013

V CÁN BỘ HƯỚNG DẪN: GS TS CAO HOÀNG TRỤ

Tp HCM, ngày tháng năm 20

CÁN BỘ HƯỚNG DẪN (Họ tên và chữ ký) TRƯỞNG KHOA….………

(Họ tên và chữ ký)

Trang 4

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn gia đình tôi, những người luôn yêu thương, ủng hộ và tạo mọi điều kiện để tôi hoàn thành tốt việc học tập và nghiên cứu của mình

Xin chân thành cảm ơn thầy, GS.TS Cao Hoàng Trụ Những lời khuyên bổ ích và

sự chỉ dẫn tận tình của thầy đã giúp tôi hoàn thành tốt luận văn này

Xin chân thành cảm ơn những người bạn của tôi, những người luôn lắng nghe và đóng góp ý kiến trong suốt thời gian thực hiện luận văn

Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thầy cô tại trường Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như

đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy bằng cấp

ở một trường khác

TP.HCM, tháng 11 năm 2013

Nguyễn Kim Huyền

Trang 6

TÓM TẮT

Cụm từ khóa là những từ hay cụm từ có nghĩa đại diện cho nội dung tóm tắt của tài liệu Có hai hướng tiếp cận chính trong các hệ thống rút trích các cụm từ khóa: hướng học máy giám sát và hướng học máy không giám sát Nhưng trong cả hai hướng, đặc điểm quan hệ ngữ nghĩa giữa các cụm từ vẫn chưa nhận được sự quan tâm đầy đủ Mục tiêu của đề tài là cải tiến hiệu suất của SemiRank, một phương pháp đánh giá vai trò của các cụm từ dựa trên mối quan hệ ngữ nghĩa và tập các cụm từ khóa ban đầu Đề tài đề xuất hai phương pháp để cải tiến tập khóa ban đầu này: phương pháp cụm từ trọng tâm và phương pháp đặc điểm thông tin Từ những cải tiến tập các cụm từ khóa ban đầu, đề tài cho thấy rằng hiệu suất của SemiRank cải thiện rõ rệt trong trường hợp đánh giá lại tập các cụm từ khóa ban đầu thông qua mối quan hệ ngữ nghĩa giữa chúng với nhau Các kết quả thực nghiệm được đánh giá trên tập Wiki-20 và so sánh với một số phương pháp rút trích cụm từ khóa đã

có Hai phương pháp đề xuất đều cải tiến hiệu suất của SemiRank và cho kết quả tốt hơn những phương pháp so sánh

SUMMARY

Keyphrases are single or multiple words summarizing the main contents of a document There are two main approaches for keyphrase extraction: supervised and unsupervised learning However, semantic relations between phrases have not been adequately considered in both approaches In this thesis, we proposed two methods

to improve performance of SemiRank, an approach to extract keyphrases based on initial keyphrases and semantic relations between phrases in the document The two methods are: Core Phrases and Information Features methods Our methods outperform SemiRank with intitial keyphrases from title and two derivatives of KEA and KEA++ on F1 measure In addition, we show that, the new methods give better results to SemiRank in the case that initial keyphrases are re-ranked based on their semantic relations

Trang 7

NỘI DUNG

Chương 1 MỞ ĐẦU 1

1.1 Xác định bài toán 1

1.2 Mục tiêu và phạm vi 2

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN 4

2.1 Tổng quát 4

2.2 Các đặc điểm của cụm từ khóa nói chung 5

Chương 3 CƠ SỞ LÝ THUYẾT 10

3.1 Wikipedia 10

3.2 Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhằng 12

3.3 Siêu đồ thị (hyper-graph) 15

3.4 Nhóm theo chủ đề (community) 17

Chương 4 PHƯƠNG PHÁP ĐỀ XUẤT 18

4.1 SemiRank 18

4.2 Phương pháp cụm từ trọng tâm 25

4.3 Phương pháp sử dụng đặc điểm thông tin của cụm từ khóa 28

4.4 Tiền xử lý dữ liệu đầu vào 29

Chương 5 THỰC NGHIỆM 32

5.1 Wiki-20 32

5.2 Phương pháp đánh giá 32

5.3 Hiện thực các phương pháp 35

 Hiện thực SemiRank 36

 Hiện thực tiền xử lý dữ liệu 38

Trang 8

 Hiện thực phương pháp cụm từ trọng tâm 38

 Hiện thực phương pháp sử dụng đặc điểm thông tin của cụm từ khóa 39

5.3 Đánh giá hiệu quả 39

 Xác định số lượng cụm từ khóa ban đầu 39

 Hiệu quả khi kết hợp với mối quan hệ ngữ nghĩa trong SemiRank 42

 So sánh với các phương pháp khác 43

 Sử dụng phương pháp phân nhóm Walktrap 44

Chương 6 TỔNG KẾT 46

6.1 Các đóng góp 46

6.2 Hướng phát triển 46

THAM KHẢO 48

Trang 9

DANH MỤC HÌNH

Hình 3.1 Ví dụ về các thành phần trong Wikipedia 11

Hình 3.2 Ví dụ về biểu diễn siêu đồ thị G1 16

Hình 4.1 Quy trình rút trích cụm từ khóa trong SemiRank 18

Hình 4.2 Giải thuật PhraseRank trong SemiRank 22

Hình 4.3 Minh họa một số bước lặp trong giải thuật PhraseRank 23

Hình 4.4 Quá trình rút trích tập các cụm từ khóa ban đầu trong phương pháp cụm từ trọng tâm 25

Hình 5.1 Đồ thị biểu diễn hiệu suất thu được khi sử dụng phương pháp cụm từ trọng tâm 40

Trang 10

DANH MỤC BẢNG

Bảng 2-1 Các đặc điểm được sử dụng trong một số hệ thống rút trích cụm từ khóa 9 Bảng 3-1 Trọng lượng của các kiểu liên kết khác nhau 13 Bảng 5-1 Hiệu suất của SemiRank khi sử dụng tiêu đề và sử dụng phương pháp cụm từ trọng tâm 41 Bảng 5-2 Hiệu suất của SemiRank khi sử dụng tiêu đề và sử dụng phương pháp đặc điểm thông tin 42 Bảng 5-3 Hiệu suất của tập các cụm từ khóa ban đầu so với tập các cụm từ khóa sau khi đánh giá ngữ nghĩa 43 Bảng 5-4 Hiệu suất của các phương pháp rút trích cụm từ khóa khác nhau trên tập

dữ liệu Wiki-20 44 Bảng 5-5 Hiệu suất đạt được khi sử dụng giải thuật phân nhóm Walktrap 44

Trang 11

Chương 1 MỞ ĐẦU

1.1 Xác định bài toán

Cụm từ khóa là những từ hay cụm từ có nghĩa đại diện cho nội dung tóm tắt của tài liệu Vì diễn tả nội dung chính của tài liệu, những cụm từ khóa này có thể được sử dụng trong các công cụ tìm kiếm như là trở thành siêu dữ liệu (metadata) để giúp người sử dụng dự đoán nội dung của tài liệu và từ đó tìm kiếm được bài viết có nội dung phù hợp [9] Các cụm từ khóa này cũng có thể được dùng để gom nhóm và phân loại các tài liệu vào các chủ đề khác nhau [6] Chúng cũng có thể được dùng

để xây dựng các bộ từ điển đồng nghĩa (thesaurus) [19]

Cùng với sự phát triển của công nghệ thông tin, số lượng các tài liệu điện tử ngày càng nhiều nhưng ít trong số chúng được tác giả gán các cụm từ khóa Thêm vào đó việc gán các cụm từ khóa bằng tay là một công việc đòi hỏi nhiều thời gian

và công sức, vì thế, các công cụ gán tự động trở thành một lựa chọn mang lại nhiều hứa hẹn

Có hai hướng tiếp cận chính để giải quyết bài toán này: hướng sử dụng các cụm từ thuộc một bộ từ vựng được kiểm soát (controlled vocabulary) làm khóa và hướng rút trích các cụm từ khóa từ trong nội dung của văn bản Trong hướng tiếp cận thứ nhất, các cụm từ khóa là các từ vựng trong bộ từ vựng được kiểm soát Bộ

từ vựng kiểm soát bao gồm những cụm từ được chọn lựa kỹ lưỡng, mỗi cụm từ diễn

tả một khái niệm duy nhất nào đó Khi chọn khóa cho tài liệu, những cụm từ này sẽ được xem xét Bộ từ vựng kiểm soát giúp bảo toàn tính đồng nhất giữa các cụm từ khóa của các tài liệu khác nhau Bộ từ vựng kiểm soát thường được tạo ra cho một lĩnh vực (domain) cụ thể nào đó và có kích thước giới hạn Ví dụ như MeSH1

là một

1

http://www.nlm.nih.gov/mesh

Trang 12

dạng của bộ từ vựng kiểm soát, MeSH cung cấp những cụm từ và những mô tả cho lĩnh vực y khoa

Hướng tiếp cận thứ hai là rút trích các cụm từ khóa từ trong nội dung của văn

bản So với hướng tiếp cận thứ nhất những cụm từ được chọn làm khóa không bị

giới hạn Nhưng như vậy không có sự đồng nhất giữa các cụm từ khóa được chọn

giữa các tài liệu khác nhau Ở đây đề tài quan tâm đến những phương pháp rút trích

các cụm từ khóa từ trong nội dung của tài liệu

1.2 Mục tiêu và phạm vi

Để xác định được tập các cụm từ khóa đại diện cho nội dung tóm tắt của tài liệu, đề

tài đã kết hợp những đặc trưng của những cụm từ khóa với ngữ nghĩa Cụ thể, đề tài

xây dựng một tập các cụm từ khóa ban đầu dựa vào các đặc trưng của khóa, sau đó

tiến hành đánh giá vai trò cụm từ khóa của chúng bằng cách xem xét mối quan hệ

ngữ nghĩa của chúng với nhau

Bằng cách sử dụng lại phương pháp đánh giá ngữ nghĩa trong SemiRank, trong

phạm vi của mình, đề tài xây dựng lại tập các cụm từ khóa ban đầu cho nó dựa vào

các đặc trưng khác nhau của cụm từ khóa Hai phương pháp được đề xuất là:

phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của

cụm từ khóa

SemiRank rút trích các cụm từ trong tiêu đề và coi chúng là các cụm từ khóa

ban đầu cũng như là cụm từ khóa sau cùng, sau đó tìm kiếm thêm những cụm từ

khóa còn lại từ trong văn bản mà những cụm từ khóa này có mối quan hệ ngữ nghĩa

phù hợp với các cụm từ khóa ban đầu đã cho Trong khi đó, đề tài mở rộng tập từ

khóa ban đầu và đánh giá lại vai trò của các cụm từ khóa ban đầu này thông qua

mối quan hệ ngữ nghĩa của chúng với nhau Như thế tập các cụm từ khóa sau cùng

đại diện cho văn bản vừa có đặc trưng của việc là cụm từ khóa ban đầu và vừa có

đặc trưng ngữ nghĩa

Trang 13

Khi xử lý tiền dữ liệu, các cụm từ đi qua một bước lọc liên quan đến việc gán cụm từ vào các bài viết Wikipedia tương ứng với chúng Nên ở đây, có sự ràng buộc vào Wikipedia Mặc dù Wikipedia có kích thước lớn nhưng nó vẫn nhỏ hơn số lượng cụm từ có trong ngôn ngữ tự nhiên

Trong phương pháp cụm từ trọng tâm, đề tài sử dụng một số mẫu là các từ trong tiếng Anh, nên phương pháp này chỉ áp dụng được cho các tài liệu có ngôn ngữ là tiếng Anh

Trang 14

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN

Để rút trích các cụm từ khóa thích hợp, các hệ thống thường tiến hành qua hai bước sau: rút trích các cụm từ có trong văn bản làm khóa tiềm năng và lọc ra từ các cụm

từ khóa tiềm năng này những cụm từ thích hợp làm khóa Chương này trình bày khái quát về các hệ thống rút trích cụm từ khóa Mục 2.1 mô tả tổng quát về các hệ thống nói chung Mục 2.2 nêu lên các đặc điểm được sử dụng để lọc ra các cụm từ khóa

2.1 Tổng quát

Như đã nói ở trên, các hệ thống rút trích các cụm từ khóa thường trải qua hai bước: rút trích các cụm từ khóa tiềm năng và lọc lấy các cụm từ khóa Có nhiều phương pháp khác nhau để tìm kiếm các cụm từ khóa tiềm năng trong nội dung văn bản

Cách đơn giản và phổ biến nhất là n-gram [3, 5, 11, 23], cắt tuần tự n từ đơn đứng

kế tiếp nhau và coi nó là khóa tiềm năng Nhược điểm của phương pháp này là các

từ đơn đứng kế nhau không phải lúc nào cũng tạo thành cụm từ có nghĩa

Để khắc phụ nhược điểm trên, phương pháp lấy theo mẫu (POS pattern) được

sử dụng [5, 18], các câu trong văn bản được đưa qua một bộ phân tích cú pháp để xác định từ loại của nó và chỉ những cụm từ nào trong câu thỏa mãn các mẫu từ loại mới được chọn làm cụm từ khóa tiềm năng

Trong những năm gần đây, cùng với sự lớn mạnh của Wikipedia, các cụm từ trong văn bản còn được gán với các bài viết trong Wikipedia (article) [4, 8, 14], các bài viết này đại diện cho ngữ nghĩa của cụm từ Chỉ những cụm từ có khả năng tìm thấy một hay nhiều bài viết tương ứng với nó mới được chọn làm cụm từ khóa tiềm năng

Một khi đã có được tập các cụm từ khóa tiềm năng, để có thể chọn ra được các cụm từ thích hợp làm khóa, các hệ thống tự động thường sử dụng những đặc điểm được cho là nên có ở một cụm từ khóa để xây dựng nên bộ lọc Những đặc điểm

Trang 15

này cĩ được do sự đúc kết từ những quan sát trên các tập khĩa được thực hiện bằng tay

Tùy theo từng hệ thống khác nhau mà việc khai thác các đặc điểm này là khác nhau, mỗi hệ thống sẽ chú trọng một số đặc điểm được cho là nổi bật hơn cả và bỏ qua những đặc điểm khác Cĩ thể chia các hệ thống này thành hai nhĩm chính: nhĩm sử dụng phương pháp học cĩ giám sát (marchine learning) và nhĩm sử dụng phương pháp học khơng cĩ giám sát (unsupervised learning) Nhĩm sử dụng phương pháp học cĩ giám sát [5, 11, 14, 23] sử dụng một tập dữ liệu huấn luyện (training data) để xây dựng nên mơ hình học máy Tập dữ liệu huấn luyện này bao gồm các tài liệu đã cĩ sẵn các cụm từ khĩa được gán bằng tay Những mơ hình học máy thường được áp dụng là mơ hình Nạve Bayes [18, 23] hay cây ra quyết định (decision tree) [11, 14, 18] Nhược điểm của phương pháp này là địi hỏi tập dữ liệu huấn luyện phải lớn [14]

Hướng tiếp cận học khơng cĩ giám sát: những hệ thống của nhĩm này khơng địi hỏi phải cĩ tập huấn luyện ban đầu, [1, 3, 24] xây dựng phương trình đo lường tầm quan trọng của các cụm từ tiềm năng; [8, 15] biểu diễn nội dung của tài liệu dưới dạng đồ thị ngữ nghĩa từ đĩ xác định vai trị của một cụm từ thơng qua các mối quan hệ này

2.2 Các đặc điểm của cụm từ khĩa nĩi chung

Các đặc điểm dùng để đánh giá vai trị của một cụm từ trong tài liệu nhìn chung cĩ thể chia làm ba nhĩm chính Nhĩm đặc điểm từ nằm trong cụm từ xem xét sự đĩng gĩp của các từ đơn cho cụm từ mà nĩ thuộc về Nhĩm đặc điểm thơng tin của cụm

từ xem xét cụm từ độc lập với các cụm từ khác, nĩ đánh giá vai trị của cụm từ thơng qua thơng tin mà cụm từ đĩng gĩp cho tài liệu Và cuối cùng là đặc điểm xem xét mối quan hệ ngữ nghĩa giữa các cụm từ trong văn bản

Trang 16

Đặc điểm liên quan đến thông tin mà cụm từ đóng góp cho tài liệu

Đây là nhóm được khai thác nhiều nhất trong các hệ thống rút trích từ khóa tự động

Ở đây, đề tài chỉ nêu lên một số đặc điểm phổ biến trong nhóm này Đầu tiên phải

kể đến là sự xuất hiện lặp lại của cụm từ, phép đo chính của nó là TF (term frequency – tầng suất xuất hiện của một cụm từ), TF dựa trên giả thiết là nếu một cụm từ là quan trọng, nó sẽ được lặp lại nhiều lần trong nội dung của văn bản TF

có nhiều biến thể khác nhau, có thể được đo trên cả văn bản hoặc chỉ trên một phân đoạn nào đó của văn bản TF thường được kết hợp cùng IDF (Inverse document frequency – tấn suất nghịch của một cụm từ) để tránh trường hợp những cụm từ được lặp lại là những cụm từ quá phổ biến, không diễn tả nội dung chính của tài liệu

và có thể tìm thấy ở nhiều tài liệu khác, IDF đo số lần cụm từ xuất hiện trong các tài liệu khác nhau của một tập thống kê (corpus), vì thế IDF phụ thuộc vào tập thống kê này

Kế đến là đặc điểm vị trí của cụm từ, phép đo chính là phép đo vị trí lần đầu tiên cụm từ xuất hiện FOC (first of occurrence – vị trí lần đầu xuất hiện) Phép đo này dựa trên giả thiết là nếu cụm từ là quan trọng, nó sẽ được nhắc đến sớm trong nội dung của tài liệu Một biến thể của nó là phép đo vị trí lần cuối cùng cụm từ xuất hiện (last occurrence) và độ phủ của cụm từ (occurrence spread) trong nội dung văn bản, độ phủ xác định khoảng cách giữa lần đầu tiên và lần cuối cùng cụm

từ xuất hiện Ngoài ra còn có thêm một dạng biến thể nữa đó là phép đo lần đầu tiên cụm từ xuất hiện trong một phân đoạn cụ thể của tài liệu ví dụ như trong phần tóm tắt hay phần giới thiệu

Trang 17

Một đặc điểm cũng được sử dụng thường xuyên trong các hệ thống rút trích cụm từ khóa đó là xem xét mức độ cụ thể mà một cụm từ diễn tả, phép đo được dùng là đo chiều dài của cụm từ khóa Những cụm từ khóa bao gồm nhiều từ gộp lại thường diễn tả ý cụ thể hơn là những cụm từ ngắn và vì thế có nhiều cơ hội làm khóa hơn Nhưng chiều dài tối đa của cụm từ khóa thường không lớn hơn ba [23] Đặc điểm kế tiếp là dựa trên phép đo keyphraseness Khi một cụm từ đã được chọn làm khóa, thì nó cũng có khả năng được chọn làm khóa trong một tài liệu khác

có cùng chủ đề Keyphraseness đo đạc dựa trên số lần một cụm từ được chọn làm khóa trong một tập thống kê Vì vậy, một cách tự nhiên, keyphraseness phụ thuộc vào kích thước và chủ đề của tập thống kê

Khi gán các bài viết Wikipedia cho các cụm từ để diễn tả nội dung của các cụm từ này, một số đặc điểm mới đã được đề xuất, trong đó có Wiki-keyphraseness, Wiki-keyphraseness dựa trên giả thiết rằng nếu cụm từ là quan trọng thì mỗi lần nó xuất hiện trong một bài viết Wikipedia nào đó, nó sẽ được gán một liên kết tham khảo đến bài viết diễn tả ý nghĩa hoặc nội dung liên quan đến nó Một biến thể của Wiki-keyphraseness là tính Wiki-keyphraseness cho một bài viết Wikipedia thay vì tính cho một cụm từ (inverse Wikipedia frequency)

Đặc điểm mối quan hệ ngữ nghĩa

Khi sử dụng mối quan hệ ngữ nghĩa để tìm khóa, một số hệ thống dựa trên giả thiết rằng những từ khóa sẽ giữ vai trò trung tâm, chúng được hỗ trợ về nghĩa cao nhất bởi các từ có trong tài liệu [10, 15] định nghĩa mối quan hệ này bằng cách liên kết những từ đơn cùng xuất hiện trong một cửa sổ (window) có kích thước cố định Cửa sổ được chạy dọc nội dung văn bản và các liên kết tạo thành một đồ thị đại diện cho nội dung của văn bản Liên kết tìm được có thể là liên kết ngữ nghĩa hoặc liên kết về từ (lexicon) Mục đích của TextRank [15] và DegExt [10] là tìm kiếm các từ trọng tâm trong đồ thị và từ những từ đơn này, các cụm từ chứa chúng sẽ được dùng làm khóa Trong khi đó, [11] xác định mối quan hệ ngữ nghĩa giữa hai cụm từ khi chúng cùng xuất hiện trong một tài liệu Mối quan hệ ngữ nghĩa giữa hai

Trang 18

cụm từ đƣợc đo đạc bằng xác suất để một cụm từ đƣợc coi là khóa nếu cụm từ còn lại đƣợc chọn làm khóa Các cụm từ nào có mối quan hệ ngữ nghĩa cao nhất với các cụm từ còn lại thì có nhiều khả năng trở thành khóa

Maui [14] không coi cụm từ khóa là trung tâm nhƣng nó có mối quan hệ ngữ nghĩa cao với các cụm từ khóa khác Maui định lƣợng mối quan hệ ngữ nghĩa của hai cụm từ dựa vào số lƣợng bài viết Wikipedia chung mà hai bài viết đại diện cho hai cụm từ đang xét có liên kết tham khảo Mối quan hệ ngữ nghĩa giữa một cụm từ

và các cụm từ còn lại đƣợc tính và nó trở thành một đặc điểm để xây dựng mô hình học máy cùng với nhiều đặc điểm khác nhƣ là vị trí hay số lần lặp lại của cụm từ Cũng giống nhƣ Maui, [4, 8] dựa vào các bài viết Wikipedia chung của hai bài viết đại diện cho hai cụm từ cần định lƣợng mối quan hệ ngữ nghĩa, nhƣng [4, 8] gán tầm quan trọng khác nhau cho từng liên kết có đƣợc tại một bài viết và xét mối liên hệ của hai bài viết thông qua trọng lƣợng của các liên kết chung này Ngoài ra [4, 8] còn xác định các mối quan hệ ngữ nghĩa giữa một nhóm các cụm từ bằng cách phân nhóm cho các cụm từ này theo quan hệ ngữ nghĩa giữa chúng Tuy nhiên, [4] đánh giá tầm quan trọng của cả nhóm và coi mọi phần tử trong nhóm là cụm từ khóa [8] xem một cụm từ là khóa nếu nó có mối quan hệ ngữ nghĩa thích hợp với tập các cụm từ khóa ban đầu

Các đặc điểm trên đƣợc sử dụng kết hợp với nhau trong các hệ thống tự động

Ví dụ nhƣ sau khi chọn ra các cụm từ khóa tiềm năng, [18] đo đạc các đặc điểm TF, IDF, FOC và chiều dài cho các cụm từ tiềm năng trong văn bản, ngoài ra còn có TF cho các từ đơn hoặc cụm từ con trong các cụm từ tiềm năng này để xây dựng mô hình học máy cho việc phân loại cụm từ khóa Bảng 2.1 liệt kê chi tiết đặc điểm đƣợc sử dụng trong một số hệ thống rút trích cụm từ khóa

Việc khai thác đặc điểm ngữ nghĩa vẫn còn là vấn đề đang đƣợc quan tâm trong việc giúp lọc ra các cụm từ khóa [7], nên ở đây đề tài chú trọng đến mối quan

hệ ngữ nghĩa giữa các cụm từ Cụ thể, đề tài khai thác mối quan hệ ngữ nghĩa có

Trang 19

trong [8] bằng cách kết hợp một số đặc trưng khác của cụm từ khóa với nó như được trình bày trong Chương 4

Từ- Cụm từ

Thông tin của cụm từ Cụm từ - Cụm từ

Bảng 2-1 Các đặc điểm được sử dụng trong một số hệ thống rút trích cụm từ khóa

S: học có giám sát và U:học không có giám sát

Trang 20

Chương 3 CƠ SỞ LÝ THUYẾT

Chương 3 mô tả các khái niệm và phương pháp nền tảng được sử dụng trong đề tài: Wikipedia, định lượng mối quan hệ ngữ nghĩa, phân giải nhập nhằng, siêu đồ thị và nhóm theo chủ đề

3.1 Wikipedia

Wikipedia là dự án nhằm xây dựng một bách khoa toàn thư trực tuyến miễn phí cho tất cả các ngôn ngữ trên thế giới Được thành lập năm 2001, đến nay Wikipedia là một trong những trang trực tuyến được tham khảo nhiều nhất trên thế giới, khoảng

470 triệu người tham khảo mỗi tháng, được tính cho tới tháng 2/2012 Đến tháng 10/2013, Wikipedia có trên 30 triệu bài viết (article) trên 286 ngôn ngữ Trong đó,

có hơn 4 triệu bài bằng tiếng Anh

Cấu trúc của Wikipedia bao gồm các thành phần như: các bài viết, liên kết tham khảo, thể loại của bài viết, … Ở đây, đề tài chỉ xin tóm tắt các thành phần chính của Wikipedia:

 Bài viết Wikipedia (article): bài viết là các thành phần chủ đạo của Wikipedia Mỗi bài viết mô tả một khái niệm duy nhất nào đó Wikipedia đưa ra những hướng dẫn về soạn thảo để đảm bảo về nội dung và hình thức của các bài viết Tiêu đề là duy nhất cho mỗi bài viết, bên cạnh tiêu đề mỗi bài viết còn có mã định danh(id) để phân biệt nó với các bài viết khác

 Trang chuyển hướng (redirect): trang chuyển hướng là những trang không có

nội dung, nó chỉ bao gồm một tham khảo để liên kết đến một trang khác (một bài viết hay một trang chuyển hướng mới) Bởi vì mỗi khái niệm chỉ được mô

tả bởi một bài viết duy nhất, nên những cụm từ diễn tả cùng một khái niệm có thể được mô tả bằng những trang chuyển hướng này và chúng chứa liên kết

tham khảo đến bài viết trình bày khái niệm

Trang 21

 Liên kết (hyper-link): trong nội dung của bài viết, nếu có một cụm từ nào đó

quan trọng, tác giả bài viết được khuyến khích tạo ra một liên kết từ cụm từ này đến bài viết có nội dung liên quan Bài viết này có thể là mô tả khái niệm của cụm từ cũng có thể là chứa thông tin liên quan đến nó Cụm từ được tạo liên kết trên được gọi là cụm từ neo (anchor) Cùng một cụm từ neo có thể liên

kết đến các bài viết khác nhau, ví dụ 84% liên kết từ từ neo “library”(“thư viện”) dẫn đến bài viết “Library” (“Thư viện”), và 13% liên kết là dẫn tới bài viết “Library (computing)” (Thư viện (máy tính)) [14]

 Trang định hướng (disambiguation page): trang định hướng chứa các liên kết

đến những bài viết khác nhau diễn tả các nghĩa khác nhau có thể có của một cụm từ nào đó Tại đây người sử dụng chọn lựa nghĩa thích hợp mà họ muốn

tham khảo

 Thể loại (category): các bài viết thường được phân vào các thể loại liên quan

đến nội dung mà nó đề cập Các tác giả bài viết được khuyến khích nên gán thể loại cho các bài viết Một thể loại có thể thuộc về một thể loại khác, điều

này hình thành nên cấu trúc gần giống cấu trúc cây cho các thể loại

Hình 3.1 Ví dụ về các thành phần trong Wikipedia

Hình 3.1 là một ví dụ về các thành phần của Wikipedia [14] “Library”(“Thư viện”) là một bài viết, nó có các trang chuyển hướng như “Libraries”(“các thư viện”), “Reading room” (“phòng đọc”) và nó có các liên kết đến các bài viết khác như là “Book”(“sách”), “Bookend” (“giá sách”) Bài viết “Library” thuộc về thể

Trang 22

loại “Libraries”, thể loại này vừa là thể loại con của các thể loại: “Library and information science” (“thư viện và khoa học thông tin”), “Buildings and structures” (“tòa nhà và cấu trúc”) …, vừa có các thể loại con như: “Digital libraries” (“thư viện số”), “Academic libraries” (“thư viện học thuật”)

Bản Wikipedia được sử dụng trong đề tài là bản được công bố ngày 22/07/2011 Bản Wikipedia này chỉ bao gồm các bài viết bằng tiếng Anh Số lượng bao gồm khoảng 3.5 triệu bài, 5 triệu trang chuyển hướng (redirect) và khoảng 700,000 thể loại (category)

3.2 Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhằng

Có nhiều cách khác nhau để định lượng mối quan hệ ngữ nghĩa giữa hai cụm từ, ở đây, đề tài chỉ xin trình bày phương pháp dựa vào Wikipedia Cụ thể hơn, là phương pháp được nêu trong [22], đo đạc mối quan hệ ngữ nghĩa giữa hai bài viết Wikipedia đại diện cho hai cụm từ đang xét [22]không bao gồm phương pháp gán bài viết Wikipedia đại diện cho ngữ nghĩa của từ mà chỉ đề xuất phương pháp để đo lường mối quan hệ giữa hai bài viết này Phương pháp đo đạc được tóm tắt như phần trình bày tiếp theo sau đây

Mỗi bài viết Wikipedia bao gồm các liên kết đi (outgoing link) và các liên kết đến (incoming link) Ở đây chỉ tính đến những liên kết xuất phát hoặc dẫn đến một bài viết Wikipedia Để một bài viết được tham khảo đến một bài viết khác thì các bài viết này phải có nội dung liên quan đến nhau, [22] nhận thấy rằng sự tham khảo này sẽ có những mức độ khác nhau tùy theo kiểu liên kết Vì vậy, [22] đã gán các trọng lượng khác nhau cho các kiểu liên kết đến và liên kết đi thuộc một bài viết Wikipedia như sau:

phân đoạn dành để liên kết với những bài viết có nội dung liên quan đến nó gọi

là “Xem thêm” (See Also) Một liên kết nằm trong phân đoạn này (gọi là liên kết trong “Xem thêm”) thì được gán giá trị cao nhất, bằng 5 Và ngược lại,

Trang 23

nếu liên kết đến bài viết này lại thuộc vào phân đoạn “Xem thêm” của một bài viết Wikipedia nào đó (gọi là liên kết từ “Xem thêm”), thì liên kết cũng được gán giá trị tương xứng, bằng 2

 Liên kết hai chiều: nếu liên kết đi của một bài viết Wikipedia dẫn đến một bài viết Wikipedia khác mà tại đó cũng có một liên kết chiều ngược lại đến bài viết này (gọi là liên kết hai chiều) thì liên kết cũng được gán giá trị bằng 2

 Liên kết cùng một thể loại: liên kết là cùng một thể loại nếu bài viết Wikipedia

chứa liên kết tham khảo và bài viết Wikipedia được tham khảo đến thuộc cùng một thể loại Ở đây không phân biệt liên kết đi hay liên kết đến Những liên kết này được gán giá trị bằng 1.5

 Liên kết ngày và liên kết thuộc bản mẫu (template): liên kết ngày là liên kết

mà nó dẫn tới một bài viết mô tả một thời điểm nào đó tính theo thời gian Ví

dụ: bài viết “1977” mô tả các sự kiện quan trọng diễn ra trong năm 1977 Và

liên kết thuộc bản mẫu là liên kết nằm trong một bản mẫu nào đó Các bài viết

có nội dung liên quan đến nhau thường sử dụng chung một số bản mẫu, như là

để thống nhất văn phong hay cách trình bày Cả hai loại liên kết này nhận giá trị thấp nhất, bằng 0.1

 Liên kết tham khảo: tất cả liên kết đi còn lại được gán giá trị bằng 1 và tất cả liên kết đến còn lại được gán giá trị bằng 0.5

Bảng 3.1 tóm tắt giá trị được gán cho các kiểu liên kết khác nhau

Bảng 3-1 Trọng lượng của các kiểu liên kết khác nhau

Trang 24

Mối quan hệ ngữ nghĩa giữa hai bài viết được đo bằng các liên kết chung mà hai bài viết này có với nhau (bao gồm cả liên kết đi và liên kết đến) Ở đây, [22] áp dụng phép đo Dice có trọng lượng, mối quan hệ ngữ nghĩa được tính dựa trên trọng lượng của những liên kết chung của hai bài viết Trong phần mô tả phương pháp của mình, [22] đã không mô tả phép tính chi tiết, nên đề tài đã tính theo công thức sau:

𝑠𝑖𝑚(𝐴𝑖, 𝐴𝑗) = 𝑡∈(𝐴𝑖∩𝐴𝑗 )(𝑤𝐴𝑖 𝑡 +𝑤𝐴𝑗 𝑡 )

𝑤𝐴𝑖 𝑡

Trong đó A i , A j là các bài viết Wikipedia đang xét 𝑤𝐴𝑖 𝑡 là trọng lượng của

liên kết t trong bài viết A i

Nếu trong quá trình gán bài viết Wikipedia đại diện cho ngữ nghĩa của một cụm từ nào đó mà có thể tìm thấy hơn một bài viết Wikipedia có khả năng đại diện cho nó, thì ở đây ta có một dạng của bài toán nhập nhằng, lúc này cần chọn ra bài viết nào là thích hợp nhất cho cụm từ đang xét Để giải quyết vấn đề này, người ta thường sử dụng nội dung của văn bản nơi cụm từ đó xuất hiện, tìm kiếm những cụm

từ không nhập nhằng xung quanh cụm từ đang xét làm ngữ cảnh, từ đó xem xét tất

cả các nghĩa có thể của cụm từ đang xét Cụm từ không nhập nhằng là những cụm

từ mà chỉ tìm thấy duy nhất một bài viết Wikipdia cho nó Lúc này, từng bài viết Wikipedia được giả định là đại diện cho nghĩa của cụm từ đang xét và từ đó tính toán mối quan hệ ngữ nghĩa với ngữ cảnh của nó Bài viết Wikipedia giả định nào

có mối quan hệ tốt nhất với ngữ cảnh thì nó được chọn đại diện cho nghĩa của cụm

từ [22]đề xuất sử dụng phương pháp đo lường ngữ nghĩa như đã nêu ở trên để tìm kiếm bài viết Wikipedia thích hợp cho cụm từ theo ngữ cảnh của nó

Nhận xét: Để có thể xác định được trọng lượng của các liên kết đến và đi của một

bài viết Wikipedia nào đó, việc xử lý nội dung của bài viết là cần thiết Ví dụ, để biết được một liên kết thuộc kiểu liên kết trong “Xem thêm” hay không, thì cần phải tìm kiếm chúng trong phân đoạn “Xem thêm” của bài viết này; hay để biết được

Trang 25

một liên kết đến có thuộc kiểu liên kết từ “Xem thêm” hay không, thì cũng cần đọc qua phân đoạn “Xem thêm” của bài viết tạo liên kết đến này

Nếu một bài viết Wikipedia diễn tả một khái niệm chung nào đó thì nó sẽ có rất nhiều liên kết đi và liên kết đến, ví dụ bài viết “United Kingdom” có hơn 80 ngàn liên kết đi và liên kết đến [22], như vậy việc phải đọc qua toàn bộ nội dung của các bài viết này để xác định trọng lượng của các liên kết trong bài viết “United Kingdom” đòi hỏi cần phải có thời gian xử lý

3.3 Siêu đồ thị (hyper-graph)

Siêu đồ thị là đồ thị mà mỗi cạnh của nó bao gồm từ một đỉnh trở lên (≥1đỉnh) Cho

một siêu đồ thị G = (V, E), trong đó V là tập các đỉnh và E là tập các cạnh thuộc đồ thị Mỗi cạnh e (e ∈ 𝐸) là một tập bao gồm các đỉnh 𝑣 (𝑣 ∈ 𝑉) và số lượng đỉnh thuộc e: 1≤ |e| ≤ |V|, e có tối thiểu một đỉnh và tối đa là tất cả các đỉnh của đồ thị Các cạnh e được gọi là các cạnh bậc cao (hyper-edge)

Ví dụ: cho đồ thị G 1 được biểu diễn như trong Hình 3.2 Hình (A) biểu diễn

dạng đồ thị của G 1 Trong đó G 1 gồm có 8 đỉnh (V) và 3 cạnh bậc cao (E) Ta có, cạnh e 2 bao gồm tập đỉnh {v 3, v 4, v 8 } và tương tự cho các cạnh còn lại

Một siêu đồ thị có trọng lượng là một siêu đồ thị nhưng các cạnh của nó được gán các giá trị khác nhau đại diện cho trọng lượng của cạnh Thêm thông tin trọng

lượng vào đồ thị G, ta có G´ = (V, E, W), trong đó W là trọng lượng của các cạnh tương ứng trong E

Để biểu diễn mối liên hệ giữa đỉnh v (𝑣 ∈ 𝑉) và các cạnh e (e ∈ 𝐸), ta có:

ℎ(𝑣, 𝑒) = 1, 𝑛ế𝑢 𝑣 ∈ 𝑒

Từ đó ta có ma trận H biểu diễn mối liên hệ giữa tập đỉnh V và tập cạnh E Hình 3.2(B) biểu diễn dạng ma trận mối liên hệ giữa tập đỉnh và tập cạnh trong G 1

Trang 27

3.4 Nhóm theo chủ đề (community)

Trong một mạng hay một đồ thị cho trước, một nhóm (community) là một tập hợp của các đỉnh mà các kết nối giữa các đỉnh trong nhóm thì dày đặc hơn so với những kết nối lõng lẻo giữa các đỉnh này với các đỉnh thuộc nhóm khác

Có nhiều phương pháp khác nhau để phân nhóm cho các đỉnh trong đồ thị có trọng lượng Ở đây, đề tài chỉ tóm tắt phương pháp được đề xuất trong [17] [17] xây dựng giải thuật xác định nhóm dựa trên phép đo cạnh cổ chai (edge betweeness)

Giá trị cạnh cổ chai của một cạnh nào đó là số đường đi ngắn nhất giữa hai đỉnh bất kỳ trong đồ thị mà những đường đi ngắn nhất này có đi qua cạnh đang xét Nếu giá trị cạnh cổ chai của một cạnh là cao, thì cạnh này cũng giống như là một nút cổ chai trong việc di chuyển từ một phần của đồ thị đến các phần khác Như vậy, nếu loại bỏ các cạnh có giá trị cạnh cổ chai cao, thì kết quả thu được là các nhóm tách rời

Ban đầu, [17] coi tất cả các đỉnh là cùng một nhóm sau đó phân chia chúng thành hai nhóm, ba nhóm, … Đến khi mỗi nhóm chỉ bao gồm một đỉnh duy nhất

Để biết số lượng nhóm nào là tối ưu cho quá trình phân chia, [17] đo lường chất lượng của các nhóm được chia dựa trên phép đo modularity [17] Modularity nằm trong khoảng [0,1], nếu modularity bằng không thì có nghĩa là các nhóm trên chỉ được gom nhóm giống như là ngẫu nhiên, nếu modularity bằng một có nghĩa là các nhóm thu được tách biệt nhau lớn

[17] có ưu điểm là không cần phải định nghĩa trước số lượng đỉnh trong một nhóm [8] áp dụng phương pháp được nêu này để phân nhóm các cụm từ trong tài liệu, mối quan hệ giữa các cụm từ là mối quan hệ ngữ nghĩa giữa chúng Vì vậy, sau khi phân nhóm, các cụm từ thuộc cùng một nhóm sẽ có mối quan hệ ngữ nghĩa mật thiết với nhau, tức là chúng có thể diễn tả cùng một chủ đề nào đó (ví dụ như một sự việc hay một sự kiện)

Trang 28

Chương 4 PHƯƠNG PHÁP ĐỀ XUẤT

Chương 4 trình bày SemiRank và hai phương pháp rút trích các cụm từ khóa ban đầu mà đề tài đề xuất Mục 4.1 mô tả về phương pháp của [8] (được gọi là SemiRank), một hệ thống rút trích cụm từ khóa dựa vào ngữ nghĩa mà đề tài cải tiến Hai phương pháp được đề xuất để tăng hiệu suất của SemiRank: phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của cụm từ khóa được trình bày trong Mục 4.2 và Mục 4.3 Và cuối cùng là Mục 4.4, tiền xử lý dữ liệu trước khi tiến hành rút trích từ khóa

4.1 SemiRank

SemiRank là phương pháp rút trích cụm từ khóa dựa trên tập các cụm từ khóa ban đầu và mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu Mục tiêu của SemiRank là tìm kiếm các cụm từ khóa có mối quan hệ ngữ nghĩa tương ứng với những cụm từ khóa ban đầu này SemiRank tiến hành qua các bước được minh họa như trong Hình 4.1 sau:

Hình 4.1 Quy trình rút trích cụm từ khóa trong SemiRank

1 Gán các bài viết Wikipedia (gọi tắt là Wiki) tương ứng cho các cụm từ trong văn bản: Để có thể tính mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu, SemiRank gán các cụm từ có trong tài liệu vào các bài viết tương ứng trong Wiki, các bài viết này diễn tả nội dụng, ý nghĩa và các vấn đề liên quan đến các cụm từ này Do SemiRank không đề cập đến phương pháp tìm kiếm các bài viết Wiki tương ứng cho các cụm từ , nên khi hiện thực, đề tài đã chọn một phương pháp khác được trình bày trong Mục 5.2 Ở đây, chỉ có những cụm từ có thể tìm thấy được bài

Trang 29

viết Wiki tương ứng với nó thì mới được xem là quan trọng và được giữ lại để xem xét khả năng trở thành cụm từ khóa

Sau khi đã gán các bài báo Wiki cho các cụm từ trong tài liệu, cho mỗi cụm từ, SemiRank sử dụng phương pháp đề cập trong [22] để lọc một bài viết tương ứng về nghĩa với một cụm từ đang xét Chi tiết của phương pháp giải quyết nhập nhằng được trình bày trong Mục 3.2

được các bài viết Wikipedia tương ứng, SemiRank tính toán mối quan hệ ngữ nghĩa giữa hai cụm từ bằng cách tính mối quan hệ ngữ nghĩa giữa hai bài viết tương ứng của chúng Phương pháp tính mối quan hệ ngữ nghĩa giữa hai bài viết cũng chính là phương pháp được sử dụng cho việc giải quyết nhập nhằng được đề cập trong Mục

3.2 Kết quả sau quá trình này, SemiRank thu được siêu đồ thị có trọng số G = (V,

E, W) trong đó V là tập các cụm từ hay các bài viết Wikipedia tương ứng của nó, E

là tập các cạnh đại diện cho mối quan hệ ngữ nghĩa giữa chúng, W là tập trọng số của các cạnh tương ứng Lúc này siêu đồ thị G chỉ bao gồm các cạnh bậc hai, thể

hiện mối quan hệ giữa hai cụm từ trong tài liệu

quá trình rút trích từ khóa, SemiRank tính toán các cạnh bậc cao của đồ thị G Để có

thể bắt được các mối quan hệ diễn ra giữa một nhóm các cụm từ với nhau, SemiRank áp dụng phương pháp [17] để gom nhóm các cụm từ có mối quan hệ ngữ nghĩa thân thiết lại với nhau Phương pháp gom nhóm [17] được trình bày trong Mục 3.4

Lúc này, mỗi nhóm được coi như là một cạnh bậc cao trong đồ thị G Trọng

lượng của nhóm được tính bằng trung bình của tất cả các mối quan hệ ngữ nghĩa bậc hai mà cả hai cụm từ đều thuộc nhóm đang xét:

𝑤(𝑒) = 𝑒 𝛼 𝑒𝑖𝑗⊆𝑒𝑤(𝑒𝑖𝑗) (4.1)

Trang 30

Trong đó 𝑤 ∈ 𝑊, e ∈ 𝐸, 𝑒 là số lượng đỉnh tương ứng thuộc cạnh e và 𝑒𝑖𝑗là

cạnh bậc hai của hai đỉnh i và j thuộc cùng cạnh bậc cao e 𝛼 ≥ 0 là thông số để xác định tầm quan trọng của cạnh bậc cao e so với các cạnh nhị phân 𝑒𝑖𝑗của nó

Sau bước ba, SemiRamk đã xây dựng một đồ thị ngữ nghĩa bậc cao có trọng

số đại diện cho tài liệu mà nó đang xét

4 Rút trích các cụm từ có trong tiêu đề làm tập các cụm từ khóa ban đầu: Như

đã nói ở trên, mục tiêu của SemiRank là tìm kiếm các cụm từ khóa có mối quan hệ ngữ nghĩa tương đồng với những cụm từ khóa ban đầu Những cụm từ khóa ban đầu này được lấy trong tiêu đề của tài liệu Sau khi đã gán các bài viết Wikipedia tương ứng cho các cụm từ trong tài liệu, những cụm từ nào được tìm thấy trong tiêu đề được coi như thuộc tập các cụm từ khóa ban đầu

5 Đánh giá mối quan hệ ngữ nghĩa: Ở đây, việc tìm kiếm các cụm từ khóa cho tài liệu dựa vào cụm từ khóa ban đầu và dựa vào siêu đồ thị chính là một dạng của bài toán học bán giám sát (semi-learning) Để giải quyết bài toán của mình, SemiRank sử dụng một giải pháp lan truyền được đề xuất trong [25] gọi là PhraseRank Lúc này các đỉnh chứa cụm từ khóa ban đầu có giá trị bằng 1, các đỉnh còn lại có giá trị bằng 0 Tại mỗi bước lan truyền, giá trị của tất cả các đỉnh trong đồ thị đều được tính lại Và sau khi đạt đến trạng thái dừng, những đỉnh có giá trị cao nhất được chọn làm tập các từ khóa đại diện cho tài liệu Phương pháp lan truyền được trình bày trong phương trình sau:

Cho tập {v1, v2, …, vt, vt+1, …, vn}, với t phần tử đầu tiên là các cụm từ khóa

ban đầu:

 f là véctơ chứa giá trị đánh giá cho các đỉnh trong tập V

 y là véctơ đánh dấu các cụm từ khóa ban đầu:

y i = 1, 1 ≤ i ≤ t và y j = 0, t < j ≤ n

Trang 31

 𝛽 là giá trị cân bằng [0,1] 𝛽 thể hiện mối tương quan giữa giá trị lan truyền và giá trị bảo đảm vai trò từ khóa ban đầu của một cụm từ khóa ban đầu

 𝛩 là ma trận quan hệ giữa các đỉnh trong V

𝛩 được tính như sau:

Trong đó :

 H là ma trận biểu diễn mối quan hệ giữa các đỉnh và các cạnh trong đồ thị G

 D V là ma trận đường chéo chứa trọng lượng của đỉnh trong G

 D E là ma trận đường chéo chứa số lượng đỉnh của cạnh E

 W là ma trận đường chéo chứa trọng lượng của cạnh trong đồ thị

Giải thuật PhraseRank

Trong đó 𝜃(𝑣𝑖,𝑣𝑗) là mối quan hệ giữa hai đỉnh v i và v j Ở đây, [25] đã tính lại mối

quan hệ ngữ nghĩa giữa hai đỉnh v i và v j dựa trên tất cả các cạnh mà chúng cùng thuộc về trong siêu đồ thị Và vì các mối quan hệ trong siêu đồ thị là mối quan hệ ngữ nghĩa nên mối quan hệ trong 𝛩 cũng vẫn là mối quan hệ ngữ nghĩa Lúc này 𝛩 chính là một đồ thị đơn giản có cạnh bậc hai chứa mối quan hệ ngữ nghĩa giữa các đỉnh Và quá trình lan truyền được thực hiện trên một đồ thị đơn giản Giải thuật đánh giá tầm quan trọng của từ PhraseRank được thực hiện như Hình 4.2:

Đầu vào :

Tập đỉnh V, với t phần tử đầu tiên là các cụm từ khóa ban đầu, n = |V|

y : tập đánh dấu các cụm từ khóa ban đầu với :

Trang 32

(1- 𝛽): hằng số cộng thêm nếu cụm từ là từ khóa ban đầu

Hình 4.2 Giải thuật PhraseRank trong SemiRank

Ví dụ: Hình 4.3 là một ví dụ minh họa một số bước lặp trong giải thuật

PhraseRank

Cho một đồ thị bao gồm 5 đỉnh (hay cụm từ) như hình vẽ, các cạnh trong đồ

thị thể hiện mối quan hệ ngữ nghĩa giữa hai đỉnh bất kỳ và chúng có trọng lượng

khác nhau Đỉnh v1 và đỉnh v2 là hai cụm từ khóa ban đầu Khởi đầu, bước 0, v1,v2

được gán giá trị bằng 1, các đỉnh còn lại được gán giá trị 0 (Hình 4.2, hàng 1) Giá

trị của các đỉnh được tính lại qua mỗi bước lặp (Hình 4.2, hàng 4) Tại bước 1, giá

trị của một đỉnh phụ thuộc và các đỉnh kề với nó (Hình 4.2, hàng 5) Các đỉnh v3 và

v5 sau bước 0 có giá trị bằng 0, nên giá trị của v4 được lan truyền từ v1 và v2 thông

qua mối quan hệ ngữ nghĩa giữa nó với các đỉnh này Lúc này giá trị của v4 bằng

tổng giá trị lan truyền từ v1 theo đường {v1, v4} và giá trị lan truyền từ v2 theo

đường {v2, v4} Giá trị lan truyền từ {v1, v4} hay {v2, v4} phụ thuộc vào giá trị mà

đỉnh v1 và v2 có được và mối quan hệ giữa chúng với v4 Tương tự cho đỉnh v2,

đỉnh v4 sau bước 0 có giá trị bằng 0, nên v2 chỉ nhận giá trị lan truyền từ v1 theo

đường {v1, v2} Tuy nhiên, do v2 là một cụm từ khóa ban đầu nên v2 được cộng

thêm một hằng số {v2}, (Hình 4.2, hàng 6) Tương tự cho các đỉnh còn lại

Tại bước 2, đỉnh v5 sau bước 1 bằng 0, từ đó giá trị của v4 phụ thuộc vào mối

liên hệ với v1, v2 và v3 (Hình 4.2, hàng 5) Lúc này, đỉnh v2 sau bước 1 có giá trị

Trang 33

bằng giá trị tổng hợp của hai đường lan truyền {v1, v2} và {v2}, nên v4 nhận được giá trị từ v2 theo đường lan truyền {v1, v2, v4} và {v2, v4} Như vậy v4 nhận được giá trị tổng hợp từ hai đường lan truyền qua v2, đường lan truyền từ v1 thông qua v2 đến v4 và đường lan truyền từ v2 Tương tự cho giá trị v4 nhận được từ v1 và v3

Hình 4.3 Minh họa một số bước lặp trong giải thuật PhraseRank cho đồ thị

bao gồm 5 đỉnh Các đường đậm nhạt hay nét cắt thể hiển trọng lượng khác nhau của các cạnh trong đồ thị v1và v2 là hai đỉnh khởi đầu {vi,…,vj} là đường đi lan truyền giá trị xuất phát từ vi và đến vj {vi} là đỉnh xuất phát, tại đây một hằng số

được cộng thêm

Tại bước 2 tính cho đỉnh v2, tương tự như đỉnh v4, v2 nhận được giá trị thông qua đỉnh v1 theo đường lan truyền {v2, v1, v2} và {v1, v2} và nhận được giá trị lan truyền thông v4 là {v2, v4, v2}, {v1, v4, v2} (Hình 4.2, hàng 5) Do đỉnh v2 là từ khóa ban đầu nên v2 được cộng thêm một hằng số {v2} (Hình 4.2, hàng 6) Vậy v2 phụ thuộc vào hằng số cộng thêm, giá trị lan truyền từ đỉnh v1 thông qua những đỉnh khác trong đồ thị, và thêm vào đó v2 còn nhận được giá trị lan truyền xuất phát

Trang 34

từ chính nó, đi qua các đỉnh khác trong đồ thị và quay về củng cố nó Tính tương tự cho các đỉnh còn lại trong đồ thị

Quá trình lặp lại tương tự cho bước 3 và các bước tiếp theo đến khi sự thay đổi giá trị tại mọi đỉnh nhỏ hơn giá trị dừng (𝜁) (Hình 4.2, hàng 9), lúc này giải thuật dừng lại

Nhận xét: từ ví dụ trên có hai nhận xét sau:

 Giá trị của đỉnh không là một cụm từ khóa ban đầu phụ thuộc vào mối quan hệ ngữ nghĩa với các cụm từ khóa ban đầu, sự phụ thuộc này có thể là trực tiếp

hoặc gián tiếp thông qua các cụm từ khác có trong tài liệu Trong ví dụ trên, v4 phụ thuộc vào mối quan hệ với v1 và v2 thông qua các đường {v1, v2, v4}, {v2,

v4},…

 Giá trị của đỉnh là một cụm từ khóa ban đầu phụ thuộc vào ba yếu tố: hằng số cộng thêm đại diện cho vai trò là cụm từ khóa ban đầu của nó, mối quan hệ ngữ nghĩa với các cụm từ khóa ban đầu khác và phụ thuộc vào giá trị gia cố Giá trị gia cố phụ thuộc vào mối quan hệ ngữ nghĩa giữa cụm từ khóa ban đầu đang xét với các cụm từ còn lại bất kể các cụm từ này là khóa ban đầu hay

không Ví dụ như đỉnh v2 tại bước 2 của ví dụ trên, giá trị v2 phụ thuộc vào hằng số cộng thêm, mối quan hệ với khóa ban đầu v1 và giá trị tự gia cố chính

nó Giá trị tự gia cố này xuất phát từ v2 thông qua v4 và v1 theo các đường lan truyền {v2, v4, v2} và {v2, v1, v2} Vì vậy v2 phụ thuộc vào mối quan hệ với v4 và v1

Nếu chỉ so sánh các đỉnh khóa ban đầu với nhau, vì mỗi đỉnh khóa ban đầu đều gia cố cho chính nó, nên ở đây, đề tài bỏ qua giá trị này và coi mỗi đỉnh chỉ phụ thuộc vào hai yếu tố hằng số cộng thêm và mối quan hệ với những đỉnh ban đầu còn lại

Ở đây, trong phạm vi của luận văn, đề tài chỉ xem xét trường hợp rút trích các cụm từ khóa từ những cụm từ khóa ban đầu Nếu hằng số cộng thêm để đảm bảo vai trò “cụm từ khóa ban đầu” đủ lớn, thì sau quá trình thực thi PhraseRank, những cụm

Trang 35

từ khóa ban đầu luôn chiếm những vị trí đầu tiên, xếp theo độ ưu tiên về giá trị từ cao đến thấp Và nếu số lượng cụm từ ban đầu này lớn hơn số lượng cụm từ khóa cần lấy thì tập các cụm từ khóa sau cùng này luôn thuộc những cụm từ ban đầu Ở đây các cụm từ khóa sau cùng được tạo ra từ sự kết hợp giữa ngữ nghĩa và những đặc tính có trước đó của cụm từ khóa ban đầu Hay nói khác hơn một cụm từ được chọn là khóa nếu nó là một cụm từ khóa ban đầu và có mối quan hệ thân thiết với các cụm từ khóa ban đầu khác

Nếu sử dụng tiêu đề để rút các cụm từ khóa ban đầu, vì số lượng lấy được là ít không đủ phủ qua tập các cụm từ khóa sau cùng Nên ở đây, đề tài đề xuất hai phương pháp khác để rút trích các cụm từ khóa ban đầu thay thế cho việc sử dụng tiêu đề: phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của cụm từ khóa Chi tiết được trình bày trong hai mục tiếp theo sau, Mục 4.2 và

từ khóa ban đầu Bước xử lý trong hình chữ nhật màu xám là thành phần được sử dụng lại từ SemiRank

Hình 4.4 Quá trình rút trích tập các cụm từ khóa ban đầu trong phương pháp cụm

từ trọng tâm

1 Lọc câu trọng tâm: Tại bước thứ nhất của quá trình, mục đích của đề tài là lọc ra những câu diễn tả nội dung chính của tài liệu Dựa vào những quan sát về

Trang 36

cách trình bày nội dung của một tài liệu khoa học, đề tài đưa ra ba bước để lọc các câu trong văn bản như sau:

 Lọc theo các thành phần cụ thể của tài liệu: Chỉ những câu thuộc về các phần sau của tài liệu là được chọn: tóm tắt (abstract), giới thiệu (introduction) và kết luận (conclusion) Bởi vì những thành phần trên của tài liệu thường được tác giả của văn bản sử dụng để diễn tả tóm tắt nội dung hay giới thiệu tổng quát điều tác giả sẽ trình bày trong toàn bộ văn bản nên chỉ những câu thuộc các thành phần này là được chọn

 Lọc theo mẫu: Mặc dù các câu trong các thành phần được xác định ở trên diễn

tả nội dung chính của tài liệu, nhưng thông tin mà chúng đóng góp vào tài liệu

là khác nhau và vì vậy tầm quan trọng của chúng cũng khác nhau Do đó, khi tác giả trình bày nội dung của văn bản, để có thể làm nổi bật chủ đề chính, tác

giả sử dụng các từ nhấn mạnh như là “the main content of this paper is…” (“nội dung chính của bài báo là …”) hay “this work describe” (“bài báo này

mô tả”) Tuy nhiên việc liệt kê đầy đủ các từ nhấn mạnh là không khả thi Nên

đề tài chỉ tìm kiếm những câu có các danh từ sau: “paper/ this work/ this study/ this article/ we/ our”(“bài báo/ phương pháp này/nghiên cứ này/ bài viết này/ chúng tôi/ của chúng tôi”) và tiến hành thêm bước lọc thứ ba: định

lượng tầm quan trọng của nội dụng thông qua tiêu đề

tầm quan trọng thông tin mà câu diễn tả được đánh giá dựa trên số lượng từ trùng giữa nó và tiêu đề của văn bản Để đánh giá thông tin này, các từ đơn trong câu được so trùng với các từ đơn trong tiêu đề, giá trị của câu được xác định theo công thức sau:

𝑤𝑠 = 𝑇∩𝑆

Trang 37

Trong đó T và S lần lượt là tập hợp các từ đơn trong tiêu đề và trong câu đang

xét 𝑇 ∩ 𝑆 là số lượng từ đơn giống nhau giữa tiêu đề và câu đang xét Và

𝑆 là số lượng từ đơn mà câu đang xét có được

Chỉ những câu có giá trị 𝑤𝑠 ≤ 0.5 được giữ lại, tức là những câu này phải có chiều dài lớn hơn hoặc bằng hai lần số từ đơn trùng lại Những câu lặp lại quá nhiều nội dung của tiêu đề sẽ bị loại bỏ vì tại bước kế tiếp, tiêu đề cũng được kết hợp để rút trích các cụm từ khóa ban đầu

Sau khi các câu được xác định trọng lượng, chúng sẽ được sắp xếp giảm dần theo giá trị có được Chỉ một số câu đứng đầu danh sách là được chọn cho quá trình rút trích tập các cụm từ trọng tâm

Xét một ví dụ cụ thể cho quá trình lọc câu: cho một tài liệu có trong tập dữ liệu

Wiki-20 [14], tài liệu là một bài báo khoa học có tên “Occam's Razor: The Cutting Edge for Parser Technology” (“Nguyên tắc của Occam: mô hình mới nhất cho kỹ thuật phân tích cú pháp”) Trong tài liệu này, đề tài mong muốn rút được câu sau

“This paper provides a demonstration of this state-of-the-art compiler-compiler technology using the programming language occam as an example” (“bài báo này cung cấp một mô tả cho kỹ thuật sinh ra bộ phân tích cú pháp hiệu quả sử dụng ngôn ngữ lập trình occam như là một ví dụ”) trong phần tóm tắt của tài liệu vì câu bao gồm những cụm từ quan trọng diễn tả nội dung của tài liệu như “compiler- compiler” (“Trình sinh ra bộ phân tích cú pháp”), “programming language” (“ngôn ngữ lập trình”) và “occam” (“occam”) Câu này thỏa mãn đủ ba yếu tố đã

nêu trên: (1) thuộc vào thành phần tóm tắt của bài báo (2) bao gồm cụm từ thuộc

mẫu: “this paper” (“bài báo này”) (3) chiều dài của nó lớn hơn hai lần số lượng từ đơn trùng với tiêu đề (“occam” (“occam”) và “technology” (“kỹ thuật”)) Sau khi được tính trọng lượng w s, nếu giá trị của câu lớn hơn những câu được xét khác, nó

sẽ được chọn để rút trích các cụm từ khóa ban đầu

2 Gán các bài viết Wikipedia: Sau khi đã chọn ra được những câu diễn tả nội dung chính của tài liệu, những câu này cùng với tiêu đề sẽ được xử lý để tìm kiếm

Trang 38

các cụm từ và các bài báo Wiki tương ứng ngữ nghĩa với chúng Để giải quyết sự nhập nhằng nếu có, nội dung của tài liệu được sử dụng như là ngữ cảnh cho cụm từ Toàn bộ quá trình này diễn ra tương tự như trong bước 1 của SemiRank (Mục 4.1)

3 Lọc theo TF (term frequency – tầng suất xuất hiện của cụm từ): Tại bước cuối cùng của phương pháp rút trích cụm từ trọng tâm làm khóa ban đầu, để có thể chọn ra những cụm từ trọng tâm, sau khi đã có được các cụm từ và các bài báo Wikipedia tương ứng với nó, các cụm từ được đánh giá vai trò của chúng thông qua

độ đo TF (term frequency – tần suất xuất hiện của cụm từ) TF là phép đo dựa trên giả thiết là nếu cụm từ quan trọng, nó sẽ thường xuyên được lặp lại trong văn bản

TF là một công cụ rất hữu ích và được sử dụng thường xuyên trong các hệ thống rút trích tập các cụm từ khóa [3, 14, 18, 23]

Số lần lặp lại của các cụm từ trong văn bản được đếm, sau đó chúng được chuẩn hóa (normalized) bằng cách chia cho độ lớn của văn bản Độ lớn của văn bản được tính bằng số cụm từ thu được (tính cho cả số lần lặp) sau khi gán thành công với các bài viết Wiki Sau khi TF của từng cụm từ được gán, chúng được sắp xếp theo thứ tự giảm dần và chỉ một số lượng cụm từ nhất định có TF đứng đầu danh sách là được chọn như là các cụm từ trọng tâm Những cụm từ trọng tâm này được coi như là cụm từ khóa ban đầu

Trong phương pháp này, ngoài việc tìm kiếm số lượng cụm từ khóa ban đầu thích hợp, đề tài còn cần khảo sát thêm số lượng câu trọng tâm để sinh ra các cụm

từ khóa ban đầu này Hai giá trị này được quyết định dựa trên thực nghiệm trên tập

dữ liệu Wiki-20 [14] Chi tiết được trình bày trong Mục 5.4

4.3 Phương pháp sử dụng đặc điểm thông tin của cụm từ khóa

Phương pháp này được gọi tắt là phương pháp đặc điểm thông tin Trong phương pháp này, thay vì rút trích các cụm từ khóa ban đầu từ các câu quan trọng trong tài liệu, đề tài lọc các cụm từ khóa ban đầu trực tiếp từ các cụm từ cắt được từ trong tài liệu Hai đặc điểm của khóa được sử dụng để đánh giá tầm quan trọng các cụm từ

Trang 39

này: TF và FOC TF được tính tương tự như trong phương pháp thứ nhất, xác định cụm từ trọng tâm (Mục 4.2) FOC (position of first occurrence – vị trí xuất hiện lần đầu tiên của một cụm từ nào đó) là phép đo dựa trên giả thiết là nếu một cụm từ nào

đó là quan trọng, tác giả của văn bản sẽ có xu hướng trình bày nó sớm trong nội dung của văn bản FOC của một cụm từ được tính bằng khoảng cách giữa vị trí lần đầu tiên nó xuất hiện trong văn bản và vị trí từ đầu tiên của văn bản Khoảng cách này là số lượng từ tính từ từ đầu tiên của văn bản đến vị trí lần đầu tiên cụm từ xuất hiện FOC được chuẩn hóa (normalize) bằng phép chia với chiều dài văn bản Chiều dài của văn bản là tổng tất cả các từ đơn có trong văn bản

TF và FOC diễn tả tầm quan trọng của thông tin mà một cụm từ đóng góp cho tài liệu Một cụm từ nếu được lặp lại nhiều lần hoặc xuất hiện sớm trong tài liệu, thì

nó có thể chứa thông tin quan trọng tác giả muốn trình bày, và vì thế nó có khả năng trở thành khóa TF và FOC được sử dụng trong hầu hết các hệ thống rút trích tập các cụm từ khóa [3, 14, 23] Trong những hệ thống như [3, 23], TF, FOC và những biến thể của chúng là những đặc điểm chính để hình thành nên hệ thống rút trích Sau khi các cụm từ trong văn bản được gán vào những bài viết Wikipedia tương ứng, những cụm từ này sẽ được tính giá trị TF và FOC như đã trình bày ở trên Để xác định tầm quan trọng của cụm từ, đề tài tính trọng lượng của chúng theo công thức sau:

𝑊𝑝 = 𝑇𝐹

Một cụm từ là quan trọng hơn những cụm từ khác nếu chúng xuất hiện nhiều lần (TF có giá trị lớn) và xuất hiện sớm trong văn bản (FOC có giá trị nhỏ) Sau khi trọng lượng của mỗi cụm từ được tính, chúng được sắp xếp giảm dần và chỉ một số lượng nhất định cụm từ được chọn làm khóa ban đầu

4.4 Tiền xử lý dữ liệu đầu vào

Như đã đề cập ở Mục 3.2, để có thể tính toán trọng lượng của các liên kết đến

và đi của một bài viết Wikipedia, việc đọc qua nội dung của tất cả các bài viết liên

Định dạng
Số trang	79
Dung lượng	8,88 MB