Hầu hết chúng đều dựa trên hướng tiếp cận thống kê, tiêu biểu như: MEAD, LexRank, Microsoft với chức năng Autosummarize,…Bên cạnh đó, nhiều ứng dụng nổi tiếng áp dụng kỹ thuật tóm tắt vă
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
NGUYỄN THỊ NỤ
TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT DỰA VÀO TRÍCH XUẤT CÂU
Chuyên ngành : Công nghệ thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
Công nghệ thông tin
NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Lê Thanh Hương
Hà Nội – Năm 2014
Trang 2LỜI CAM ĐOAN
Họ và tên học viên: Nguyễn Thị Nụ SHHV: CB120102
Chuyên ngành: Công nghệ thông tin Lớp: CH2012B
Người hướng dẫn: PGS.TS Lê Thanh Hương
Đơn vị: Viện Công nghệ Thông tin - Truyền thông
Tên đề tài : Tóm tắt đa văn bản tiếng việt dựa vào trích xuất câu
Tôi – Nguyễn Thị Nụ- Cam kết Luận văn là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS Lê Thanh Hương
Các kết quả nêu trong Luận là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác
Hà Nội, ngày tháng năm2014
Tác giả Luận văn
Nguyễn Thị Nụ
Trang 3LỜI CẢM ƠN
Lời đầu tiên, em xin được gửi lời cám ơn chân thành tới các thày cô giáo thuộc trường Đại học Bách Khoa Hà Nội, những người đã tận tình chỉ dạy tất cả kiến thức chuyên ngành cho em trong suốt quá trình học tập và nghiên cứu tại trường Trong quá trình thực hiện Luận văn tốt nghiệp em đã học hỏi được thêm rất nhiều điều, đó cũng là cơ hội để em tổng kết những kiến thức đã được học, đồng thời rút ra những kinh nghiệm quý báu Em xin chân thành cảm ơn những hướng dẫn tận tình của cô giáo, PGS TS Lê Thanh Hương- bộ môn Hệ thống thông tin – Viện Công Nghệ Thông Tin và Truyền Thông - trường Đại học Bách Khoa Hà Nội Luận văn được hoàn thành ở một mức độ nhất định Bên cạnh những kết quả đã đạt được, chắc chắn em sẽ không tránh khỏi những thiếu sót và hạn chế Sự phê bình, nhận xét của thầy cô là những bài học quý báu cho công việc và nghiên cứu của em sau này
Em cũng xin được gửi lời cảm ơn sâu sắc đến gia đình, bạn bè đã luôn ở bên, ủng hộ, động viên tinh thần cho em trong suốt quá trình thực hiện đồ án
Xin kính chúc quý thầy cô mạnh khỏe, hạnh phúc, tiếp tục đạt được nhiều thành công trong nghiên cứu khoa học cũng như trong sự nghiệp trồng người
Hà Nội, tháng năm 2014 Sinh viên thực hiện
Nguyễn Thị Nụ
Trang 4TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP
Cùng với sự tăng trưởng không ngừng lượng dữ liệu trực tuyến có sẵn là nhu cầu tóm tắt văn bản tự động nhằm nắm bắt thông tin một cách đầy đủ, hiệu quả, nhanh chóng, nhất là khi nhiều tài liệu trùng lặp nhau về nội dung Do đó, bài toán tóm tắt
đa văn bản nhận được sự quan tâm đặc biệt của cộng đồng xử lý ngôn ngữ tự nhiên bởi tính ứng dụng thực tiễn quan trọng của nó Tuy nhiên, đây là bài toán khó do đặc thù đầu vào là các văn bản nhập nhằng mặt nội dung, trình tự thời gian trình bày giữa chúng khác nhau
Bài toán tóm tắt đa văn bản trên tiếng Việt còn gặp khó khăn hơn rất nhiều bởi tính phức tạp của miền ngôn ngữ Bên cạnh đó, các công trình nghiên cứu liên quan còn hạn chế về cả số lượng lẫn chất lượng Vì vậy, luận văn khảo sát, nghiên cứu và
đề xuất một mô hình tóm tắt đa văn bản tiếng Việt sử dụng phương pháp xếp hạng
từ vựng dựa trên đồ thị
Việc tiến hành thực nghiệm cho kết quả khả quan, với độ đo F1 đạt khoảng 52%
Từ đó cho thấy hướng đi đúng đắn, hiệu quả trong việc xây dựng mô hình tóm tắt
đa văn bản tiếng Việt mà luận văn đã đưa ra
Từ khóa: tóm tắt đa văn bản, xếp hạng từ vựng, tiếng Việt, tự động
Trang 5ABSTRACT OF THE THESIS
Along with the rapid growth of online information is the need to summarize documents automatically It aims to capture information completely, efficiently and quickly, especially when many documents are likely to repeat much the same content Therefore, multi-document summarization has attracted attention from the Natural Language Processing community There is a difficult problem because the ambiguity of the input content has posed several challenges This thesis proposes a new method for multi-document summarization on Vietnamese by using a graph representation for text As a result, a model was built to extract sentences based on the lexical ranking algorithm
Keywords: multi-document summarization, lexical ranking, automotically
Trang 6MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
TÓM TẮT NỘI DUNG LUẬN VĂN TỐT NGHIỆP 3
ABSTRACT OF THE THESIS 4
MỤC LỤC 5
DANH MỤC BẢNG VÀ HÌNH VẼ 7
MỞ ĐẦU 9
CHƯƠNG I: GIỚI THIỆU BÀI TOÁN TÓM TẮT ĐA VĂN BẢN 13
1.1 Khái quát bài toán tóm tắt 13
1.1.1 Bài toán tóm tắt văn bản tự động 13
1.1.2 Một số khái niệm của bài toán tóm tắt 13
1.1.3 Phân loại bài toán tóm tắt 14
1.2 Giới thiệu bài toán tóm tắt đa văn bản 15
1.3 Những thách thức đối với tóm tắt đa văn bản 17
1.4 Ứng dụng của tóm tắt đa văn bản 18
1.5 Phương pháp đánh giá tóm tắt đa văn bản 20
CHƯƠNG 2: TÓM TẮT ĐA VĂN BẢN DỰA TRÊN TRÍCH XUẤT CÂU 22
2.1 Tóm tắt đa văn bản dựa trên trích xuất câu 22
2.2 Hướng tiếp cận trích xuất câu dựa trên xếp hạng đồ thị 24
2.3 Một số công trình tóm tắt văn bản trong tiếng Việt 27
2.4 Đánh giá và lựa chọn phương pháp phù hợp cho tiếng Việt 28
CHƯƠNG 3: MÔ HÌNH TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT DỰA TRÊN TRÍCH XUẤT CÂU 30
3 1 Mô hình tóm tắt đa văn bản tiếng Việt dựa trên trích xuất câu 30
3.2 Tiền xử lý dữ liệu 32
Xây dựng đồ thị từ và xếp hạng đồ thị 33
Trang 73.3.1 Trích xuất từ khóa quan trọng 33
3.3.2 Xây dựng đồ thị từ vựng 34
3.3.3 Xếp hạng đồ thị từ vựng 34
3.3.4 Một ví dụ cụ thể về đồ thị từ vựng 36
3.4 Trích xuất câu và sinh văn bản tóm tắt 38
3.4.1 Tính trọng số cho từng câu 38
3.4.2 Xếp hạng câu theo độ quan trọng 39
3.4.3 Sinh văn bản tóm tắt 39
CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 40
4.1 Dữ liệu đánh giá mô hình tóm tắt đa văn bản 40
4.2 Công cụ thực nghiệm 41
4.2.1 Môi trường thực nghiệm 41
4.2.2 Các thành phần chức năng được cài đặt 42
4.3 Kết quả xếp hạng từ vựng dựa vào đồ thị 42
4.4 Th ực nghiệm tóm tắt đa văn bản tiếng Việt và đánh giá 44
4.5 Một ví dụ kết quả tóm tắt đa văn bản tiếng Việt 47
KẾT LUẬN 51
TÀI LIỆU THAM KHẢO 52
Trang 8DANH MỤC BẢNG VÀ HÌNH VẼ
Hình 2-1: Đồ thị trích xuất câu trong công trình [5] 26
Hình 2-2: Mô hình tóm tắt đa văn bản của Mihalcea và các cộng sự [6] 27
Hình 3-1: Mô hình giải quyết bài toán tóm tắt đa văn bản tiếng Việt 30
Hình 3-2: Mô hình tóm tắt đơn văn bản tiếng Việt 31
Hình 3-3: Chương trình gắn nhãn từ loại 33
Hình 3-4: Ví dụ trích xuất từ khóa 33
Bảng 4-1: Môi trường thực nghiệm 41
Bảng 4-2: Đánh giá chất lượng xếp hạng từ vựng trên hai tài liệu 42
Bảng 4-3: Đánh giá trên tập 200 cụm dữ liệu 45
Bảng 4-4: Đánh giá trên tập 160 cụm dữ liệu……… ……… 46
Trang 9BẢNG CÁC KÝ HIỆU, CHỮ VIẾT TẮT
DUC Document Understanding
Conference Hội nghị về hiểu văn bản
Relevance
Thuật toán tính biên cực
đại tối đa
NITS National Institute of
Standards and Technology
Viện tiêu chuẩn và công nghệ quốc gia
Processing Xử lý ngôn ngữ tự nhiên
ROUGE
Recall Oriented Understudy of Gisting Evaluation
Đánh giá về độ hồi tưởng
NewS Articles
Hệ thống tóm tắt các bài báo, tin tức trực tuyến
Trang 10sở dữ liệu, chuyên gia khôi phục thông tin, Tuy nhiên, bởi các dữ liệu trên web này quá lớn nên việc đọc và tóm tắt thủ công toàn bộ lượng thông tin này là không thể
Từ đó dẫn tới nhu cầu của người dùng là có sẵn các bản tóm tắt thích hợp giúp họ quản lý các thông tin quan tâm một cách hiệu quả, tiết kiệm thời gian đọc nhưng vẫn thu nhận được các thông tin cần thiết, tăng hiệu quả tìm kiếm
Theo thời gian, nhiều hệ thống tóm tắt văn bản tự động đã được đề xuất Hầu hết chúng đều dựa trên hướng tiếp cận thống kê, tiêu biểu như: MEAD, LexRank, Microsoft với chức năng Autosummarize,…Bên cạnh đó, nhiều ứng dụng nổi tiếng
áp dụng kỹ thuật tóm tắt văn bản giải quyết yêu cầu công việc như: Ultimate Research Assistant, iResearch Reporter Newsblaster, NewsInEssence, Ngoài ra, nhiều công trình nghiên cứu liên quan tóm tắt văn bản được trình bày tại chuỗi các hội nghị nổi tiếng về xử lý ngôn ngữ tự nhiên như: DUC1 (2001-2007), TAC2 từ nằm 2008, ACL3từ 2001-2007,…
Từ năm 1995, bài toán tóm tắt văn bản có một bước phát triển nhảy vọt, từ tóm tắt đơn văn bản sang tóm tắt đa văn bản bởi nhu cầu tóm tắt nhiều văn bản cùng
liên quan tới một chủ đề, sự kiện nào đó Kết quả đầu ra là một bản tóm tắt duy nhất, mạch lạc, có tính đại diện cho tập các văn bản liên quan đến nhau
Bài toán tóm tắt đa văn bản khó hơn bài toán tóm tắt đơn văn bản rất nhiều bởi
những thách thức mới nảy sinh trong quá trình xử lý Bởi đầu vào là các văn bản liên quan tới cùng một chủ đề nên sự nhập nhằng, trùng lặp về nội dung, sự khác nhau về trình tự thời gian trình bày giữa các văn bản với nhau là điều không tránh
1 http://duc.nist.gov/
2 http://www.nist.gov/tac
3
Trang 11khỏi Vì vậy, để thu được kết quả tóm tắt tốt thì phải giải quyết triệt để các vấn đề tồn đọng trên
Bản thân bài toán tóm tắt đa văn bản đã khó nhưng khi giải quyết cụ thể trên miền ngôn ngữ tiếng Việt còn khó khăn hơn nhiều bởi tiếng Việt rất phức tạp về các đặc điểm ngữ âm, chính tả, ngữ pháp,…Hiện tại, các công trình nghiên cứu về tóm tắt văn bản tiếng Việt còn hạn chế về số lượng cũng như chất lượng chưa cao so với các công trình nghiên cứu trên ngôn ngữ khác như tiếng Anh Vì vậy, luận văn này với đề tài: “Tóm tắt đa văn bản tiếng Việt dựa vào trích xuất câu” đề xuất một
phương pháp tóm tắt đa văn bản hiệu quả dựa trên trích xuất câu phù hợp với ngôn ngữ tiếng Việt là việc làm cần thiết
2 Mục tiêu của đề tài
Đề tài tập trung nghiên cứu, khảo sát, đánh giá, ứng dụng phương pháp tóm tắt
đa văn bản dựa vào trích xuất câu cho miền ngôn ngữ tiếng Việt Đây là một hướng
đi khá mới mẻ, đối mặt với nhiều thách thức bởi đặc thù riêng của ngôn ngữ tiếng Việt là phức tạp cũng như nhiều vấn đề mới phát sinh trong quá trình xử lý bài toán
Để đạt được các mục tiêu trên, đề tài tập trung vào các nhiệm vụ cụ thể sau:
- Phân tích đặc điểm của bài toán tóm tắt đa văn bản tiếng Việt để từ đó đề ra các giải pháp hợp lý trong việc xây dựng và triển khai chương trình
- Tìm hiểu phương pháp tóm tắt đa văn bản dựa trên trích xuất câu và ứng dụng của nó trong việc giải quyết bài toán
- Thiết kế hệ thống và xây dựng chương trình
- Phân tích, đánh giá các kết quả đạt được khi thực hiện chương trình với các dữ liệu thực nghiệm
- Triển khai thực nghiệm với bộ dữ liệu chuẩn được công bố trong đề tài
B2012-01-24 của PGS.TS Lê Thanh Hương
3 Đối tượng và phạm vi nghiên cứu
Nghiên cứu các đặc điểm, nội dung của phương pháp tóm tắt đa văn bản dựa trên trích xuất câu, đánh giá mức độ phù hợp và tính hiệu quả của phương pháp này trên miền ngôn ngữ tiếng Việt
Ứng dụng phương pháp này trên tập dữ liệu chuẩn thu thập từ nhiều lĩnh vực trên miền dữ liệu báo chí để đánh giá sự đúng đắn của nó
4 Phương pháp nghiên cứu
a Phương pháp nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ, các công nghệ liên quan
- Tổng hợp các tài liệu lý thuyết về phương pháp tóm tắt đa văn bản dựa trên trích xuất câu
Trang 12- Đưa ra mô hình giải quyết bài toán
b Phương pháp nghiên cứu thực nghiệm
- Phân tích, thiết kế chương trình theo đúng quy trình xây dựng phần mềm
- Xây dựng chương trình theo mô hình giải quyết bài toán tóm tắt đa văn bản tiếng Việt
- Đánh giá hệ thống dựa trên bộ dữ liệu chuẩn đã có
6 Ý nghĩa khoa học và thực tiễn
- Việc áp dụng phương pháp tóm tắt đa văn bản tiếng Việt dựa trên trích xuất câu, cụ thể qua đồ thị từ vựng là hướng đi đúng đắn, phù hợp với đặc điểm của ngôn ngữ tiếng Việt
- Bài toán tóm tắt đa văn bản tiếng Việt chưa thực sự nhận được nhiều sự quan tâm của cộng đồng nghiên cứu nên đóng góp của đề tài phần nào đó hỗ trợ việc giải quyết bài toán cách hiệu quả
- Kết quả của đề tài là chương trình phần mềm dùng để tóm tắt đa văn bản tiếng Việt, dễ sử dụng, đáp ứng tốt nhu cầu người sử dụng trong việc nắm bắt thông tin ngắn gọn, đầy đủ, chính xác và nhanh chóng
7 Bố cục của luận văn
Bố cục của luận văn được chia thành 4 chương như sau:
• Chương 1: Giới thiệu bài toán tóm tắt đa văn bản
Chương 1 giới thiệu khái quát bài toán tóm tắt văn bản tự động nói chung và bài toán tóm tắt đa văn bản nói riêng, các thách thức bài toán gặp phải cũng như phương pháp đánh giá kết quả tóm tắt
• Chương 2: Tóm tắt đa văn bản dựa vào trích xuất câu
Chương 2 tiến hành khảo sát các công trình tóm tắt đa văn bản trong tiếng Anh
và tiếng Việt, các phương pháp phổ biến đang áp dụng, từ đó phân tích lựa chọn phương pháp phù hợp cho tiếng Việt
• Chương 3: Mô hình tóm tắt đa văn bản tiếng Việt dựa vào trích xuất câu
Chương 3 tập trung phân tích, đề xuất một mô hình tóm tắt đa văn bản tiếng
Vi ệt dựa trên trích xuất câu áp dụng xếp hạng từ vựng trên đồ thị
• Chương 4: Thực nghiệm và kết quả
Trang 13Chương 4 trình bày quá trình thực hiện, hoàn thành thực nghiệm, đưa ra các đánh giá, nhận xét về kết quả thu được
Trang 14CHƯƠNG I: GIỚI THIỆU BÀI TOÁN TÓM TẮT ĐA VĂN BẢN 1.1 Khái quát bài toán tóm tắt
1.1.1 Bài toán tóm tắt văn bản tự động
Bài toán tóm tắt văn bản tự động là bài toán thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Năm 1958, phương pháp tóm tắt tự động cho các bài báo kĩ thuật sử dụng thống kê thông qua tần suất và phân bố các từ trong văn bản đã được Luhn thuộc IBM công bố [23] nhưng không được nhiều người quan tâm nghiên cứu Theo thời gian, lượng dữ liệu sinh ra ngày càng nhiều, đến những năm cuối thế kỷ 20 xảy ra bùng nổ thông tin bởi sự phát triển Internet Ngày nay, chúng ta đang sống trong một thế giới tràn ngập thông tin mà hầu hết là thông tin trực tuyến trên các trang mạng Chỉ riêng trên mạng toàn cầu (The World Wide Web) [28] mà đã chứa đến hàng tỷ các tài liệu và con số này đang tăng theo cấp số nhân mỗi ngày Thực trạng này nảy sinh nhu cầu xây dựng những công cụ giúp tổng hợp thông tin từ nhiều nguồn khác nhau, giảm bớt tình trạng quá tải thông tin Xuất phát từ nhu cầu thực tế
đó mà bài toán tóm tắt văn bản tự động nhận được nhiều sự quan tâm của các nhà nghiên cứu
Vào năm 1999, Inderjeet Mani trong công trình [26] trình bày mục đích tóm tắt
của văn bản tự động như sau: “Tóm tắt văn bản tự động nhằm trích xuất nội dung từ cùng một nguồn thông tin và trình bày các nội dung quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và tạo cảm xúc đối với người sử dụng hoặc một chương trình cần đến” Do vậy, các hệ thống tóm tắt văn bản tự động thiết kế đưa ra
một bản tóm tắt ngắn gọn, chứa các thông tin quan trọng nhất mang tính đại diện cho đầu vào là một văn bản đơn hoặc một cụm các văn bản,…Việc áp dụng tóm tắt văn bản tự động đã giúp người sử dụng tiết kiệm công sức, thời gian đọc mà vẫn đảm bảo tiếp thu hiệu quả các thông tin cần thiết
1.1.2 Một số khái niệm của bài toán tóm tắt
Để hiểu rõ hơn về bài toán tóm tắt cần nắm rõ một số khái niệm cơ bản sau:
- Sự mạch lạc (coherence): Văn bản tóm tắt được coi là mạch lạc nếu mọi thành
phần trong văn bản thống nhất về mặt nội dung Các câu, các ý tiếp nối nhau theo một trình tự hợp lí
- Độ nổi bật (Salience): tính bằng trọng số gán cho thông tin trong văn bản, thông
tin có trọng số càng cao thì độ quan trọng của nó đối với toàn văn bản càng lớn
Trang 15- Tỷ lệ nén (Compression Rate): độ đo thể hiện lượng thông tin cô đọng trong văn
bản tóm tắt và được tính bằng:
CompressionRate =
Trong đó, SummaryLength: độ dài văn bản tóm tắt, SourceLength: độ dài văn bản nguồn
1.1.3 Phân loại bài toán tóm tắt
Việc phân loại tóm tắt văn bản có nhiều cách khác nhau, không cố định trên một kiểu nào Nó mang tính tương đối, tùy thuộc cơ sở để tóm tắt Trong phạm vi luận văn này sẽ giới thiệu phân loại tóm tắt dựa trên 3 cơ sở là: dựa vào định dạng, nội dung đầu vào; dựa vào định dạng, nội dung đầu ra; dựa vào mục đích tóm tắt
Đầu tiên, dựa trên cơ sở định dạng, nội dung đầu vào mà tóm tắt sẽ xác định nội dung gì được tóm tắt Từ cơ sở này, ta có nhiều cách phân loại con như sau:
- Kiểu văn bản: Bởi mỗi văn bản như: bài báo, thư, bản tin,…sẽ có những đặc
trưng quy định riêng nên việc tóm tắt mỗi kiểu văn bản này là khác nhau
- Định dạng văn bản: Các văn bản có định dạng khác nhau hình thành các loại
tóm tắt khác nhau như: tóm tắt văn bản có cấu trúc, tóm tắt văn bản không theo khuôn mẫu,…
- Số lượng dữ liệu đầu vào: Nếu số lượng đầu vào chỉ là một văn bản đơn, nó sẽ
là tóm tắt đơn văn bản Đầu vào của tóm tắt là tập gồm ít nhất 2 tài liệu trở lên có liên quan cùng một chủ đề sẽ được gọi là tóm tắt đa văn bản
- Miền dữ liệu: Tùy vào miền dữ liệu là lĩnh vực nào đó như: giáo dục, kinh tế,
xã hội, mà có thể chia tóm tắt ra thành các loại tương ứng
Thứ hai, tóm tắt dựa trên cơ sở mục đích nhằm trả lời cho câu hỏi mục đích tóm tắt là gì, phục vụ đối tượng nào
- Các đối tượng đọc tóm tắt khác nhau sẽ yêu cầu khác nhau: Tóm tắt cho các
chuyên gia sẽ khác với các đối tượng đọc thông thường
- Tùy vào mục đích tóm tắt có thể chia thành hai loại: tóm tắt chỉ thị và tóm tắt thông tin, trong đó tóm tắt chỉ thị chỉ ra loại thông tin, tóm tắt thông tin đưa ra
nội dung của thông tin
- Tóm tắt trên cơ sở truy vấn (Query-based) hoặc tóm tắt chung (General) sẽ
sinh ra các bản tóm tắt khác nhau Tóm tắt trên cơ sở truy vấn thì nội dung của văn bản tóm tắt dựa trên truy vấn người dùng, thường dùng trong quá trình tóm tắt các
Trang 16kết quả trả về từ máy tìm kiếm Tóm tắt chung nhằm tìm ra một đoạn tóm tắt cho toàn bộ văn bản với nội dung bao quát cả nội dung của văn bản đó
Cuối cùng, tóm tắt dựa trên cơ sở đầu ra cũng có thể phân thành nhiều loại:
- Dựa vào ngôn ngữ: Tóm tắt có thể phân loại dựa vào khả năng tóm tắt các loại ngôn ngữ, chia thành: tóm tắt đơn ngôn ngữ (Monolingual), tóm tắt đa ngôn ngữ (Multilingual ) và tóm tắt xuyên ngôn ngữ (Crosslingual) Tóm tắt đơn ngôn ngữ là
hệ thống mà tóm tắt chỉ cho một loại ngôn ngữ nhất định: tiếng Việt hay tiếng Anh,…Tóm tắt đa ngôn ngữ là hệ thống có khả năng tóm tắt nhiều loại văn bản của các ngôn ngữ khác nhau, tuy nhiên văn bản đầu ra là ngôn ngữ tương ứng với văn bản đầu vào Trong khi đó, tóm tắt xuyên ngôn ngữ là hệ thống có khả năng đưa ra các văn bản đầu ra có ngôn ngữ khác biệt với ngôn ngữ của văn bản đầu vào
- Dựa vào định dạng đầu ra của kết quả tóm tắt: nó có thể là bảng, đoạn hoặc
Tuy việc phân loại bài toán tóm tắt dựa trên nhiều cơ sở khác nhau nhưng cộng đồng nghiên cứu chủ yếu quan tâm tới hai loại là tóm tắt đơn văn bản và tóm tắt đa văn bản với hai hướng tiếp cận giải quyết là tóm tắt theo trích xuất và theo tóm lược
1.2 Giới thiệu bài toán tóm tắt đa văn bản
Tóm tắt đa văn bản (Multi-document Summarization) là bài toán nâng cấp từ bài toán tóm tắt đơn văn bản, bắt đầu từ năm 1995 bởi nhu cầu tóm tắt nhiều văn bản có nội dung cùng liên quan tới một chủ đề, ví dụ như tóm tắt các tin tức cùng nói về một sự kiện nào đó Mục tiêu của tóm tắt đa văn bản là đưa ra một văn bản tóm tắt
Trang 17thích hợp nhất đại diện cho một tập các văn bản có liên quan nhau, đảm bảo được tính mạch lạc, trôi chảy, đầy đủ và chính xác
Một điều cần lưu ý khi tóm tắt các văn bản là chúng phải đáng giá để tóm tắt cùng nhau bởi nếu các văn bản khác biệt nhau hoàn toàn sẽ gây khó khăn cho việc tóm tắt Kết quả tóm tắt sẽ tốt hơn khi tóm tắt các văn bản cùng liên quan một chủ
đề Trong luận văn này, tập các văn bản có liên quan nhau thuộc cùng một tập gọi là một cụm văn bản
Bài toán tóm tắt đa văn bản với đầu vào là tập các văn bản thuộc cùng một chủ
đề (thuộc cùng một cụm) và tỷ lệ nén, trong đó tỷ lệ nén được quy đổi thành số câu trong bản tóm tắt đầu ra Đầu ra của bài toán là một bản tóm tắt ngắn gọn, đầy đủ các thông tin quan trọng mang tính đại diện cho tập các văn bản đầu vào Trong phạm vi luận văn này, mỗi cụm văn bản sẽ giới hạn gồm 2 đến 5 bài báo thuộc cùng một trong các lĩnh vực sau: thể thao, giải trí, văn hóa, kinh tế, giáo dục,…thu thập
từ baomoi.com Tỷ lệ nén, ở đây quy đổi sang số câu trong bản tóm tắt sẽ do người
dùng lựa chọn
Nhóm nghiên cứu tiên phong trong những lĩnh vực tóm tắt đa văn bản là nhóm
xử lý ngôn ngữ tự nhiên tại Columbia University, với công trình [19] của K McKeown và D Radev công bố năm 1995 Họ đã xây dựng thành công hệ thống SUMMONS (SUMMarizing Online NewS articles) dựa trên hướng tiếp cận dùng template nhằm tóm tắt một loạt các bài báo trên cùng một sự kiện, sinh ra một đoạn văn chứa một hoặc nhiều câu Hệ thống này gồm hai thành phần chính là: phần lập nội dung (content planner) và phần tạo ngôn ngữ (linguistic generator) Bởi việc phụ thuộc số lượng template xây dựng thủ công nên hệ thống này chỉ có thể phục vụ miền dữ liệu nhỏ Trong khi hệ thống SUMMONS được xây dựng cho một lĩnh vực
cụ thể thì hệ thống MEAD4 do Radev và các cộng sự xây dựng năm 2000 có quy
mô lớn hơn nhiều, tóm tắt trên nhiều lĩnh vực, chú trọng đến nội dung thông tin hơn
là hình thức thể hiện Nếu như ở giai đoạn đầu tóm tắt đa văn bản đòi hỏi cao về ngôn ngữ sử dụng, cách hành văn, quá trình sinh ra bản tóm tắt thì sau đó, cộng đồng nghiên cứu đã có những đề xuất mới đối với các vấn đề này Tiêu biểu là kỹ thuật trích xuất câu đã được sử dụng nhằm tìm kiếm các câu thích hợp, quan trọng làm nổi bật nội dung cần tóm tắt để đưa vào bản tóm tắt cuối cùng Brazilay và các
4 MEAD http://www.summarization.com/mead/
Trang 18cộng sự năm 1999 đề xuất phương pháp tổng hợp các câu từ mỗi cụm cho vào tóm tắt Bên cạnh đó, một phương pháp khác của Carbonell và Goldstein năm 1998 xây dựng bản tóm tắt gồm những câu quan trọng nhất Evans và các cộng sự đã mở rộng tóm tắt đa văn bản với đầu vào là các văn bản thuộc nhiều ngôn ngữ khác nhau trong nghiên cứu gần đây năm 2005
Ngay từ hội nghị đầu tiên vào năm 2001 nằm trong chuỗi hội nghị DUC (Document Understanding Conference), tóm tắt đa văn bản đã trở thành một nội dung quan trọng trong thành phần tóm tắt văn bản Hội nghị này vẫn tiếp tục duy trì cho tới ngày nay với tên mới là TAC: Text Analysis Conference từ năm 2008 Bài toán tóm tắt đa văn bản ngày càng tường minh, rõ ràng không chỉ mở rộng trên nhiều miền ứng dụng [22][29] mà còn đào sâu vào yêu cầu bài toán [15] Xuyên suốt chuỗi hội nghị TAC những năm gần đây cũng như chuỗi hội thảo chuyên về tóm tắt đa văn bản là quan tâm tới các chủ đề tóm tắt đa văn bản đa ngôn ngữ (Multilingual Multi-Document Summaries) và tóm tắt đa văn bản theo hướng dẫn (Guided Summarization)
1.3 Những thách thức đối với tóm tắt đa văn bản
Bài toán tóm tắt đa văn bản đối mặt với nhiều thách thức, không chỉ bởi khó khăn vốn tồn tại trong bài toán tóm tắt đơn văn bản mà còn nhiều khó khăn mới nảy sinh
do đặc thù đầu vào là một cụm gồm nhiều văn bản Nhiều người cho rằng, bài toán tóm tắt đa văn bản đơn giản chỉ ghép các văn bản lại với nhau rồi sử dụng tóm tắt đơn văn bản Điều đó hoàn toàn sai lầm bởi như vậy chúng ta sẽ không thể tạo ra một văn bản tóm tắt tốt do chưa giải quyết được sự chồng chéo về mặt nội dung cũng như quan hệ giữa các văn bản đầu vào Các văn bản này thường có sự nhập nhằng, trùng lặp về mặt nội dung, có thể thể hiện trên nhiều ngôn ngữ khác nhau trong khi yêu cầu bản tóm tắt sinh ra phải súc tích, đầy đủ thông tin quan trọng về nội dung Do vậy, nhiệm vụ trọng tâm của tóm tắt đa văn bản cần giải quyết là phải
xử lý tốt về vấn đề đa ngôn ngữ, nhận ra và xử lý tính dư thừa thông tin trong các văn bản thuộc cụm văn bản đầu vào, tìm ra tính mới cũng như đảm bảo tính rõ ràng, mạch lạc, đầy đủ của văn bản tóm tắt cuối cùng [11] Bài toán càng khó khăn hơn khi việc tóm tắt đa văn bản hướng tới xử lý tự động bởi ngay cả khi nhiều người cùng tóm tắt một cụm chứa các bài báo, nội dung bản tóm tắt của mỗi người cũng
đã khác nhau dựa trên sở thích cá nhân và trình độ Vì vậy, bản tóm tắt sinh tự động duy nhất cũng phải đảm bảo được tính khách quan với nội dung thích hợp
Trang 19Thách thức lớn nhất mà bài toán gặp phải là sự nhập nhằng về nội dung cũng như
sự khác nhau trình tự thời gian trình bày giữa các văn bản Để sinh ra bản tóm tắt có
độ chính xác cao, ta cần tìm hiểu và xử lý tốt các nguyên nhân gây ra vấn đề trên
Cụ thể là ba nguyên nhân sau: đồng tham chiếu xuyên văn bản, nhập nhằng thời gian xuyên văn bản, sự trùng lặp nội dụng giữa các văn bản, trong đó sự trùng lặp nội dung giữa các văn bản xuất hiện khá phổ biến khi xử lý mỗi cụm văn bản
Để thực hiện nhiệm vụ trọng tâm đã trình bày, kỹ thuật tóm tắt đa văn bản ngoài
kế thừa nền tảng từ các kỹ thuật tóm tắt đơn văn bản, nó phải được bổ sung các thành phần cốt lỗi cũng như tính đến đặc trưng và nhu cầu người sử dụng Hướng tiếp cận này là tóm tắt đa văn bản chung chung (generic multi-document summarization) Với hướng này, kỹ thuật tóm tắt đa văn bản cần thích ứng ngữ cảnh ứng dụng như tóm tắt cập nhật (update summarization), tóm tắt hướng truy vấn (query-focused summarization), tóm tắt theo hướng dẫn (guided summarization), phân tích đánh giá hay khai phá quan điểm (sentiment analysis/opinion mining) trên các trang, mạng xã hội [28]
1.4 Ứng dụng của tóm tắt đa văn bản
Có rất nhiều ứng dụng cần đến quá trình tóm tắt đa văn bản trên mọi lĩnh vực
Với sự bùng nổ của các phương tiện xã hội (social media) như các trang web,
Facebook, Twitter,… các cá nhân và tổ chức đang sử dụng ngày càng nhiều nội dung trong đó để đưa quyết định Ví dụ người tiêu dùng băn khoăn quyết định mua một sản phẩm, họ sẽ tham khảo rất nhiều nhận xét và đánh giá của cộng đồng người tiêu dùng tại nhiều diễn đàn trên web Hay một tổ chức muốn xem mức độ uy tín, danh tiếng của mình dựa trên quan điểm của công chúng, họ có thể tham khảo nguồn thông tin dồi dào trên các phương tiện xã hội Tuy nhiên, bởi lượng dữ liệu liên quan là khổng lồ nên việc đọc thủ công sẽ khó khăn để xác định các trang web liên quan nhằm tiến hành diễn giải và tóm tắt quan điểm Vì vậy, một hệ thống phân tích và tóm tắt tự động nhận xét là cần thiết
Bên cạnh đó, kỹ thuật tóm tắt đa văn bản cũng được ứng dụng trong việc khai phá quan điểm Quan điểm từ một cá nhân là không đủ cho quyết định một hành động Do vậy, trong hầu hết các ứng dụng, khai phá quan điểm từ một số lượng lớn người dùng trở thành yêu cầu cốt lõi Một bản tóm tắt quan điểm có thể có nhiều hình thức thể hiện, cấu trúc nhưng các thành phần quan trọng của một tóm tắt phải chứa quan điểm về các thực thể , khía cạnh khác nhau của chúng cũng như cần có quan điểm định lượng Định lượng quan điểm thực sự quan trọng bởi tùy vào tỷ lệ
Trang 20phần trăm số người có quan điểm tích cực về sản phẩm mà người khai phá quan điểm đưa ra quyết định hành động khác nhau
Một số ứng dụng khác liên quan đến quá trình tóm tắt đa văn bản như: tóm tắt các báo cáo liên quan cùng một sự kiện, tóm tắt các cụm dữ liệu trả về từ quá trình phân cụm bởi máy tìm kiếm, hệ thống hỏi đáp tự động,…Trong những năm gần đây, cộng đồng nghiên cứu tóm tắt đa văn bản chủ yếu hướng về việc ứng dụng bài toán tóm tắt đa văn bản vào việc xây dựng hệ thống hỏi đáp tự động Các kết quả nghiên cứu cho thấy việc sử dụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) nhằm đưa ra một văn bản tóm tắt trả lời cho câu hỏi người dùng đạt được nhiều kết quả khả quan Điều đó chứng tỏ hướng đi đúng đắn áp dụng trong việc xây dựng mô hình hồi đáp tự động
Hiện tại, kỹ thuật tóm tắt đa văn bản khá triển vọng, đầy hứa hẹn Bằng chứng là nhiều hệ thống Web tiên tiến trên thế giới cũng đã sử dụng kỹ thuật này để giải quyết yêu cầu công việc Hệ thống Ultimate Research Assistant5 thực hiện khai phá văn bản trên các kết quả tìm kiếm từ Internet nhằm tóm tắt, tổ chức chúng, giúp người dùng thực hiện tìm kiếm trực tuyến dễ dàng hơn Việc khai phá văn bản đặc trưng bởi sử dụng công cụ bao gồm trích xuất khái niệm, tóm tắt văn bản, phân cụm khái niệm theo cấp bậc, các kỹ thuật trực quan hóa đa dạng,…
Với iResearch Reporter6, một hệ thống tóm tắt văn bản và trích xuất văn bản thương mại, nó cho phép nhận truy vấn người dùng, chuyển nó vào công cụ tìm kiếm Google nhằm khôi phục các văn bản liên quan thích hợp Sau đó, nó tiến hành phân loại, sinh ra các bản báo cáo tóm tắt gần gũi ngôn ngữ tự nhiên của con người, bao quát các văn bản trong tập khôi phục Mọi trích xuất tạo ra được liên kết với các văn bản gốc trên Web như trích xuất thực thể, trích xuất quan hệ và sự kiện, trích xuất văn bản
Ngoài ra, một số hệ thống lớn khác cũng sử dụng kỹ thuật tóm tắt đa văn bản Cụ
thể, hệ thống Newsblaster7 giúp người dùng tìm kiếm tin tức được quan tâm nhất cho mỗi cá nhân Nó tự động thu thập, gom cụm, phân loại, tóm tắt in tức từ các trang web khác nhau như CNN, Reuters, …mỗi ngày, cung cấp người dùng giao
5 http://ultimate-research-assistant.com/GenerateResearchReport.asp
6 http://iresearch-reporter.com/
7
Trang 21diện trình duyệt các kết quả Hệ thống NewsInEssence8 được sử dụng nhằm khôi phục và tóm tắt một cụm các bài báo từ Web Với đầu vào là một URL (Uniform Resource Locator), nó khôi phục các văn bản tương tự nhau hoặc các tài liệu ánh xạ
tới tập các từ khóa đưa ra Một hệ thống quan trọng khác là NewsFeed
Researcher9, nó là một cổng thông tin thực hiện liên tục việc tóm tắt tự động các văn bản được phân cụm ban đầu bởi việc gộp tin tức qua Google News,…Hệ thống này được hậu thuẫn bởi một công cụ trực tuyến miễn phí bao quát các sự kiện chính
liên quan đến kinh tế, kỹ thuật, tin tức quốc tế Tiếp theo, ứng dụng Scrape This10
là một kỹ thuật tìm kiếm, nhưng thay vì cung cấp các liên kết tới các trang web phù hợp dựa trên yêu cầu truy vấn, nó đưa ra thông tin thích hợp từ các trang web đó, cung cấp người dùng với một tóm tắt đa văn bản thống nhất, dựa theo định nghĩa từ
điển, ảnh, video Cuối cùng, JistWeb11 là một công cụ tóm tắt đa văn bản dựa trên truy vấn cụ thể người dùng
1.5 Phương pháp đánh giá tóm tắt đa văn bản
Đánh giá kết quả tóm tắt văn bản chính xác là một công việc hết sức khó khăn Việc lấy ý kiến đánh giá của các chuyên gia ngôn ngữ sẽ cho kết quả tốt nhất nhưng cách này tốn kém về công sức, chi phí Vì vậy, cộng đồng nghiên cứu tóm tắt đa văn bản mong muốn xây dựng được hệ thống đánh giá tự động các kết quả tóm tắt
Từ năm 2000, NIST12 đã tổ chức hội nghị DUC hàng năm nhằm đánh giá các hệ thống tóm tắt văn bản trên quy mô lớn Mục đích đánh giá tự động này nhằm tìm kiếm một độ đo đánh giá tóm tắt gần gũi với đánh giá của con người nhất
ROUGE (Recall Oriented Understudy of Gisting Evaluation) [20] là một phương
pháp đánh giá do Lin và Hovy đề xuất vào năm 2003 Phương pháp này đánh giá các bản tóm tắt bởi so sánh các bản tóm tắt sinh ra với các bản tóm tắt đủ tốt được làm thủ công Bản chất phương pháp này dựa trên khái niệm tương tự, sử dụng n-gram đánh giá sự tương quan các kết quả giữa mô hình tóm tắt và tập dữ liệu đánh giá Cụ thể, mỗi bản tóm tắt được đánh giá bởi đếm số n-gram là một chuỗi gồm n
Trang 22từ mà trùng khớp với tóm tắt của con người Phương pháp này được sự đánh giá cao của cộng đồng nghiên cứu bởi đây là một phương pháp không tốn kém, dễ dàng so sánh kết quả từ nhiều nghiên cứu khác nhau và đã cho các kết quả khả quan
Phương pháp ROUGE có bốn độ đo chính là: N, L,
ROUGE-W và ROUGE-S Trong tóm tắt đa văn bản, F-score được tính dựa trên ROUGE-N, một độ đo đã được sử dụng để đánh giá kết quả tóm tắt đa văn bản trong chuỗi hội nghị DUC Theo đó, độ đo F-score được tính như sau:
Trong đó:
- n là độ dài của n-gram
- Count match (n-gram) là số lượng n-gram đồng xuất hiện lớn nhất giữa văn bản tóm tắt và tập văn bản tham chiếu
- Count(n-gram) là số lượng n-gram trong văn bản tóm tắt hoặc văn bản tham
chiếu
Trang 23CHƯƠNG 2: TÓM TẮT ĐA VĂN BẢN DỰA TRÊN TRÍCH XUẤT
CÂU 2.1 Tóm tắt đa văn bản dựa trên trích xuất câu
Như đã trình bày ở trên các hướng tiếp cận nhằm giải quyết bài toán tóm tắt văn bản tập trung vào hai loại là: tóm tắt theo trích xuất và tóm tắt theo tóm lược Tính đến thời điểm hiện tại các nghiên cứu về tóm tắt theo trích xuất chiếm đa số hơn so với tóm tắt theo tóm lược do kết quả đầu ra đòi hỏi đơn giản hơn Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [Lu58, Ed69] Các kỹ thuật tóm tắt gần đây sử dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản
Theo công trình nghiên cứu: “Automatic Multi Document Summarization Approaches” năm 2012, Jaya Kumar và Naomie Salim đã trình bày bốn phương pháp điển hình giải quyết bài toán tóm tắt đa văn bản dựa vào trích xuất câu mà cộng đồng nghiên cứu sử dụng, bao gồm: phương pháp dựa trên đặc trưng, phương pháp dựa trên phân cụm, phương pháp dựa trên đồ thị và phương pháp dựa trên tri thức miền
Phương pháp dựa trên đặc trưng: Hướng giải quyết này tiến hành trích xuất
các câu phù hợp nhất từ văn bản, ghép chúng lại tạo ra bản tóm tắt ngắn gọn Để nhận ra các câu quan trọng này, các đặc trưng xác định độ phù hợp của mỗi câu được xem xét Một số các đặc trưng phổ biến ảnh hưởng tới việc lựa chọn câu như: tần suất từ, từ tiêu đề, vị trí câu, độ dài câu, từ ám hiệu,…Như vậy, mỗi câu được tính điểm riêng dựa trên giá trị các đặc trưng Tuy nhiên, mỗi đặc trưng lại có mức
độ quan trọng ảnh hưởng tới giá trị điểm của câu là khác nhau Điều này được thể hiện bởi trọng số các đặc trưng là khác nhau trong công thức tính điểm của câu Trong công trình của Suanmali năm 2009, tác giả lựa chọn ba đặc trưng: từ tiêu đề,
độ dài câu, vị trí câu để tính điểm của câu theo công thức:
Score_S i = w1Ti + w2Li + w3Pi Trong đó, Ti, Li, Pi là ba đặc trưng tương ứng ở trên, và w1, w2, w3 là ba trọng số tương ứng của ba đặc trưng này Phương pháp này đơn giản, trực tiếp lựa chọn câu cho tóm tắt nhưng khả năng nắm bắt thông tin ngữ cảnh rất kém bởi quá trình tính
Trang 24điểm cho mỗi câu chỉ dựa trên chính câu đó trong khi bỏ sót các ngữ cảnh khác nhau trong các văn bản đầu vào
Phương pháp dựa trên phân cụm với ý tưởng chính là nhóm các đối tượng
tương tự nhau vào các cụm riêng Các câu có độ tương tự nhau cao được nhóm trong cùng một cụm, trong đó độ tương tự giữa một cặp câu đánh giá bằng độ đo tương tự cosine Sau khi các câu được phân vào các cụm, tiến hành lựa chọn các câu xếp hạng cao trong mỗi cụm và ghép chúng lại tạo bản tóm tắt Radev (2004) là người tiên phong sử dụng trọng tâm cụm cho tóm tắt đa văn bản, trong đó các câu được lựa chọn từ mỗi cụm nếu nó tương tự với trọng tâm cụm nhất, cho phép tạo ra tóm tắt chứa các câu thích hợp nhất lấy từ mỗi cụm Hướng giải quyết dựa trên phân cụm đáp ứng được tính đa dạng và giảm tính dư thừa trong nhiều văn bản liên quan cùng chủ đề Tuy nhiên, theo hướng này, mỗi câu được xếp hạng dựa trên độ tương
tự với trọng tâm cụm, với trọng tâm đơn giản chỉ là đại diện cho các khái niệm xuất hiện thường xuyên Vì vậy, nhược điểm phương pháp này là không có khả năng nắm bắt thông tin ngữ cảnh tồn tại trong câu
Phương pháp dựa trên tri thức miền: Hầu hết các tài liệu hay các bài báo đều
có nội dung liên quan tới cùng một chủ đề hoặc sự kiện Các chủ đề hay sự kiện thường thuộc về một miền cụ thể và mỗi miền thường sở hữu cấu trúc tri thức chung cho riêng nó Các nhà nghiên cứu nỗ lực sử dụng tri thức nền tảng này nhằm cải thiện kết quả tóm tắt Cụ thể, ontology với các thuật ngữ ngắn gọn, thông tin liên quan miền phong phú, nắm giữ thông tin ngữ nghĩa ẩn sẽ hỗ trợ đắc lực cho giải quyết bài toán Với miền riêng biệt, ontology xác định các thuật ngữ quan trọng đặc trưng cho miền Trong bài toán tóm tắt đa văn bản, ontology khởi động quá trình lựa chọn các câu bởi chọn lọc những câu chứa các thuật ngữ xác định trước thuộc ontology Tuy nhiên, phương pháp này chỉ thực hiện được khi ontology xây dựng thủ công bởi các chuyên gia miền là có sẵn Một số công trình theo hướng này khá thành công như Verma năm 2007 tóm tắt các văn bản y sinh dựa trên ontology y sinh từ UMLS13, Li với hệ thống OMS (Ontology-enriched Multi-Document Summarization) năm 2010,…
Bên cạnh đó, phương pháp dựa trên đồ thị cũng khá phổ biến Lý thuyết nền
tảng chính là sự kết nối, liên kết giữa các đối tượng Các kết nối tồn tại dựa trên
13
Trang 25quan hệ cơ sở giữa chúng, cụ thể trong bài toán tóm tắt đa văn bản thì quan hệ cơ sở chính là độ tương tự giữa các đối tượng là các câu Đồ thị biểu diễn dưới dạng G = (V, E), với V là tập các đỉnh của đồ thị, mỗi đỉnh đại diện cho một câu của văn bản,
E là tập các cạnh nối giữa các đỉnh, mỗi cạnh đại diện trọng số giữa hai câu thể hiện mức độ tương tự của chúng và đo bằng độ tương tự cosine Một cạnh được nối giữa hai đỉnh nếu trọng số tương tự giữa chúng lớn hơn giá trị ngưỡng cho trước Đồ thị sau khi được xây dựng sẽ tiến hành xếp hạng đồ thị nhằm tìm ra các câu quan trọng đưa vào tóm tắt Hai thuật toán xếp hạng dựa trên đồ thị nổi tiếng là HITS (Kleinberg, 1999) và Google’s PageRank (Brin and Page, 1998) Lexrank (Erkan and Radev, 2004b) và TextRank (Mihalcea và Tarau, 2004) là hai hệ thống xếp hạng dựa trên đồ thị đã thành công trong việc cài đặt các thuật toán này Hướng tiếp cận dựa trên đồ thị nhận được phản hồi tích cực từ cộng đồng nghiên cứu bởi nó có khả năng nhận ra các câu cốt lõi phục vụ tóm tắt Nhược điểm của hướng tiếp cận này là có thể sinh ra một bản tóm tắt không hoàn toàn chính xác do dựa quá nhiều vào độ tương tự câu tạo khi sinh ra đồ thị, nếu độ tương tự câu không tốt kết quả đầu ra cũng sẽ không đạt yêu cầu Tuy nhiên, ưu điểm lớn nhất của các phương pháp dựa trên đồ thị là thích hợp với các ngôn ngữ chưa có nhiều các tài nguyên về ngôn ngữ học như tiếng Việt
Chính vì ưu điểm này nên luận văn đã lựa chọn hướng tiếp cận dựa trên đồ thị làm hướng tiếp cận chính để trích xuất các câu trong văn bản Phần tiếp theo luận văn sẽ trình bày chi tiết về một phương pháp tóm tắt dựa trên xếp hạng đồ thị của nhóm tác giả Mihalcea và các cộng sự
2.2 Hướng tiếp cận trích xuất câu dựa trên xếp hạng đồ thị
Hướng tiếp cận trích xuất dựa trên xếp hạng đồ thị được nhóm tác giả Mihalcea
và các cộng sự đề xuất trong các nghiên cứu vào năm 2004 và 2005[5,6,7] tập trung vào vấn đề trích xuất các câu quan trọng nhất của cụm văn bản đưa vào dựa vào lý thuyết đồ thị
Việc tóm tắt được thực hiện theo trình tự như sau:
Văn bản sau khi được tiền xử lý thì các câu được biểu diễn thành các node trong một đồ thị vô hướng Mỗi câu tương ứng với một node Hai câu bất kỳ có những từ chung sẽ có một cạnh nối giữa hai node đại diện cho chúng Nếu độ tương đồng giữa hai câu lớn hơn một ngưỡng cho trước thì cũng tồn tại một cạnh nối giữa hai nút tương ứng Đồ thị sau khi biểu diễn được phân hoạch thành các đồ thị con dựa
Trang 26trên các cạnh nối Nếu tóm tắt là chung thì mọi đồ thị con đều tham gia vào tóm tắt, nếu tóm tắt dựa vào truy vấn thì đồ thị nào gần với truy vấn nhất sẽ được dùng tạo
ra tóm tắt
Thuật toán xếp hạng dựa trên đồ thị chủ yếu là quyết định độ quan trọng của một đỉnh thuộc một đồ thị Ý tưởng cốt lõi thực hiện mô hình này là “voting” – bình chọn và “recommendation” – tiến cử Điều này thể hiện ở chỗ, khi có một đỉnh liên kết với đỉnh khác thì nó sẽ cộng thêm trọng số cho đỉnh liên kết với nó Một đỉnh có trọng số càng cao, độ quan trọng của nó càng lớn Mihalcea và Tarau trong công
trình [5] đã đưa ra công thức tính trọng số cho đỉnh V i như sau:
- d là tham số nằm trong khoảng [0,1], thường được chọn là 0.85
Đầu tiên, mỗi đỉnh của đồ thị được gán giá trị tùy ý, tiến hành quá trình lặp tính toán trọng số cho các đỉnh và dừng khi giá trị hội tụ dưới một ngưỡng cho trước Thuật toán kết thúc, thu được trọng số cho mỗi đỉnh của đồ thị Nó tượng trưng cho
độ quan trọng của đỉnh đó cho đồ thị Trọng số này không bị ảnh hưởng bởi giá trị gán ngẫu nhiên ban đầu Trong nghiên cứu [5], Mihalcea và Tarau sử dụng thuật toán xếp hạng đồ thị là Pagerank và HITS tính độ quan trọng cho mỗi đỉnh đồ thị Công thức tính độ tương tự giữa hai câu Si và Sj được xác định như sau:
Trong đó, câu Si dài N từ được biểu diễn: Si = wi1 + wi2 + ….+ win
Bên cạnh đó, để xác định độ tương tự giữa hai câu còn có thể sử dụng các độ đo:
độ tương tự cosin, xâu con chung dài nhất,…
Trang 27Dưới đây là một ví dụ minh họa cho đồ thị trích xuất câu trong bài báo khoa học của Mihalcea và Tarau:
Hình 2-1 : Đồ thị trích xuất câu trong công trình [5]
Sau quá trình xếp hạng các câu, nhưng câu có trọng số cao sẽ được lấy ra và đưa vào bản tóm tắt cuối cùng, số lượng các câu được lấy sẽ được xác định thông qua một tỷ lệ cho trước (tỷ lệ nén)
Tóm tắt đa văn bản dựa vào xếp hạng đồ thị:
Các bước thực hiện tóm tắt dựa trên đồ thị được trình bày ở trên là một quá trình tóm tắt đơn văn bản hoàn chỉnh, để áp dụng quá trình này cho tóm tắt đa văn bản nhóm tác giả Mihalcea và các cộng sự đưa ra mô hình ghép nối như sau[Hình 2.2]:
- Từng văn bản của cùng một cụm văn bản sẽ được đưa lần lượt qua quá trình tóm tắt đơn văn bản dựa vào độ thị
- Tập các văn bản tóm tắt được sinh ra sẽ ghép lại thành một “siêu văn bản”
- “Siêu văn bản” này sẽ lại được đưa qua quá trình tóm tắt đơn văn bản để sinh ra văn bản tóm tắt cuối cùng cho toàn bộ cụm văn bản