Chương 2: Phương pháp xếp hạng dựa trên đồ thị Trình bày các phương pháp xếp hạng dựa trên đồ thị như PageRank, HITS, đưa ra việc sử dụng thuật toán TextRank để giải quyết bài toán tóm t
Trang 2LUẬN VĂN THẠC SĨ MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS NGUYỄN LONG GIANG
HÀ NỘI, 2018
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành đến PGS.TS Nguyễn Long Giang, người
thầy đã định hướng đề tài và tận tình hướng dẫn tôi trong suốt quá trình tôi nghiên cứu khoa học và thực hiện luận văn thạc sỹ này
Tôi cũng xin cảm ơn sự tận tình giảng dạy, chỉ bảo, truyền đạt những kiến thức, những kinh nghiệm của thầy cô trường Đại học Sư Phạm Hà Nội 2 trong thời gian học tập và nghiên cứu
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân và đồng nghiệp đã động viên, giúp đỡ và khuyến khích tôi trong suốt thời gian học cao học cũng như quá trình thực hiện luận văn cao học Xin trân trọng cảm ơn!
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là kết quả nghiên cứu của tôi dưới sự hướng dẫn
của PGS.TS Nguyễn Long Giang Trong toàn bộ nội dung của luận văn, những
điều được trình bày là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả nguồn tài liệu tham khảo đều có nguồn gốc và trích dẫn rõ ràng, đầy đủ
Hà Nội, 2018
Học viên
Nguyễn Thị Ngọc Ánh
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH SÁCH KÝ HIỆU, TỪ VIẾT TẮT v
DANH MỤC HÌNH VẼ vi
MỞ ĐẦU 1
Chương 1 TỔNG QUAN 3
1.1 Tổng quan về khai phá dữ liệu 3
1.1.1 Khai phá dữ liệu 3
1.1.2 Quy trình khai phá dữ liệu 4
1.1.3 Ứng dụng của khai phá dữ liệu 5
1.2 Khai phá dữ liệu văn bản 6
1.2.1 Tổng quan về khai phá dữ liệu văn bản 6
1.2.2 Quy trình khai phá dữ liệu văn bản 6
1.3 Tóm tắt văn bản tự động 8
1.3.1 Tóm tắt văn bản 8
1.3.2 Ứng dụng của tóm tắt văn bản 10
1.3.3 Phân loại tóm tắt 10
1.3.4 Mô hình tóm tắt văn bản 14
1.3.5 Quy trình thực hiện tóm tắt văn bản 14
1.3.6 Đánh giá văn bản tóm tắt 17
1.3.7 Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt 20
1.3.8 Phát biểu bài toán đơn văn bản tiếng Việt 22
1.3.9 Tóm tắt chương I 22
Chương 2 PHƯƠNG PHÁP XẾP HẠNG DỰA TRÊN ĐỒ THỊ 23
2.1 Các thuật toán xếp hạng dựa trên đồ thị 23
2.1.1 Thuật toán PageRank 23
2.1.2 Thuật toán HITS 26
Trang 62.1.3 Đánh giá và so sánh giữa thuật toán PageRank và thuật toán HITS 28
2.2 Thuật toán TextRank 29
2.2.1 Thuật toán TextRank 29
2.2.2 Các công thức tính độ tương đồng 31
2.2.3 Nhận xét thuật toán TextRank 34
2.3 Tóm tắt Chương 2 35
Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 36
3.1 Yêu cầu về bài toán tóm tắt đơn văn bản tiếng Việt 36
3.1.1 Yêu cầu chức năng 36
3.1.2 Các yêu cầu khác 36
3.1.3 Yêu cầu về môi trường thực nghiệm 36
3.1.4 Yêu cầu về dữ liệu thực nghiệm 36
3.2 Mô hình giải quyết bài toán 37
3.2.1 Tiền xử lý văn bản 38
3.2.2 Xây dựng đồ thị câu 40
3.2.3 Tính hạng câu trên đồ thị 41
3.2.4 Sinh văn bản tóm tắt 42
3.3 Thực nghiệm, đánh giá kết quả 42
3.3.1 Cài đặt chương trình 42
3.3.2 Đánh giá kết quả thực nghiệm 49
3.4 Tóm tắt Chương 3 50
KẾT LUẬN 51
TÀI LIỆU THAM KHẢO 53
Trang 7DANH SÁCH KÝ HIỆU, TỪ VIẾT TẮT
1 Recall-Oriented Understudy for Gisting Evaluation ROUGE
2 Hyperlinked Induced Topic Search HITS
3 Document Understanding Conference DUC
4 Natural Language Processing LNP
5 Text Analysis Conference TAC
Trang 8DANH MỤC HÌNH VẼ
Hình 1.1: Quy trình khai phá dữ liệu 4Hình 1.2: Quy trình khai phá dữ liệu văn bản 7Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản 9Hình 1.4 Mô hình tóm tắt văn bản tự động 14
Hình 3.8: Lựa chọn phần trăm độ dài tóm tắt 45
Hình 3.10: Nút hiển thị đồ thị 45Hình 3.11: Chọn số nút hiển thị 45Hình 3.12: Nút hiển thị toàn bộ 46
Trang 9Hình 3.13: Nút hiển thị TextRank 46Hình 3.14: Giao diện văn bản chi tiết 46Hình 3.15: Giao diện tóm tắt 47Hình 3.16: Giao diện hiển thị đồ thị TextRank theo yêu cầu số nút 47Hình 3.17: Giao diện hiển thị 100% số nút 48Hình 3.18: Giao diện hiển thị TextRank cho các câu 48
Trang 10MỞ ĐẦU
1 Tính cấp thiết đề tài
Ngày nay, sự phát triển mạnh mẽ của công nghệ thông tin và các dịch vụ trực tuyến đã tạo ra nguồn thông tin khổng lồ, do vậy nhu cầu tổng hợp và tóm tắt lại các thông tin quan trọng đang trở thành vấn đề cấp thiết Tóm tắt dữ liệu tự động là hướng nghiên cứu rất quan trọng trong khai phá dữ liệu và có tính ứng dụng thực tiễn cao Bài toán tóm tắt dữ liệu tự động bao gồm tóm tắt dữ liệu văn bản và tóm tắt các dữ liệu đa phương tiện như hình ảnh, âm thanh, các đối tượng đồ họa, video Tóm tắt văn bản giúp người dùng tiết kiệm được thời gian, tăng hiệu quả tìm kiếm
về vấn đề nào đó Xuất phát từ nhu cầu đó, các phương pháp tóm tắt dữ liệu tự động được nghiên cứu và phát triển
Bài toán tóm tắt văn bản tự động ngày càng nhận được nhiều sự quan tâm và nghiên cứu của các nhà khoa học trên thế giới Các bài báo liên quan đến tóm tắt văn bản tự động được đề cập nhiều trong các hội nghị nổi tiếng như: DUC1 2001-
2007, TAC2 2008, ACL3 2001-2007… Ngoài ra, có nhiều hệ thống tóm tắt văn bản độc lập hoặc tích hợp được phát triển như: MEAD, LexRank, chức năng tự động tóm tắt trong Microsoft Word Tuy nhiên, các nghiên cứu này vẫn chưa được đánh giá cụ thể Như vậy ta thấy được tầm quan trọng của tóm tắt văn bản tự động và cần
có một tiêu chí để đánh giá kết quả của văn bản tóm tắt
Với các phân tích trên, luận văn lựa chọn đề tài: “Phương pháp xếp hạng
dựa trên đồ thị và ứng dụng vào tóm tắt văn bản tự động” để nghiên cứu
2 Mục tiêu nghiên cứu
Tìm hiểu tổng quan về phương pháp xếp hạng dựa trên đồ thị TextRank, bài toán tóm tắt văn bản tự động và ứng dụng thuật toán TextRank xây dựng đồ thị câu, xếp hạng câu trên đồ thị Trên cơ sở đó, cài đặt thử nghiệm tóm tắt đơn văn bản tiếng Việt, đánh giá kết quả thu được sau thực nghiệm
1Document Understanding Conference http://duc.nist.gov
2
Text Analysis Conference http://www.nist.gov/tac
3Association for Computational Linguistics http://aclweb.org
Trang 113 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
- Các văn bản tiếng Việt
- Thuật toán TextRank và ứng dụng xếp hạng câu trên đồ thị câu
3.2 Phạm vi nghiên cứu
Tóm tắt đơn văn bản tiếng Việt bằng thuật toán TextRank sử dụng đồ thị câu
4 Cấu trúc của luận văn
Luận văn có cấu trúc như sau:
Mở đầu: Lý do chọn đề tài
Chương 1: Tổng quan
Chương này giới thiệu một cách khái quát về khai phá dữ liệu, khai phá văn bản và nền tảng chung nhất cho việc tóm tắt văn bản, cũng như việc đánh giá một văn bản tóm tắt nói riêng và đánh giá thuật toán khai phá nói chung
Chương 2: Phương pháp xếp hạng dựa trên đồ thị
Trình bày các phương pháp xếp hạng dựa trên đồ thị như PageRank, HITS, đưa ra việc sử dụng thuật toán TextRank để giải quyết bài toán tóm tắt văn bản Tiếng Việt
Chương 3: Thử nghiệm và đánh giá kết quả
Xây dựng chương trình sử dụng thuật toán TextRank để tóm tắt đơn văn bản
và kết quả cài đặt ứng dụng thử nghiệm
Kết luận: Tóm tắt kết quả đạt được của luận văn và định hướng phát triển tương lai
Trang 12Chương 1 TỔNG QUAN 1.1 Tổng quan về khai phá dữ liệu
Những năm gần đây, với sự phát triển mạnh mẽ vượt bậc của khoa học công nghệ, đặc biệt là công nghệ thông tin khiến dữ liệu tăng lên nhanh chóng Ta có thể nhìn thấy dữ liệu ở khắp mọi nơi như bài báo, thư điện tử, công văn, trang web, và hầu hết chúng đều ở dạng dữ liệu văn bản Dữ liệu văn bản tăng nhanh đòi hỏi việc lưu trữ trên các bản ghi hay thiết bị điện tử như băng từ, ổ cứng, đĩa CD cũng tăng lên Người ta ước tính rằng sau khoảng hai năm, lượng thông tin có thể tăng gấp hai lần hoặc hơn thế nữa Vì vậy việc khai thác, tìm kiếm các thông tin hữu ích trong cơ
sở dữ liệu (CSDL) theo cách truyền thống ngày càng trở nên khó khăn khi số lượng
và kích cỡ CSDL ngày càng lớn Vấn đề đặt ra là phải có những phương pháp, kỹ thuật mới để tìm ra được những thông tin quan trọng và có ích từ các CSDL đồ sộ Khai phá dữ liệu (Data Mining) ra đời như một kết quả tất yếu để giải quyết vấn đề nêu trên Thuật ngữ Data Mining được biết đến từ cuối những năm 80 của thế kỷ XX và được các nhà khoa học quan tâm, có thể hiểu nó là quá trình trích chọn ra tri thức để tìm ra các mẫu hoặc các mô hình bị che lấp trong CSDL
1.1.1 Khai phá dữ liệu
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Kết quả của quá trình này là tìm ra các tri thức đang tồn tại trong CSDL nhưng bị che lấp để phục vụ cho mục đích nào đó Khai phá dữ liệu giúp tìm kiếm tri thức nhanh hơn và hiệu quả hơn, tri thức ở đây được hiểu là những thông tin mới, hữu ích Qua tìm hiểu, có nhiều định nghĩa về khai phá dữ liệu, luận văn xin trình bày một số định nghĩa tiêu biểu của các tác giả:
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp
được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chưa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”
Trang 13Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm
thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”
Tóm lại, Data Mining được hiểu là việc tìm ra một tập hợp nhỏ dữ liệu có giá trị từ tập các dữ liệu thô ban đầu bằng việc sử dụng các kỹ thuật như thống kê, học máy, nhận dạng, trí tuệ nhân tạo Hiện nay có nhiều thuật ngữ được sử dụng có nghĩa tương tự thuật ngữ Data Mining như Knowledge Mining, Knowledge Extraction, Data Dredging,
1.1.2 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu được mô tả ở Hình 1.1
1 Làm sạch dữ liệu (Data cleaning &Preprocessing): xử lý dữ liệu nhiễu, biến
đổi, rút gọn dữ liệu, bổ sung các giá trị bị mất Sau bước này dữ liệu sẽ nhất quán
2 Tích hợp dữ liệu (Data integration): Tích hợp dữ liệu từ nhiều cơ sở dữ liệu
hoặc từ các file thành những kho dữ liệu
3 Chọn lựa dữ liệu (Data selection): Từ kho dữ liệu, lựa chọn dữ liệu cần
thiết, sau đó chuyển đổi về dạng phù hợp cho quá trình khai thác tri thức
4 Biến đổi dữ liệu (Data traformation): Các dữ liệu được chuyển đổi về dạng
phù hợp nhất để phục vụ cho quá trình xử lý
Dữ liệu đích
Dữ liệu
đã tiền
xử lý
Dữ liệu chuyển dạng
Mẫu
Tri thức
Đánh giá
và trình diễn Khai phá
dữ liệu Đổi dạng
Tiền xử
lý Chọn lựa
Hình 1.1: Quy trình khai phá dữ liệu
Trang 145 Khai phá dữ liệu (Data Mining): Đây là bước quan trọng nhất để trích chọn
ra những mẫu dữ liệu tiềm ẩn quan trọng Bước này sử dụng một số kỹ thuật như phân lớp, gom cụm, luật kết hợp
6 Đánh giá mẫu (Knowledge Evaluation): Lựa chọn tiêu chuẩn đánh giá các
mẫu dữ liệu, xác định các mẫu cần thiết để biểu diễn tri thức
7 Biểu diễn tri thức (Knowledge Presentation): Sử dụng các kỹ thuật để biểu
diễn các tri thức và thể hiện trực quan các tri thức đến với người dùng, như đồ thị, bảng biểu, cây,
1.1.3 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu không còn là khái niệm xa lạ với chúng ta, sự ra đời của các ứng dụng của khai phá dữ liệu khẳng định tầm quan trọng của nó đối với thực tiễn Khai phá dữ liệu sử dụng kiến thức từ nhiều lĩnh vực khác nhau như thống kê, thuật toán, trí tuệ nhân tạo, CSDL, tính toán song song,… Hiện nay các nhà khoa học hay các công ty phần mềm lớn vẫn đang tiếp tục nghiên cứu và phát triển các ứng dụng của khai phá dữ liệu để phục vụ cho cuộc sống Qua tìm hiểu, luận văn đưa ra một
số ứng dụng của khai phá dữ liệu như:
- Cung cấp tri thức, dự báo, khái quát dữ liệu
- Ngân hàng: phân tích tình hình tài chính, dự báo rủi ro, phân loại khách hàng mục tiêu, phân tích lãi suất, phát hiện gian lận
- Thống kê: phân tích dữ liệu và hỗ trợ ra quyết định
- Y tế: Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán bệnh và đưa ra phương pháp điều trị
- Mạng viễn thông: Phân tích các cuộc gọi, giám sát lỗi, sự cố, chất lượng dịch vụ
- Text mining và Web mining: Phân lớp văn bản, trang Web, tóm tắt văn bản
- Sinh học: phân tích dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các
hệ gene và thông tin di truyền
Trang 151.2 Khai phá dữ liệu văn bản
1.2.1 Tổng quan về khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản (Text Mining) là quá trình xử lý và trích chọn những thông tin có giá trị trong văn bản Có thể thấy khái niệm này gần giống với khai phá
dữ liệu, tuy nhiên đây chỉ là một bước nhỏ trong khai phá dữ liệu Trong Text Mining thì bài toán tóm tắt văn bản là điển hình nhất
Như chúng ta đã biết, dữ liệu xuất hiện ở mọi nơi, bất kì một công ty hay tổ chức nào đó đều có nhu cầu lưu trữ lại dữ liệu để phục vụ mục đích riêng Hiện nay, hầu hết các thông tin, dữ liệu quan trọng đều được số hóa và lưu trữ trong CSDL văn bản, bao gồm các nguồn tài liệu từ nhiều lĩnh vực khác nhau như các bài báo nghiên cứu, các trang web, báo điện tử, thư điện tử, World Wide Web, các thông tin
về chính phủ, thương mại, công nghiệp, giáo dục, Sự bùng nổ thông tin ở dạng số
là nguyên nhân khiến cho CSDL văn bản phát triển nhanh chóng, điều này gây khó khăn trong việc tiếp nhận nội dung chính của nó
Dữ liệu lưu trữ trong CSDL văn bản là dữ liệu bán cấu trúc, nghĩa là chúng không hoàn toàn phi cấu trúc cũng không hoàn toàn cấu trúc Ví dụ: một tài liệu có thể chứa một vài trường cấu trúc như tiêu đề, tên tác giả, ngày xuất bản, phân loại… Nhưng cũng có thể chứa một lượng lớn các trường phi cấu trúc như phần tóm tắt hay nội dung của tài liệu
Từ những vấn đề trên, rất khó để đưa ra các câu truy vấn hiệu quả vì người ta không biết bên trong dữ liệu có chứa những thông tin gì Vì thế việc đưa ra câu truy vấn để trích rút các thông tin cần thiết cũng như sắp xếp lại dữ liệu trở nên khó khăn Do đó vấn đề đặt ra ở đây là làm sao có thể tìm kiếm, khai thác nguồn dữ liệu một các hiệu quả nhất Các kỹ thuật để giải quyết vấn đề này được gọi là Text Mining hay còn gọi là khai phá dữ liệu văn bản…
1.2.2 Quy trình khai phá dữ liệu văn bản
Quy trình khai phá dữ liệu văn bản gồm các bước trong Hình 1.2
Trang 16Hình 1.2: Quy trình khai phá dữ liệu văn bản
- Thu thập văn bản: Thu thập các dữ liệu, văn bản có liên quan, cần thiết cho quá trình xử lý
- Tiền xử lý: phân đoạn, tách nhỏ, biến đổi, xử lý nhiễu dữ liệu
- Phân tích, xử lý văn bản: Loại bỏ các thông tin không cần thiết
- Hiển thị văn bản sau khi đƣợc xử lý
Các bài toán điển hình của Text Mining gồm:
- Tóm tắt văn bản
- Phân lớp, phân loại văn bản
- Thu thập thông tin
- Đánh chỉ mục, tìm kiếm
Nguồn dữ liệu
Thu thập văn bản
Tiền xử lý Làm sạch
Phân tích
Xử lý văn bản
Hiển thị văn bản
Trang 171.3 Tóm tắt văn bản tự động
1.3.1 Tóm tắt văn bản
Tóm tắt văn bản là bài toán điển hình của Text Mining Tóm tắt văn bản là quá trình chắt lọc những thông tin, dữ liệu quan trọng nhất từ văn bản gốc để tạo ra một bản ngắn gọn đáp ứng yêu cầu của người dùng Ngày nay với sự tăng lên không ngừng của dữ liệu, các phương pháp tóm tắt thủ công khó đáp ứng được yêu cầu người dùng vì tốn rất nhiều thời gian Thay vào đó là tóm tắt văn bản một cách tự động bằng sử dụng các kỹ thuật hay phương pháp nào đó
Theo Inderjeet Mani, tóm tắt văn bản nhằm đến mục đích: “Trích xuất nội
dung từ một nguồn thông tin và trình bày nội dung quan trọng nhất cho người sử dụng theo một khuân dạng xúc tích và gây cảm xúc với người sử dụng hoặc chương trình cần nhắm đến”[11] Tóm tắt văn bản phải đảm bảo các đặc điểm sau đây:
Rút gọn văn bản: Nội dung trong văn bản tóm tắt phải ít hơn văn bản gốc, nhưng phải đảm bảo vẫn còn những thông tin quan trọng, nổi bật
- Độ rút gọn: Là tỉ số giữa đơn vị ngữ liệu của văn bản kết quả trên số lượng đơn vị ngữ liệu của tập văn bản nào
- Tỷ lệ này có thể là câu/câu, từ/từ, tiếng/tiếng, thường tính bằng (%)
- Độ rút gọn tỉ lệ thuận với độ khó của thuật toán
- Các văn bản tóm tắt thường có một chiều dài nhất định được mong muốn
Nội dung thông tin: Phải trung thực hoặc tương đương với văn bản nguồn
- Phải liên quan, đáp ứng được yêu cầu của người dùng
- Được đánh giá dựa trên hệ thống đánh giá SUMMAC, ROUGE … và tập các dữ liệu, kiểm thử mẫu (Corpus) Độ chính xác tỷ lệ thuận với độ khó của thuật toán
Trang 18được lựa chọn để trích rút, tóm lược ở câu hoặc đoạn văn Sau khi chọn ra các ngữ liệu, hệ thống thực hiện tóm tắt và hiển thị kết quả ra màn hình
Hình 1.3: Minh hoạ trang báo điện tử sử dụng công cụ tóm tắt văn bản
Tóm tắt văn bản phải đảm bảo các yêu cầu sau:
- Văn bản tóm tắt phải ngắn hơn so với văn bản gốc
- Văn bản tóm tắt phải giữ được thông tin quan trọng của văn bản gốc
Vì vậy, trong quá trình tóm tắt văn bản người ta quan tâm đến tỉ lệ nén và tỉ
Trang 19o r s: Tỷ lệ thông tin
o c s: Số từ mang thông tin của văn bản tóm tắt
o c o: Số từ mang thông tin của văn bản gốc
1.3.2 Ứng dụng của tóm tắt văn bản
Một số ứng dụng tiêu biểu của tóm tắt văn bản:
- Tóm tắt tin tức: Ứng dụng cho các hệ thống đọc báo
- Tóm tắt kết quả tìm kiếm trong máy tìm kiếm từ các search engineer
- Thu thập dữ liệu thông minh (trợ giúp thông minh việc đọc và khai thác thông tin)
- Tóm tắt bài báo khoa học, giản lược trên các thiết bị cầm tay
- Tóm tắt nội dung hội nghị, cuộc họp, webside, chương trình phát thanh và truyền hình, sổ tay công việc
- Tóm tắt nội dung video, audio…
Có thể thấy rằng tóm tắt văn bản có nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên, ngoài ra một một số module và kết quả của bài toán cũng là đầu vào hay những bước tiền xử lý cho bài toàn khác của khai phá dữ liệu văn bản
1.3.3 Phân loại tóm tắt
Bài toán tóm tắt văn bản được phân loại dựa trên các nhân tố khác nhau, luận văn đưa ra 4 nhân tố cơ bản để phân loại tóm tắt văn bản đó là:
- Đầu vào của văn bản tóm tắt
- Chức năng của văn bản tóm tắt
- Mục đích của văn bản tóm tắt
- Đầu ra của văn bản tóm tắt
1.3.3.1 Nhân tố về đầu vào
Dựa vào nhân tố đầu vào có thể chia văn bản tóm tắt thành tóm tắt đơn văn bản và tóm tắt đa văn bản
Tóm tắt đơn văn bản
Từ một văn bản gốc, qua quá trình xử lý cho ra kết quả là một văn bản ngắn gọn hơn nhưng vẫn giữ được các thông tin quan trọng của văn bản đó Văn bản ở đây có thể là một bài báo, tin tức, bài báo khoa học, một tài liệu dạng văn bản, hay
Trang 20một nội dung đăng trên mạng xã hội, Đây là loại tóm tắt thường gặp và đơn giản
vì đầu vào và đầu ra đều là đơn văn bản Tóm tắt đơn văn bản là tiền đề cho việc xử
lý tóm tắt đa văn bản và các bài toán tóm tắt phức tạp hơn Phương pháp để giải quyết bài toán này bao gồm tóm tắt theo trích xuất và tóm tắt theo tóm lược
- Tóm tắt theo trích xuất
Đa số các phương pháp tóm tắt loại này tập trung vào việc trích xuất ra các
câu hay các từ ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một văn bản tóm tắt Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [8],[21]
Để tìm ra các thành phần quan trọng trong văn bản, các kỹ thuật tóm tóm tắt văn bản được sử dụng gần đây có thể kể đến phương pháp học máy và xử lý ngôn ngữ tự nhiên Áp dụng phương pháp học máy có thể kể đến phương pháp của Kupiec, Pendersonand Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [13] hay nghiên cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [7] Việc
áp dụng các phương pháp phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [20]
- Tóm tắt theo tóm lược
Các phương pháp tóm tắt không sử dụng trích xuất để tạo ra văn bản tóm tắt
có thể coi là một phương pháp tiếp cận tóm tắt theo tóm lược Các hướng tiếp cận
có thể kể đến như dựa vào trích xuất thông tin (Information Extraction), Ontology, hợp nhất và nén thông tin
Một trong những phương pháp tóm tắt theo tóm lược cho kết quả tốt là các phương pháp dựa vào trích xuất thông tin Phương pháp dạng này sử dụng các mẫu
đã được định nghĩa trước về một sự kiện hay là cốt truyện, hệ thống sẽ tự động điền các thông tin, dữ liệu vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt Mặc dù phương pháp này cho ra kết quả tốt, tuy nhiên các phương pháp dạng này thường chỉ áp dụng trong một miền nhất định [5], [13]
Trang 21 Tóm tắt đa văn bản:
Đa văn bản có thể hiểu là rất nhiều văn bản có thể cùng một lĩnh vực, hay nhiều lĩnh vực khác nhau Đây là loại tóm tắt phức tạp hơn nhiều tóm tắt đơn văn bản Kết quả của quá trình này là một văn bản tóm tắt ngắn gọn được sinh ra từ một tập các văn bản nguồn ban đầu nhưng vẫn đảm bảo được nội dung. Việc xử lý tóm tắt đa văn bản cũng khó khăn và phức tạp, bao gồm các công việc như: tóm tắt đơn văn bản, tiền xử lý trích rút, tích hợp khuân dạng, hiển thị theo cách riêng
Một số khó khăn tóm tắt đa văn bản vấp phải như: dư thừa dữ liệu, nội dung các văn bản nguồn phân tán, thời gian xử lý cần phải nhanh trong khi sự phức tạp
xử lý lớn
Có thể nói tóm tắt đơn văn bản là cơ sở, là tiền đề cho tóm tắt đa văn bản Ngoài ra, đối với nhân tố đầu vào là mỗi kiểu văn bản khác nhau (bài báo, tin tức, bài báo khoa học,….) thì sẽ có những kiểu tóm tắt khác nhau
1.3.3.2 Nhân tố về chức năng
Dựa vào nhân tố chức năng có thể chia thành ba loại tóm tắt sau: tóm tắt chỉ định, tóm tắt thông tin, tóm tắt đánh giá
- Tóm tắt chỉ định: chỉ ra loại thông tin
- Tóm tắt thông tin: tóm tắt các nội dung quan trọng nhất của văn bản gốc
- Tóm tắt đánh giá: trong kết quả tóm tắt có cả đánh giá của người tóm tắt
1.3.3.3 Nhân tố về mục đích của văn bản tóm tắt
Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích của tóm tắt là gì, tóm tắt phục vụ đối tượng nào Mục đích, đối tượng khác nhau sẽ có cách tóm tắt khác nhau, ví dụ như đối tượng chuyên gia sẽ khác đối tượng thông thường, mục đích tìm kiếm sẽ khác với sắp xếp Dựa vào mục đích của văn bản tóm tắt có hai loại tóm tắt sau:
- Tóm tắt văn bản chung (Generic): Mục đích là tìm ra văn bản tóm tắt bao quát được toàn bộ nội dung của văn bản gốc
- Tóm tắt hướng truy vấn (Query-Oriented): Dựa trên truy vấn của người dùng hay chương trình đưa vào để đưa ra văn bản tóm tắt Đây là loại tóm được sử dụng để trả về kết quả từ máy tìm kiếm
Trang 221.3.3.4 Nhân tố về đầu ra của văn bản tóm tắt
- Dựa vào ngôn ngữ, có thể phân loại dựa vào khả năng tóm tắt các loại
ngôn ngữ như sau:
• Tóm tắt đơn ngôn ngữ (Monolingual): hệ thống có thể tóm tắt chỉ một loại
ngôn ngữ nhất định như: tiếng Việt, tiếng Anh, tiếng Pháp,
• Tóm tắt đa ngôn ngữ (Multilingual): hệ thống có khả năng tóm tắt nhiều
loại văn bản của các ngôn ngữ khác nhau, tuy nhiên tương ứng với văn bản đầu vào
là ngôn ngữ gì thì văn bản đầu ra cũng là ngôn ngữ tương ứng
• Tóm tắt xuyên ngôn ngữ (Crosslingual): hệ thống có khả năng đưa ra các
văn bản đầu ra có ngôn ngữ khác với ngôn ngữ của văn bản đầu vào
- Dựa vào định dạng đầu ra: như bảng, đoạn, từ khóa
Ngoài ra, dựa vào đầu ra của văn bản tóm tắt có thể phân loại tóm tắt theo trích rút (Extract) và tóm tắt theo tóm lược (Abstract)
- Tóm tắt trích rút (Extractive Summary): văn bản tóm tắt chứa chính xác
ngữ liệu của văn bản gốc mà được trích rút ra trong quá trình tóm tắt
- Tóm tắt tóm lược (Abstractive Summary): văn bản tóm tắt có thể chứa
những đơn vị ngữ liệu mới mà văn bản gốc không có
Ví dụ đoạn văn sau:
“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ 1
Ba anh em chúng em đã chờ những ngày này khá lâu rồi 2
Chả là anh cả em được về phép thăm gia đình nhân dịp Tết 3 Bố mẹ em rất vui, hai người chuẩn bị một mâm cơm thật thịnh soạn 4 Căn phòng nhỏ tràn ngập tiếng cười và không khí gia đình 5
Bữa
ăn đã làm lên một cuối tuần tuyệt vời 6 ”
Văn bản kết quả của quá trình Trích rút:
“Hôm qua, gia đình em đã tổ chức một buổi cuối tuần vui vẻ Bữa ăn đã làm lên một cuối tuần tuyệt vời”
Văn bản kết quả của quá trình Tóm lược:
“Một buổi cuối tuần vui vẻ của gia đình em”
Trang 23Rõ ràng qua ví dụ này, ta có thể thấy ƣu điểm của tóm tắt tóm lƣợc so với tóm tắt trích rút, đó là sự rõ ràng mạch lạc, logic, dễ hiểu Tuy nhiên, việc xây dựng một hệ thống tóm tắt tóm lƣợc sẽ khó hơn xây dựng một hệ thống tóm tắt trích rút.
Qua tìm hiểu, tác giả quyết định nghiên cứu theo hướng tóm tắt trích rút
để giải quyết bài toán tóm tắt đơn văn bản Tiếng Việt
- Tiền xử lý: Biểu diễn và hiểu văn bản nguồn
- Trích rút câu: Trích chọn những câu có nội dung chính
- Sinh văn bản tóm tắt: Tạo ra văn bản mới chứa những điểm chính, nội dung quan trọng của văn bản gốc
Trang 24với đầu vào của từng phương pháp trong quá trình trích rút câu Giai đoạn này rất quan trọng trong bài toán tóm tắt băn bản, nó làm giảm dữ liệu nhiễu, dữ liệu dư thừa và giảm kích thước của dữ liệu đầu vào Kết quả của giai đoạn này thu được dạng biểu điễn phù hợp của dữ liệu, nếu kết quả của bước này không chính xác, dẫn
đến kết quả của những bước sau sẽ không đúng Đây là bước chung phải có của
bất kỳ phương pháp nào
Như ở trong luận văn này, sử dụng tách theo hai thư viện Không sử dụng loại bỏ từ dừng vì đây là tóm tắt văn bản chung và không quá dài không sử dụng tóm tắt có loại bỏ từ dừng
Pha xử lý này nhận đầu vào là tập các bài báo thuộc tập dữ liệu Các quá trình thực hiện theo bước sau:
- Loại bỏ các bài báo có nội dung trùng lặp
- Lọc nhiễu, lấy nội dung chính của bài báo
- Tách từ, tách câu các văn bản có được bằng công cụ JvnTextPro của tác giả Nguyễn Cẩm Tú Tách từ đối với nhãn cụm
b Quá trình trích rút câu quan trọng
Sau bước tiền xử lý, ta sẽ thu được dữ liệu đã cấu trúc Tùy thuộc vào phương pháp tiếp cận mà dữ liệu được cấu trúc hợp lý
Pha này nhận đầu vào là các văn bản và nhãn cụm đã qua tiền xử lý, đầu ra là danh sách các câu đã được sắp xếp theo độ quan trọng về mặt ngữ nghĩa
Trong mô hình tóm tắt văn bản tự động, việc sắp xếp các câu theo mức độ quan trọng, loại bỏ sự chồng chéo giữa các văn bản là một bước quan trọng
Tóm tắt văn bản là bài toán xử lý ngôn ngữ tự nhiên Trong quá trình xử lý thì văn bản phải được biểu diễn, cấu trúc để máy tính có thể hiểu được Bài toán tóm tắt văn bản xử lý văn bản ở các mức độ như mức hình thái, mức cú pháp, mức ngôn ngữ Với mỗi mức độ sẽ có các đặc trưng khác nhau và có các phương pháp tiếp cận khác nhau Theo [1], thì có một số phương pháp sau:
Mức hình thái: Dùng các phương pháp dựa trên độ đo tương đồng trên mô
hình không gian vecto, áp dụng tính toán trọng số TF*IDF cho các từ, các câu và phương pháp thống kê
Trang 25Sơ lược về phương pháp thống kê:
- Các phương pháp thống kê đều tập trung vào những đặc trưng về hình thái của văn bản để tính điểm cho các câu và trích rút các câu quan trọng đưa vào văn bản tóm tắt
- Ý tưởng: Lặp đi lặp lại các thuật toán logic để tính điểm cho các câu, tương đương với việc các từ xuất hiện nhiều nhất sẽ trở thành chủ đề của văn bản đó Tư tưởng của phương pháp này dựa trên vị trí và tần suất xuất hiện các từ
Mức cú pháp: Phân tích những cấu trúc ngữ pháp tương ứng giữa các câu
trong văn bản
Sơ lược về cấu trúc ngữ pháp
Tư tưởng chính: những đơn vị văn bản (các câu hoặc từ) mà có nhiều liên kết với các đơn vị văn bản khác sẽ có độ quan trọng lớn Một số phương pháp cấu trúc tiêu biểu:
- Phương pháp sử dụng cấu trúc diễn ngôn: biểu diễn mối quan hệ diễn ngôn giữa các đoạn văn bản như quan hệ nhân quả, liệt kê, diễn giải Kết quả thu được ở phương pháp này là cây cấu trúc diễn ngôn, dựa vào đó sẽ đánh giá được độ quan trọng của các câu, đoạn văn và thực hiện trích rút, tạo ra nội dung tóm tắt cho văn bản
- Phương pháp sử dụng đồ thị: Văn bản đầu vào được biểu diễn dưới dạng đồ thị, trong đó mỗi nút của đồ thị đại diện cho một từ hoặc câu trong văn bản, mỗi cạnh thể hiện sự liên kết từ ngữ hoặc ngữ nghĩa, hay sự tương đồng giữa 2 đỉnh của
đồ thị Các đỉnh trên đồ thị được xếp hạng dựa trên một giải thuật xếp hạng nào đó Tùy thuộc vào tỷ lệ rút gọn mà các đoạn văn bản tương ứng với các đỉnh có trọng số cao nhất sẽ được lựa chọn để đưa vào văn bản tóm tắt
Mức ngữ nghĩa: Phân tích tên thực thể, mối quan hệ giữa các thực thể, sự
kiện nảy sinh thực thể để xác định độ quan trọng của thông tin, mức này sử dụng
phương pháp học máy
Sơ lược về phương pháp học máy
- Cách tiếp cận này thực hiện việc tạo văn bản tóm tắt dựa trên các thuật toán học máy Các kỹ thuật học máy điển hình được áp dụng đó là Navie-Bayes,
Trang 26Decision Tree, Hidden Makov Model, Log-Linear, Neural Network, SVM Những nghiên cứu, kỹ thuật, giải thuật của phương pháp học máy được sử dụng rộng rãi trong tóm tắt văn bản Phương pháp này có ưu điểm là cho phép thực hiện dễ dàng các kỹ thuật học máy khác nhau để xác định đâu là tốt nhất Tuy nhiên, cách tiếp cận này cần có một tập dữ liệu huấn luyện lớn để thu được kết quả Với việc tóm tắt văn bản tiếng Việt thì đây là một điều khó khăn vì chưa có được một tập dữ liệu lớn
c Quá trình sinh văn bản tóm tắt
Ở quá trình này, các câu được rút gọn ở bước trước được tổng hợp lại để tạo
ra văn bản tóm tắt Đối với tóm tắt văn bản trích rút, quá trình này sẽ chọn ra những câu được coi là quan trọng theo một phương pháp nào đó và dựa vào tỷ lệ nén để đưa ra văn bản tóm tắt
Trong bước này, các câu đã được sắp xếp ở pha trên sẽ được sắp xếp lại Trọng số độ quan trọng của câu sẽ được bổ sung thêm trọng số của văn bản chứa câu đấy, việc này sẽ giúp văn bản tóm tắt không có sự chồng chéo về mặt nội dung
Độ quan trọng của câu được tính theo giá trị TextRank Các câu sau khi được trích rút sẽ được sắp xếp vào một văn bản theo độ ưu tiên:
- Ưu tiên văn bản có độ đo TextRank cao hơn sẽ xếp lên đầu văn bản
- Ưu tiên theo thứ tự câu từ trên xuống dưới trong cùng một văn bản
1.3.6 Đánh giá văn bản tóm tắt
Đánh giá chất lượng của văn bản tóm tắt là một bước quan trọng trong tóm tắt văn bản, đây là việc khó khăn vì không dễ đưa ra tiêu chuẩn duy nhất về đánh giá đối với một văn bản hoặc một tập văn bản đã cho Hệ thống tóm tắt tự động thường cho kết quả không sát văn bản gốc Khi đánh giá chất lượng tóm tắt phải dựa trên độ đo khác nhau Thiếu các tiêu chuẩn đánh giá hoặc độ đo đánh giá tự động dẫn tới khó khăn khi so sánh các hệ thống khác
Bên cạnh đó, việc đánh giá thủ công có chi phí cao Năm 2014, Lin đã sử dụng phương pháp đánh giá thủ công cần tới hơn 3000 giờ của chuyên gia con người để có được kết quả báo cáo trong hội thảo DUC (Document Understanding
Trang 27Conference) Độ đo đánh giá muốn có chất lượng phải tương hợp với cách đánh giá thủ công của con người
Như trên đã nêu, hai yếu tố chính trong văn bản tóm tắt là tỉ lệ nén và tỉ lệ thông tin (mục 1.2) Do vậy, để đánh giá kết quả tóm tắt cho một văn bản được dựa trên hai yếu tố này
a Độ đo Recall - độ đo precision
Phần lớn các hệ thống tóm tắt sử dụng tóm tắt dựa trên trích rút câu Các câu được trích rút kết nối với nhau, tạo nên văn bản tóm tắt, không cần hiệu chỉnh thêm
Trong trường hợp này, người ta sử dụng độ đo triệu hồi và độ đo chính xác để đánh giá chất lượng bản tóm tắt
Độ đo Recal: là tỷ số giữa số lượng các câu được trích rút bởi hệ thống trùng
với số các câu mà con người trích rút trên số các câu chỉ được lựa chọn bởi con người:
(1.3)
Trong đó:
o SCHO: Số lượng câu được cả hệ thống và con người trích rút
o SCH: Số lượng câu được con người trích rút
Độ đo Precision: là tỷ số giữa số lượng các câu được cả hệ thống và con
người trích rút trên số các câu được hệ thống trích rút
Trang 28b Đánh giá thủ công
Cách đánh giá thủ công tốt nhất hiện nay là sử dụng ý kiến đánh giá của các chuyên gia ngôn ngữ, tuy nhiên đây là một phương pháp tốn kém Vì vậy, ngoài các phương pháp đánh giá thủ công, phương pháp đánh giá tự động kết quả tóm tắt cũng được quan tâm và nghiên cứu Từ những năm 2000, NIST2 tổ chức hội nghị DUC (Document understanding Conference) hàng năm để thực hiện việc đánh giá các hệ thống tóm tắt văn bản Mục đích của việc đánh giá tự động văn bản tóm tắt là tìm ra được một độ đánh giá giống với đánh giá của con người nhất
c Phương pháp đánh giá ROUGE
Các phương pháp đánh giá tóm tắt truyền thống thường gắn liền với đánh giá thủ công do con người thực hiện thông qua một số độ đo khác nhau, chẳng hạn như mức độ súc tích, mực độ liền mạch, ngữ pháp, mức độ dễ đọc và nội dung Tuy nhiên, phương pháp đánh giá kết quả tóm tắt thủ công được báo cáo tại hội thảo DUC 2003 đòi hỏi hơn 3000 giờ, chi phí này quá cao Vì thế, đánh giá tóm tắt tự động là một yêu cầu cấp thiết Lin và Hovy đề xuất một phương pháp đánh giá mới gọi là ROUGE (Recall-Oriented understudy for Gristing Evaluation) [14] Hiện nay phương pháp này được sử dụng như một phương pháp chuẩn đánh giá kết quả tóm tắt tự động cho văn bản tiếng Anh
Phương pháp ROUGE sử dụng n-gram để đánh giá sự tương quan giữa các kết quả của văn bản tóm tắt và tập dữ liệu đánh giá ROUGE được các chuyên gia, các nhà khoa học đánh giá cao vì cho ra kết quả tốt
Công thức đánh giá ROUGE với n-gram được xác định như sau:
(1.6)
Trong đó:
o S: là câu trong văn bản
o n : biểu thị cho chiều dài của n-gram đang xét
Trang 29o gram nvàcountmatch( gramn) là chuỗi số n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứng viên và tập các văn bản tóm tắt tham khảo
o Count(gram n ): Số gram n có trong văn bản tham chiếu
Như vậy, độ đo ROUGE-N thuộc dạng độ đo hồi tưởng (Recall-related)
1.3.7 Một số đặc trưng và khó khăn trong tóm tắt văn bản tiếng việt
1.3.7.1 Một số đặc trưng của tiếng Việt
Tiếng Việt thuộc loại hình ngôn ngữ đơn lập không biến đổi hình thái:
- Về mặt ngữ âm, đơn vị trong Tiếng Việt là “tiếng” hoặc “chữ” tùy theo ngữ
âm hoặc văn tự “tiếng” ở đây khi được phát âm là một âm tiết
- Đơn vị cấu tạo nên từ là “hình vị” Đối với Tiếng Việt, “hình vị” chính là
“tiếng”.Về ngữ pháp, “tiếng” được coi là đơn vị cơ sở của ngữ pháp học
- Từ trong Tiếng Việt không biến đổi hình thái trong khi sử dụng
Ví dụ: “Tôi yêu cô ấy” và “Cô ấy yêu tôi” là hai câu trong Tiếng Việt Các từ
“tôi” và “cô ấy” dù đứng ở vị trí chủ ngữ hay bổ ngữ đều không biến đổi hình thái Ngay cả động từ “yêu” cũng không biến đổi hình thái theo ngôi hoặc theo số ít hoặc
số nhiều của chủ ngữ
- Các từ được sắp xếp theo một trật tự nhất định dùng để biểu diễn quan hệ
cú pháp Trật tự từ thay đổi thì bản chất ngữ pháp cũng thay đổi
Nhà thơ Phan Thị Thanh Nhàn có viết:
“Người tôi yêu đã đi xa Người yêu tôi lại ở nhà chán không!”
Trong hai câu thơ trên, từ “tôi” và “yêu” đã đổi vị trí của nhau làm cho ý nghĩa hoàn toàn thay đổi
Về mặt cấu tạo , từ trong Tiếng Việt bao gồm từ đơn âm tiết và từ đa âm tiết
Từ đa âm tiết được hình thành từ việc ghép các đơn âm tiết với nhau
Trang 30Ví dụ: cùng âm tiết “gấu” nhưng trong từ “gấu áo” và “con gấu” lại biểu thị hai nghĩa hoàn toàn khác nhau
Tiếng Việt không có dấu hiệu về hình thái để nhận biết từ loại
Ví dụ: “Tôi lấy cân để cân gạo” Từ “cân” trong hai vị trí là hai từ loại khác nhau Từ “cân” đầu tiên là danh từ, từ “cân” tiếp theo lại là động từ
Hiện tượng gần âm khác nghĩa cũng xảy ra khá phổ biến
Ví dụ: bàng quan và bàng quang; cao tần và cao tầng; bàn bạc và bàng bạc; …
Hiện tượng gần nghĩa, đồng nghĩa giữa các từ nhưng lại không thể thay thế cho nhau trong từng hoàn cảnh sử dụng cũng xảy ra phổ biến
Ví dụ:
- Trình bày, trình diễn, trình chiếu, trình báo, trình diện;
- Đề cử, đề bạt, đề xuất, đề nghị, đề đạt;
1.3.7.2 Một số khó khăn trong tóm tắt văn bản tiếng việt
Tiếng Việt là một ngôn ngữ có ngữ pháp đa dạng và uyển chuyển Trong tiếng Việt có rất nhiều cách để diễn đạt thông tin mà để dự đoán được hết các trường hợp gần như là không thể, mặc dù với chúng ta thì hiểu một cách diễn đạt mới không phải là quá khó khăn Chính sự phong phú của cách diễn đạt, văn phong trong tiếng Việt tạo nên nhiều khó khăn trong việc tóm tắt văn bản tự động Ngoài
ra trong khi thực hiện tóm tắt tự động các tài liệu trực tuyến còn gặp một số vấn đề khó khăn phát sinh khác, điển hình như một số vấn đề dễ thấy sau đây:
Viết sai chính tả: Lỗi này gặp khá nhiều và thường xuyên, gây khó khăn rất
lớn Vì có thể bị từ viết sai và bị hiểu thành từ khác, hoặc chưa từng được biết đến Điều này dẫn tới việc xử lý sai lệch, kém chính xác
Viết không đúng ngữ pháp: Rất nhiều đoạn văn bản viết có dấu câu, dùng
dấu câu sai mục đích, hoặc viết hoa thường không đúng quy ước
Sử dụng từ lóng, từ viết tắt, tiếng nước ngoài: Nhiều đoạn văn bản được
thêm hoặc thay thế những từ thuần việt bằng từ nước ngoài khiến việc phân tích những văn bản trở nên khó khăn Điều này gây ra nhầm lẫn trong các hệ thống sử dụng luật, hay các hệ thống sử dụng học máy vì những từ vựng trên chưa từng xuất hiện trong tập học trước đó
Trang 31Văn bản không dấu: Dạng văn bản này ít gặp nhưng không phải là không
tồn tại
Tóm lại, đối với các phương pháp tóm tắt văn bản không chỉ của tiếng Việt mà cuả hầu hết các ngôn ngữ khác đều yêu cầu văn bản đầu vào chính thống Tức là phải là ngôn ngữ chuẩn, với tiếng Việt thì văn bản đó phải là tiếng Việt có dấu, đúng chính tả, đúng ngữ pháp Như vậy mới có thể loại bỏ các khó khăn gây ra bởi sự sai sót của dữ liệu đầu vào
1.3.8 Phát biểu bài toán đơn văn bản tiếng Việt
Trong luận văn này, luận văn đề xuất một phương pháp tóm tắt đối với văn bản Tiếng Việt Đầu vào là văn bản, bài báo tiếng Việt và tỷ lệ nén câu (độ dài của văn bản không quá một ngưỡng k từ cho trước), kết quả sẽ là nội dung tóm tắt của văn bản hoặc bài báo đó được hiển thị trên giao diện desktop
Bài toán tóm tắt văn bản tiếng việt có thể được phảt biểu như sau:
INPUT: Một văn bản, bài báo Tỉ lệ nén k từ
OUTPUT: Nội dung ngắn gọn của văn bản, bài báo đó theo tỉ lệ đã cho