Hầu hết các nghiên cứu về tóm tắt văn bản là tómtắt trích rút vì nó dễ thực hiện và có tốc độ nhanh hơn so với tóm tắt tóm lược.Hướng tiếp cận tóm tắt trích rút chủ yếu là dựa vào các đặ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2LỜI CAM ĐOAN
‘Tôi xin cam đoan luận văn này là công trình nghiên cứu của riêng tôi Các số liệu, kếtquả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bốtrong bất kỳ một công trình nào khác Tôi đã trích dẫn đầy đủ các tài liệu tham khảo,công trình nghiên cứu liên quan ở trong nước và quốc tế Ngoại trừ các tài liệu tham khảonày, luận văn hoàn toàn là sản phẩm của riêng tôi.’
Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên
i
Trang 3LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS NguyễnPhương Thái, Ths Vũ Huy Hiển đã tận tình chỉ bảo, giúp đỡ và hướng dẫn tôi trong suốtquá trình thực hiện luận văn này
Tôi xin chân thành cảm ơn quý thầy cô và nhà trường đã luôn tạo điều kiện thuận lợinhất cho chúng tôi học tập và nghiên cứu
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình, bạn bè của tôi Những người luôn giành thờigian ở bên cạnh quan tâm, động viên, và giúp đỡ tôi hết mình trong suốt quá trình họctập cũng như làm luận văn tốt nghiệp này
Hà Nội, ngày 20 tháng 10 năm 2015
Ký tên
ii
Trang 4Mục lục
1.1 Các tiếp cận trên thế giới 3
1.2 Các tiếp cận trong nước 4
1.3 Giải pháp đề xuất 6
2 Mạng từ 8 2.1 Mạng từ tiếng Anh - Wordnet 8
2.1.1 Thông tin chung 8
2.1.2 Các quan hệ trong mạng từ Wordnet 8
2.2 Mạng từ tiếng Việt 10
2.2.1 Từ điển của Laconec 10
2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15 11
2.3 Sử dụng mạng từ tiếng Việt 11
3 Ứng dụng xích từ vựng trong tóm tắt văn bản 13 3.1 Xích từ vựng 13
3.2 Xây dựng xích từ vựng 13
3.3 Sử dụng xích từ vựng 16
4 Thực nghiệm và các kết quả 18 4.1 Dữ liệu sử dụng 18
4.2 Phương pháp đánh giá 20
4.2.1 Đánh giá đồng chọn 20
4.2.2 Đánh giá tự động 21
4.3 Thực nghiệm 22
4.3.1 Môi trường thực nghiệm 22
4.3.2 Tiền xử lý 22
4.3.3 Đánh giá kết quả 22
iii
Trang 6Danh sách hình vẽ
1.1 Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng 7
3.1 Thuật toán tính toán các xích từ vựng 16
v
Trang 7Danh sách bảng
2.1 Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt 11
2.2 Số lượng từ tiếng Việt chia theo từng loại trong mạng từ 11
3.1 Ví dụ về xếp hạng độ quan trọng các câu khi sử dụng xích từ vựng 17
4.1 Thống kê chi tiết kho ngữ liệu Corpus_LTH 18
4.2 Tập văn bản sử dụng 19
4.3 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 23
4.4 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Chính trị 23
4.5 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa họcCông nghệ 23
4.8 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Văn hóa 23
4.9 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Xã hội 23
4.6 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Khoa họcGiáo dục 24
4.7 Kết quả đánh giá khi sử dụng độ đo ROUGE-1 với nhóm Kinh tế 24
vi
Trang 9MỞ ĐẦU
Ngày nay, dưới sự bùng nổ của kỷ nguyên Internet, thông tin văn bản được lưu trữtrên mạng Internet trở nên vô cùng lớn Hằng ngày, số lượng thông tin văn bản tănglên không ngừng Khối lượng thông tin khổng lồ này mang lại lợi ích không nhỏ chocon người, tuy nhiên cùng với đó là sự quá tải khiến cho chúng ta gặp rất nhiều khókhăn trong việc tìm kiếm, xử lý và tổng hợp thông tin Để cải thiện khả năng tìmkiếm cũng như tăng hiệu qủa cho các công việc xử lý thông tin, tóm tắt tự động
là giải pháp không thể thiếu để giải quyết vấn đề này Đối với tiếng Việt, bài toántóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc khai thác hiệuquả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn Nó có ứng dụng rất lớntrong các hệ thống như: tìm kiếm thông minh, đa ngôn ngữ, tổng hợp thông tin Đối với lĩnh vực an ninh quốc phòng, tóm tắt tin tức có thể giúp cho cán bộ nghiệp
vụ thu thập đủ các thông tin cần thiết và kịp thời theo dõi, đánh giá, xử lý nguồnthông tin một cách nhanh chóng
Nội dung luận văn này được chúng tôi trình bày như sau:
• Chương 1: Tổng quan về tóm tắt văn bản tự động
1
Trang 10DANH SÁCH BẢNG 2tôi trình bày các thực nghiệm và các kết quả mà chúng tôi đã đạt được Cuối cùng,chúng tôi đưa ra kết luận và các công việc trong tương lai ở Chương 5.
Trang 11Chương 1
Tổng quan về tóm tắt văn bản tự động
1.1 Các tiếp cận trên thế giới
Trên thế giới, bài toán tóm tắt văn bản xuất hiện từ lâu và không phải là bài toánmới Những kỹ thuật sơ khai được áp dụng để tóm tắt văn bản đã được đề xuất
từ những năm 50 của thế kỷ trước (Baxendale, 1958), (Luhn, 1958) Sau đó, những
kỹ thuật này tiếp tục được nghiên cứu và đạt nhiều kết quả ngày càng tốt hơn chonhiều loại ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Nhật, tiếng Trung Cácnghiên cứu tập trung vào hai hướng chính: tóm tắt rút trích (ES - ExtractionSummarization) và tóm tắt tóm lược (AS - Abstraction Summarization) theo(Jezek and Steinberger, 2008) Hầu hết các nghiên cứu về tóm tắt văn bản là tómtắt trích rút vì nó dễ thực hiện và có tốc độ nhanh hơn so với tóm tắt tóm lược.Hướng tiếp cận tóm tắt trích rút chủ yếu là dựa vào các đặc trưng quan trọng củavăn bản để tính trọng số câu để trích rút Trong khi đó, tóm tắt tóm lược là dựavào các kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp với thông tin về ngôn ngữ để tạo
ra các tóm tắt cuối cùng
Phần lớn các phương pháp tóm tắt trích rút đều tập trung trích rút ra các câuhay các từ ngữ nổi bật từ các đoạn văn bản và kết hợp chúng lại thành một vănbản tóm tắt Một số nghiên cứu trong giai đoạn đầu thường sử dụng các đặc trưngnhư vị trí của câu trong văn bản, tần số xuất hiện của từ, ngữ hay tính toán độquan trọng của các câu sử dụng các cụm từ khóa hay các thuộc tính riêng biệt qua
đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt theo (Luhn, 1958),
3
Trang 121.2 Các tiếp cận trong nước 4
(Edmundson,1969), (Carbonell and Goldstein,1998) Các kỹ thuật tóm tắt gần đây
có sử dụng các phương pháp học máy và xử lý ngôn ngữ tự nhiên nhằm phân tích
để tìm ra các thành phần quan trọng của văn bản Kupiec và cộng sự trong (Kupiec
et al., 1995) sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau Lin vàHovy (Lin and Hovy,1997) áp dụng phương pháp học máy nhằm xác định vị trí củacác câu quan trọng trong văn bản Sử dụng các phương pháp phân tích ngôn ngữ
tự nhiên trong tóm tắt văn bản có thể kể đến phương pháp sử dụng cơ sở dữ liệu(CSDL) từ vựng Wordnet của Barzilay và Elhadad (Barzilay and Elhadad, 1997).Mặc dù không sử dụng đến phân tích ngữ nghĩa ở mức sâu nhưng việc sử dụngcác phương pháp dựa trên kinh nghiệm (heuristic) trong các hệ thống này đem lạikết quả tương đối khả quan Ví dụ, hệ thống của Hovy và Lin (Hovy and Lin,1999)dựa trên vị trí câu trong văn bản và các từ gợi ý để đánh trọng số cho câu Nomoto
và Matsumoto (Nomoto and Matsumoto,2001) sử dụng học không giám sát để khaithác sự liên hệ của các khái niệm trong văn bản
Các phương pháp tóm tắt không sử dụng trích rút để tạo ra tóm tắt có thể xemnhư là các phương pháp theo tiếp cận tóm tắt tóm lược Các hướng tiếp cận có thể
kể đến như dựa trên thực thể hoặc dựa trên phân tích cấu trúc diễn ngôn của vănbản Cách tiếp cận dựa trên thực thể xây dựng một cách biểu diễn các thực thể, môhình hóa các thực thể trong văn bản và mối liên hệ giữa chúng Điển hình cho cáchtiếp cận này là hệ thống của Salton và cộng sự (Salton et al., 1996) Hệ thống này
tự động sinh ra các liên kết ngữ nghĩa (ở dạng chỉ dẫn liên kết: hypertext) giữa cácđoạn trong văn bản Đoạn càng nhiều liên kết thì càng quan trọng Trên cơ sở đó,các đoạn quan trọng được đưa vào bản tóm tắt
1.2 Các tiếp cận trong nước
Đối với tiếng Việt, bài toán tóm tắt văn bản vẫn là bài toán khó do những đặc trưngngôn ngữ chỉ có ở tiếng Việt Số lượng các nghiên cứu về tóm tắt văn bản tiếngViệt vẫn còn ít so với các nghiên cứu cho tiếng Anh Phần lớn các nghiên cứu hiệnnay chỉ là các nghiên cứu ngắn hạn, đơn lẻ và dừng lại ở mức đề tài tốt nghiệp hayluận văn thạc sĩ, tiến sĩ hay đề tài nghiên cứu khoa học cấp bộ như các nghiên cứutrong (Thanh-Hương,2014), (Thu-Hà,2012), (Quốc-Định and Quang-Dũng, 2012),(Nguyen et al., 2005), (Quang-Uy et al., 2012), (Ha et al., 2005) Các tiếp cậnđược công bố về tóm tắt văn bản thường dựa trên hướng trích xuất, tuy nhiên vẫn
Trang 131.2 Các tiếp cận trong nước 5
có hai hướng tiếp cận là tóm tắt trích rút và tóm tắt tóm lược Mặt khác, tại ViệtNam, chưa có một kho ngữ liệu chuẩn nào được công bố để phục vụ cho tóm tắtvăn bản nên hầu hết các thử nghiệm được tiến hành đều dựa trên những kho ngữliệu tự xây dựng Do vậy, việc đánh giá hiệu quả của từng phương pháp vẫn cầnphải xem xét kỹ hơn
Ở Việt Nam, một số kết quả nghiên cứu về tóm tắt văn bản tiếng Việt đã đượccông bố Tuy nhiên, phần lớn các nghiên cứu đó mới chỉ là các nghiên cứu ngắn hạn
và đơn lẻ ở mức đề tài tốt nghiệp đại học, luận văn thạc sĩ và tiến sĩ Các bài báocông bố kết quả nghiên cứu về tóm tắt văn bản không nhiều và phần lớn dựa trêntrích xuất Tuy nhiên vẫn có hai hướng là tóm tắt trích rút và tóm tắt theo tómlược
Với tóm tắt trích rút có thể kể đến các công trình của Nguyễn Lê Minh và cộng
sự trong (Nguyen et al., 2005), Hà Thành Lê và cộng sự trong (Ha et al., 2005), ĐỗPhúc và Hoàng Kiếm (Phúc and Kiếm,2004) Nguyễn Lê Minh và cộng sự (Nguyen
et al., 2005) tóm tắt văn bản dựa trên trích rút và sử dụng phương pháp SVM đểphân loại câu quan trọng và câu không quan trọng trong văn bản Các đặc trưngđược sử dụng trong việc học bao gồm vị trí câu, chiều dài câu, độ liên quan chủ đề,tần suất từ, cụm từ chính và khoảng cách từ Hà Thành Lê và cộng sự (Ha et al.,
2005) kết hợp một số phương pháp trích rút đặc trưng trong trích rút văn bản tiếngViệt như đặc trưng về tần suất từ TFxIDF, vị trí, từ tiêu đề, từ liên quan Các đặctrưng được kết hợp tuyến tính với nhau để tính trọng số mỗi câu trong văn bản gốc
Đỗ Phúc, Hoàng Kiếm (Phúc and Kiếm,2004) giới thiệu phương pháp trích rútcác ý chính từ văn bản hỗ trợ tạo tóm tắt văn bản tiếng Việt dựa trên việc sử dụngcây hậu tố để phát hiện các dãy từ phổ biến trong các câu của văn bản, dùng từđiển để tìm các dãy từ có nghĩa, dùng WordNet tiếng Việt hoặc từ điển đồng hiện
để giải quyết vấn đề ngữ nghĩa của các từ Cuối cùng dùng kỹ thuật gom cụm đểgom các các câu trong văn bản (vector đặc trưng cho câu) và hình thành các vectorđặc trưng cụm, sau đó rút ra các câu chứa nhiều thành phần của các vector đặctrưng cụm
Nguyễn Nhật An (An, 2014) đã sử dụng phương pháp trích rút dựa trên bộ hệ
số đặc trưng với những đặc trưng bao gồm độ dài thực từ trong câu, vị trí câu, sốlượng thực thể là số, tên riêng, trọng số TF.ISF, so sánh độ tương đồng với câutrung tâm và kết hợp với các phương pháp học máy bao gồm giải thuật di truyền
và thuật toán bỏ phiếu để qua đó tự động học ra bộ hệ số đặc trưng, sau đó tríchrút được những câu quan trọng trong văn bản Ngoài ra Lê Thanh Hương trong
Trang 141.3 Giải pháp đề xuất 6
(Thanh-Hương,2014) đã đồ thị hóa các câu trong văn bản dưới dạng đồ thị, qua đókết hợp với giải thuật Page-rank để chọn ra những câu quan trọng trong văn bản,tùy thuộc vào tỉ lệ trích rút, văn bản cuối cùng sẽ được sinh ra
Với các tiếp cận theo hướng tóm tắt tóm lược, Nguyễn Lê Minh và cộng sự(Nguyen et al.,2005) sử dụng cây cú pháp nhằm rút gọn câu tiếng Việt Tuy nhiên,các hệ thống phân tích cú pháp tiếng Việt hiện nay có độ chính xác chưa cao nêncách tiếp cận này vẫn chưa thực sự khả thi
1.3 Giải pháp đề xuất
Có thể thấy rằng, các tiếp cận tóm tắt văn bản tiếng Việt vẫn phần lớn dựa vàocấu trúc câu và chưa tận dụng được thông tin ngữ nghĩa giữa các từ trong câu.Với bài toán tóm tắt văn bản tiếng Anh, Barzilay và Elhadad trong (Barzilay andElhadad,1997) đã sử dụng được thông tin ngữ nghĩa liên kết các từ trong câu (xích
từ vựng) dựa theo Wordnet và đạt được những kết quả khả quan trong tóm tắt vănbản Trong luận văn này, chúng tôi đề xuất phương pháp tóm tắt văn bản tiếng Việtdựa vào xích từ vựng, các thông tin từ vựng được lấy từ Wordnet tiếng Việt từ đềtài KC.01.20/11-15 do Phương-Thái và các cộng sự xây dựng theo (Nguyen et al.,
2015) Chúng tôi sử dụng xích từ vựng như một thông tin độc lập để đánh giá độquan trọng của các câu trong văn bản, từ đấy trích rút ra những câu quan trọngnhất để tạo ra một văn bản tóm tắt từ văn bản gốc Hình1.1 dưới đây mô tả quytrình tóm tắt văn bản của chúng tôi Trước tiên văn bản gốc sẽ được đi qua bướctiền xử lý, tại bước này, văn bản sẽ được tách từ và gán nhãn từ loại Sau đó, chúngtôi xây dựng các xích từ vựng có trong văn bản và xếp hạng độ quan trọng các câutrong văn bản dựa vào xích từ vựng này Cuối cùng, tùy thuộc vào tỉ lệ tóm tắt,chúng tôi đưa ra kết quả tương ứng
Trang 151.3 Giải pháp đề xuất 7
Hình 1.1: Các bước tóm tắt văn bản tiếng Việt sử dụng xích từ vựng
Trang 16Chương 2
Mạng từ
Trong chương này, chúng tôi sẽ trình bày những kiến thức cơ sở về mạng từ tiếngAnh của trường đại học Princeton, các mạng từ tiếng Việt hiện có
2.1 Mạng từ tiếng Anh - Wordnet
2.1.1 Thông tin chung
WordNet là một cơ sở dữ liệu từ vựng tiếng Anh lớn được xây dựng bởi Đại họcPrinceton bắt đầu từ năm 1985 với mục đích phục vụ việc phân tích văn bản tựđộng, xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo, v.v Tính đến năm 2006, WordNetbao gồm 155287 từ Những từ trong WordNet được nhóm lại thành các bộ từ đồngnghĩa (synonym sets - synsets), thể hiện một khái niệm khác biệt Synsets được liênkết với nhau bằng các quan hệ ngữ nghĩa
Có thể coi WordNet như một từ điển, tuy nhiên WordNet có 1 vài sự khác biệt
so với từ điển thông thường Thứ nhất là những từ trong WordNet không sắp xếptheo thứ tự bảng chữ cái alphabet mà được tổ chức thành một cơ sở dữ liệu, thứhai là trong WordNet các từ được nhóm lại thành các tập đồng nghĩa, với những từtrong cùng một tập thì sẽ có giải nghĩa (glossary) giống nhau
2.1.2 Các quan hệ trong mạng từ Wordnet
Như ta đã biết, các tập từ đồng nghĩa trong WordNet có sự liên quan nhất định vớinhau thông qua các mối quan hệ về ngữ nghĩa, dựa vào các quan hệ này mà ta cóthể xét xem hai từ có liên quan gì đến nhau, hay nói cách khác là ta có thể xác định
8
Trang 172.1 Mạng từ tiếng Anh - Wordnet 9
được tính tương đồng của hai từ với nhau Trong WordNet, có các quan hệ ngữ nghĩachính là: Synonymy–Antonymy (đồng nghĩa - trái nghĩa), Hypernymy–Hyponymy(Bao nghĩa - Thuộc nghĩa), Meronymy–Holonymy (Phân nghĩa - Tổng nghĩa).Quan hệ Synonymy (Đồng nghĩa)
Quan hệ này đóng vai trò chính yếu trong tổ chức từ vựng của WordNet vì biểu diễntính tương tự về nghĩa giữa các hình thái từ về mặt từ vựng Chính mối quan hệnày là cơ sở để các nhà xây dựng WordNet tập hợp các hình thái từ có cùng nghĩathành các synset Synonymy được xác định bởi khái niệm như sau: “Hai biểu thức
là tương đương về nghĩa trong một ngữ cảnh C nếu sự thay thế giữa chúng trong Ckhông làm thay đổi giá trị đúng” Tất cả những từ trong cùng một synset thì đều cóquan hệ synonym với nhau theo nghĩa của synset đó Ví dụ ta có synset car, auto,automobile, machine, motorcar thì car là synonym với auto, automobile, machine,
và motocar theo nghĩa: A motor vehicle with four wheels; usually propelled by aninternal combustion engine; "he needs a car to get to work” Lưu ý rằng nếu nghĩaA1 của từ A có quan hệ X với nghĩa B1 của từ B, thì mọi từ (nghĩa) trong synsetcủa A1 đều có quan hệ X với B1
Quan hệ Antonymy (Trái nghĩa)
Quan hệ antonymy xác định mối quan hệ trái nghĩa của hai từ trong WordNet Từtrái nghĩa (antonym) của một từ đôi lúc là phủ định trực tiếp nhưng không phảiluôn luôn là phủ định trong các trường hợp Quan hệ antonymy cung cấp quy tắc
tổ chức tính từ trong WordNet và những vấn đề phức tạp phát sinh khi quan hệantonymy nằm trong mối quan hệ ngữ nghĩa giữa các từ Ví dụ: peace là antonymcủa war
Quan hệ hypernymy và hyponymy (Bao nghĩa và thuộc nghĩa)
Không giống như cặp quan hệ synonymy và antonymy, quan hệ hyponymy và nymy cho biết mối quan hệ về ngữ nghĩa giữa các khái niệm, trong đó nghĩa của kháiniệm này bao hàm nghĩa của khái niệm kia hay ngược lại Cặp quan hệ hyponymy
hyper-và hypernymy còn có thể được xem là cặp quan hệ thượng danh (superordination)
và hạ danh (subordination), hay cặp quan hệ tập con(subset) và tập cha (superset),hoặc cặp quan hệ IS-A và HAS-A Một khái niệm được biểu diễn bởi synset x, x’, được gọi là hyponymy của khái niệm y, y’, nếu mệnh đề“x is a (kind of) y”là đúng
Trang 182.2 Mạng từ tiếng Việt 10
Ví dụ với hai từ car và vehicle: thì vehicle là hypernym của car, car là hyponymcủa vehicle Theo Lyons, quan hệ hyponymy là quan hệ có tính chất bắc cầu vàphản xứng trong (Lyons, 1977) Theo quan hệ hyponymy, việc thêm ít nhất mộtthuộc tính mới vào khái niệm chi tiết sẽ giúp phân biệt khái niệm đó với một hoặcnhững khái niệm tổng quát có các thuộc tính mà nó thừa kế Quy định này cungcấp nguyên tắc phân cấp cho việc xây dựng quan hệ danh từ trong WordNet.Quan hệ meronymty và holonymy (Phân nghĩa - Tổng nghĩa)
Quan hệ meronymy và holonymy là mối quan hệ toàn thể–bộ phận giữa hai synsetdanh từ Winston đã chia quan hệ meronymy và holonymy thành các loại như sautrong (Winston et al., 1987):
• Thành phần - Đối tượng (Component - Object) Ví dụ: branch - tree
• Thành viên - Tập hợp (Member - Collection) Ví dụ: tree - forest
• Vật liệu - Đối tượng (Stuff - Object) Ví dụ: aluminium - airplane
• Phần - Khối (Portion - Mass) Ví dụ: slice - cake
• Đặc điểm - Hoạt động (Feature - Activity) Ví dụ: paying - shopping
• Địa điểm - Nơi chốn (Place - Area) Ví dụ: Princeton - New Jersey
• Gia đoạn - Quá trình (Phase - Process) Ví dụ: addolescence - growing up
2.2 Mạng từ tiếng Việt
2.2.1 Từ điển của Laconec
Từ điển Laconec1 là một trong những từ điển đầu tiên công bố tại Việt Nam xâydựng dựa theo cấu trúc của mạng từ tiếng Anh Tư tưởng của Laconec là sử dụngmạng từ tiếng Anh làm hạt nhân, Laconec sẽ dịch tương ứng những thuật ngữ tiếngAnh ra tiếng Việt và các ngôn ngữ khác như tiếng Việt, tiếng Nhật hay Thái Phầnlớn những dữ liệu của các ngôn ngữ không phải tiếng Việt của Laconec đến từ nhữngnguồn miễn phí trên mạng Ưu điểm của từ điển Laconec là số lượng từ khá lớn
và có thể sử dụng miễn phí Tuy nhiên một nhược điểm lớn của từ điển Laconec là
1
http://www.laconec.com
Trang 192.3 Sử dụng mạng từ tiếng Việt 11
không có giao diện lập trình cho các lập trình viên có thể tận dụng và khai thác sứcmạnh của mạng từ, ngoài ra cách thức hướng dẫn làm mạng từ không được trìnhbày đầy đủ cũng như các lý giải khoa học về mạng từ chưa thực sự rõ ràng
2.2.2 Mạng từ tiếng Việt của đề tài KC.01.20/11-15
Mạng từ tiếng Việt của đề tài KC.01.20/11-15 do Phương-Thái và các cộng sự xâydựng theo (Nguyen et al., 2015), đây là mạng từ xây dựng dựa trên một phần củamạng từ tiếng Anh (Princeton Wordnet), ngoài ra mạng từ cũng bổ xung nhữngđặc trưng ngôn ngữ tiếng Việt do vậy mạng từ không phải là bản dịch đơn thuần
từ chiều tiếng Anh sang tiếng Việt Tài nguyên của mạng từ được cung cấp dướiđịnh dạng của Princeton Wordnet, do đó có thể được sử dụng và tích hợp trongnhiều thư viện mã nguồn mở Do phiên bản chúng tôi sử dụng chưa phải là phiênbản hoàn thiện của mạng từ nên tính đến phiên bản ngày 24/11/2015, các con sốthống kê về mạng từ được đưa ra trong bảng 2.1 Chi tiết về số lượng từ của từngloại được chúng tôi thể hiện trong bảng2.2
Bảng 2.1: Số loạt đồng nghĩa phân theo loại của mạng từ tiếng Việt
Danh từ Động từ Tính từ Tổng
16785 9257 5725 31767
Bảng 2.2: Số lượng từ tiếng Việt chia theo từng loại trong mạng từ
Danh từ Động từ Tính từ
Số lượng từ tiếng Việt 45180 35066 19772
Số lượng từ tiếng Việt
khi loại bỏ trùng lặp và
không phân biệt viết
hoa hay thường
Trang 202.3 Sử dụng mạng từ tiếng Việt 12
triển hay thư viện NLTK3 được cộng đồng xử lý ngôn ngữ tự nhiên phát triển trênnền tảng ngôn ngữ Python Trong nghiên cứu ở luận văn này, chúng tôi sử dụng thưviện NLTK để phù hợp với việc tích hợp các công cụ khác vào chương trình
3
http://www.nltk.org/news.html
Trang 21Chương 3
Ứng dụng xích từ vựng trong tóm tắt văn bản
Phần này chúng tôi sẽ trình bày những kiến thức về xích từ vựng, cách thức xâydựng xích từ vựng và cách sử dụng xích từ vựng vào tóm tắt văn bản
3.1 Xích từ vựng
Xích từ vựng là một chuỗi các từ có liên kết với nhau về mặt ngữ nghĩa trong cáccâu văn ngắn, đoạn dài hay cả văn bản Xích từ vựng độc lập với cấu trúc ngữ phápcủa văn bản và thực ra, đây là một danh sách các từ nắm giữ một phần cấu trúckết dính của văn bản Xích từ vựng có thể cung cấp văn cảnh cho việc xác định cácđịnh nghĩa nhập nhằng trong văn bản cũng như xác định được khái niệm mà địnhnghĩa này biểu diễn
3.2 Xây dựng xích từ vựng
Để xây dựng được xích từ vựng, chúng tôi cần làm những bước chính như sau:
• Bước 1: Lấy ra những ửng cứ viên có thể đưa vào xích từ vựng
• Bước 2: Tính toán độ liên kết về mặt ngữ nghĩa giữa các ứng viên để đưa vàocác xích từ vựng
13