1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG

38 302 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 38
Dung lượng 1,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1 TÓM TẮT VĂN BẢN TỰ ĐỘNG SỬ DỤNG XÍCH TỪ VỰNG Nguyễn Việt Anh Khóa QH-2008-I/CQ , ngành Công nghệ thông tin Tóm tắt Khóa luận tốt nghiệp: Hiện nay, với sự bùng nổ của công nghệ thôn

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Việt Anh

TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành:Công nghệ thông tin

HÀ NỘI - 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Việt Anh

TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành:Công nghệ thông tin

Cán bộ hướng dẫn: TS Nguyễn Phương Thái

HÀ NỘI - 2012

Trang 3

VIETNAMNATIONALUNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Nguyen Viet Anh

USING LEXICAL CHAINS

FOR TEXT SUMMARIZATION

Major: Information Technology

Supervisor: PhD Nguyen Phuong Thai

HANOI - 2012

Trang 4

LỜI CẢM ƠN

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo,

TS Nguyễn Phương Thái, người đã tận tình hướng dẫn em trong suốt quá trình nghiên cứu làm khóa luận tốt nghiệp

Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong bốn năm qua, những kiến thức mà em nhận được trên giảng đường đại học sẽlàhành trang giúp em vững bước trong tương lai

Em xin chân thành cảm ơn!

Sinh Viên Nguyễn Việt Anh

Trang 5

1

TÓM TẮT VĂN BẢN TỰ ĐỘNG SỬ DỤNG XÍCH TỪ VỰNG

Nguyễn Việt Anh

Khóa QH-2008-I/CQ , ngành Công nghệ thông tin

Tóm tắt Khóa luận tốt nghiệp:

Hiện nay, với sự bùng nổ của công nghệ thông tin, thông tin ngày một nhiều và phổ biến Con người ngày càng phải xử lý nhiều thông tin hơn, trong đó có không ít những thông tin thừa hay không cần thiết, việc xử lý thông tin như vậy tốn rất nhiều thời gian và công sức Vấn đề đặt ra là làm sao để giảm chi phí xử lý mà vẫn nắm được những thông tin cần thiết, quan trọng từ nguồn tin Tóm tắt văn bản tự động được ra đời dựa trên ý tưởng đó Trên thế giới, vấn đề tóm tắt tự động đã được nghiên cứu từ rất sớm, từ những năm 50 của thế kỷ trước, và đã có rất nhiều phương pháp tóm tắt văn bản được đề xuất, trong đó có phương pháp tóm tắt bằng xích từ vựng doBarzilay và Elhadad giới thiệu năm 1997 với ưu điểm dễ thực hiện và cho kết quả khá khả quan Do vậy, trong khóa luận này em muốn giới thiệu phương pháp tóm tắt văn bản sử dụng xích từ vựng dựa trên ý tưởng của Barzilay và Elhadad, các bước thực hiện việc tóm tắt văn bản và giới thiệu chương trình sản phẩm do em viết ra

Từ khóa:Tóm tắt, xích từ vựng

Trang 6

LỜI CAM ĐOAN

Em xin cam đoan khóa luận tốt nghiệp: “Tóm tắt văn bản tự động sử dụng xích từ vựng” là công trình nghiên cứu của bản thân Những phần sử dụng tài liệu tham khảo trong khóa luận đã được nêu rõ trong phần tài liệu tham khảo Các số liệu, kết quả trình bày trong khóa luận là hoàn toàn trung thực, nếu sai em xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của khoa và nhà trường

Tác giả khóa luận Nguyễn Việt Anh

Trang 7

3

MỤC LỤC

CHƯƠNG 1: BÀI TỐN TĨM TẮT VĂN BẢN 4

1.1 Giới thiệu bài tốn 4

1.2 Đặc điểm của bản tĩm tắt 5

1.3 Tĩm tắt văn bản bằng xích từ vựng 5

1.4 Ứng dụng của bài tốn tĩm tắt văn bản 5

CHƯƠNG 2: MỘT SỐ HƯỚNG TIẾP CẬN BÀI TỐN TĨM TẮT VĂN BẢN 6

2.1 Phương pháp thống kê 6

2.2 Phương pháp máy học 7

2.3 Phương pháp Nạve-Bayes 8

2.4 Phương pháp Decision Tree 8

2.5 Phương pháp phân tích ngơn ngữ tự nhiên 8

Tĩm tắt chương 2 10

CHƯƠNG 3: TĨM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG 11

3.1 Giới thiệu và mơ hình thực hiện: 11

3.2 Từ điển WordNet 13

3.2.1 Giới thiệu 13

3.2.2 Quan hệ ngữ nghĩa trong WordNet 14

3.2.3 Sử dụng WordNet trong lập trình với ngơn ngữ Java 15

3.3 Xây dựng xích từ vựng và tĩm tắt 18

3.3.1 Trích chọn tập các từ ứng cử 18

3.3.2 Xây dựng xích từ vựng 18

3.3.4 Sử dụng xích từ vựng để tĩm tắt văn bản 25

Tĩm tắt chương 3 26

CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 27

4.1 Mơi trường thực nghiệm 27

4.1.1 Mơi trường phần cứng 27

4.1.2 Mơi trường phần mềm 27

4.2 Dữ liệu thực nghiệm 27

4.3 Phương pháp đánh giá 27

4.4 Đánh giá kết quả thực nghiệm 29

Kết luận 31

PHỤ LỤC 32

TÀI LIỆU THAM KHẢO 34

Trang 8

CHƯƠNG 1: BÀI TOÁN TÓM TẮT VĂN BẢN

1.1 Giới thiệu bài toán

Tóm tắt văn bản là bài toán của thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, đó là quá trình rút trích những thông tin quan trọng nhất từ một hoặc nhiều nguồn để tạo ra phiên bản cô đọng, ngắn gọn phục vụ cho một hoặc nhiều người dùng cụ thể, haymột hoặc nhiều nhiệm vụ cụ thể [2].Có thể phân loại bài toán tóm tắt văn bản ra nhiều loại tùy theo đặc điểm khác nhau: Theo số lượng: Đơn văn bản và Đa văn bản, theo văn bản đầu ra: Trích rút (Extract) và Tóm lược (Abtract) Hiện nay các phương pháp tóm tắt văn bản đa số tập trung vào dạng tóm tắt trích rút câu, tóm tắt văn bản bằng xích từ vựng cũng là một trong số đó

Theo Hovy (1999), Mani (2001), Sparck Jones (1999), quá trình tóm tắt văn bản được chia ra thành 3 giai đoạn chính:

 Phân tích (Analysis or Interpretation): biểu diễn và hiểu văn bản nguồn

 Biến đổi (Transformation): trích chọn những nội dung quan trọng

 Tổng hợp (Synthesis or Realization): tạo văn bản mới chứa những điểm chính, quan trọng của văn bản gốc

Hình 1: Quá trình tóm tắt văn bản

Trang 9

5

1.2 Đặc điểm của bản tóm tắt

 Giảm nội dung thông tin : lượng nội dung trong bản tóm tắt phải ít hơn so với văn bản gốc, nhưng phải đảm bào vẫn còn những thông tin quan trọng, nổi bật

 Mức độ giảm nội dung thông tin được đo bằng tỷ lệ nén

 Hoặc các bản tóm tắt thường có một chiều dài nhất định được mong muốn

 Nội dung thông tin

 Phải trung thực hoặc tương đương với văn bản nguồn

 Phải liên quan, phù hợp với yêu cầu người dùng

để xây dựng lên những xích từ vựng, từ những xích đó trích rút câu trong văn bản gốc Đây là một phươn pháp dễ thực hiện nhưng cho kết quả khả quan Chi tiết sẽ được trình bày trong chương 3

1.4 Ứng dụng của bài toán tóm tắt văn bản

 Tóm tắt tin tức

 Hỗ trợ bác sĩ trong điều trị

 Tóm tắt kết quả tìm kiếm trong các search engine

 Thu thập dữ liệu thông minh

 Tóm tắt bài báo khoa học

 Tóm tắt nội dung hội nghị, cuộc họp

 Tóm tắt nội dung video, audio, …

 Trả lời tự động

Trang 10

CHƯƠNG 2: MỘT SỐ HƯỚNG TIẾP CẬN BÀI TOÁN TÓM

TẮT VĂN BẢN

2.1 Phương pháp thống kê[2]

Hầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên những văn bản kỹ thuật (các bài báo khoa học) Các phương pháp cổ điển thường tập trung vào các đặc trưng hình thái để tính điểm cho các câu và rút trích các câu quan trọng để đưa vào tóm tắt

Hướng tiếp cận chung cho phương pháp cổ điển được đề xuất bởi Edmundson(1969) như sau:

Bước 1

Bước 2

Hình 2: Hướng tiếp cận chung cho phương pháp cổ điển

Edmundson(1969)

Trang 11

7

Ý tưởng chính của hướng tiếp cận :

 Thu tập ngữ liệu

 Tạo các bản tĩm tắt thủ cơng

 Thiết kế các cơng thức tốn hay logic để tính điểm cho các câu

 Lặp cho đến khi tĩm tắt tự động đạt được tính tương đương với tĩm tắt thủ cơng :

 Tính điểm cho từng câu để tạo ra bản tĩm tắt cho từng văn bản trong ngữ liệu

 Dựa vào các đặc trưng về hình thái

 So sánh tĩm tắt được tạo tự động với tĩm tắt được tạo thủ cơng

 Cải thiện lại phương thức tính điểm cho câu

2.2 Phương pháp máy học [2]

Năm 1990, với sự phát triển của nhiều kỹ thuật máy học trong xử lý ngơn ngữ, một số nhà nghiên cứu đã ứng dụng các kỹ thuật này vào trong tĩm tắt văn bản tự động Một số nghiên cứu điển hiển của phương phát này là: Nạve-Bayes, Decision Tree, Hidden Makov Model, Log-Linear, Neural Network, SVM

Hình 3: Framework chung cho hệ thống tĩm tắt văn bản bằng phương pháp máy học

vựng

Trang 12

2.3 Phương pháp Nạve-Bayes [2]

Các hướng tiếp cận theo phương pháp này giả định rằng các đặc trưng của văn bản độc lập nhau Sử dụng bộ phân lớp Nạve-Bayes để xác định câu nào thuộc về tĩm tắt và ngược lại:

Cho s là các câu cần xác định F1…Fk là các đặc trưng đã được chọn, và giả định các thuộc tính độc lập nhau Xác suất của câu s thuộc về tĩm tắt được tính như sau:

( | ∏ ( | (

∏ (

Sau khi tính xác suất các câu, n câu cĩ xác suất cao nhất sẽ được rút trích

2.4 Phương pháp Decision Tree [2]

Lin & Hovy (1999) đại diện của phương pháp này giả định rằng, các đặc trưng khơng độc lập với nhau Tác giả đã kiểm tra nhiều đặc trưng và ảnh hưởng của chúng lên quá trình rút trích Hệ thống tĩm tắt của Lin là loại tĩm tắt hướng về truy vấn (query-based)

Các đặc trưng : position(OOP), numericdata, propername, pronoun&adjective, weekday hoặc month Cùng với 2 đặc trưng mới: query signature(số từ truy vấn cĩ trong câu) và IR signature (những từ nổi bật, quan trọng ~ tf*idf)

Hệ thống Summarist của LinvàHovy sử dụng thuật tốn C4.5 để huấn luyện cây quyết định Hệ thống sử dụng tập ngữ liệu của TIPSTER-SUMMAC

2.5 Phương pháp phân tích ngơn ngữ tự nhiên [2]

Phương pháp tiếp theo xử dụng các kỹ thuật phân tích ngơn ngữ tự nhiên phức tạp Khơng phải tất cả các phương pháp phân tích ngơn ngữ tự nhiên đều sử dụng máy học, đơi khi phương pháp chỉ sử dụng một số các heuristic để tạo rút trích Hầu hết các phương pháp này đều dựa trên cấu trúc diễn ngơn (discourse tructure) hay cấu trúc diễn đạt (thể hiện) của văn bản, như : cấu trúc các section của văn bản, liên kết ngữ pháp (trùnglặp, tĩnh lược, liên hợp), liên kết từ vựng (đồng nghĩa, bao hàm, lặp lại), cấu trúc chính phụ

Các nghiên cứu đại điện cho phương pháp này :

 Ono (1994)

Trang 13

 Barzilay và Elhadad (1997)

 Hai tácgiả cũng đã sử dụng một lượng đáng kể những phân tích ngôn ngữ trong tóm tắt văn bản dựa trên xích từ vựng (lexical chain) Xích từ vựng là chuỗi các từ liên quan trong văn bản

 Các bước thực hiện : phân đoạn văn bản, xác định các xích từ vựng

và sử dụng các xích từ vựng tốt nhất để xác định câu được chèn vào tóm tắt

 Để tìm các xích từ vựng, tác giả sử dụng Wordnet Các từ có liên quan với nhau sẽ được đưa vào xích Sự liên quan được tính bằng khoảng cách trong Wordnet Xích sẽ được tính điểm dựa vào chiều dài và sự đồng nhất của nó

 Hạn chế : không thể kiểm được chiều dài Tóm tắt thiếu sự kết dính

và chưa chi chiết do chọn cả câu

 Marcu (1998)

 Sử dụng cá cheuristic dựa trên cấu trúc diễn đạtvới các đặc trưng truyền thống Lýt huyết về cấu trúc diễn đạt được tác giả thể hiện thông qua lý thuyết cấu trúc chính phụ (Rhetorical Structure Theory) Lý thuyết cho rằng hai khoảng văn bản không trùng lắp

có quan hệ trung tâm (nucleus) và vệ tinh (satellite).Trong đó trung tâm quan trọng hơn vệ tinh và độc lập hoàn toàn trong cấu trúc chính phụ Cấu trúc trọng tâm và vệ tinh được biểu diễn thành cây nhị phân

 Để tính điểm cho các cấu trúc, tác giả sử dụng nhiều độ đo khác nhau như : clustering based metric, marker based metric, hetorical clustering based technique, shape based metric, title based metric, position based metric, connectedness based metric và sử dụng

Trang 14

phương pháp kết hợp tuyến tính Lấy ra n câu chứa cấu trúc có điểm cao nhất

 Hệ thống đạt được kết quả độ đo F 75.42% cao hơn 3.5% so với baseline bằng phương pháp lấy n câu đầu Ngữ liệu được sử dụng là

từ TREC

Tóm tắt chương 2

Trong chương 2, khóa luận đã giới thiệu một số phương pháp tóm tắt văn bản tự động phổ biến, những phương pháp này đa phần thuộc kiểu trích rút câu trong văn bản gốc, và phương pháp tóm tắt sử dụng xích từ vựng cũng vậy Chương 3 sẽ trình bày rõ ràng, cụ thể hơn về phương pháp này

Trang 15

11

CHƯƠNG 3: TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG

3.1 Giới thiệu và mô hình thực hiện:

Xích từ vựng là một đồ thị gồm các từ liên quan đến nhau về ngữ nghĩa, để biết được 2 từ có liên quan đến nhau hay không ta sử dụng từ điển WordNet, vấn đề này sẽ được trình bày rõ hơn ở phần sau Sở dĩ phương pháp sử dụng xích từ vựng để tóm tắt

là vì xích từ vựng có tính chất đại diện cho văn bản, tóm tắt dựa trên xích sẽ có khả năng nắm được nội dung chính của văn bản Nhìn chung, quá trình tóm tắt văn bản gồm 3 bước chính:

Ta chọn từ ứng cử đơn giản là các danh từ trong câu, để xác định đâu là danh từ

ta sử dụng framework Part-Of-Speech tagging (POS) được phát triển bởi đại học Stanford Sau quá trình này, mỗi từ trong văn bản gốc đều được gán nhãn thích hợp như danh từ (\NN), danh từ số nhiều (\NNS), động từ, tính từ, … Từ đó có thể dễ dàng trích xuất ra được danh từ, chính là những từ ứng cử

Như ta đã biết, mỗi từ thường có nhiều nghĩa khác nhau, vấn đề là làm sao xác định được một từ ứng cử trong văn cảnh này mang nghĩa nào Cách giải quyết là ta sẽ xét tất cả các nghĩa của từ đó, xem cách giải nghĩa nào là “hợp lý” nhất thì đó chính là

nghĩa của từ trong văn cảnh hiện tại Từ đây ta có khái niệm diễn giải (interpretation), đó là tập hợp của tất cả các từ ứng cử, trong đó mỗi từ chỉ được đại

diện bởi 1 nghĩa duy nhất Khi đã có các diễn giải, ta tính toán độ liên quan và hình thành xích bên trong các diễn giải đó Khi quá trình tạo xích hoàn tất, ta chọn ra diễn giải mạnh nhất và coi đây là cách giải nghĩa cho tập từ ứng cử hợp lý nhất, từ đó sử dụng những xích trong diễn giải này để tóm tắt văn bản

Ví dụ:

Tập ứng cử có 2 từ {A, B} Từ A có 2 nghĩa A1 và A2, từ B có 2 nghĩa B1, B2 Vậy ta có các diễn giải sau:

Trang 16

Diễn giải 1: (A1, B1), diễn giải 2: (A1, B2)

Diễn giải 3: (A2, B1), diễn giải 4: (A2, B2)

Mô hình thuật toán như sau:

Mỗi 1 xích trích xuất 1 câu trong văn bản nguồn

Output.txt

Diễn giải mạnh nhất (gồm nhiều xích)

Trang 17

xử lý ngôn ngữ tự nhiên, trí tuệ nhân tạo, v.v Tính đến năm 2006, WordNet bao gồm

155287 từ Những từ trong WordNet đƣợc nhóm lại thành các bộ từ đồng nghĩa (synsets), thể hiện một khái niệm khác biệt Synsets đƣợc liên kết với nhau bằng các

Tổ chức cơ sở dữ liệu WordNet đƣợc miêu tả nhƣ hình sau:

Hình 4: Tổ chức cơ sở dữ liệu WordNet phiên bản 3.0 (Nguồn: http://wnsqlbuilder.sourceforge.net/schema.html)

Trang 18

3.2.2 Quan hệ ngữ nghĩa trong WordNet [1]

Như ta đã biết, các tập từ đồng nghĩa trong WordNet có sự liên quan với nhau thông qua các mối quan hệ ngữ nghĩa, dựa vào các quan hệ này mà ta có thể xét xem hai từ có liên quan gì đến nhau, hay nói cách khác là ta có thể tính được độ tương đồng của hai từ với nhau Trong WordNet, có các quan hệ ngữ nghĩa là: Synonymy –

Antonymy, Hypernymy – Hyponymy, Meronymy – Holonymy

Quan hệ Synonymy:

Quan hệ này đóng vai trò chính yếu trong tổ chức từ vựng của WordNet

vì biểu diễn tính tương tự về nghĩa giữa các hình thái từ vềmặt từ vựng Chính mối quan hệ này là cơ sở để các nhà xây dựng WordNet tập hợp các hình thái

từ có cùng nghĩa thành các synset Synonymy được xác định bởi khái niệm như sau: “Hai biểu thức là tương đương về nghĩa trong một ngữ cảnh C nếu

sự thay thế giữa chúng trong C không làm thay đổi giá trị đúng” Tất cả những

từ trong cùng một synset thì đều có quan hệ synonym với nhau theo nghĩa của synset đó Ví dụ ta có synset {car, auto, automobile, machine, motorcar} thì

car là synonym với auto, automobile, machine, và motocar theo nghĩa: A motor vehicle with four wheels; usually propelled by an internal combustion engine; "he needs a car to get to work” Lưu ý rằng nếu nghĩa A1 của từ A có

quan hệ X với nghĩa B1 của từ B, thì mọi từ (nghĩa) trong synset của A1 đều

có quan hệ X với B1

Quan hệAntonymy

Antonymy xác định mối quan hệ trái nghĩa của hai từ trong WordNet Antonym của một từ đôi lúc là not nhưng không phải luôn đúng Antonymy cung cấp quy tắc tổ chức tính từ trong WordNet và những vấn đề phức tạp phát sinh khi antonymy nằmtrong mối quan hệ ngữ nghĩa giữa các từ Ví dụ

peace là antonym của war

Quan hệ Hyponymy và Hypernymy:

Không giống nhưsynonymy và antonymy, quan hệ hyponymy và hypernymy cho biết mối quan hệ về ngữ nghĩa giữa các khái niệm, trong đó nghĩa của khái niệm này bao hàm nghĩa của khái niệm kia hay ngược lại Cặp quan hệ hyponymy và hypernymy còn có thể được xem là cặp quan hệ hạd anh (subordination) và thượng danh (superordination), hay cặp quan hệ tập con(subset) và tập cha (superset), hoặc cặp quan hệ IS-A và HAS-A Một khái niệm được biểu diễn bởi synset {x, x’, …} được gọi là hyponymy của khái

niệm {y, y’, …} nếu mệnh đề“x is a (kind of) y”là đúng Ví dụ car và vehicle:

thì vehicle là hypernym của car, car là hyponym của vehicle Theo Lyons (1977), quan hệ hyponymy có tính chất bắc cầu và phản xứng Theo quan hệ hyponymy, việc thêm ít nhất một thuộc tính mới vào khái niệm chi tiết sẽ giúp

Trang 19

15

phân biệt khái niệm đó với một hoặc những khái niệm tổng quát có các thuộc tính mà nó thừa kế Quy định này cung cấp nguyên tắc phân cấp cho việc xây dựng quan hệ danh từ trong WordNet

Quan hệ Meronymy và Holonymy:

Quan hệmeronymy và holonymy là mối quan hệ toàn thể–bộ phận giữa hai synset danh từ Năm 1998, Winston chia quan hệ meronymy và holonymy

thành các loại như trong bảng sau:

1 Thành phần – đối tượng Component–Object branch–tree

2 Thành viên–Tập hợp Member–Collection tree–forest

3 Vật liệu–Đối tượng Stuff–Object aluminium–airplane

4 Phần–Khối Portion–Mass slice–cake

5 Đặc điểm–Hoạt động Feature–Actitivity paying–shopping

6 Địa điểm–Nơi chốn Place–Area Princeton–New Jersey

7 Giai đoạn–Quá trình Phase–Process addolescence–growing up

3.2.3 Sử dụng WordNet trong lập trình với ngôn ngữ Java

Tại bước xây dựng xích từ vựng ta phải xác định được quan hệ ứng với mỗi nghĩa của 2 từ ứng cử là gì, sau đó mới xét xem sẽ đưa từ vào xích nào Để làm được điều

này ta cần sử dụng từ điển WordNet Chương trình sử dụng gói API JWI do viện công

nghệ Massachusetts phát triển (http://projects.csail.mit.edu/jwi/) để thao tác với WordNet API này được xem là nhanh, mạnh và dễ sử dụng nhất, ngoài ra trong gói API còn có kèm theo Javadocs nên việc tra cứu sử dụng trở lên rất dễ dàng

Sau khi download JWI, thêm file jar vào project, ta có thể chạy thử một chương trình đơn giản: In ra ID và giải nghĩa cho nghĩa đầu tiên của từ “dog” [6]:

Ngày đăng: 01/02/2015, 01:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]Nguyễn Chánh Thành, Xây dựng mô hình mởrộng truy vấn trong truy xuất thông tin văn bản, Luận án tiến sĩ, Trường đại học bách khoa TPHCM – ĐHQGTPHCM, 2010, tr. 39 – 44, phụ lục a Sách, tạp chí
Tiêu đề: Xây dựng mô hình mởrộng truy vấn trong truy xuất thông tin văn bản
[2] Nguyễn Minh Thành, Tóm tắt văn bản tự động – Tổng quan & Hiện trạng, Tổng hợp báo cáo, trường ĐH Khoa học Tự nhiên – ĐHQGTPHCM, 2011, tr. 1-10 Sách, tạp chí
Tiêu đề: Tóm tắt văn bản tự động – Tổng quan & Hiện trạng
[3] Trần Mai Vũ, Tóm tắt đa văn bản dựa vào trích xuất câu, Luận văn thạc sĩ, trường ĐH Công Nghệ - ĐHQGHN, 2009, tr. 15-16.Tiếng Anh Sách, tạp chí
Tiêu đề: Tóm tắt đa văn bản dựa vào trích xuất câu
[3] Debraj Manna, Gettting started with JWI & JWKTL, Indian Institute of Technology Bombay, 2009,pp. 2-6 Sách, tạp chí
Tiêu đề: Gettting started with JWI & JWKTL
[4] Regina Barzilay, Lexical Chains for Summarization, Ben Gurion University Israel, 1997 Sách, tạp chí
Tiêu đề: Lexical Chains for Summarization
[5] Regina Barzilayand Michael Elhadad, Using Lexical Chains for Text Summarization, BenGurionUniversity Israel, 1998 Sách, tạp chí
Tiêu đề: Using Lexical Chains for Text Summarization
[6]Mark A. Finlayson, MIT Java Wordnet Interface (JWI) User's Guide, Massachusetts Institute of Technology, 2011 Sách, tạp chí
Tiêu đề: MIT Java Wordnet Interface (JWI) User's Guide
[7] Kavita Ganesan, Basics of Setting up ROUGE Toolkit for Evaluation of Summarization Tasks: http://kavita-ganesan.com/rouge-howto Sách, tạp chí
Tiêu đề: Basics of Setting up ROUGE Toolkit for Evaluation of Summarization Tasks
Tác giả: Kavita Ganesan
[11] WordNet Homepage: http://www.wordnet.princeton.edu/wordnet/ Sách, tạp chí
Tiêu đề: WordNet Homepage

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình tóm tắt văn bản - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 1 Quá trình tóm tắt văn bản (Trang 8)
Hình 2: Hướng tiếp cận chung cho phương pháp cổ điển - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 2 Hướng tiếp cận chung cho phương pháp cổ điển (Trang 10)
Hình 3: Framework chung cho hệ thống tóm tắt văn bản bằng phương pháp máy học - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 3 Framework chung cho hệ thống tóm tắt văn bản bằng phương pháp máy học (Trang 11)
Hình 3: Mô hình thuật toán tóm tắt văn bản sử dụng xích từ - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 3 Mô hình thuật toán tóm tắt văn bản sử dụng xích từ (Trang 16)
Hình 4: Tổ chức cơ sở dữ liệu WordNet phiên bản 3.0  (Nguồn: http://wnsqlbuilder.sourceforge.net/schema.html) - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 4 Tổ chức cơ sở dữ liệu WordNet phiên bản 3.0 (Nguồn: http://wnsqlbuilder.sourceforge.net/schema.html) (Trang 17)
Bảng 1: Phân loại  quan hệ meronymy và holonymy - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Bảng 1 Phân loại quan hệ meronymy và holonymy (Trang 19)
Hình 4: Cấu trúc của JWI - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 4 Cấu trúc của JWI (Trang 21)
Hình 7a: Xích sau khi xét từ machine - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 7a Xích sau khi xét từ machine (Trang 23)
Hình 6: Xích sau khi xét từ person - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 6 Xích sau khi xét từ person (Trang 23)
Hình 8: Diễn giải mạnh nhất - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 8 Diễn giải mạnh nhất (Trang 24)
Hình 7b: Xích sau khi xét từ machine - TÓM TẮT VĂN BẢN SỬ DỤNG XÍCH TỪ VỰNG
Hình 7b Xích sau khi xét từ machine (Trang 24)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w