Phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH HỌC MÁY SVM Trên cơ sở tìm hiểu và so sánh các hướng tiếp cận được đề xuất trong dãy hội nghị RTE của NIST, khóa luận khảo sát các p

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thị Dung

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT

DỰA TRÊN HỌC MÁY SVM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin

HÀ NỘI – 2012

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT

DỰA TRÊN HỌC MÁY SVM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY Ngành: Công nghệ Thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh

HÀ NỘI – 2012

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Nguyen Thi Dung

RECOGNIZING VIETNAMESE TEXTUAL

ENTAILMENT BASED ON SVM

Major: Information technology

Supervisor: Assoc Prof Ha Quang Thuy

Co-Supervisor: Masters Pham Quang Nhat Minh

HA NOI – 2012

Trang 4

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Hà

Quang Thụy, Ths Phạm Quang Nhật Minh đã tận tình hướng dẫn và chỉ bảo tôi trong

suốt quá trình thực hiện khóa luận tốt nghiệp

Tôi xin chân thành cảm ơn các thầy, cô trong trường đại học Công Nghệ - đại

học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu

Tôi cũng xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng

thí nghiệm KT-Lab đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong quá trình

thực hiện khóa luận Tôi xin cảm ơn các bạn trong lớp K53CLC đã ủng hộ và khuyến

khích tôi trong suốt suốt quá trình học tập tại trường

Cuối cùng, tôi xin được gửi cám ơn vô hạn tới gia đình và bạn bè, những người

đã luôn bên cạnh, giúp và động viên tôi trong quá trình học tập cũng như trong suốt

quá trình thực hiện khóa luận này

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 18 tháng 05 năm 2012

Sinh viên

Trang 5

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH HỌC MÁY SVM

Trên cơ sở tìm hiểu và so sánh các hướng tiếp cận được đề xuất trong dãy hội nghị RTE của NIST, khóa luận khảo sát các phương pháp giải quyết bài toán kế thừa văn bản và tập trung vào lớp các mô hình phát hiện kế thừa dựa trên bộ phân lớp SVM theo tập đặc trưng

về từ vựng, ngữ nghĩa Khóa luận đề nghị mô hình phát hiện kế thừa văn bản kết hợp mô hình của Julio Javier Castillo [10] với việc sử dụng ba bộ phân lớp SVM để đưa ra phán quyết kế thừa, trong đó mỗi bộ phân lớp sử dụng một nhóm các đặc trưng

Đồng thời, khóa luận thi hành mô hình nói trên bằng một hệ thống thử nghiệm và tiến hành thực nghiệm đánh giá mô hình trên bộ dữ liệu chuNn trong hội nghị RTE đã được dịch ra tiếng Việt Kết quả thực nghiệm đạt được là khả quan khi cho thấy việc kết hợp các bộ phân

lớp đã nâng cao được độ chính xác

Từ khóa: RTE, SVM

Trang 6

RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON SVM

Nguyen Thi Dung

QH-2008-I/CQ course, information technology faculty

Abtract thesis:

Inference task relates the understanding and processing language in communication which is an interesting task Textual Inference plays an important role in Natural Language Processing Textual entailment derived from inference (entailment) in logic Recognizing Textual Entailment which focuses on detecting semantic inference has attracted a lot of attention The main idea behind RTE is concerned with inferring the meaning of the text from that of another larger text.The concept of RTE explores the relationship between the text and hypothesis, the text entails the hypothesis if the hypothesis can be inferred from the text

Based on surveying and comparing some approaches proposed in the PASCAL RTE challenge, the thesis focus on many Textual Entailment problems such as concept of Textual Entailment, role of Textual Entailment and some approachs for RTE task We then propose a recognizing textual entailment model based on SVM model with lexical features and semantic features Our model is based Julio Javier Castillo’s model [10] However, we use use many SVM classifiers and combine them together when Julio Javier Castillo only used a SVM classifier

Thesis conduct experiments on system with Vietnamese RTE data which based on English RTE data of the third PASCAL RTE challenge (RTE-3) by manually translating RTE-3 development set and RTE3 test set to Vietnamese There are four experiments with cases: only use a SVM classifier, use many SVM classifiers and combine them together Test results are positive and they reveal that combining many classifiers can improve accuracy

Keywords: RTE, SVM

Trang 7

Lời cam đoan

Tôi xin cam đoan phương pháp phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM và thực nghiệm được trình bày trong khóa luận này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và Ths Phạm Quang Nhật Minh

Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Trong khóa luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày 18 tháng 05 năm 2012

Sinh viên

Trang 8

MỤC LỤC

Lời cảm ơn i

Tóm tắt khóa luận: ii

Lời cam đoan iv

Mục lục Error! Bookmark not defined Danh sách các bảng vii

Danh sách các hình vẽ viii

Danh sách các từ viết tắt ix

Lời mở đầu 1

Chương 1 Giới thiệu chung về kế thừa văn bản 3

1.1 Khái niệm kế thừa văn bản. 4

1.1.1 Kế thừa trong logic 4

1.1.2 Kế thừa trong văn bản. 5

1.2 Phát biểu bài toán phát hiện kế thừa văn bản 6

1.3 Bài toán phát hiện kế thừa văn bản trong hội nghị RTE 6

1.4 Vai trò của phát hiện kế thừa văn bản 8

1.5 Tóm tắt chương một 9

Chương 2 Hướng tiếp cận học máy cho bài toán phát hiện kế thừa văn bản và mô hình học máy SVM 10

2.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy 10

2.2.1 Các đặc trưng Intra-pair (In-pair features) 11

2.1.2 Các đặc trưng Cross-Pair 12

2.1.3 Các phương pháp học máy 13

2.2 Một số hệ thống phát hiện kế thừa văn bản có sử dụng học máy 13

2.2.1 Đối với văn bản là tiếng nước ngoài 13

2.2.2 Đối với văn bản là tiếng Việt 18

2.2.3 Nhận xét hướng tiếp cận học máy 19

2.3 Học máy SVM 19

2.4 Kết luận 24

Trang 9

Chương 3 Mô hình phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM 25

3.1 Mô hình đề xuất 25

3.1.1 Tiền xử lý 27

3.1.2 Trích xuất các đặc trưng. 27

3.1.3 Sử dụng học máy SVM cho phán quyết kế thừa 31

3.2 Tóm tắt chương 3 31

Chương 4 Thực nghiệm và đánh giá 32

4.1 Môi trường thực nghiệm. 32

4.1.1 Cấu hình phần cứng 32

4.1.2 Công cụ phần mềm 32

4.2 Dữ liệu thực nghiệm 33

4.3 Thực nghiệm 33

4.4 Đánh giá hệ thống 34

4.4.1 Kết quả thực nghiệm. 34

4.4.2 Đánh giá hệ thống 37

Kết luận và định hướng nghiên cứu tiếp theo 38

Tài liệu tham khảo 39

Trang 10

Danh sách các bảng

Bảng 1: Một số ví dụ về RTE trong hội nghị RTE-3 5

Bảng 2: Các đặc trưng được sử dụng bởi phân lớp cây quyết định [5] 14

Bảng 3: Cấu hình phần cứng 32

Bảng 4: Công cụ phần mềm 32

Bảng 5: Ý nghĩa của các giá trị 34

Bảng 6: Giá trị độ đo của các tập dữ liệu khi sử dụng bộ phân lớp SVM1 35

Bảng 9: Giá trị độ đo của các tập dữ liệu khi sử dụng ba bộ phân lớp SVM 36

Trang 11

Danh sách các hình vẽ

Hình 1: Biểu đồ Venn của mối quan hệ kế thừa A→ B 4

Hình 2: Cấu trúc hệ thống hỏi đáp 8

Hình 3: Mô hình hệ thống phát hiện kế thừa văn bản tiếng Trung [14] 15

Hình 4: Mô hình phát hiện kế thừa văn bản dựa trên học máy SVM của Julio Javier Castillo[10] 17

Hình 5: Mô hình giải quyết bài toán của Phạm Quang Nhật Minh và cộng sự [10] 19

Hình 6: Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm 20

Hình 7: Tập dữ liệu là khả tách tuyến tính 21

Hình 8: Sử dụng hàm nhân để chuyển đổi không gian vector 23

Hình 9: Mô hình giải quyết bài toán 26

Hình 10: Dữ liệu thực nghiệm 33

Hình 11: Biểu đồ thể hiện kế quả của bốn thực nghiệm 37

Trang 12

Danh sách các từ viết tắt

RTE Recognizing Textual Entailment

Trang 13

có mục đích xác định xem nghĩa của văn bản này có thể được suy luận (kế thừa) từ một văn bản còn lại hay không

Phát hiện kế thừa văn bản là một bài toán mới trong tiếng Việt Tuy có những phương pháp phát hiện kế thừa văn bản mang lại kết quả khả quan trong tiếng Anh nhưng tính hiệu quả của chúng trong tiếng Việt còn cần được kiểm nghiệm Vì thế, bài toán phát hiện kế thừa văn bản đối với văn bản tiếng Việt hiện đang là một bài toán khó

Khóa luận giới thiệu khái quát về kế thừa văn bản và bài toán phát hiện kế thừa văn bản trong các hội nghị RTE, đề nghị một mô hình phát hiện quan hệ kế thừa trong văn bản tiếng Việt, cài đặt mô hình và tiến hành thực nghiệm kiểm định mô hình Khóa luận được chia thành bốn chương với các nội dung:

Chương 1: Giới thiệu khái quát về bài toán phát hiện kế thừa văn bản Khóa

luận giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán phát hiện kế thừa văn bản, các ứng dụng thực tiễn và quá trình phát triển bài toán phát hiện kế thừa văn bản trong các hội nghị RTE

Chương 2: Trình bày hướng tiếp cận giải quyết bài toán phát hiện kế thừa văn

bản Đầu tiên, khóa luận trình bày phương pháp phát hiện kế thừa văn bản dựa trên việc sử dụng các mô hình học máy Sau đó, khóa luận giới thiệu cụ thể một số hệ thống phát hiện kế thừa văn bản có sử dụng học máy.Ở cuối chương, khóa luận trình bày về mô hình học máy SVM

Trang 14

Chương 3: Đề xuất ra mô hình phát hiện kế thừa văn bản tiếng Việt dựa trên

mô hình học máy SVM Đầu tiên, khóa luận đề xuất ra mô hình phát hiện kế thừa văn bản, sau đó khóa luận sẽ trình bày chi tiết từng bước của mô hình

Chương 4: Trình bày quá trình thực nghiệm, tiến hành cài đặt và thử nghiệm

trên mô hình đề xuất với dữ liệu thực nghiệm là tập dữ liệu chuNn trong hội nghị

RTE-3 đã được dịch ra tiếng Việt Đồng thời, khóa luận đưa ra kết quả đạt được và nhận xét

Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được

của khóa luận, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo

Trang 15

Chương 1 Giới thiệu chung về kế thừa văn bản

Bài toán phát hiện biến đổi ngữ nghĩa (cùng một thông tin có thể được biểu diễn bằng các từ và các cấu trúc cú pháp khác nhau) là một bài toán mới nhưng nó đã thu hút được sự quan tâm của các nhà nghiên cứu trong nhiều năm qua Đây là một bài toán điển hình và có ảnh hưởng quan trọng tới hiệu quả của các hệ thống hiểu ngôn ngữ tự nhiên Bài toán thể hiện ở các mức độ phức tạp khác nhau và liên quan đến hầu hết các vấn đề trong ngôn ngữ tự nhiên như: các biến đổi cấu trúc cú pháp, từ vựng, ngữ nghĩa Một ví dụ minh họa cụ thể là làm thế nào để một hệ thống hiểu ngôn ngữ

có thể phát hiện ra tất cả các câu cùng thể hiện thông tin về đội bóng Italia vô địch world cup theo như dưới đây:

Ví dụ 1: Các biến đổi ngôn ngữ

• Biến đổi từ vựng:

o Italia vô địch world cup

o SquadraAzzura vô địch world cup

• Biến đổi ngữ nghĩa:

o Italia trờ thành nhà vô địch thế giới lần thứ tư

Trong câu đầu tiên, từ “Italia” được sử dụng thay cho “đội bóng Italia” Trong câu thứ hai thì biệt danh “Squadra Azzura” được sử dụng thay cho “Italia” Trong câu thứ ba, một loại suy luận ngữ nghĩa được sử dụng để suy luận rằng: nếu “X trở thành một nhà vô địch” thì “X chiến thắng trong world cup”

Vấn đề biến đổi ngôn ngữ được sử dụng rộng rãi trong nhiều khía cạnh của lĩnh vực xử lý ngôn ngữ tự nhiên bao gồm: mở rộng truy vấn, phân tích ngữ nghĩa tiềm Nn cho tìm kiếm thông tin; so khớp từ vựng, so khớp cú pháp và suy luận logic cho hệ thống hỏi đáp; sử dụng độ trùng lặp n – gram cho hệ thống dịch máy; độ trùng lặp về

từ vựng, sự tương đồng về cú pháp, ngữ nghĩa cho kế thừa văn bản Trong khóa luận này, chúng tôi tập trung vào một bài toán con về biến đổi ngôn ngữ là bài toán phát hiện quan hệ kế thừa văn bản

Phát hiện kế thừa văn bản là bài toán mới trong lĩnh vực xử lý ngôn ngữ tự nhiên và nhận được sự quan tâm rất lớn của các nhà nghiên cứu Đặc biệt, từ năm 2005 tới nay, hội thảo RTE được tổ chức thường niên với mục đích là tổng hợp các phương pháp phát hiện kế thừa văn bản cho kết quả tốt thông qua các cuộc thi và nhận được sự quan tâm của nhiều nhóm nghiên cứu NLP trên thế giới Hội thảo RTE được tiến hành

Trang 16

trong khuôn khổ các hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007) và Phân tích xử lý văn bản (TAC:Text Analysis Conference, từ năm 2008 tới nay1)

Hiện nay có khá nhiều cách tiếp cận về khái niệm kế thừa văn bản, tuy nhiên chúng tôi sẽ trình bày khái niệm văn bản theo hướng tiếp cận của Kouylekov [12] Đầu tiên tác giả giới thiệu về kế thừa trong logic, sau đó tác giả giới thiệu về kế thừa trong văn bản

Theo Kouylekov [12], kế thừa được sử dụng trong logic mệnh đề và logic vị từ

để mô tả một mối quan hệ giữa hai mệnh đề (biểu thức chính quy) Kế thừa giữa hai mệnh đề A và B, kí hiệu là A→ B được định nghĩa bằng cách sử dụng các định nghĩa chính thức của mối quan hệ kế thừa giữa hai mệnh đề, giữa tập các mệnh đề với một mệnh đề và giữa hai tập các mệnh đề tương ứng

nếu A đúng thì B cũng đúng và nếu B sai thì A cũng sai

khi mọi mẫu A1 , A2 , ….An đều thỏa mãn B (A1∧ ∧ An→B)

Trang 17

1.1.2 Kế thừa trong văn bản

Theo Glickman và Dagan [7], kế thừa văn bản như là một mối quan hệ giữa một văn bản nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một

hệ quả của T), ký hiệu là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể suy ra ý nghĩa của T

Một cách chung nhất thì văn bản T được gọi là kế thừa từ giả thuyết H nếu như

sự thật về H có thể suy luận được từ T Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai Do vậy, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định

Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản

Bảng 1: Một số ví dụ về RTE trong hội nghị RTE-3

Accardo đã chiến thắng trong cuộc thi

Geneva vào năm 1956 và đạt giải nhất cuộc

thi mang tên Paganini tại Genoa vào năm

1958

Accardo đã chiến thắng trong cuộc thi mang tên Paganini tại Genoa

Yes

David Golinkin là biên tập viên hay tác giả

của mười tám cuốn sách, và hơn 150 bài hỏi

đáp, bài viết, bài giảng và sách

Golinkin đã viết mười tám cuốn sách

No

Giải bóng chày nhà nghề và các câu lạc bộ

của nó đã mua hơn 260 triệu hàng đôla hàng

hoá và dịch vụ từ các công ty nhỏ và do phụ

nữ sở hữu

Giải bóng chày nhà nghề

và các câu lạc bộ của nó đã mua các công ty nhỏ và do phụ nữ sở hữu

Yes

Thạch anh sông Ranh là một viên kim cương

giả được làm từ đá pha lê, thủy tinh hoặc

acrylic

Kim cương được làm cùng với kính

No

Đảo Scott là một phần của Ross Dependency,

thuộc chủ quyền của New Zealand

Đảo Scott thuộc New Zealand

No

Trang 18

1.2 Phát biểu bài toán phát hiện kế thừa văn bản

Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn bản T và giả thuyết H Bài toán được phát biểu như sau:

• Đầu vào: Tập các cặp văn bản – giả thuyết <T, H>thuộc cùng một chủ đề

• Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Yes” /

“No” Nhãn “Yes” tương ứng với trường hợp văn bản T kế thừa giả thuyết H, nhãn “No” tương ứng với trường hợp văn bản T không kế thừa giả thuyết H

Hội nghị RTE được tổ chức thường niên với mục đích tổng hợp những phương pháp cho kết quả tốt cho bài toán phát hiện kế thừa văn bản Hội nghị RTE lần đầu tiên được tổ chức vào năm 2005 Trải qua các hội nghị RTE, bài toán phát hiện kế thừa văn bản đã có những thay đổi và bổ sung mới

Theo tổng hợp của Dagan và cộng sự, 2005 [8], RTE-1 được tổ chức vào năm

2005 đã đưa ra chuNn đầu tiên cho bài toán phát hiện kế thừa văn bản Tập dữ liệu RTE-1 bao gồm tập các đoạn văn bản thông thường: văn bản (T) gồm một hoặc hai câu và giả thuyết (H) gồm một câu Các hệ thống tham gia được yêu cầu đưa ra phán quyết cho mỗi cặp (T, H) về việc có kế thừa hay không Các cặp đại diện cho sự phán quyết thành công hay thất bại của suy luận thuộc rất nhiều kiểu ứng dụng khác nhau như: QA, IE, IR và MT

RTE-2 (2006) được tổ chức với vấn đề trọng tâm là: làm sao để cung cấp nhiều hơn các ví dụ thực tế của cặp văn bản – giả thuyết, chủ yếu dựa vào đầu ra của các hệ thống thực tiễn Tập dữ liệu của RTE-2 chứa 1600 cặp văn bản – giả thuyết và cũng được chia làm hai tập: tập phát triển và tập kiểm tra với số lượng mỗi tập là 800 cặp Các ví dụ thể hiện các mức độ khác nhau của kết luận kế thừa dựa trên phân tích từ vựng, cú pháp, hình thái học và tính logic Quá trình thu thập dữ liệu và xử lý ghi chú

đã có những tiến bộ, bao gồm việc chú thích các ví dụ trên các trang web của các tổ chức

RTE-3 (2007) tiếp tục kế thừa RTE-1,2 và phát triển thêm về độ dài của văn bản đánh giá (nâng lên mức độ đoạn văn) tuy nhiên các ví dụ dùng để xây dựng dữ liệu đào tạo và kiểm thử hầu hết ở dạng văn bản ngắn (câu) Các cặp dữ liệu được ghi chú và phân lớp dựa theo các thao tác có liên quan như trích xuất thông tin (IE), thu thập thông tin (IR), hệ thống hỏi đáp (QA) và tóm tắt (SUM) cũng như các phán quyết

kế thừa tương ứng của chúng (“Có” hoặc “Không” kế thừa)

Trang 19

RTE-4 (2008) tiếp tục phát triển từ các cuộc thi trước đó, với mục đích chính là phân lớp được các phán quyết thành ba kiểu: “Có”, “Không” và “Không xác định” để tăng tính chính xác trong việc phân biệt thông tin; tính chất kế thừa của một giả thuyết

là không rõ ràng khi thực hiện suy luận dựa trên một văn bản được phân biệt là khác

so với một giả thuyết có thể nhìn thấy rõ ràng là không đúng hoặc trái ngược so với văn bản nguồn Tập dữ liệu của RTE-4 gồm có 1000 cặp (300 đối với mỗi IE và IR,

400 đối với SUM, QA)

Bài toán của RTE-5 (2009) cũng giống với RTE-4 nhưng có một số thay đổi:

Độ dài trung bình của các văn bản là dài hơn Các văn bản được thu thập từ nhiều nguồn khác nhau và không được chỉnh sửa từ tài liệu nguồn của chúng Do vậy, hệ thống sẽ được yêu cầu xử lý văn bản thực sự, có thể bao gồm các lỗi đánh máy và các câu không đúng ngữ pháp Phát hiện kế thừa văn bản sẽ chỉ dựa trên ba cài đặt ứng dụng là: hỏi đáp (QA), trích chọn thông tin (IE) và tìm kiếm thông tin (IR)

Hội nghị RTE-6 (2010) có một số khác biệt đáng kể so với RTE-5, đó là kế thừa văn bản được thực thi trên toàn bộ tập corpus thực sự Trong RTE-6, một giai đoạn lọc tìm kiếm thông tin sơ bộ được thực hiện bằng cách sử dụng Lucene (Lucene

là một thư viện mã nguồn mở cho tìm kiếm toàn văn bản, được phát triển bởi Dough Cutting, thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm), để chọn cho H một tập các câu kế thừa ứng viên được đánh giá bởi các hệ thống tham gia Nhằm tiếp tục các nỗ lực thử nghiệm trong các ứng dụng NLP, tập hợp cơ sở tri thức (Knowledge Base Population: KBP) được đề xuất Cơ sở dữ liệu tri thức sẽ giúp cho việc nâng cao kết quả cho bài toán phát hiện kế thừa văn bản

Hội nghị RTE-7 (2011) tiếp tục phát triển những vấn đề trong hội nghị RTE-6 Bài toán đặt ra là tập trung kế thừa dựa vào ngữ cảnh Trong đó, việc quyết định kế thừa dựa trên ngữ cảnh rộng hơn RTE-7 tập trung vào kế thừa văn bản trong hai thiết lập ứng dụng: tóm tắt và tập hợp cơ sở tri thức (KBP) Bài toán chính trong RTE-7 là việc đưa ra một tập corpus và một tập các câu ứng viên được lấy ra từ tập corpus từ Lucence, hệ thống kế thừa văn bản được yêu cầu phải xác định các câu từ tập các câu ứng viên để mà chúng kế thừa một giả thuyết đưa ra Dựa trên bài toán chính, bài toán phụ sẽ tập trung vào việc phát hiện tính mới, có nghĩa là các hệ thống kế thừa văn bản được yêu cầu phải đánh giá liệu thông tin chứa trong giả thuyết H liệu có mới so với thông tin chứa trong tập corpus hay không, nếu các câu kế thừa được tìm thấy trong câu giả thuyết H được đưa ra thì nội dung của H là mới

Trang 20

1.4 Vai trò của phát hiện kế thừa văn bản

Kế thừa văn bản cung cấp các tính toán với các khả năng suy luận để đạt được

sự hiểu ngôn ngữ tự nhiên tốt hơn Ngoài ra, phát hiện kế thừa văn bản được ứng dụng trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: Hệ hỏi đáp, trích xuất và trích chọn thông tin, tóm tắt văn bản, dịch máy…

Trong hệ thống hỏi đáp (Question Answering System), phát hiện kế thừa văn bản được sử dụng để xác định những câu trả lời có quan hệ kế thừa và đưa ra gợi ý về câu trả lời được mong muốn từ câu hỏi của người dùng Quá trình thực hiện được thể hiện như hình 2

Hình 2: Cấu trúc hệ thống hỏi đáp

Đặc biệt, với tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên, kế thừa văn bản được sử dụng để xác định hoặc rút gọn lượng thông tin kế thừa trong văn bản cần tóm tắt, từ đó so sánh với văn bản khác Điều này được sử dụng để tránh dư thừa thông tin khi trong một văn bản có những đoạn là kế thừa tri thức của nhau Áp dụng điều này, tóm tắt văn bản sử dụng quan hệ kế thừa để bỏ qua những thông tin không cần thiết giúp rút ngắn độ dài văn bản mà vẫn giữ được những thông tin quan trọng

Trong lĩnh vực dịch máy (Machine Translation), kế thừa văn bản dùng để đánh giá sự tương đương về mặt ngữ nghĩa của các bản dịch

Trang 22

Chương 2 Hướng tiếp cận học máy cho bài tốn phát hiện kế

thừa văn bản và mơ hình học máy SVM

Từ năm 2005 tới nay, hội nghị khoa học quốc tế thường niên về RTE (nhánh RTE của hội nghị phân tích văn bản (Text Analysis Conference: TAC)) đã tập hợp được nhiều cơng trình nghiên cứu về RTE Trải qua 7 kỳ hội nghị với hàng trăm bài báo và nhiều cơng trình nghiên cứu được cơng bố, nhìn chung hướng tiếp cận mà các tác giả sử dụng chủ yếu như: hướng tiếp cận sử dụng học máy với việc lựa chọn các đặc trưng, hướng tiếp cận dựa trên đại diện ở các mức độ khác nhau của xử lý ngơn ngữ tự nhiên (cú pháp, ngữ nghĩa), hướng tiếp cận dựa trên suy luận logic Hầu hết các hướng tiếp cận trên đều cĩ thể dựa trên các cơ sở tri thức bên ngồi như WordNet2(một cơ sở dữ liệu từ vựng cho tiếng Anh WordNet cung cấp các định nghĩa tổng quát liên quan đến từ vựng, hữu ích trong việc xử lý ngơn ngữ tự nhiên) Một cơ sở dữ liệu

từ vựng tiếng Anh khác mà các tác giả cũng thường xuyên sử dụng là FrameNet3 Nhìn chung, mỗi hướng tiếp cận đều cĩ những ưu điểm riêng nhưng thơng thường chỉ giải quyết được một khía cạnh của bài tốn, khĩ cĩ thể đưa ra một cách tiếp cận nào rõ ràng giải quyết được tất cả các vấn đề trong kế thừa văn bản

Trên cơ sở tìm hiểu các phương pháp tiếp cận, Rui Wang [15] nhận xét rằng việc áp dụng học máy vào bài tốn phát hiện kế thừa văn bản cĩ rất nhiều ưu điểm như: tránh việc phải xác định ngưỡng kế thừa, cĩ khả năng làm việc với một số lượng lớn các đặc trưng, cho phép tích hợp các thơng tin từ nhiều mức như cú pháp, ngữ nghĩa hoặc sự kế hợp giữa chúng

Theo Rui Wang [15], cĩ hai bước cần thực hiện khi áp dụng phương pháp học máy Bước đầu tiên là tiến hành trích xuất đặc trưng từ cặp văn bản – giả thuyết đầu vào Bước tiếp theo là việc sử dụng các bộ phân lớp với các đặc trưng vừa được trích xuất Các bộ phân lớp thường được sử dụng bao gồm: bộ phân lớp cây quyết định (Decision Trees-DTs), máy vector hỗ trợ (Support Vector Machines-SVMs), Entropy cực đại (Maximum Entropy-ME), Nạve Bayes (NB) Kết quả phân lớp kế thừa khơng chỉ phụ thuộc vào bộ phân lớp sử dụng, các đặc trưng được lựa chọn mà nĩ cịn phụ thuộc vào cả dữ liệu huấn luyện Việc học dữ liệu huấn luyện cĩ thể chia thành hai loại: học dựa trên các đặc trưng intra-pair và học dựa trên các đặc trưng cross-pair

2 http://wordnet.princeton.edu/

3 http://framenet.icsi.berkeley.edu/

Trang 23

Phát hiện kế thừa văn bản là một bài toán kiểm tra sự tồn tại của mối quan hệ kế thừa giữa hai đoạn văn bản (văn bản T và giả thuyết H) Hầu hết các đặc trưng được trích xuất dựa trên mối quan hệ giữa T và H (các đặc trưng intra-pair), tuy nhiên, cũng có một số đặc trưng khác được tính dựa trên các đặc trưng giữa các cặp T-H với nhau (đặc trưng cross-pair)

Các đặc trưng Intra-pair là các đặc trưng được trích xuất từ việc so sánh cặp câu

T và H Nếu chúng ta coi các câu như một nhóm các token (đơn vị từ vựng) thì sự trùng lặp từ vựng sẽ là một chỉ số tốt Ngoài ra, các đặc trưng có thể được trích xuất dựa từ cấu trúc cú pháp hoặc các đại diện ngữ nghĩa hoặc thậm chí cả các hình thức logic Nếu chúng ta coi các câu như các túi từ (bag of words) thì các đặc trưng được xem xét bao gồm: số lượng các từ trùng lặp giữa T và H hoặc tỉ lệ của số lượng từ trùng lặp với tổng số các từ trong T hoặc H

J Bos và K Market [9] kết hợp phương pháp dựa trên trùng lặp từ và phương pháp dựa trên suy luận logic Một số tác giả sử dụng các đặc trưng phong phú ở các cấp độ xử lý đa dạng khác nhau.Sự kết hợp giữa các từ trong T và H được phát hiện và giúp cho việc phân lớp trong giai đoạn tiếp theo

A Newman và cộng sự [5] đề xuất ra hai hệ thống, hệ thống đầu tiên sử dụng một số độ đo tương tự, bao gồm ROUGE (Recall-Oriented Understudy for Gisting Evaluation: một gói phần mềm với một tập các độ đo được sử dụng cho việc đánh giá tóm tắt tự động và phần mềm dịch máy trong xử lý ngôn ngữ tự nhiên), độ đo Cosin,

và độ đo tương đồng cho danh từ dựa trên WordNet Với các đặc trưng dựa trên động

từ, các tác giả sử dụng mạng ngữ nghĩa VerbOcean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ) Trên thực tế, hầu hết các nhóm sử dụng các đặc trưng từ vựng đều áp dụng các độ tương đồng giữa các từ dựa vào từ điển WordNet hoặc các nguồn tài nguyên từ vựng khác

Theo Rui Wang [15] thì R Adam sử dụng khoảng cách chỉnh sửa từ vựng như

là một đặc trưng Về cơ bản, tác giả đếm số các token không được ánh xạ sau khi so sánh cặp <T, H> và sau đó mở rộng độ dài của H bằng toán tử chèn từ phép chỉnh sửa

T kế thừa H nếu có một chuỗi các phép chuyển đổi được áp dụng để biến T thành H với tổng thể chi phí ở dưới ngưỡng cho phép Sự khác biệt ở đây là các tác giả tính toán khoảng cách chỉnh sửa dựa trên cây phụ thuộc, bao gồm các phép toán: chèn, xóa

Trang 24

và thay thế Các chi phí để xóa và thay thế là 0 nếu hai từ đó là tương đồng với nhau dựa theo từ điển WordNet và là khác 0 trong các trường hợp khác

Thêm nữa, Rui Wang [15] cũng chỉ ra rằng F Schilder và B T McInnessử dụng khoảng cách chỉnh sửa cây như là một đặc trưng và áp dụng các độ đo tương tự cây xấp xỉ khác Đối với bài toán RTE, văn bản T thường dài hơn giả thuyết H, trong

đó văn bản T thường chứa các thông tin nhiễu mà không liên quan đến việc phát hiện mối quan hệ kế thừa (đây chính là nguyên nhân vì sao mà phép xóa có chi phí là 0)

Từ trái nghĩa đóng một vài trò quan trọng cho bài toán phát hiện kế thừa trong văn bản, đó là việc tìm các cặp từ trái nghĩa xuất hiện giữa T và H để làm đặc trưng phát hiện quan hệ kế thừa E Newman và cộng sự [5] cũng sử dụng đặc trưng này từ Verb-Ocean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ)

Tên thực thể (Named-Entity:NE) là một đặc trưng quan trọng Một số tác giả đã tiến hành thực nghiệm và kết quả cho thấy rằng hệ thống có sử dụng đặc trưng NE cho kết quả cao hơn so với hệ thống trước đó Số (hoặc các biểu thức số) xuất hiện trong T

và H được so sánh trực tiếp hoặc sau khi được thay đổi giá trị

Một số đặc trưng được trích xuất từ các cấu trúc cú pháp, chức năng ngữ nghĩa, hoặc hình thức logic Theo Rui Wang [15], A Hickl và cộng sự tiến hành tiền xử lý các văn bản với phân tích từ vựng, phân tích cú pháp, giải quyết vấn đề đồng tham chiếu và phân tích ngữ nghĩa và sau đó đã trích xuất các đặc trưng dựa trên đầu ra, bao gồm các đặc trưng phụ thuộc, các đặc trưng diễn giải, các đặc trưng ngữ nghĩa Bên cạnh đó, thành phần cơ bản (Basic Element: BE) được tận dụng như một không gian đặc trưng BE là một bộ dữ liệu (tuple) đại diện cho các đoạn cú pháp quan trọng

Theo như tổng kết, Rui Wang [15] chỉ ra rằng: Trong hội nghị RTE-2, chỉ có nhóm tác giả Zanzotto và cộng sự trích xuất được các đặc trưng cross-pair Các tác giả không tính toán độ tương đồng giữa T và H mà tính độ tương đồng giữa các cặp T-H khác nhau dựa trên các thông tin về cú pháp và từ vựng Cụ thể, các tác giả sử dụng các hàm đánh giá sự tương đồng giữa các từ hoặc biểu thức phức tạp hơn để xác định các vị trí (anchor) Các vị trí này được sử dụng để kết nối toàn bộ T và H Sau đó, một hàm nhân dựa trên đặc trưng cross-pair được áp dụng để tính toán độ tương đồng Các tác giả xấp xỉ tổng độ tương đồng giữa hai câu T và hai câu H thành độ tương đồng giữa hai cặp

Trang 25

SVM là một phương pháp học máy dựa trên hàm nhân, nó biểu diễn tất cả các đặc trưng thông qua việc chuyển đổi chúng thành một vector đặc trưng Theo Rui Wang [15], J Herrera và cộng sựsử dụng cả hai loại đặc trưng: các mối quan hệ từ vựng và các đặc trưng dựa vào nhận dạng thực thể để phân lớp và nhấn mạnh tầm quan trọng của loại đặc trưng thứ hai Kouyleko và Magnini có những cài đặt khác nhau cho toán tử chèn của phép tính toán khoảng cách chỉnh sửa cây Do đó, họ xây dựng năm hệ thống đường cơ sở và kết hợp chúng lại như là các đặc trưng cho bộ phân lớp SMO SMO là thuật toán tối ưu thiểu tuần tự (Sequential Minimal Optimization) của John Platt để đào tạo bộ phân lớp SVM Schilder và McInnes [6] có hai hướng tiếp cận dựa trên từ vựng và hai hướng tiếp cận dựa trên khoảng cách chỉnh sửa cây Do

đó, các tác giả tiến hành kết hợp các hướng tiếp cận này vào một bộ phân lớp SVM

Bài toán phát hiện quan hệ kế thừa có thể coi như một bài toán phân lớp nhị phân Vì vậy thuật toán cây quyết định được sử dụng rộng rãi bởi các nhóm lựa chọn các đặc trưng ngôn ngữ J Bos và K Markert [9] sử dụng cả đặc trưng nông

và đặc trưng sâu để xây dựng môt mô hình cây quyết định Nicholson sử dụng các

mô hình cây quyết định khác nhau như: C4.5, C5 vào hệ thống phát hiện kế thừa văn bản của mình

Eamonn Newman và cộng sự [5] đề xuất ra hệ thống phát hiện kế thừa văn

bản sử dụng bộ phân lớp cây quyết định Hệ thống sử dụng phân lớp cây quyết định để phát hiện một mối quan hệ kế thừa giữa các cặp câu được đại diện bằng cách sử dụng một lượng lớn các đặc trưng như: từ vựng, ngữ nghĩa và các thuộc tính ngữ pháp của các danh từ, động từ và tính từ Các tác giả tạo ra phân lớp từ tập dữ liệu huấn luyện RTE sử dụng thuật toán học máy C5.0: sử dụng thuật toán C 5.0 vì nó có thể được dùng để xây dựng một phân lớp cây quyết mà từ đó có thể thực thi trên một nhánh dãy

số trong khi nhiều thuật toán khác chỉ thực hiện trên các giá trị rời rạc

Trang 26

Các đặc trưng sử dụng được tính bằng cách:20 sử dụng hệ thống phân lớp quan

hệ ngữ nghĩa Wordnet (xác định độ tương đồng giữa hai câu là tổng điểm số tương đồng giữa các thành phần từ trong Wordnet), mạng ngữ nghĩa Verb-Ocean và kĩ thuật đánh chỉ mục ngữ nghĩa tiềm Nn Các đặc trưng khác được dựa trên ROUGE, độ đo trùng lặp n-gram và độ tương đồng cosin giữa văn bản và giả thuyết Các tác giả còn

sử dụng đặc trưng chuỗi con chung dài nhất cho các cặp câu và sau đó phát hiện ra các mâu thuẫn trong cặp bằng cách kiểm tra ngữ nghĩa động từ cho sự xuất hiện của đồng nghĩa, gần nghĩa, phủ định hay trái nghĩa trong chuỗi con

Các tác giả đã khảo sát tính hữu dụng của một số đặc trưng phân biệt trong suốt quá trình phát triển phương pháp cây quyết định cho kế thừa văn bản Những đặc trưng này được phát triển bằng cách sử dụng tập dữ liệu huấn luyện trong tập dữ liệu đã có sẵn trong hội nghị RTE

Bảng 2: Các đặc trưng được sử dụng bởi phân lớp cây quyết định [5]

Ranxu Su và cộng sự [14] đề xuất ra hệ thống phát hiện kế thừa văn bản cho

tiếng Trung Quốc Hệ thống bao gồm hai quá trình chính: trích xuất đặc trưng và phân lớp Nhiều phương pháp trong xử lý ngôn ngữ tự nhiên được áp dụng vào hệ thống như: tách từ, gán nhãn, phân tích cú pháp và phân tích ngữ nghĩa Các tác giả sử dụng

từ điển TongYiCi CILin và một từ điển trái nghĩa để xây dựng các đặc trưng ngữ nghĩa TongYiCi CILin là từ điển đồng nghĩa của Trung Quốc bao gồm năm lớp Các

từ với các nghĩa tương tự được xắp xếp trong các dòng Một dòng các từ Trung Quốc

có cùng chỉ số và chúng có cùng ý nghĩa, các chỉ số được sắp xếp thành năm lớp Để

Tiêu đề	Phát hiện kế thừa văn bản tiếng Việt dựa trên học máy SVM
Tác giả	Nguyễn Thị Dung
Người hướng dẫn	PGS.TS Hà Quang Thụy, ThS Phạm Quang Nhật Minh
Trường học	Đại Học Quốc Gia Hà Nội Trường Đại Học Công Nghệ
Chuyên ngành	Công nghệ Thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2012
Thành phố	Hà Nội

Định dạng
Số trang	52
Dung lượng	656,3 KB