Bài toán này đã trở thành một hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và được biết đến như bài toán phát hiện kế thừa văn bản Recognizing Textual Entailment:RTE.Bài toán
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ DUNG
PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGÔN NGỮ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Trang 3Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Hà Quang Thụy đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này
Tôi xin chân thành cảm ơn các thầy, cô trong trường đại học Công Nghệ - đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu
Tôi cũng xin gửi lời cảm ơn đến các anh chị, các bạn trong phòng thí nghiệm Lab đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong quá trình thực hiện luận văn
KT-Cuối cùng, tôi xin được gửi lời cám ơn vô hạn tới gia đình và bạn bè, những người
đã luôn bên cạnh, giúp và động viên tôi trong quá trình học tập cũng như trong suốt quá trình thực hiện luận văn này
Tôi xin chân thành cảm ơn!
Hà Nội, ngày tháng năm 2015
Học viên
Nguyễn Thị Dung
Trang 4Lời cam đoan
Tôi xin cam đoan phương pháp phát hiện kế thừa văn bản đa ngôn ngữ cùng với thực nghiệm được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng trong danh mục tài liệu tham khảo của luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo
Trang 5MỤC LỤC
Lời cảm ơn i
Lời cam đoan ii
MỤC LỤC iii
Danh sách các bảng v
Danh sách các hình vẽ vi
Danh sách các từ viết tắt vii
Lời mở đầu 1
Chương 1: Giới thiệu bài toán kế thừa văn bản đa ngôn ngữ 3
1.1 Khái quát về kế thừa văn bản 3
1.1.1 Khái niệm kế thừa văn bản 3
1.1.2 Phát biểu bài toán phát hiện kế thừa văn bản 4
1.2 Kế thừa văn bản đa ngôn ngữ 5
1.2.1 Động lực và mục tiêu 5
1.2.2 Khái niệm kế thừa văn bản đa ngôn ngữ 5
1.3 Các ứng dụng của bài toán phát hiện kế thừa văn bản đa ngôn ngữ 7
1.4 Tóm tắt chương một 8
Chương 2: Các hướng tiếp cận bài toán RTE và CLTE 9
2.1 Hướng tiếp cận cho bài toán RTE 9
2.1.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy 9
2.1.2 Một số hệ thống phát hiện kế thừa văn bản có sử dụng học máy 12
2.2 Hướng tiếp cận cho bài toán CLTE 15
2.2.1 Hướng tiếp cận cơ bản 15
2.2.2 Hướng tiếp cận nâng cao 18
2.3 Tiếp cận của luận văn với phát hiện kế thừa văn bản đa ngôn ngữ 23
2.4 Tóm tắt chương hai 24
Chương 3: Mô hình phát hiện kế thừa văn bản đa ngôn ngữ 25
3.1 Giới thiệu 25
3.2 Mô hình đề xuất 26
3.2.1 Thành phần dịch máy 27
Trang 63.2.2 Thành phần phát hiện kế thừa 28
3.3 Tóm tắt chương ba 33
Chương 4: Thực nghiệm và đánh giá 34
4.1 Môi trường thực nghiệm 34
4.1.1 Cấu hình phần cứng 34
4.1.2 Công cụ phần mềm 34
4.2 Dữ liệu thực nghiệm 34
4.3 Thực nghiệm 35
4.4 Đánh giá hệ thống 36
4.4.1 Kết quả thực nghiệm 36
4.4.2 Đánh giá hệ thống 38
4.5 Tóm tắt chương bốn 38
Kết luận và định hướng nghiên cứu tiếp theo 39
Tài liệu tham khảo 40
Trang 7Danh sách các bảng
Bảng 1: Một số ví dụ về kế thừa văn bản 4
Bảng 2: Một số ví dụ về kế thừa văn bản đa ngôn ngữ 6
Bảng 3: Các đặc trưng được sử dụng cho phân lớp cây quyết định [1] 13
Bảng 4: Ý nghĩa của các tham số 36
Bảng 5: Giá trị độ đo của các tập dữ liệu khi sử dụng 37
Trang 8Danh sách các hình vẽ Hình 1: Mô hình phát hiện kế thừa văn bản dựa trên học máy SVM của Julio Javier
Castillo [6] 13
Hình 2: Hệ thống CLTE theo hướng tiếp cận cơ bản 16
Hình 3: Mô hình đề xuất của Fandong Meng cộng sự [2] 16
Hình 4: Hệ thống CLTE theo hướng tiếp cận nâng cao 19
Hình 5: Sử dụng một bảng cụm từ để ánh xạ các cụm từ giữa văn bản và giả thuyết 20
Hình 6: Sử dụng bảng cụm từ kết hợp với hai bảng diễn giải để ánh xạ các cụm từ giữa văn bản và giả thuyết 21
Hình 7: Hệ Thống CLTE dựa trên đối sánh từ 22
Hình 8: Hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh 26
Hình 9: Thành phần dịch máy 27
Hình 10: Thành phần phát hiện kế thừa văn bản 28
Hình 11: Dữ liệu thực nghiệm cho quá trình đào tạo (training) 35
Hình 12: Biểu đồ thể hiện kết quả trung bình của các thực nghiệm 38
Trang 9Danh sách các từ viết tắt
1
TE Textual Entailment
2 RTE Recognizing Textual Entailment
3 NLP Natural Language Processing
8 SVMs Support Vector Machines
9 CLTE Cross Lingual Textual Entailment
Trang 10Lời mở đầu Trong những năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên đã thu hút được sự quan tâm đặc biệt của các nhà nghiên cứu và đạt được nhiều thành tựu đáng kể Trong đó, thành công của nhiều ứng dụng ngôn ngữ tự nhiên tự động là do việc hiểu chính xác ngữ nghĩa của văn bản dựa theo cấu trúc cú pháp bằng cách sử dụng máy tính Điều này đã trở thành thách thức với những văn bản cùng diễn đạt một ý nghĩa nhưng sử dụng các cấu trúc cú pháp và các từ ngữ khác nhau Các ứng dụng ngôn ngữ tự nhiên tự động đã tận dụng các thành phần được làm mịn để xử lý hiệu quả hơn các văn bản có cấu trúc phức tạp Một trong những bài toán của xử lý văn bản là việc suy luận ngữ nghĩa của một đoạn văn bản từ một đoạn trích trong văn bản tiềm năng khác Bài toán này đã trở thành một hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và được biết đến như bài toán phát hiện kế thừa văn bản (Recognizing Textual Entailment:RTE).Bài toán phát hiện kế thừa văn bản lần đầu tiên được Dagan và Glickman đề xuất [3].Cho hai đoạn văn bản, bài toán phát hiện kế thừa văn bản có mục đích xác định xem nghĩa của văn bản này có thể được suy luận (kế thừa) từ văn bản còn lại hay không
Từ nhu cầu thực tế của các lĩnh vực khác trong xử lý ngôn ngữ tự nhiên, bài toán phát hiện kế thừa văn bản đã nhận được sự quan tâm của các nhà khoa học và các nhóm nghiên cứu trên thế giới Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niên hàng năm nhằm mục đích so sánh và tổng hợp lại các phương pháp phát hiện kế thừa văn bản tốt Hội nghị RTE tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007) và Phân tích xử lý văn bản (TAC: Text Analysis Conference, từ năm 2008 tới nay)
Gần đây, một trong nhưng thách thức của bài toán phát hiện kế thừa văn bản là phát hiện mối quan hệ kế thừa cho những văn bản được viết bằng các ngôn ngữ khác nhau: Anh, Tây Ban Nha, Pháp,…Chính vì thế, bài toán phát hiện kế thừa văn bản đa ngôn ngữđã được hình thành(Cross-lingual Textual Entailment - CLTE) Bài toán CLTE lần đầu tiên được Mehdadđề xuất [14] như một sự mở rộng của kế thừa văn bản Bài toán CLTE được sử dụng trong đồng bộ hóa nội dung văn bản được tổ chức trong khuôn khổ của hội nghị Đánh giá ngữ nghĩa SemEval-20121 (Semantic Evaluation)
Phát hiện kế thừa văn bản nói chung và phát hiện kế thừa văn bản đa ngôn ngữnói riêng là bài toán mới ở Việt Nam Hiện tại, có rất ít nhóm nghiên cứu ở Việt Nam tìm hiểu và nghiên cứu về bài toán này Mặc dù có những phương pháp phát hiện kế thừa văn bản mang lại kết quả khả quan trong tiếng Anh nhưng tính hiệu quả của chúng trong
1
http://www.cs.york.ac.uk/semeval-2012/
Trang 11tiếng Việt còn cần được kiểm nghiệm Vì thế, bài toán phát hiện kế thừa văn bản đối với văn bản tiếng Việt hiện đang là một bài toán khó Bởi vì những lý do này, luận văn sẽ giới thiệu khái quát về bài phát hiện kế thừa văn bản đơn ngônngữ và đa ngôn ngữ, sau
đó, đề xuất một mô hình phát hiện kế thừa văn bản đa ngôn ngữtrên các cặp câu văn bản Việt-Anh, cài đặt mô hình và tiến hành thực nghiệm kiểm định mô hình Luận văn được chia thành bốn chương với các nội dung:
Chương 1: Giới thiệu khái quát về bài toán phát hiện kế thừa văn bản đơn ngôn ngữ vàđa ngôn ngữ Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán phát hiện kế thừa văn bản, sau đó, luận văn giới thiệu về bài toán phát hiện kế thừa văn bản đa ngôn ngữ Ở cuối chương, luận văn trình bày các ứng dụng thực tiễn của phát hiện
kế thừa văn bản
Chương 2: Trình bày hướng tiếp cận giải quyết bài toán phát hiện kế thừa văn bản
đa ngôn ngữ Đầu tiên, luận văn trình bày các phương pháp phát hiện kế thừa văn bản đa ngôn ngữ Sau đó, luận văn đánh giá và lựa chọn một hướng tiếp cận thích hợp nhất để đưa ra mô hình đề xuất
Chương 3: Đề xuất ra mô hình phát hiện kế thừa văn bản đa ngôn ngữtrên các cặp câu văn bản Việt-Anh Đầu tiên, luận văn đề xuất ra mô hình phát hiện kế thừa văn bản
đa ngôn ngữbằng việc kết hợp giữa phương pháp dịch máy và mô hình học máy SVM, sau đó luận văn sẽ trình bày chi tiết từng bước của mô hình
Chương 4: Trình bày quá trình thực nghiệm, tiến hành cài đặt và thử nghiệm trên
mô hình đề xuất với dữ liệu thực nghiệm là tập dữ liệu chuẩn trong hội nghị RTE-3 đã được dịch ra tiếng Việt Đồng thời, luận văn đưa ra kết quả đạt được và nhận xét
Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được của luận văn, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo
Trang 12Chương 1: Giới thiệu bài toán kế thừa văn bản đa ngôn ngữ
1.1 Khái quát về kế thừa văn bản
Trong cuộc sống hằng ngày, bằng việc sử dụng ngôn ngữ tự nhiên, chúng ta có thể diễn đạt một vấn đề theo nhiều cách khác nhau với các từ ngữ và cấu trúc cú pháp khác nhau Vấn đề biến đổi này trong biểu diễn ngữ nghĩa có thể được xem như là vấn đề nhập nhằng trong ngôn ngữ tự nhiên Các ứng dụng trong xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến thể văn bản khác nhau hay không
Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một bài toán tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên nhiều ứng dụng
xử lý ngôn ngữ tự nhiên Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niên hàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh các phương pháp tiếp cận của các nhà nghiên cứu Ba hội nghị RTE đầu tiên (RTE-1 năm 2005, RTE-2 năm
2006 và RTE-3 năm 2007) được tổ chức tại chuỗi PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning) Các hội nghị RTE còn lại (RTE-4 năm 2008, RTE-5 năm 2009, RTE-6 năm 2010, RTE-7 năm 2011 và RTE-8 năm 2012) được tổ chức thuộc hội nghị Phân tích xử lý văn bản (TAC: Text Analysis Conference) của NIST (National Institute of Standards and Technology) Hội nghị Phân tích và xử lý văn bản TAC được tổ chức để khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng liên quan bằng cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một diễn đàn để các nhóm nghiên cứu chia sẻ kết quả của họ
1.1.1 Khái niệm kế thừa văn bản
Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác nhau Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một văn bản nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một hệ quả của T), ký hiệu
là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể suy ra ý nghĩa của H Một cách chung nhất thì văn bản T được gọi là kế thừa giả thuyết H nếu như sự thật
về H có thể suy luận được từ T Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai Do vậy, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định
Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản
Trang 13Bảng 1: Một số ví dụ về kế thừa văn bản
1 Bountiful đã tới sau khi chiến tranh
kết thúc, cập vịnh San Francisco vào
ngày 21 tháng 8 năm 1945 Bountiful
sau đó được chỉ định làm một tàu
bệnh viện ở Yokosuka, khởi hành từ
San Francisco vào ngày 1 tháng 11
năm 1945
Bountiful đã tới San Francisco vào tháng 8 năm 1945
Yes
2 Tập đoàn Boeing đặt tại Chicago đã
hủy bỏ ba đơn hàng vào năm 2006
mà Air Canada đã đặt
Trụ sở của tập đoàn Boeing nằm ở Canada
No
3 Dưới tiêu đề "Greed instead of
quality", Die Tageszeitung của Đức
nói chẳng có điều gì tốt đẹp việc thâu
tóm nhà xuất bản Berliner Verlag của
hai quỹ đầu tư của Anh và Mỹ
Hai quỹ đầu tư của Anh và
Mỹ đã thâu tóm Berliner Verlag
Yes
4 Scott Island đã đượcthuyền trưởng
William Colbeck người chỉ huy của
Morning, con tàu cứu viện cho cuộc
viễn chinh của thuyền trưởng Robert
F Scott, tìm ra vào tháng 12 năm
1902
Thuyền trưởng Scott đã đặt chân tới đảo Scott Island vào tháng 12 năm 1902
No
5 Chiếc xe hơi đã va vào hòm thư
thuộc về James Clark, 68 tuổi, một
người quen của gia đình James
Jones
Clark là một người họ hàng của Jones
No
1.1.2 Phát biểu bài toán phát hiện kế thừa văn bản
Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn bản T
và giả thuyết H Bài toán được phát biểu như sau:
Đầu vào: Tập các cặp văn bản – giả thuyết <T, H>thuộc cùng một chủ đề
Trang 14 Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Yes” / “No” Nhãn “Yes” tương ứng với trường hợp văn bản T kế thừa giả thuyết H, nhãn “No” tương ứng với trường hợp văn bản T không kế thừa giả thuyết H
1.2 Kế thừa văn bản đa ngôn ngữ
2013 thì tỉ lệthông tin được người dùng viết bằng các ngôn ngữAnh, Trung Quốc, Tây Ban Nha, và Bồ Đầu Nha trên web tương ứng là 800.6, 649.4, 222.4, 121.8 (theo đơn
vịnghìn người sử dụng)2 Điều đó cho thấy được sự cần thiết của công nghệ đa ngôn ngữđể giúp người dùng tiếp cận thông tin và giao tiếp với nhau trên Internet
Phát hiện kế thừa văn bản đơn ngôn ngữ đã mang lại nhiều lợi ích cho các ứng dụng
xử lý ngôn ngữ tự nhiên Tuy nhiên, các ứng dụng xử lý ngôn ngữ tự nhiên đa ngôn ngữkhông thể đạt được mục tiêu như mong muốn khi bị khuyết thiếu thành phần phát hiện kế thừa văn bản đa ngôn ngữ Chính vì thế, bài toán phát hiện kế thừa văn bản đa ngôn ngữđã được hình thành
Từ những nhu cầu thực tế như đã đề cập ở trên, luận văn sẽ tìm hiểu về bài toán phát hiện kế thừa văn bản đa ngôn ngữ, các hướng tiếp cận để giải quyết bài toán và đề xuất mô hình phát hiện kế thừa văn bản đa ngôn ngữ trên các cặp câu văn bản Việt - Anh 1.2.2 Khái niệm kế thừa văn bản đa ngôn ngữ
Kế thừa văn bản đa ngôn ngữ(Cross-lingual Textual Entailment - CLTE) lần đầu tiên được Mehdad[14] đề xuất như là sự mở rộng của kế thừa văn bản Kế thừa văn bản
đa ngôn ngữđược định nghĩa là mối quan hệ kế thừa giữa hai văn bản được viết bằng các ngôn ngữ khác nhau Đưa ra một cặp văn bản T1 và T2 được viết bằng hai ngôn ngữ khác nhau, bài toán phát hiện kế thừa văn bản đa ngôn ngữlà bài toán xác định xem nghĩa của văn bản T2 có được suy luận ra từ nghĩa của văn bản T1 hay không và ngược lại
Theo Mehdad [14], có bốn trường hợp xảy ra trong bài toán phát hiện kế thừa văn bản đa ngôn ngữvới cặp văn bản T1-T2:
Kế thừa hai chiều - bidirectional (T1→T2 và T2→T1): Hai văn bản kế thừa nhau, có nghĩa là hai văn bản tương đương nhau về mặt nội dung
2
http://www.internetworldstats.com/stats7.htm
Trang 15 Kế thừa theo chiều xuôi - forward (T1→T2 và T2!→T1): T1 kế thừa T2 nhưng T2 không kế thừa T1
Kế thừa theo chiều ngược - backward (T1!→ T2 và T2→T1): T2 kế thừa T1 nhưng T1 không kế thừa T2
Không kế thừa - no entailment (T1!→ T2 và T2!→T1): Không có mối quan hệ
kế thừa giữa T1 và T2
Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bảnđa ngôn ngữvới văn bản thứ nhất được viết bằng tiếng Việt, văn bản thứ hai được viết bằng tiếng Anh:
Bảng 2: Một số ví dụ về kế thừa văn bảnđa ngôn ngữ
1 Bountiful đã tới San Francisco
vào tháng 8 năm 1945
Bountiful arrived after war's end, sailing into San Francisco Bay 21 August
1945 Bountiful was then assigned as hospital ship at Yokosuka, Japan, departing San Francisco 1 November
1945
Backward
2 Tập đoàn Boeing tại Chicago đã
hủy bỏ ba đơn đặt hàng vào năm
2006 của Air Canada
Boeing's headquarters is in Canada
No entailment
3 Dưới tiêu đề "Greed instead of
quality", Die Tageszeitung của
Đức nói chẳng có điều gì tốt đẹp
việc thâu tóm nhà xuất bản
Berliner Verlag của hai quỹ đầu
tư của Anh và Mỹ
British and US-based investment funds acquire Berliner Verlag
Forward
4 Scott Island đã được thuyền
trưởng William Colbeck, người
chỉ huy của Morning, con tàu
Scott Island was discovered and landed upon in December
1902 by Captain William
Bidirectional
Trang 16cứu viện cho cuộc viễn chinh
của thuyền trưởng Robert F
Scott, tìm ra vào tháng 12 năm
1902
Colbeck commander of the Morning, relief ship for Capt
Robert F Scott's expedition
5 Chiếc xe hơi đã va vào hòm thư
của James Clark, 68 tuổi, một
người quen của gia đình James
Jones
Clark is a relative of Jones' No
entailment
Theo các ví dụ trên:
Cặp văn bản thứ nhất có mối quan hệ kế thừa là “backward” vì văn bản thứ nhất
được suy luận từ văn bản thứ hai nhưng văn bản thứ hai lại không được suy luận
từ văn bản thứ nhất
Cặp văn bản thứ hai và thứ năm có mối quan hệ là “no entailment” vì văn bản
thứ nhất không được suy luận từ văn bản thứ hai và ngược lại
Cặp văn bản thứ ba có mối quan hệ kế thừa là “forward” vì văn bản thứ hai
được suy luận từ văn bản thứ nhất nhưng văn bản thứ nhất lại không được suy luận từ văn bản thứ hai
Cặp văn bản thứ tư có mối quan hệ kế thừa là “bidirectional” vì văn bản thứ
nhất được suy luận từ văn bản thứ hai và ngược lại
1.3 Các ứng dụng của bài toán phát hiện kế thừa văn bảnđa ngôn ngữ
Kế thừa văn bản giúp việc hiểu ngôn ngữ tự nhiên được tốt hơn Ngoài ra, phát hiện
kế thừa văn bản được ứng dụng rộng rãi trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thông tin, tự động tóm tắt văn bản, đánh giá dịch máy, so sánh tài liệu (Comparable Documents), đọc hiểu (Reading Comprehension), đồng bộ hóa nội dung tự động (Automatic Content Synchronization)
Trong hệ thống hỏi đáp, phát hiện kế thừa văn bản được sử dụng để xác định những câu trả lời có quan hệ kế thừa và đưa ra gợi ý về câu trả lời được mong muốn từ câu hỏi
của người dùng.Ví dụ, với câu hỏi được đặt ra: “Ai là người vẽ bức tranh Mona Lisa?” thì đoạn văn bản “Bức tranh nàng Mona Lisa của Leonardo Da Vinci đã tạo cảm hứng cho rất nhiều nhà phân tích, từ nghệ thuật tới khoa học, từ phân tích quang học tới phân tích tâm lý học.” hay đoạn văn bản “Da Vinci bắt đầu vẽ Mona Lisa vào khoảng năm
1503, trong Thời Phục hưng Italia và theo Vasari.” kế thừa câu trả lời mong muốn là
“Leonardo Da Vinci là người vẽ bức tranh Mona Lisa.”
Trang 17Trong đánh giá dịch máy (Machine Translation), một bản dịch tự động được gọi là chính xác khi nghĩa của nó tương đương với bản dịch theo chuẩn vàng, do đó cả hai bản dịch nên kế thừa nhau.Vì thế, kế thừa văn bản dùng để đánh giá sự tương đương về mặt ngữ nghĩa của các bản dịch
Trong trích chọn thông tin (Information Extraction), các thông tin được trích chọn nên kế thừa văn bản
Trong tóm tắt văn bản, kế thừa văn bản được sử dụng để xác định hoặc rút gọn lượng thông tin kế thừa trong văn bản cần tóm tắt, từ đó so sánh với văn bản khác Điều này được sử dụng để tránh dư thừa thông tin khi trong một văn bản có những đoạn là kế thừa tri thức của nhau Áp dụng điều này, tóm tắt văn bản sử dụng quan hệ kế thừa để bỏ qua những thông tin không cần thiết giúp rút ngắn độ dài văn bản mà vẫn giữ được những thông tin quan trọng
Đặc biệt, chúng ta có thể giải quyết bài toán đồng bộ hóa nội dung cho hai văn bản được viết bằng các ngôn ngữ khác nhau Mehdad [13] bằng bài toán phát hiện kế thừa văn bản đa ngôn ngữ
1.4 Tóm tắt chương một
Trong chương một, luận văn đã trình bày một số nội dung liên quan đến kế thừa văn bản như khái niệm phát hiện kế thừa văn bản, khái niệm phát hiện kế thừa văn bản đa ngôn ngữ và phát biểu bài toán, cuối cùng, luận văn trình bày về các ứng dụng của phát hiện kế thừa văn bản trong lĩnh vực xử lý ngôn ngữ tự nhiên
Chương tiếp theo sẽ trình bày chi tiết các hướng tiếp cận cho bài toán kế thừa văn bản đa ngôn ngữ
Trang 18Chương 2: Các hướng tiếp cận bài tốn RTE và CLTE
2.1 Hướng tiếp cận cho bài tốn RTE
Từ năm 2005 tới nay, hội nghị khoa học quốc tế thường niên về phát hiện kế thừa văn bản RTE (nhánh RTE của hội nghị phân tích văn bản: Text Analysis Conference) đã tập hợp được nhiều cơng trình nghiên cứu về RTE Trải qua tám kỳ hội nghị với hàng trăm bài báo và nhiều cơng trình nghiên cứu được cơng bố, nhìn chung hướng tiếp cận
mà các tác giả sử dụng chủ yếu như: hướng tiếp cận sử dụng học máy với việc lựa chọn các đặc trưng, hướng tiếp cận dựa trên đại diện ở các mức độ khác nhau của xử lý ngơn ngữ tự nhiên (cú pháp, ngữ nghĩa), hướng tiếp cận dựa trên suy luận logic Hầu hết các hướng tiếp cận trên đều cĩ thể dựa trên các cơ sở tri thức bên ngồi như WordNet3 (một
cơ sở dữ liệu từ vựng cho tiếng Anh WordNet cung cấp các định nghĩa tổng quát liên quan đến từ vựng, hữu ích trong việc xử lý ngơn ngữ tự nhiên) Một cơ sở dữ liệu từ vựng tiếng Anh khác mà các tác giả cũng thường xuyên sử dụng là FrameNet4 Nhìn chung, mỗi hướng tiếp cận đều cĩ những ưu điểm riêng nhưng thơng thường chỉ giải quyết được một khía cạnh của bài tốn, khĩ cĩ thể đưa ra một cách tiếp cận nào rõ ràng giải quyết được tất cả các vấn đề trong kế thừa văn bản
Trên cơ sở tìm hiểu các phương pháp tiếp cận, Rui Wang [12]nhận xét rằng việc áp dụng học máy vào bài tốn phát hiện kế thừa văn bản cĩ rất nhiều ưu điểm như: tránh việc phải xác định ngưỡng kế thừa, cĩ khả năng làm việc với một số lượng lớn các đặc trưng, cho phép tích hợp các thơng tin từ nhiều mức như cú pháp, ngữ nghĩa hoặc sự kế hợp giữa chúng
2.1.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy
TheoRui Wang [12], cĩ hai bước cần thực hiện khi áp dụng phương pháp học máy Bước đầu tiên là tiến hành trích xuất đặc trưng từ cặp văn bản – giả thuyết đầu vào Bước tiếp theo là việc sử dụng các bộ phân lớp với các đặc trưng vừa được trích xuất Các bộ phân lớp thường được sử dụng bao gồm: bộ phân lớp cây quyết định (Decision Trees-DTs), máy vector hỗ trợ (Support Vector Machines-SVMs), Entropy cực đại (Maximum Entropy-ME), Nạve Bayes (NB) Kết quả phân lớp kế thừa khơng chỉ phụ thuộc vào bộ phân lớp sử dụng, các đặc trưng được lựa chọn mà nĩ cịn phụ thuộc vào cả dữ liệu huấn luyện Việc học dữ liệu huấn luyện cĩ thể chia thành hai loại:học dựa trên các đặc trưng intra-pair và học dựa trên các đặc trưng cross-pair Phát hiện kế thừa văn bản là một bài tốn kiểm tra sự tồn tại của mối quan hệ kế thừa giữa hai đoạn văn bản(văn bản T và giả thuyết H) Hầu hết các đặc trưng được trích xuất dựa trên mối quan hệ giữa T và H(các
3
http://wordnet.princeton.edu/
4
http://framenet.icsi.berkeley.edu/
Trang 19đặc trưng intra-pair), tuy nhiên, cũng có một số đặc trưng khác được tính dựa trên các đặc trưng giữa các cặp T-H với nhau (đặc trưng cross-pair)
2.1.1.1 Các đặc trưng Intra-pair (In-pair features)
Các đặc trưng Intra-pair là các đặc trưng được trích xuất từ việc so sánh cặp câu T
và H Nếu chúng ta coi các câu như một nhóm các token (đơn vị từ vựng) thì sự trùng lặp
từ vựng sẽ là một chỉ số tốt Ngoài ra, các đặc trưng có thể được trích xuất dựa từ cấu trúc
cú pháp hoặc các đại diện ngữ nghĩa hoặc thậm chí cả các hình thức logic.Nếu chúng ta coi các câu như các túi từ (bag of words) thì các đặc trưng được xem xét bao gồm: số lượng các từ trùng lặp giữa T và H hoặctỉ lệ của số lượng từ trùng lặpvới tổng số các từ trong T hoặc H
J Bos và K Market [5] kết hợp phương pháp dựa trên trùng lặp từ và phương pháp dựa trên suy luận logic Một số tác giả sử dụng các đặc trưng phong phú ở các cấp độ xử
lý đa dạng khác nhau.Sự kết hợp giữa các từ trong T và H được phát hiện và giúp cho việc phân lớp trong giai đoạn tiếp theo
A Newman và cộng sự [1] đề xuất ra hai hệ thống, hệ thống đầu tiên sử dụng một
số độ đo tương tự, bao gồm ROUGE (Recall-Oriented Understudy for Gisting Evaluation: một gói phần mềm với một tập các độ đo được sử dụng cho việc đánh giá tóm tắt tự động và phần mềm dịch máy trong xử lý ngôn ngữ tự nhiên), độ đo Cosin, và
độ đo tương đồng cho danh từ dựa trên WordNet Với các đặc trưng dựa trên động từ, các tác giả sử dụng mạng ngữ nghĩa VerbOcean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ) Trên thực tế, hầu hết các nhóm sử dụng các đặc trưng từ vựng đều áp dụng các độ tương đồng giữa các từ dựa vào từ điển WordNet hoặc các nguồn tài nguyên từ vựng khác
Theo Rui Wang [12] thì R Adam sử dụng khoảng cách chỉnh sửa từ vựng như là một đặc trưng Về cơ bản, tác giả đếm số các token không được ánh xạ sau khi so sánh cặp <T, H> và sau đó mở rộng độ dài của H bằng toán tử chèn từ phép chỉnh sửa.T kế thừa H nếu có một chuỗi các phép chuyển đổi được áp dụng để biến T thành H với tổng thể chi phí ở dưới ngưỡng cho phép Sự khác biệt ở đây là các tác giả tính toán khoảng cách chỉnh sửa dựa trên cây phụ thuộc, bao gồm các phép toán: chèn, xóa và thay thế Các chi phí để xóa và thay thế là 0 nếu hai từ đó là tương đồng với nhau dựa theo từ điển WordNet và là khác 0 trong các trường hợp khác
Thêm nữa, Rui Wang [12] cũng chỉ ra rằng F Schilder và B T McInnessử dụng khoảng cách chỉnh sửa cây như là một đặc trưng và áp dụng các độ đo tương tự cây xấp
xỉ khác Đối với bài toán RTE, văn bản T thường dài hơn giả thuyết H, trong đó văn bản
T thường chứa các thông tin nhiễu mà không liên quan đến việc phát hiện mối quan hệ kế thừa (đây chính là nguyên nhân vì sao mà phép xóa có chi phí là 0)
Trang 20Từ trái nghĩa đóng một vài trò quan trọng cho bài toán phát hiện kế thừa trong văn bản, đó là việctìm các cặp từ trái nghĩa xuất hiện giữa T và H để làm đặc trưng phát hiện quan hệ kế thừa E Newman và cộng sự [1] cũng sử dụng đặc trưng này từ Verb-Ocean (một tài nguyên từ vựng cung cấp những mối quan hệ ngữ nghĩa giữa các động từ)
Tên thực thể (Named-Entity:NE) là một đặc trưng quan trọng Một số tác giả đã tiến hành thực nghiệm và kết quả cho thấy rằng hệ thống có sử dụng đặc trưng NE cho kết quả cao hơn so với hệ thống trước đó Số (hoặc các biểu thức số) xuất hiện trong T và H được so sánh trực tiếp hoặc sau khi được thay đổi giá trị
Một số đặc trưng được trích xuất từ các cấu trúc cú pháp, chức năng ngữ nghĩa, hoặc hình thức logic Theo Rui Wang [12], A Hickl và cộng sự tiến hành tiền xử lý các văn bản với phân tích từ vựng, phân tích cú pháp, giải quyết vấn đề đồng tham chiếu và phân tích ngữ nghĩa và sau đó đã trích xuất các đặc trưng dựa trên đầu ra, bao gồm các đặc trưng phụ thuộc, các đặc trưng diễn giải, các đặc trưng ngữ nghĩa Bên cạnh đó, thành phần cơ bản (Basic Element: BE)được tận dụng như một không gian đặc trưng BE
là một bộ dữ liệu (tuple) đại diện cho các đoạn cú pháp quan trọng
2.1.1.2 Các đặc trưng Cross-Pair
Theo như tổng kết, Rui Wang [12] chỉ ra rằng: Trong hội nghị RTE-2, chỉ có nhóm tác giả Zanzotto và cộng sự trích xuất được các đặc trưng cross-pair Các tác giả không tính toán độ tương đồng giữa T và H mà tính độ tương đồng giữa các cặp T-H khác nhau dựa trên các thông tin về cú pháp và từ vựng Cụ thể, các tác giả sử dụng các hàm đánh giá sự tương đồng giữa các từ hoặc biểu thức phức tạp hơn để xác định các vị trí (anchor) Các vị trí này được sử dụng để kết nối toàn bộ T và H Sau đó, một hàm nhân dựa trên đặc trưng cross-pair được áp dụng để tính toán độ tương đồng Các tác giả xấp xỉ tổng độ tương đồng giữa hai câu T và hai câu H thành độ tương đồng giữa hai cặp
SVM là một phương pháp học máy dựa trên hàm nhân, nó biểu diễn tất cả các đặc trưng thông qua việc chuyển đổi chúng thành một vector đặc trưng Theo Rui Wang [12],
J Herrera và cộng sự sử dụng cả hai loại đặc trưng: các mối quan hệ từ vựng và các đặc trưng dựa vào nhận dạng thực thể để phân lớp và nhấn mạnh tầm quan trọng của loại đặc trưng thứ hai Kouyleko và Magnini có những cài đặt khác nhau cho toán tử chèn của phép tính toán khoảng cách chỉnh sửa cây Do đó, họ xây dựng năm hệ thống đường cơ
Trang 21sở và kết hợp chúng lại như là các đặc trưng cho bộ phân lớp SMO SMO là thuật toán tối
ưu thiểu tuần tự (Sequential Minimal Optimization) của John Platt để đào tạo bộ phân lớp SVM Schilder và McInnes có hai hướng tiếp cận dựa trên từ vựng và hai hướng tiếp cận dựa trên khoảng cách chỉnh sửa cây Do đó, các tác giả tiến hành kết hợp các hướng tiếp cận này vào một bộ phân lớp SVM
Bài toán phát hiện quan hệ kế thừa có thể coi như một bài toán phân lớp nhị phân
Vì vậy, thuật toán cây quyết định được sử dụng rộng rãi các đặc trưng ngôn ngữ được lựa chọn J Bos và K Markert [5] sử dụng cả đặc trưng nông và đặc trưng sâu để xây dựng môt mô hình cây quyết định Nicholson sử dụng các mô hình cây quyết định khác nhau như: C4.5, C5 vào hệ thống phát hiện kế thừa văn bản của mình
2.1.2 Một số hệ thống phát hiện kế thừa văn bản có sử dụng học máy
Eamonn Newman và cộng sự [1] đề xuất ra hệ thống phát hiện kế thừa văn bản sử dụng bộ phân lớp cây quyết định Hệ thống sử dụng phân lớp cây quyết định để phát hiện một mối quan hệ kế thừa giữa các cặp câu được đại diện bằng cách sử dụng một lượng lớn các đặc trưng như: từ vựng, ngữ nghĩa và các thuộc tính ngữ pháp của các danh từ, động từ và tính từ Các tác giả tạo ra phân lớp từ tập dữ liệu huấn luyện RTE sử dụng thuật toán học máy C5.0: sử dụng thuật toán C 5.0 vì nó có thể được dùng để xây dựng một phân lớp cây quyết mà từ đó có thể thực thi trên một nhánh dãy số trong khi nhiều thuật toán khác chỉ thực hiện trên các giá trị rời rạc
Các đặc trưng sử dụng được tính bằng cách: sử dụng hệ thống phân lớp quan hệ ngữ nghĩa Wordnet (xác định độ tương đồng giữa hai câu là tổng điểm số tương đồng giữa các thành phần từ trong Wordnet), mạng ngữ nghĩa Verb-Ocean và kĩ thuật đánh chỉ mục ngữ nghĩa tiềm ẩn Các đặc trưng khác được dựa trên ROUGE, độ đo trùng lặp n-gram và
độ tương đồng cosin giữa văn bản và giả thuyết Các tác giả còn sử dụng đặc trưng chuỗi con chung dài nhất cho các cặp câu và sau đó phát hiện ra các mâu thuẫn trong cặp bằng cách kiểm tra ngữ nghĩa động từ cho sự xuất hiện của đồng nghĩa, gần nghĩa, phủ định hay trái nghĩa trong chuỗi con
Các tác giả đã khảo sát tính hữu dụng của một số đặc trưng phân biệt trong suốt quá trình phát triển phương pháp cây quyết định cho kế thừa văn bản Những đặc trưng này được phát triển bằng cách sử dụng tập dữ liệu huấn luyện trong tập dữ liệu đã có sẵn trong hội nghị RTE
Trang 22Bảng 3: Các đặc trưng được sử dụng cho phân lớp cây quyết định [1]
Julio Javier Castillo[6] xây dựng hệ thống phát hiện kế thừa văn bản bằng cách sử dụng học máy SVM Tập huấn luyện gồm tập phát triển của RTE-3, tập đã được gán nhãn chú thích của RTE-4 và tập phát triển của RTE-5 Sau đây là mô hình hệ thống
Hình 1: Mô hình phát hiện kế thừa văn bản dựa trên học máy SVM của
Julio Javier Castillo [6]
Trang 23Quá trình thực hiện gồm 3 bước:
1) Tiền xử lý: Các cặp văn bản - giả thuyết (T, H) được tiền xử lý với các module tùy
chọn Ở đây, tác giả sử dụng ba module:
Tách từ : cặp văn bản – giả thuyết được tách từ bằng cách sử dụng công cụ
tokenizer của OpenNLP
Đưa về dạng gốc (stemmer): Các cặp văn bản – giả thuyết được đưa về dạng
nguyên bản với công cụ stemmer1 của Porter
Gán nhãn: Các cặp văn bản – giả thuyết được gán nhãn bằng công cụ
OpenNLP2
2) Trích chọn các đặc trưng: Các tác giả sử dụng hướng tiếp cận học có giám sát để
huấn luyện một mô hình phân lớp với các độ đo đa dạng về từ vựng và ngữ nghĩa
Do vậy, tác giả sử dụng output của mỗi độ đo như là một đặc trưng và huấn luyện một bộ phân lớp SVM Ở đây, tác giả sử dụng 32 đặc trưng / độ đo Sau đây là một
số đặc trưng điển hình
Phần trăm các từ của giả thuyết xuất hiện trong văn bản
Phần trăm các từ của văn bản xuất hiện trong giả thuyết
Phần trăm bigram của giả thuyết xuất hiện trong văn bản
Phần trăm bigram của văn bản xuất hiện trong giả thuyết
Chuỗi con chung dài nhất
Khoảng cách chuẩn Levenstein dựa trên từ vựng
Độ đo TE-IDF
Khoảng cách Block
Độ đo Cosin
3) Sử dụng các đặc trưng vào bộ phân lớp SVM:Sau khi có được các đặc trưng thì các
tác giả sử dụng các đặc trưng này vào bộ phân lớp SVM và đưa ra kết quả phân lớp
Trang 242.2 Hướng tiếp cận cho bài toán CLTE
Theo Mehdadvà cộng sự [13], có hai hướng tiếp cận chính để giải quyết bài toán phát hiện kế thừa văn bản đa ngôn ngữ:
Hướng tiếp cận cơ bản: Đưa bài toán phát hiện kế thừa văn bản đa ngôn ngữCLTE về bài toán phát hiện kế thừa văn bản đơn ngôn ngữ RTE bằng cách dịch văn bản T2 về văn bản có cùng ngôn ngữ với văn bản T1 hoặc ngược lại
Hướng tiếp cận nâng cao: Nhúng các kỹ thuật xử lý đa ngôn ngữvào trong quá trình phát hiện kế thừa văn bản đa ngôn ngữ
Sau đây, luận văn xin trình bày chi tiết từng hướng tiếp cận
2.2.1 Hướng tiếp cận cơ bản
Ý tưởng chính của hướng tiếp cận này là thêm một thành phần dịch máy MT vào hệ thống phát hiện kế thừa văn bản đã có sẵn trước đó Ví dụ, văn bản T2 sẽ được dịch từ tiếng Anh sang tiếngViệt và sau đó sử dụng hệ thống phát hiện kế thừa văn bản để xác định mối quan hệ kế thừa giữa văn bản T1 và văn bản đã được dịch sang tiếng Việt của văn bản T2 Hướng tiếp cận tuân theo quy tắc chia để trị này mang lại một số ưu điểm như sau:
Việc tách hệ thống phát hiện kế thừa văn bản đa ngôn ngữthành hai thành phần riêng biệt: Thành phần xử lý đa ngôn ngữ(MT) và thành phần phát hiện kế thừa văn bản (TE) sẽ dễ dàng hơn cho việc phát triển, gỡ lỗi và bảo trì hệ thống
Dễ dàng mở rộng với các ngôn ngữ khác bằng cách sửa đổi thành phần dịch máy
MT, thành phần TE vẫn được giữ nguyên
Tuy nhiên, nhược điểm của hướng tiếp cận này là việc phụ thuộc vào các thành phần dịch máy MT có sẵn và chất lượng của các bản dịch Nếu chất lượng bản dịch không tốt thì thành phần phát hiện kế thừa TE có thể cho kết quả không chính xác
Hình vẽ dưới đây thể hiện kiến trúc của hệ thống phát hiện kế thừa văn bản đa ngôn ngữdựa theo hướng tiếp cận cơ bản của Mehdad [13]:
Trang 25Hình 2: Hệ thống CLTE theo hướng tiếp cận cơ bản Theo hướng tiếp cận này, Fandong Meng cộng sự [2] đã đề xuất ra hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Cho hai văn bản T1-T2 cần xác định mối quan hệ kế thừa, trong đó T2 được viết bằng tiếng Anh, T1 được viết bằng ngôn ngữ khác Đầu tiên, nhóm tác giả dịch văn bản T1 sang tiếng Anh Sau đó, nhóm tác giả sử dụng bộ công cụ
mã nguồn mởEDITS để phát hiện mối quan hệ kế thừa giữa hai văn bản (EDITS là thành phần TE trong hướng tiếp cận cơ bản).Nhóm tác giả đã tiến hành thực nghiệm trên bốn cặp ngôn ngữ Pháp-Anh, Tây Ban Nha-Anh, Italia-Anh, Đức-Anh Độ chính xác trung bình qua các thực nghiệm của nhóm tác giả là 0.5
Mô hình đề xuất của Fandong Meng và cộng sự [2] được thể hiện như hình vẽ dưới đây:
Hình 3: Mô hình đề xuất của Fandong Meng cộng sự [2]