Tóm tắtBài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ ngữ danh từ hoặc đại từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhó
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Đức Trọng
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU
TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO
PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI – 2011
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Đức Trọng
GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: TS Nguyễn Trí Thành
Cán bộ đồng hướng dẫn: ThS Trần Mai Vũ
HÀ NỘI - 2011
Trang 3Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp này
Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi
để tôi học tập, rèn luyện và nghiên cứu tại trường Đại học Công nghệ
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên tại phòng thí nghiệm KT-Sislab, các bạn trong nhóm nghiên cứu khoa học đã giúp đỡ, hỗ trợ tôi trong quá trình thu thập dữ liệu và thực nghiệm mô hình Đồng thời tôi xin gửi lời cảm
ơn đề tài QG 10.38 đã hỗ trợ tôi trong quá trình hoàn thành khóa luận này
Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường
Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè – những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống cũng như học tập, công việc
Tôi xin chân thành cảm ơn !
Sinh viên
Lê Đức Trọng
Trang 4Lời cam đoan
Tôi xin cam đoan mô hình đề xuất giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Trí Thành và Thạc sỹ Trần Mai Vũ
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Khóa luận không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu tham khảo
Các kết quả thực nghiệm của khóa luận đều được tiến hành thực nghiệm và thống kê từ kết quả thực thế
Sinh viên
Lê Đức Trọng
Trang 5Tóm tắt
Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] Đây là một vấn đề khó của lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được sự quan tâm rất lớn
từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới Tại Việt Nam, bài toán này vẫn đặt ra nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ các nguồn tài nguyên ngôn ngữ học chuNn Tuy nhiên, nó là một bài toán có tiềm năng khai thác cho nguồn dữ liệu tiếng Việt, cần được tìm hiểu và nghiên cứu
Dựa trên cơ sở những đặc trưng của miền dữ liệu tiếng Việt, dựa trên tính mới, tính chính xác của các phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận
sử dụng phương pháp máy vector hỗ trợ SVM để giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt Ý tưởng của hướng tiếp cận là ghép cặp các cụm từ tiềm năng, mỗi cụm từ thể hiện cho một quan hệ, mỗi quan hệ được biểu diễn bởi một vector đặc trưng Sau đó được đưa vào bộ phân lớp SVM để xác định tính chất đồng tham chiếu, từ đó gom nhóm các cụm từ đồng tham chiếu với nhau Khóa luận sử dụng nguồn dữ liệu là nội dung các bài báo được tải tự động và bóc tách nội dung chính từ chuyên mục Văn hóa – xã hội của báo điện tử Vnexpress.net để xây dựng dữ liệu học cho mô hình đề xuất
Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đạt độ chính xác
76,51 % Trong khi đó độ chính xác trên mô hình cơ sở là 73.79 % với các đặc trưng
tương đương Điều này khẳng định mô hình là khả thi và có khả năng ứng dụng thực
tế
Trang 6Lời mở đầu 1
Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản 3
1.1 Quan hệ đồng tham chiếu 3
1.1.1 Khái niệm 3
1.1.2 Các thành phần trong quan hệ đồng tham chiếu thường gặp 3
1.1.3 Phân loại các quan hệ đồng tham chiếu 4
1.2 Bài toán đồng tham chiếu trong văn bản 5
1.3 Ứng dụng 6
1.4 Khó khăn và thách thức 7
Tóm tắt chương một 8
Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản 9
2.1 Phương pháp học không giám sát 9
2.1.1 Phương pháp xếp hạng 9
2.1.2 Phương pháp gom cụm 11
2.2 Phương pháp học giám sát 15
2.2.1 Phương pháp cây quyết định C4.5 15
2.2.2 Phương pháp máy vector hỗ trợ (SVM) 17
2.3 Nhận xét 21
Tóm tắt chương hai 21
Chương 3 Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 22
3.1 Đặc trưng của văn bản tiếng Việt 22
3.1.1 Đặc trưng từ trong tiếng Việt 22
3.1.2 Đặc trưng về tên người trong tiếng Việt 23
3.1.3 Đặc trưng về quan hệ ngữ nghĩa 24
3.2 Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 25
3.2.1 Phát biểu bài toán 25
3.2.2 Ý tưởng giải quyết bài toán 25
3.3 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 26
3.3.1 Xây dựng bộ dữ liệu học 26
3.3.2 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29
Tóm tắt chương 3 34
Trang 7Chương 4: Thực nghiệm và đánh giá 35
4.1 Môi trường thực nghiệm 35
4.1.1 Cấu hình sử dụng 35
4.1.2 Công cụ phần mền 35
4.2 Dữ liệu thực nghiệm 36
4.3 Thực nghiệm 36
4.3.1 Mô tả cài đặt chương trình 36
4.3.2 Xây dựng bộ dữ liệu học 36
4.3.3 Xây dựng bộ phân lớp 40
4.4 Đánh giá, so sánh 40
4.4.1 Đánh giá hệ thống 40
4.4.2 Phương pháp đánh giá 40
4.4.3 Kết quả thực nghiệm 41
4.5 Nhận xét 42
Kết luận 44
Tài liệu tham khảo 45
Trang 8Danh sách các hình vẽ
Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu 6
Hình 2: Một ví dụ về cây quyết định 15
Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học 27
Hình 4: Văn bản tải về dạng html 28
Hình 5 : Mô hình xây dựng bộ dữ liệu học 28
Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29
Hình 7: Ví dụ về dữ liệu gán nhãn 37
Hình 8: Một ví dụ về sinh vector đặc trưng 39
Hình 9: Kết quả độ đo chính xác của hai mô hình thực nghiệm trên 10 văn bản 41
Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản 42
Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản 42
Danh sách các bảng Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách 13
Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ 18
Bảng 3: Đặc trưng mô tả cụm từ đang xét 18
Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 18
Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 20
Bảng 6: Bảng đặc trưng của cụm từ NP1 32
Bảng 7: Bảng đặc trưng của cụm từ NP2 32
Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 33
Bảng 9: Cấu hình phần cứng 35
Bảng 10: Danh sách các phần mềm sử dụng 35
Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực tế trên 10 văn bản 41
Trang 9Bảng các kí hiệu viết tắt
Trang 10Lời mở đầu
Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics ), IJCAI (International Joint Conference on Artifical intelligence) Nếu một phương pháp giải quyết được đề xuất cho kết quả tốt thì nhiều bài toán khác như: Hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt văn bản [20], tự động sinh các biểu diễn tương đương của đoạn văn bản [4] … sẽ được cải thiện về chất lượng một cách đáng kể Xuất phát từ lý do đó và mong muốn nâng cao chất lượng đề tài nghiên cứu khoa học sinh viên 2010 – 2011 là “Hệ thống hỏi đáp thực thể tên người cho tiếng Việt”, khóa luận chọn bài toán đồng tham chiếu trong văn bản tiếng Việt làm nội dung tập trung nghiên cứu và xây dựng mô hình giải quyết
Bài toán đồng tham chiếu trong văn bản ra đời từ những năm 60-70 của thế kỉ trước [21], các phương pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp cận kinh nghiệm Cho tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề xuất để giải quyết bài toán Tuy nhiên, nổi bật hơn là các phương pháp dựa trên hướng tiếp cận học máy không giám sát và học máy giám sát Những công trình này mang tính ứng dụng cao, đang ngày càng được cải tiến cho hiệu quả tốt hơn Khóa luận này giới thiệu một số phương pháp tiếp cận giải quyết điển hình như: phương pháp xếp hạng, phương pháp gom cụm, phương pháp cây quyết định và phương pháp máy vector hỗ trợ (SVM) Trong những phương pháp đó, phương pháp máy vector hỗ trợ là phương pháp mới (2005) cho kết quả khả quan (độ chính xác đạt 69.2%) Vì vậy chúng tôi sử dụng phương pháp này cho việc giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là xây dựng mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt Kết quả thực nghiệm bước đầu cho thấy mô hình phù hợp với miền dữ liệu tiếng Việt và có khả năng ứng dụng tốt
Nội dung của khóa luận bao gồm có 4 chương:
Chương 1: Giới thiệu khái quát về bài toán đồng tham chiếu cũng như các khái
niệm liên quan
Chương 2: Giới thiệu một số phương pháp tiếp cận giải quyết bài toán đồng
tham chiếu bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có giám sát Đây là cơ sở lý thuyết, phương pháp luận quan trọng để khóa
Trang 11luận đưa ra mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt ở trong chương 4
Chương 3: Trên cơ sở những phương pháp tiếp cận trình bày ở chương 2 và
thông qua khảo sát miền dữ liệu văn bản tiếng Việt, khóa luận đã lựa chọn phương pháp máy vector hỗ trợ (SVM) là cơ sở của việc giải quyết bài toán đồng tham chiếu trong tiếng Việt Nội dung chính của chương này trình bày một số đặc trưng của văn bản tiếng Việt, bài toán đồng tham chiếu trong văn bản tiếng Việt và mô hình đề xuất
Chương 4: Thực nghiệm, kết quả và đánh giá Tiến hành thực nghiệm việc xây
dựng bộ dữ liệu học, xây dựng bộ phân lớp SVM để xác định các cặp cụm từ có quan
hệ đồng tham chiếu trong văn bản tiếng Việt Trong chương này đánh giá, so sánh kết quả giữa mô hình đề xuất và mô hình cơ sở mà khóa luận dựa trên
Phần kết luận và định hướng phát triển: Tóm lược những kết quả đạt được
của khóa luận Đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra định hướng nghiên cứu trong thời gian sắp tới
Trang 12Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản
Nội dung chính của khóa luận là đề xuất một mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ (SVM) Trong chương này sẽ giới thiệu các khái niệm cơ bản về quan hệ đồng tham chiếu, bài toán đồng tham chiếu trong văn bản và những ứng dụng của nó Đây là cơ sở lý thuyết quan trọng cho việc xác định những mục tiêu cũng như phạm vi giải quyết của mô hình đề xuất ở chương thứ tư của khóa luận
1.1 Quan hệ đồng tham chiếu
1.1.1 Khái niệm
Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định nghĩa về quan hệ đồng tham chiếu đã được đưa ra Theo Véronique Hoste [9] định nghĩa về quan hệ đồng tham chiếu như sau:
“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ
Ví dụ: Hồ Chí Minh là danh nhân văn hóa thế giới Ông là người đầu tiên truyền bá
chủ nghĩa Mác – Lênin vào Việt Nam
Trong ví dụ trên, Đại từ “Ông” và danh từ tên riêng “Hồ Chí Minh” có quan
hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ Chí Minh”
Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản thì việc xác định quan hệ đồng tham chiếu là một vấn đề quan trọng Quan hệ đồng tham chiếu thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng và giữa các câu chứa các cụm từ đó nói chung Nếu xác định được sự liên kết này sẽ làm tăng chất lượng trích xuất thông tin tri thức từ tập văn bản Vì vậy, chúng ta cần nhận biết các quan hệ đồng tham chiếu và tìm hiểu các phương pháp để xác định được các quan hệ đó
Một quan hệ đồng tham chiếu theo Hoste [9] thường là quan hệ giữa các cặp cụm từ cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ Trong đó các danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu Nó là nền tảng để xác định các cụm đồng tham chiếu trong văn bản
Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh …
Ví dụ:
Trang 13• Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp …
• Tên tổ chức: FAO, WTO, WHO …
• Tên địa danh: Hà Nội, Hải Phòng, Nam Định, Vĩnh Linh …
Ví dụ: Tôi thích chơi ghita
• Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay
mệnh đề: anh ấy (him), cô ấy (her) …
Ví dụ: Hằng yêu anh ấy
• Đại từ tương hỗ: chỉ mối quan hệ tương hỗ: nhau, cả hai …
Ví dụ: Họ cùng giúp đỡ nhau
• Đại từ phản thân được sử dụng khi một người/vật tác động lên chính
nó: mình
Ví dụ: Anh ta tự bắn chính mình
Bao gồm các danh từ chung khác Thường các danh từ chỉ nghề nghiệp, chức vụ được xét đến nhiều trong trường hợp này: bác sĩ, giám đốc, …
Ví dụ: Bình là một bác sĩ
Qua quá trình khảo sát và nghiên cứu, Hoste [9] và McCathy [11] đã tổng kết một số loại quan hệ đồng tham chiếu như sau:
- Quan hệ đồng nhất (Identity relations)
Ví dụ: Lê Công Vinh là tiền đạo xuất sắc nhất của đội tuyển bóng đá Việt Nam Anh hiện đang đầu quân cho câu lạc bộ T&T Hà Nội
- Quan hệ cùng chủng loại (Type/token relations)
Ví dụ: Inova và Camry là hai dòng xe nổi tiếng của Toyota
- Quan hệ bộ phận (Part-whole/ element-set relations)
Trang 14Ví dụ: “Lan và Nam là vợ chồng Họ đã từng là bạn học của nhau từ đại
học”
Các tính chất của quan hệ đồng tham chiếu giữa các cụm từ NPi [9]:
- Tính chất đối xứng: NP1, NP2 là đồng tham chiếu thì NP2, NP1 cũng là
1.2 Bài toán đồng tham chiếu trong văn bản
Trong các văn bản, các cụm từ có quan hệ đồng tham chiếu nằm rải rác trong các câu, tạo nên sự liên kết về ngữ nghĩa của các câu trong văn bản đó Xác định sự liên kết này phụ thuộc vào việc xác định các cụm từ có quan hệ đồng tham chiếu Morton [13] , Dzunic[5] và Denis [6] đã phát biểu bài toán đồng tham chiếu trong văn bản như sau:
“Là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu
có quan hệ đồng tham chiếu và gom nhóm các cụm từ này thành các chuỗi đồng tham
Cụ thể là:
Ví dụ: Cho một đoạn văn bản với các cụm từ thuộc các thành phần phổ biến mục 1.2
được in đậm sau:
“Đến tuổi đi học, ông ngoại là đôi chân thứ hai cùng em đến lớp Bất kể trời
mưa hay nắng, năm này sang năm khác ông Khôi đều cõng Trung trên đôi vai gầy guộc của mình để đưa cháu đến trường Hình ảnh một ông già ngoài 70 tuổi ngày ngày chở đứa cháu khuyết tật tới trường bằng chiếc xe máy cũ kĩ luôn hiện hữu trong
Khi đó, kết quả các cụm đồng tham chiếu như sau:
• Cụm 1: ông ngoại, ông Khôi, ông già ngoài 70 tuổi, mình, đôi chân thứ
hai
Trang 15• Cụm 2: em, Trung, cháu, đứa cháu khuyết tật
khác như: Trích xuất thông tin (Information extraction), hỏi đáp tự động (Question
động sinh các biểu diễn tương đương của đoạn văn bản của tác giả Lê Thanh Hương [3] Trong các bài toán này, chức năng của việc xác định các quan hệ đồng tham chiếu
là nhận dạng, thu thập và gom các cụm từ đồng tham chiếu nhằm trích xuất thêm các quan hệ ngữ nghĩa, hỗ trợ máy tính phát hiện đầy đủ hơn các tri thức có trong văn bản
McCarthy, 1996 [11] đã nhúng một hệ thống phát hiện quan hệ đồng tham chiếu vào hệ thống giải quyết bài toán trích xuất thông tin của mình Mục đích của bài toán trích xuất thông tin là nhận dạng những thành phần thông tin cụ thể của một văn bản, những thành phần này là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản [22]
Trang 16Vì vậy, việc xác định các quan hệ đồng tham chiếu giúp nhận dạng các thành phần này bằng cách xác định sự liên quan về ngữ nghĩa của các cặp cụm từ trong văn bản
Trong mô hình giải quyết bài toán hỏi đáp tự động của mình năm 1999, Morton
[14] coi mỗi câu hỏi truy vấn định nghĩa một quan hệ giữa các sự kiện và các thực thể
Và mỗi câu trả lời cũng bao gồm các sự kiện và các thực thể ấy Hướng tiếp cận của Morton là tìm ra các mối quan hệ đồng tham chiếu giữa các thực thể và các sự kiện trong câu hỏi truy vấn với các thực thể và các sự kiện liên quan trong tài liệu Dựa trên những quan hệ đó, các câu trả về được xếp hạng Sau đó, hệ thống đưa ra các câu có hạng cao nhất cho người dùng
Phương pháp tiếp cận giải quyết bài toán tóm tắt văn bản của Steinberger và đồng nghiệp, 2007 [18] đã sử dụng việc phát hiện quan hệ đồng tham chiếu nhằm xác định các cụm từ cùng nói về một thực thể Từ đó thu thập toàn bộ thông tin về thực thể
đó bao gồm thông tin biểu diễn các đồng vị ngữ và các cấu trúc vị ngữ khác phục vụ cho bài toán tóm tắt văn bản
Tác giả Lê Thanh Hương, 2007 [3] đã sử dụng cơ chế thay đổi các từ đồng tham chiếu trong việc xử lý bài toán tự động sinh biểu diễn tương đương của đoạn văn bản Mục đích là giải quyết vấn đề thiếu mạch lạc, phi ngữ pháp khi đổi vị trí các mệnh đề của đoạn để sinh ra đoạn văn bản mới Bởi vì cách sinh biểu diễn tương đương này gây ra việc đại từ đi trước danh từ mà nó thay thế
Thứ nhất, đó là sự nhập nhằng ngữ nghĩa Trong ví dụ “Thọ là cánh tay phải
Nhưng để máy nhận ra rằng cụm từ “cánh tay phải” chỉ về một thực thể người (Thọ)
và không phải chỉ về thực thể người (Năm) vẫn là một vấn đề khó với xử lý ngôn ngữ
tự nhiên nói chung và bài toán đồng tham chiếu nói riêng
Thứ hai, đó là sự nhập nhằng thực thể xảy ra khi trong đoạn văn bản có quá
nhiều thực thể Trong ví dụ: “Đạt là thầy giáo trực tiếp hướng dẫn của Bình và An Họ
Trang 17đều là những gương mặt tiêu biểu của khoa Công nghệ thông tin ”, từ “Họ” đồng tham chiếu với cả 3 thực thể tên là “Đạt, Bình, An” Tuy nhiên trong thực thế, máy tính chỉ hiểu “Họ” và “Bình, An” mới là đồng tham chiếu của nhau
Cuối cùng, đó là sự phụ thuộc vào bước tiền xử lý: Việc xác định các cặp có quan hệ đồng tham chiếm chỉ được thực hiện sau các bước tiền xử lý như: Tách câu, tách từ, gán nhãn, phân đoạn, nhận dạng thực thể … Độ chính xác của nó phụ thuộc nhiều vào độ chính xác của các bước kia Bước tiền xử lý càng tốt thì kết quả của bài toán đồng tham chiếu càng cao
Tóm tắt chương một
Trong chương này, khóa luận đã giới thiệu khái quát các khái niệm liên quan tới quan hệ đồng tham chiếu, bài toán đồng tham chiếu trong văn bản và một số ứng dụng của nó Trong chương tiếp theo, khóa luận sẽ giới thiệu một số phương pháp mô hình hóa bài toán đồng tham chiếu trong văn bản và hướng tiếp cận giải quyết tương ứng
Trang 18Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản
Có nhiều phương pháp giải quyết bài toán đồng tham chiếu trong văn bản Trong chương này, khóa luận giới thiệu một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có giám sát Đây là những phương pháp tiếp cận phổ biến cho kết quả tương đối khả quan tại thời điểm đề xuất
2.1 Phương pháp học không giám sát
Một phương pháp tiếp cận truyền thống với bài toán đồng tham chiếu dựa trên ngôn ngữ học và miền tri thức được Mitkov [12] đề xuất năm 1998 Đây là hướng tiếp cận giải quyết bài toán đồng tham chiếu đại từ trực tiếp trong trường hợp tri thức không đủ nhiều Đầu vào được kiểm tra với một số đặc trưng và điều kiện của tiền
ngữ Các ứng viên được tính điểm (-1, 0, 1, 2) dựa trên các điều kiện đó Tiền ngữ
đồng tham chiếu trả về là ứng viên có số điểm số tổng hợp cao nhất
Những tiền điều kiện, đặc trưng của tiền ngữ được sử dụng trong phương pháp tiếp cận này:
trước giống với các tiền ngữ đồng tham chiếu của đại từ, được gán điểm lần
lượt là 0 và -1
hiện “thông tin đã cho” là các ứng viên tốt hơn cho các tiền ngữ đồng tham
chiếu Chúng được tính điểm là 1 Ngược lại tính là 0
describe, define, show, check, develop, review, report, outline, consider, investigate, explore, assess, analyse, synthesise, study, survey,
đồng tham chiếu cao hơn Và được gán điểm là 1 Ngược lại là 0
nếu lặp lại nhiều hơn hai lần trong cùng văn bản, có điểm là 1 nếu lặp lại 1 lần và có điểm là 0 nếu không lặp lại
Trang 19• Danh từ chính của câu (Section heading preference): Nếu một ngữ danh từ
đứng ở đầu câu thì nó được gán điểm là 1 Ngược lại gán là 0
danh từ phi giới từ được ưu tiên cao hơn (gán điểm là 0) là cụm ngữ danh từ
là bộ phận của một cụm giới từ ( gán điểm là -1)
ứng viên mà là đồng vị của một đại từ, được gán điểm là 2 Ngược lại gán điểm là 0
mẫu : “…(You) V1 NP con (you) V2 it (con (you) V3 it)”, trong đó
“con” thuộc tập {and/or/before/after…}, cụm ngữ danh từ xuất hiện ngay sau V1 giống với ứng viên của tiền ngữ đồng tham chiếu của đại từ “it” ngay sau V2 Chúng được lần lượt gán điểm là 2 và 0
trước là các ứng viên tốt nhất cho tiền ngữ đồng tham chiếu, tiếp theo bởi
các cụm ngữ danh từ ở hai câu phía sau và được gán điểm là 1, 0, -1
từ là một điều kiện ưu tiên, 0 trường hợp còn lại
Dựa trên những điều kiện trên, phương pháp tiếp cận này gồm các bước như sau:
Xử lý:
tìm các cụm ngữ danh từ bên trái của đại từ
lượng với các đại từ trùng lặp Nhóm chúng thành tập ứng viên tiềm năng
Tiền ngữ đồng tham chiếu là ưng viên có điểm cao nhất
Ưu, nhược điểm của hướng tiếp cận:
• Ưu điểm:
o Chi phí thời gian và công sức thấp hơn so với các phương pháp dựa trên ngôn ngữ và miền tri thức truyền thống
Trang 20o Đạt kết quả khả quan trên miền dữ liệu tiếng Anh và tiếng Balan
• Nhược điểm:
o Chưa xác định được đầy đủ các cặp đồng tham chiếu
o Chi phí tính toán cao
Năm 1999, Claire Cardie và Kiri Wagstaff [4] đã giải quyết bài toán đồng tham chiếu ngữ danh từ bằng phương pháp gom cụm Hướng tiếp cận này bắt đầu với việc giả định rằng mỗi nhóm đồng tham chiếu ngữ danh từ được định nghĩa như là một lớp
Do đó, quá trình xác định đồng tham chiếu đơn giản chỉ là xác định các phân vùng hay gom nhóm các ngữ danh từ Bằng trực giác, tất cả các ngữ danh từ được sử dụng để
mô tả một khái niệm cụ thể nào đó sẽ gán nhãn hoặc có biểu diễn quan hệ với nó theo một hình thức nào đó, nghĩa là “khoảng cách” giữa các khái niệm sẽ nhỏ Các tác giả
đã đưa ra cách mô tả của mỗi ngữ danh từ và một phương pháp ước lượng khoảng cách giữa hai ngữ danh từ, một thuật toán gom nhóm các ngữ danh từ lại với nhau:
Ngữ danh từ với khoảng cách lớn hơn bán kính r không được gom vào trong cùng một
phân nhóm và ngược lại thì xem chúng như là các đồng tham chiếu trong cùng phân nhóm
Trong phương pháp này, mỗi ngữ danh từ được biểu diễn bởi tập 11 đặc trưng như
sau:
như là một đặc trưng
từ đầu tiên trong các từ còn lại của ngữ chính là danh từ chính của ngữ danh
từ
đầu tiên của văn bản được đánh với vị trí là 0
giá trị là None đối với đặc trưng này
tiếng Anh có các từ như a, an) hoặc Indenfinite với trường hợp không xác
định và None là không rõ
Trang 21• Đồng vị ngữ (Appositive): Nếu bao quanh ngữ danh từ bởi dấu phảy, một
mạo từ và đặt ngay trước một ngữ danh từ khác thì nó được coi là đồng vị ngữ
Ví dụ: Ông Nguyễn Tấn Dũng, thủ tướng nước Việt Nam …
thì danh từ này được đánh dấu là Plural; ngược lại, nó được xem như là
“mười”, “một số”, … Đứng ở vị trí bắt đầu ngữ danh từ
các từ trong ngữ
lấy thông tin lớp ngữ nghĩa của danh từ chính Danh từ chính sẽ được gắn đặc trưng như TIME, CITY, ANIMAL, HUMAN, hoặc OBJECT Nếu một trong những lớp này gắn với danh từ chính, thì lớp ngữ nghĩa sẽ được trả về
được xác định thông qua sử dụng WordNet và (đối với tên riêng) danh sách các tên thông thường
còn lại các ngữ danh từ khác được đánh nhãn là NANIM
Khoảng cách giữa hai cụm ngữ danh từ NP i và NP j được ký hiệu là dist(NP i , NP j ) xác
định bởi công thức:
݀݅ݏݐ൫ܰܲ, ܰܲ൯ = ݓ∗ ݅݊ܿ݉ܽݐܾ݈݅݅݅ݐݕ(ܰܲ, ܰܲ)
∈ி
Trong đó :
• F tương đương với tập các đặc trưng của NP được mô tả ở trên; tương
ứng f là một hàm để trả về giá trị 0 hoặc 1 nếu đặc trưng f tương ứng
của các NP i và NP j là như nhau; và w f là giá trị biểu diễn độ quan trọng
của đặc trưng f
• Hàm bất tương hợp (incompatibility) và các trọng số tương ứng được
quy ước trong [4] như bảng 1 dưới đây Thông thường, các trọng số được chọn để biểu diễn tri thức ngôn ngữ về đồng tham chiếu Các mẫu với trọng số biểu diễn bộ lọc với các luật không thể xác định Hai ngữ danh
Trang 22từ không thể là tham chiếu của nhau khi các giá trị của chúng không tương đương nhau đôi với các đặng trưng của mẫu
Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách
nhau trong văn bản
từ ; ngược lại 0
đồng vị ngữ; ngược lại 0
Appositive −∞ 1 ngữ ngay trước; ngược lại 0 nếu NP j là đồng vị ngữ và NP i là tiền
Trang 23Gender ∞ 1 ngược lại 0 nếu chúng không cùng giới tính;
Bởi vì ngữ danh từ thường tham chiếu đến ngữ danh từ trước đó, chúng ta bắt đầu tại
vị trí kết thúc văn bản và tiến hành xử lý ngược lên Thuật toán gom nhóm được đề xuất như sau:
Xử lý:
ngữ danh từ NP j , xét các cụm ngữ danh từ trước nó NP i
o Dễ dàng mở rộng cho nguồn dữ liệu khác
o Đạt kết quả khả quan so (53,6 %) với các phương pháp tương đương
• Nhược điểm:
o Khó khăn trong việc một ngưỡng r, trọng số đặc trưng phù hợp
o Chưa phát hiện được hết những cặp đồng tham chiếu
Trang 242.2 Phương pháp học giám sát
Phương pháp này được Joseph F McCarthy đề xuất năm 1995, sau đó được Zoran Dzunic và đồng nghiệp thực nghiệm lại năm 2006 với một số cải tiến trong
thuật toán đối sánh (Matching) của đặc trưng đối sánh xâu ký tự [5] Tư tưởng chính
của phương pháp này sử dụng thuật toán cây quyết định để phân các cụm từ liên quan tới cụm từ đang xét vào hai lớp: Lớp đồng tham chiếu và lớp không đồng tham chiếu với cụm từ đang xét đó dựa trên các thuộc tính đặc trưng liên quan giữa hai cụm từ
Hình 2: Một ví dụ về cây quyết định
Trong phương pháp này đã định nghĩa một số khái niệm như sau:
• Với mỗi cặp cụm từ (I, J) trong văn bản T, chúng ta nói I bên trái J và viết I < J nếu và chỉ nếu I xuất hiện trước J trong văn bản T J được gọi
là anaphora và I được gọi là tiền ngữ
• Khoảng cách giữa hai xâu kí tự s1 và s2 bằng cực tiểu số kí tự được
chuyển đổi chính xác giữa hai xâu
Và 10 thuộc tính đặc trưng thể hiện mối quan hệ giữa hai cụm từ I, J như sau:
• String_match: Thuộc tính có 2 giá trị là True và False Thuộc tính này thể hiện sự giống nhau giữa 2 cụm từ I, J theo chiến thuật khử các từ dừng (stop
words) và chiến thuật đối sánh xấp xỉ
Ví dụ: Với 2 cụm từ “the man” và “this man” hàm thuộc tính trả về giá trị
Swedish girl
blond
dark
Trang 25• Alias: Có hai giá trị True và False Thuộc tính kiểm tra xem hai từ có phải là dạng viết tắt của nhau không trong các kiểu viết tắt : từ viết tắt (NATO, FAO .), bí danh của một người (John Smith và Mr Smith), ngày tháng (October
• Appositive: Có hai giá trị là True và False Thuộc tính này kiểm tra xem hai
cụm từ có phải là đồng vị ngữ hay không trong trường hợp hai cụm từ cách nhau bởi dấu phảy, không chứa động từ và ít nhất một cụm từ là tên riêng
Ví dụ : Công Vinh, tiền đạo nổi tiếng, vừa bị chấn thương trong trận gặp Lào
Trong ví dụ trên thì “Công Vinh” và “tiền đạo nổi tiếng” là đồng vị ngữ
• J pronoun: Có hai giá trị là True và False Thuộc tính này kiểm tra xem cụm
từ J có là đại từ ko
• I pronound: Có hai giá trị là True và False Thuộc tính này kiểm tra xem cụm từ I có là đại từ ko
• Distance: Có giá trị là số nguyên Thuộc tính thể hiện khoảng cách giữ 2
cụm từ bằng số câu (sentences) giữa 2 cụm từ này
Ví dụ : Peter muốn sửa xe oto của anh ấy (0) Anh ấy(1) đưa nó vào gara
Long Vũ
• Gender_agreement: Có 3 giá trị là True, False và Unknow Thuộc tính thể hiện sự đồng nhất về giới tính giữa hai cụm từ I, J nếu nó cùng nói về người Trả về True nếu hai cụm từ I, J thể hiện cùng giới tính, False nếu không cùng giới tính Và Unknow nếu không xác định được sự đồng nhất
• Definite_np: True nếu I là một cụm từ xác định ( Ví dụ: Công ty FPT) Ngược lại có giá trị là False
• Number_agreement: True nếu cụm từ được bắt đầu bởi một danh từ chỉ số lượng Ngược lại trả về False
• Demonstrative_np: True nếu I là đại từ chỉ định Ngược lại có giá trị là
False
• Both_proper_names: True nếu cả hai cụm từ đều là tên riêng Ngược lại trả
về False
Dựa trên những khái niệm và thuộc tính đặc trưng đó, thuật toán cây quyết định được
áp dụng vào giải quyết bài toán đồng tham chiếu trong một văn bản:
: Các cụm từ và danh sách các cụm từ đồng tham chiếu tương ứng
Trang 26Xử lý:
đứng trước J
cụm từ I, J Nếu (I, J) đồng tham chiếu, cụm từ I được thêm vào danh sách L các cụm từ đồng tham chiếu của J Tiếp tục xét các cụm từ I’ khác cho tới khi danh sách F được duyệt hết
Bước 5: Khi P được duyệt hết, trả về tập các cụm từ và danh sách các cụm từ
đồng tham chiếu với nó
Ưu, nhược điểm của hướng tiếp cận:
Đây là một hướng tiếp cận mới được bởi hai tác giả Thomas Finly và Thorsten Joachims đề xuất năm 2005 [7] Năm 2009, Rahman và Ng [17] cải tiến và giới thiệu
ba mô hình giải quyết bài toán đồng tham chiếu trong văn bản sử dụng bộ phân lớp SVM Trong khóa luận này chỉ giới thiệu mô hình theo cặp (mention-pair model)
Tư tưởng chính của hướng tiếp cận này là sử dụng bộ phân lớp để xác định xem
một cụm từ m k có đồng tham chiếu với một tiền ngữ ứng viên m j hay không
Mỗi một thể hiện hoặc ví dụ i(m j , m k ) biểu diễn mối liên hệ giữa m j và m k bao
gồm 39 đặc trưng được đề cập các bảng dưới đây Các đặc trưng này được chia làm 4
phần: Bảng 2 và bảng 3 bao gồm các đặc trưng miêu tả thuộc tính của m j và m k tương ứng; hai bảng 4 và 5 mô tả các đặc trưng của mối quan hệ giữa m và m Bộ phân lớp
Trang 27tiến hành học kết hợp trên cả các ví dụ âm (negative) và dương (positive) tưng ứng với việc m j và m k có đồng tham chiếu với nhau hay không Cụ thể:
• Đặc trưng mô tả m j - ứng viên tiền ngữ
Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ
• Đặc trưng mô tả m k – cụm từ đang xét
Bảng 3: Đặc trưng mô tả cụm từ đang xét
GENDER_2
MALE , FEMALE, NEUTER hoặc UNKNOW xác định bởi
danh sách các tên đầu thường gặp
SEMCLASS_2
WordNet và bộ nhận dạng thực thể NER
ANIMACY_2
Y nếu m k được xác định là HUMAN hoặc ANIMAL bởi WordNet và bộ nhận dạng thực thể NER (Name entity
Đặc trưng mô tả mối qua hệ giữa m j và m k
Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ
đang xét
I
ngược lại I