Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu. Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics), IJCAI (International Joint Conference on Artifical intelligence)...Vậy phương pháp nào là tối ưu và đem lại hiệu quả tốt? Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức phong phú. Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong văn bản... Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt nghiệp. Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt.
Trang 1MỤC LỤC
DANH MỤC CÁC HÌNH VẼ 5
DANH MỤC CÁC BẢNG BIỂU 6
MỞ ĐẦU 7
1 Lý do chọn đề tài khóa luận 7
2 Mục tiêu khóa luận 8
3 Nhiệm vụ nghiên cứu 8
4 Phương pháp nghiên cứu 8
5 Đối tượng và phạm vi nghiên cứu 8
6 Ý nghĩa khoa học 9
7 Bố cục khóa luận 9
CHƯƠNG 1: TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ 10
1.1 Tổng quan về tình hình nghiên cứu đồng tham chiếu 10
1.2 Khái niệm đồng tham chiếu 11
1.2.1 Khái niệm 11
1.2.2 Các thành phần trong quan hệ đồng tham chiếu thường gặp 13
1.3 Phân loại đồng tham chiếu 14
1.3.1 NP-anaphora 14
1.3.2 VP-anaphora 15
1.3.3 S-anaphora 15
1.3.4 “One” anaphora 15
1.4 Đồng tham chiếu danh từ (Np-anaphora) 16
1.5 Cách tiếp cận để xử lý đồng tham chiếu danh từ 16
1.5.1 Xử lý đồng tham chiếu 16
1.5.2 Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động 17
1.5.3 Các yếu tố xử lý đồng tham chiếu 18
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ ĐỒNG THAM CHIẾU DANH TỪ 21
2.1 Phương pháp máy vector hỗ trợ (SVM) 21
2.1.1 Định nghĩa và cơ sở của phương pháp SVM 21
2.1.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt 23
2.2 Conditional Random Fields (CRF) 26
2.2.1 Định nghĩa CRF 26
2.2.2 Mô hình CRF 28
2.3 TiMBL 32
2.3.1 Phương pháp học K láng giềng gần nhất 32
2.3.2 Cách sử dụng TiMBL 34
2.4 Nhận xét đánh giá về các phương pháp 35 CHƯƠNG 3: ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ
LÝ ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BẢN TIẾNG VIỆT 36
Trang 23.1 Mô hình hóa bài toán đồng tham chiếu danh từ 36
3.1.1 Phát biểu bài toán 36
3.1.2 Hướng giải quyết bài toán 38
3.1.3 Xử lý dữ liệu đầu vào 48
3.1.4 Hoạt động của SVM với các mô hình dữ liệu 51
3.1.5 Các từ điển sử dụng trong chương trình 55
3.2 Môi trường thực nghiệm 56
3.2.1 Phần cứng 56
3.2.2 Phần mềm 56
3.3 Thực nghiệm 56
3.3.1 Mô tả cài đặt chương trình 57
3.3.2 Dữ liệu thực nghiệm 64
3.3.3 Kết quả và đánh giá 72
3.4 Hướng phát triển 73
KẾT LUẬN 74
TÀI LIỆU THAM KHẢO 76
Trang 3DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Các ký hiệu, từ viết tắt Ý nghĩa
AR – Anaphora Resolution Xử lý đồng tham chiếu
CC (Coordinating conjunction) Liên từ kết hợp (và, nhưng…)
CRF (Conditional Random Fields) Là mô hình dựa trên xác suất điều
kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví
dụ kí tự, ngôn ngữ tự nhiên
CRF giải quyết - sự chuyển trạng thái từ một trạng thái cho trước tới trạng thái tiếp theo chỉ xem xét xác suất dịch chuyển giữa chúng, chứ không xem xét các xác suất dịch chuyển khác trong mô hình
entropy Memory-Based Learner Bộ học dựa trên bộ nhớ
N (Common noun) Danh từ thông dụng (họa sĩ, nhà, )
Nc (Classifier) Từ phân loại (cái, chiếc, )
Trang 4Np (Proper noun) Danh từ riêng (HàNội, Hương, )
SVM (Support Vector Machine) Phương pháp máy vector hỗ trợ TiMBL
(Nearest Neighbors algorithim)
Học dựa bộ nhớ là kỹ thuật học máy
Trang 5DANH MỤC CÁC HÌNH VẼ
Hình 3.1: Mô hình tổng quát xử lý hiện tượng đồng tham chiếu danh từ 36
Hình 3.2: Kết quả file a1a.out 39
Hình 3.3: Ví dụ xác định tập thuộc tính 42
Hình 3.4: Ví dụ chủ ngữ giả 46
Hình 3.5: Ví dụ câu phức 46
Hình 3.6: Ví dụ câu ghép 47
Hình 3.7: Ví dụ đại từ “ông ấy” 49
Hình 3.8: Ví dụ danh từ “bố tôi” 49
Hình 3.9: Ví dụ đại từ “cô ấy” 50
Hình 3.10: Ví dụ ghép danh từ 50
Hình 3.11: Ghép “tôi” và danh từ 51
Hình 3.12: File train 53
Hình 3.13: File test 53
Hình 3.14: File test đầy đủ 52
Hình 3.15: File mô hình huấn luyện 52
Hình 3.16: Kết quả phân lớp 52
Hình 3.17: Cấu trúc từ điển danh từ mới 55
Hình 3.18: Cấu trúc từ điển đại từ 56
Hình 3.19: Biểu đồ tuần tự 57
Hình 3.20: Biểu đồ trạng thái máy 58
Hình 3.21: Giao diê ̣n chương trình 64
Trang 6DANH MU ̣C CÁC BẢNG BIỂU
Bảng 3.1: Xác định giá trị các thuộc tính 41
Bảng 3.2: Bộ dữ liệu dùng để thiết kế file train 51
Bảng 3.3: Lớp Word 59
Bảng 3.4: Lớp Sentence 59
Bảng 3.5: Lớp NPConnectionXML 60
Bảng 3.6: Lớp Gender 61
Bảng 3.7: Lớp DiscoverNpAnaphora 61
Bảng 3.8: Lớp TaggerClass 62
Bảng 3.9: Lớp NpSolve 63
Bảng 3.10: Kết quả thử nghiệm với dữ liệu tự tạo 64
Bảng 3.11: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực xã hội 66
Bảng 3.12: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực văn hóa 67
Bảng 3.13: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực thể thao 69
Bảng 3.14: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực đời sống 70
Bảng 3.15: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực giáo dục 71
Trang 7MỞ ĐẦU
1 Lý do chọn đề tài khóa luận
Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như:
ACL (Association for Computational Linguistics), IJCAI (International Joint
Conference on Artifical intelligence) Vậy phương pháp nào là tối ưu và đem
lại hiệu quả tốt?
Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức phong phú Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý
hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong
văn bản Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một bài toán khó Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người
Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú
như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng
tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt
nghiệp
Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt
Trang 82 Mục tiêu khóa luận
- Nghiên cứu, tìm hiểu bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt, các phương pháp tiếp cận để giải quyết bài toán
- Sử dụng một phương pháp tiếp cận phù hợp, áp dụng mô hình này vào xây dựng một chương trình chuyên biệt giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt
3 Nhiệm vụ nghiên cứu
- Nghiên cứu các loại đồng tham chiếu trong tiếng Việt, đi sâu giải quyết đồng tham chiếu danh từ
- Đưa ra phương pháp tiếp cận phù hợp và chương trình cài đặt giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt
4 Phương pháp nghiên cứu
• Phương pháp nghiên cứu tự luận: Đọc và nghiên cứu tài liệu, giáo
trình có liên quan đến bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt
• Phương pháp tổng kết kinh nghiệm: Qua việc nghiên cứu, tham
khảo tài liệu, giáo trình từ đó rút ra kinh nghiệm để áp dụng vào việc nghiên cứu
• Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến của giảng viên trực
tiếp hướng dẫn, các giảng viên khác để hoàn thiện về mặt nội dung và hình thức của khóa luận
5 Đối tượng và phạm vi nghiên cứu
• Đối tượng:
- Cấu trúc ngữ pháp tiếng Việt
- Một số cách tiếp cận để giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt
Trang 9Học máy là phương pháp học tốn ít thời gian và đảm bảo tối đa hiệu quả công việc Phương pháp này có ứng dụng rất cao trong việc trích xuất dữ liệu, phân loại văn bản, nhận dạng ngôn ngữ văn bản, nhận dạng tiếng nói và chữ viết, dịch tự động… Đây là kỹ thuật chưa được nghiên cứu phổ biến ở Việt Nam điều đó mở ra hướng nghiên cứu, ứng dụng mới trong tương lai
Đây còn là tài liệu tham khảo cho những ai quan tâm đến đề tài này
7 Bố cục đề tài
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, khóa luận được chia thành các chương như sau:
Chương 1: Tổng quan về đồng tham chiếu danh từ
Chương 2: Một số phương pháp học máy trong xử lý đồng tham chiếu danh từ
Chương 3: Áp dụng phương pháp học máy SVM trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt
Trang 10CHƯƠNG 1 TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ
1.1 Tổng quan về tình hình nghiên cứu đồng tham chiếu
Hệ thống của Hobbs tìm kiếm tiền ngữ trong cây phân tích cú pháp
+ Lappin và Leass (1994): Cách tiếp cận dựa trên yếu tố/chỉ số đề ra
bởi Lappin và Leass sử dụng một tập các yếu tố nổi bật (salience factors) để
xác định tiền ngữ phù hợp nhất cho một từ thay thế cho trước Một số yếu tố nổi bật được gán cho tiền ngữ tiềm năng: độ gần câu, nhấn mạnh chủ thể, đối tượng, nhấn mạnh sự tồn tại, danh từ đầu
+ Cách tiếp cận thống kê hay học máy dựa trên tài liệu huấn luyện Phương pháp này có thể được chia thành phương pháp giám sát và không giám sát tuỳ thuộc vào loại tài liệu huấn luyện mà chúng sử dụng Phương pháp giám sát yêu cầu tài liệu huấn luyện đã được chú thích thông tin về các loại danh mục mà hệ thống xử lý trong khi điều này không cần thiết cho các phương pháp không giám sát
Trang 11đồng tham chiếu xảy ra trong tiếng Việt, về các cách tiếp cận khác nhau để giải quyết đồng tham chiếu Các nghiên cứu đang hướng tới sử dụng các phương pháp học máy khác nhau như: SVM, CRF, TiMBL,…Mỗi phương pháp có đặc thù riêng và việc đánh giá độ chính xác, tin cậy, hiệu suất cũng khác nhau.Tuy nhiên các nghiên cứu cho tiếng Việt vẫn còn rất nhiều hạn chế
1.2 Khái niệm đồng tham chiếu
1.2.1 Khái niệm
Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản thì việc xác định quan hệ đồng tham chiếu là một vấn đề quan trọng Quan hệ đồng tham chiếu thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng
và giữa các câu chứa các cụm từ đó nói chung Nếu xác định được sự liên kết này sẽ làm tăng chất lượng trích xuất thông tin tri thức từ tập văn bản.Vì vậy, chúng ta cần hiểu chính xác thế nào là đồng tham chiếu, để từ đó phát hiện và
xử lý các hiện tượng đó một cách hiệu quả
Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định nghĩa về quan hệ đồng tham chiếu đã được đưa ra Theo Véronique Hoste định nghĩa về quan hệ đồng tham chiếu như sau:
“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ tới một thực thể xác định trong thế giới thực.”
Ví dụ: Hồ Hoài Anh là một giảng viên trường thanh nhạc Anh ấy còn
là một ca sĩ nổi tiếng
Trong ví dụ trên, đại từ “Anh ấy” và danh từ tên riêng “Hồ Hoài Anh”
có quan hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ Hoài Anh”
Một cách định nghĩa khác về hiện tượng đồng tham chiếu như sau:
Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ hay một cụm
từ để thay thế cho một từ, một cụm từ, một phần câu đã được nhắc đến trước
đó
Trang 12Xét thêm một ví dụ đơn giản của hiện tượng đồng tham chiếu:
- Ca sĩ Thùy Chi là người ở đâu?
- Cô ấy hiện tại đang ở thành phố Hà Nội
Trong ví dụ trên, “Cô ấy” chính là đại từ thay thế cho “Thùy Chi” Vấn
đề đặt ra là làm sao để hệ thống nhận diện được “Cô ấy” chính là từ thay thế cho “Thùy Chi”
Hai ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng tham chiếu mà ta gặp hàng ngày trong cuộc sống Xử lý đồng tham chiếu là một vấn đề cực kỳ khó khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúc ngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó đòi hỏi cả hiểu biết “thực” trong đời sống Mặc
dù vấn đề này được nhận diện từ khá sớm nhưng một giải pháp xử lý đồng tham chiếu hoàn chỉnh vẫn chưa có lời giải cuối cùng Các giải pháp được
nghiên cứu trong những năm 70, 80 của thế kỷ trước (điển hình là Hobbs
1978) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyết được những
trường hợp không có sự mập mờ về ngữ nghĩa
Xét trường hợp sau:
- Ông già đi nhanh quá
Trong câu trên, nghĩa của câu có thể biến đổi tùy theo hoàn cảnh mà câu được sử dụng
Có hai cách để hiểu: Ông/già đi nhanh quá Nếu phân tích như vậy, ta
sẽ hiểu rằng câu nói đang đề cập đến vấn đề tuổi tác – ông cụ đang già đi
Cách thứ hai: Ông già/đi nhanh quá Khác với cách phân tích thứ nhất, cách này cho ta hiểu đang nói đến hành động đi nhanh của một cụ già
Như vậy, khi đặt trường hợp này vào hiện tượng đồng tham chiếu sẽ gây khó khăn trong việc phát hiện và xử lý vì sự mập mờ của ngữ nghĩa
Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phân tích cú pháp và các thuật toán về ngữ nghĩa cùng nhiều cách tiếp
Trang 13cận khác nhau tuỳ từng loại đồng tham chiếu
1.2.2 Các thành phần trong quan hệ đồng tham chiếu thường gặp
Một quan hệ đồng tham chiếu thường là quan hệ giữa các cặp cụm từ
cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ Trong đó các danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu Nó
là nền tảng để xác định các cụm đồng tham chiếu trong văn bản
a Danh từ riêng
Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh
Ví dụ: • Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp…
• Tên tổ chức: WTO, WHO…
• Tên địa danh: Hà Nội, Hải Phòng, Nam Định, Phú Thọ…
b Đại từ
Bao gồm các loại đại từ nhân xưng, đại từ tân ngữ, đại từ tương hỗ và đại từ phản thân:
• Đại từ nhân xưng đại diện cho tên người và tên vật: Tôi, cô, anh, nó…
Ví dụ: Tôi thích chơi ghita
• Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay
mệnh đề: anh ấy (him), cô ấy (her) …
Ví dụ: Hằng yêu anh ấy
• Đại từ tương hỗ: chỉ mối quan hệ tương hỗ: nhau, cả hai …
Ví dụ: Họ cùng giúp đỡ nhau
• Đại từ phản thân được sử dụng khi một người/vật tác động lên chính nó: mình
Ví dụ: Anh ta tự bắn chính mình
c Danh từ thuần túy
Là các danh từ chỉ chức vụ, được xét đến nhiều trong trường hợp này như: bác sĩ, giám đốc…
Ví dụ: Bình là một bác sĩ
Trang 141.3 Phân loại đồng tham chiếu
Có một số loại tham chiếu Anaphora, có thể phân loại dựa trên cú pháp (tức là dựa trên hình thức của chúng) hoặc cơ sở ngữ nghĩa (dựa trên mối quan hệ từ thay thế – tiền ngữ)
➢ Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:
- Từ được thay thế và từ thay thế nằm cùng trong một câu
Các đại từ thay thế, bao gồm tất cả các dạng như anh ta (he, his, him),
cô ta (she, her, hers), chúng nó (they, them)…là dạng phổ biến nhất của
NP- anaphora
Dạng này có thể xảy ra ở cả hai hình thức ở hai câu khác nhau
(intra-sententially) và trong cùng một câu (inter-sententially) Ví dụ:
- Hưng tặng Hảo một bông hoa - Cô ấy đã làm nát nó
Trang 15- Sau vụ nổ, tất cả các ngôi nhà đều phải thay mái mới (ở đây – “mái”
có sự liên quan ngầm với “tất cả các ngôi nhà”)
1.3.2 VP-anaphora
VP-anaphora là trường hợp từ thay thế cho động từ hoặc một cụm động
từ đã nói đến ở phía trước
Ví dụ: Lan đang làm bài tập về nhà Tôi cũng thế
Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “đang làm bài tập
về nhà”
1.3.3 S-anaphora
S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu hoặc thay thế cho một câu đầy đủ nằm trong một câu bao ngoài đã nêu ở phía trước S-anaphora được minh họa thông qua ví dụ sau:
- Bộ phim The Heirs đã đứng đầu trong bảng xếp hạng các phim ăn khách nhất năm 2013
- Ôi! Điều đó thật tuyệt
Trong ví dụ trên thì cụm từ “Điều đó” đã được thay thế cho cả câu ở phía trước
Xét ví dụ một câu hội thoại sau:
- Anh định đặt mua năm chiếc Nokia Lumia 525 ạ?
- Không, chỉ ba chiếc thôi
Trang 16Ở đây số từ “ba” đã được dùng để thay thế cho từ “Nokia Lumia 525”
1.4 Đồng tham chiếu danh từ (Np-anaphora)
Cũng như hiện tượng đồng tham chiếu nói chung, đồng tham chiếu danh từ là một trường hợp của hiện tượng đồng tham chiếu trong văn bản tiếng Việt Trong đồng tham chiếu danh từ, thì từ thay thế được dùng để thay thế cho một danh từ, hay một cụm danh từ đã được nhắc đến trước đó
Trong tiếng Việt, sự phong phú về ngữ nghĩa cũng như các đặc trưng
về tên riêng đã tạo nên những khó khăn và thách thức trong việc xử lý đồng tham chiếu danh từ
Ví dụ: Bình là người trực tiếp giúp đỡ Hoa và Thái làm bài tập nghiên cứu Họ đều là những học viên xuất sắc
Trong ví dụ trên, “họ” là đại từ chỉ đến cả Bình, Hoa và Thái Nhưng máy tính chỉ có hiểu rằng “họ” thay thế cho Hoa và Thái Như vậy, sẽ gây khó khăn trong việc xử lý
Hay một ví dụ khác cho thấy sự đa dạng và phức tạp của đồng tham chiếu danh từ trong tiếng Việt:
Ví dụ: Hoàng nói yêu Hạnh
Cô ấy cảm thấy rất hạnh phúc
Rõ ràng, nếu theo ngữ nghĩa và đặc trưng của tên riêng trong tiếng Việt, chúng ta hiểu rằng “Cô ấy” ở đây là từ thay thế cho “Hạnh”, xong máy tính có thể hiểu là “Cô ấy” là từ thay thế cho Hoàng
Từ hai ví dụ trên cho thấy: Đồng tham chiếu danh từ trong tiếng Việt rất đa dạng và khá phức tạp Đây là một dạng đồng tham chiếu cần được đi sâu nghiên cứu và xử lý
1.5 Cách tiếp cận để xử lý đồng tham chiếu danh từ
1.5.1 Xử lý đồng tham chiếu
Quá trình xử lý đồng tham chiếu thường theo ba bước:
Bước 1: Nhận diện các từ thay thế
Trang 17Bước 2: Xác định các ứng viên tiền ngữ
Bước 3: Lựa chọn ứng viên tiền ngữ có khả năng nhất
Cụ thể:
1 Nhận diện các từ thay thế: liên quan đến việc xác định các biểu hiện
tham chiếu và nó là nhiệm vụ phức tạp vì không phải tất cả các đại từ là đồng tham chiếu (Ví dụ: Nó là quan trọng để lưu ý ) và ít các mô tả đồng tham chiếu rõ ràng trong ngữ liệu điển hình
2 Xác định các ứng viên tiền ngữ: nói đến quá trình tìm kiếm các tiền
ngữ tiềm năng trong nguồn biểu diễn, trong đó bao gồm việc duyệt qua tất cả các tiền ngữ có thể và lựa chọn tiền ngữ nào mà phù hợp với từ thay thế Hạn chế kích thước của tập các tiền ngữ có thể là quan trọng đối với vấn đề hiệu suất và được thực hiện bằng cách xác định một phạm vi tìm kiếm
Xác định mỗi tiền ngữ sẽ được thực hiện trong hai hoặc ba câu phía trước từ thay thế Điều này dựa trên thực tế rằng nhiều cách tiếp cận xử lý đồng tham chiếu đại từ sử dụng phạm vi này cho kết quả thoả mãn
Một khi các từ thay thế và ứng viên tiền ngữ được xác định, thì sẽ lựa chọn ứng viên nhiều khả năng nhất
3 Bước xử lý cuối cùng là lựa chọn một tiền ngữ từ tập các ứng viên,
sau đó tiền ngữ được đề xuất hoặc số “-1” được trả về nếu không có tiền ngữ phù hợp được tìm thấy Quá trình lựa chọn này có xét đến một loạt các yếu tố
xử lý đồng tham chiếu mà có thể hoạt động ở các mức độ khác nhau (Ví dụ: hình thái cú tháp, ngữ nghĩa, ngôn từ) những yếu tố này được hạn chế trong dạng các ràng buộc hoặc độ ưu tiên, từ đó các ứng viên thoả mãn có cơ hội tốt hơn được lựa chọn
1.5.2 Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động
- Hình thái học và kiến thức từ vựng: Hình thái học và thông tin từ vựng như từ loại, giới tính, số và người là cần thiết để xử lý đồng tham chiếu Trước tiên chúng cung cấp thông tin cần thiết để xác định loại Anaphora, đại
Trang 18từ Thứ hai chúng giúp làm rõ tiền ngữ trên cơ sở sự đồng nhất về giới tính và
số, và thứ ba chúng cũng là cần thiết cho mức độ xử lý tiếp theo (Ví dụ: phân tích cú pháp…)
- Hình thức cú pháp: Cú pháp cung cấp thông tin quan trọng về các thành phần (Ví dụ: Np, mệnh đề, câu ) làm cơ sở cho việc xác định các Anaphora và các tiền ngữ tiềm năng, làm cơ sở cho việc phân định phạm vi tìm kiếm các tiền ngữ (Ví dụ: cách phát âm), cú pháp còn cung cấp một số loại Anaphora như từ phản thân, thông tin cần thiết để xác định các ràng buộc chặt trên những liên kết nào có thể và không thể đồng tham chiếu
- Kiến thức ngữ nghĩa: thông tin về hạn chế lựa chọn rất hữu ích trong việc thực hiện các ràng buộc về những loại liên kết nào là hợp lệ (có ý nghĩa)
và loại liên kết nào là không hợp lệ
- Kiến thức ngôn từ: Xử lý đồng tham chiếu phần lớn là một hiện tượng diễn ngôn, góp phần trực tiếp đến mức độ gắn kết và tính mạch lạc hiển thị bằng diễn ngôn, một số loại tham chiếu chỉ cần một khái niệm cục bộ của cấu trúc diễn ngôn (Ví dụ: đại từ) trong khi những loại khác là toàn cục (Ví dụ: các mô tả xác định)
- Kiến thức thế giới thực: Loại kiến thức này là cần thiết cho việc giải quyết nhiều loại tham chiếu như “WTO”, “Đức Giáo Hoàng”, “Mỹ”, và nó là một trong những khó khăn nhất để viết mã và biểu diễn xử lý đồng tham chiếu
1.5.3 Các yếu tố xử lý đồng tham chiếu
Dưới đây là một số yếu tố ảnh hưởng đến hiệu suất xử lý đồng tham chiếu:
• Sự đồng thuận về giới tính và số
Cả từ thay thế và tiền ngữ phải đồng nhất về số và giới tính
Ví dụ: Tuấn và Tùng đã đến sân vận động Họ đã ở đó cả buổi sáng
Trang 19Ở ví dụ trên có thể xác định hai từ thay thế trong câu thứ hai Đại từ chỉ người - số nhiều - ngôi thứ ba – nam giới “Họ” và trạng từ chỉ vị trí “đó” bằng cách phân tích câu trước đó, hai Np (“Tuấn và Tùng” và “sân vận động” được xác định là ứng viên tiền ngữ có thể Bằng cách sử dụng một yếu tố đồng thuận về giới tính và số có thể xác định “Tuấn và Tùng” là tiền ngữ của từ thay thế thuộc về đại từ, “Họ” và “đó” là một từ thay thế thuộc trạng ngữ có
“sân vận động” là tiền ngữ của nó
Như vậy các danh từ và đại từ thường được đánh dấu rõ ràng bằng giới tính và số, yếu tố này có tầm quan trọng lớn trong quá trình xử lý đồng tham chiếu
• Giới hạn lựa chọn
Yếu tố này cũng được gọi là sự hạn chế ngữ nghĩa, nếu một giới hạn lựa chọn được áp dụng cho một từ thay thế, nó cũng nên được áp dụng cho tiền ngữ của nó Hãy xét ví dụ sau:
- Huyền lấy thức ăn trong hộp ra và ăn nó
- Huyền lấy thức ăn trong hộp ra và rửa nó
Trong ví dụ trên giới hạn ngữ nghĩa áp dụng cho đại từ thay thế “nó” phải được áp dụng cho tiền ngữ của nó Mặc dù thực tế có ba ứng viên tiền ngữ số ít - giống cái cho đại từ “nó” (Huyền, thức ăn, hộp) Huyền được loại
bỏ vì danh từ chỉ người, chỉ một trong số chúng có thể thoả mãn đầy đủ các ràng buộc phân bố tương ứng với động từ “ăn” và “rửa” Trong ví dụ thứ nhất
“nó” có thể là “ăn” vì vậy tiền ngữ là “thức ăn” Trong ví dụ thứ hai “nó” có thể là “rửa cái hộp”, vì vậy tiền ngữ là “hộp”
• Cụm danh từ gần nhất
Đây là một yếu tố còn yếu cho xử lý đồng tham chiếu, thường Np gần nhất mà phù hợp về giới tính và số với từ thay thế có thể là tiền ngữ đúng, nhưng điều này không phải luôn là như vậy
Ví dụ: Lan nhờ Trang giúp đỡ cô ấy
Trang 20Khi Np gần nhất là “Trang” nó sẽ được chọn là tiền ngữ cho “cô ấy” nhưng trong trường hợp này tiền ngữ là “Lan” vì mệnh đề còn phụ thuộc vào động từ “nhờ” và động từ này đặt ra rằng chủ ngữ của câu nguyên thể là đồng tham chiếu với tân ngữ gián tiếp, vì vậy đại từ chỉ cách chỉ có thể tham chiếu tới chủ ngữ chính của câu
• Ưu tiên chủ ngữ
Yếu tố này ưu tiên cho chủ ngữ của câu trước đó là tiền ngữ của đại từ chủ ngữ
Ví dụ: Huấn gọi Thắng Anh ấy muốn hỏi anh ta để mượn xe
Chủ ngữ của ví dụ trên “Huấn” là tiền ngữ của từ tham chiếu “Anh ấy” Tuy nhiên ưu tiên này không quá mạnh
Ví dụ: Huấn gọi Thắng Anh ấy không trả lời điện thoại
Người không trả lời điện thoại là “Thắng”, trong trường hợp này ưu tiên chủ ngữ không vững chắc
Như chúng ta thấy một số yếu tố có thể được xem là quan trọng hơn so với yếu tố khác, chủ yếu là do đặc điểm ngôn ngữ được phân tích Chẳng hạn trong tiếng Việt sự đồng thuận về giới tính và số là yếu tố mạnh hơn so với cụm danh từ gần nhất, khi chúng ta loại trừ một số ứng viên dựa trên giới tính
và số của từ thay thế và ứng viên Mặt khác yếu tố tương tự, như khoảng cách tương đối giữa từ thay thế và các ứng viên tiền ngữ không phải là yếu tố quyết định hoàn toàn trong quá trình xử lý đồng tham chiếu Tuy nhiên điều này không có nghĩa rằng một vài yếu tố yếu hơn được xem là không đáng kể Trong việc xác định tiền ngữ đồng tham chiếu, việc sử dụng kết hợp một số yếu tố xử lý đồng tham chiếu với nhau sẽ cho độ tin cậy lớn hơn
Trang 21CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ
ĐỒNG THAM CHIẾU DANH TỪ
2.1 Phương pháp máy vector hỗ trợ (SVM)
2.1.1 Định nghĩa và cơ sở của phương pháp SVM
Phương pháp máy vector hỗ trợ SVM ra đời từ lý thuyết học thống kê
do Vapnik và Chervonekis xây dựng năm 1995, và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tế SVM là một họ các
phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước
lượng
Bài toán cơ bản của SVM là bài toán phân loại hai lớp: Cho trước n điểm trong không gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là (+1)
hoặc (–1)) Mục đích của giải thuật SVM là tìm một siêu phẳng (hyperplane)
phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này
Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân lớp cũng như trong nhiều ứng dụng khác
(ước lượng hồi quy, nhận dạng chữ viết tay…)
Đố i với bài toán xử lý đồng tham chiếu danh từ, tư tưởng chính khi sử
dụng hướng tiếp cận này là dùng bộ phân lớp để xác định xem một cụm từ có đồng tham chiếu với một tiền ngữ ứng viên trước nó hay không
Nếu coi các cụm từ đồng tham chiếu bao gồm cả thực thể tên, danh từ, đại từ kí hiệu là NPi thì các nhóm cụm từ đồng tham chiếu được kí hiệu là {NPi} Trong mỗi nhóm, mỗi cặp NPi đều là đồng tham chiếu của nhau Vì lý
do này, bài toán bây giờ trở thành: tìm tất cả các cặp cụm từ tiềm năng có quan hệ đồng tham chiếu của nhau trong văn bản tiếng Việt Tuy nhiên, vấn
đề quan trọng nhất vẫn là việc xác định tính chất đồng tham chiếu của một
Trang 22cặp cụm từ tiềm năng Dựa trên tư tưởng phương pháp máy vector hỗ trợ (SVM) vừa được giới thiệu trong phần trên, coi mỗi cặp này thể hiện một quan hệ, mỗi quan hệ này được biểu diễn bởi một vector các đặc trưng tương ứng với miền dữ liệu tiếng Việt, ý tưởng giải quyết vấn đề này là sử dụng một
bộ phân lớp Bộ phân lớp này có vai trò xác định xem vector đặc trưng trên thuộc lớp nào trong 2 lớp: Lớp nhãn (1) là các cặp có quan hệ đồng tham chiếu và lớp nhãn (-1) là các cặp không có quan hệ đồng tham chiếu Sau đó các cặp có quan hệ đồng tham chiếu với nhau được nhóm cùng vào một nhóm
Ngoài ra, trong một văn bản có nhiều câu, trong một câu có thể có một hoặc nhiều các cụm từ tiềm năng như: thực thể tên, danh từ, đại từ Như vậy, bài toán còn liên quan tới bài toán ghép cặp các cụm từ trong các câu với nhau
Ý tưởng giải quyết bài toán được mô tả cụ thể như sau:
• Văn bản đầu vào được tiến hành tách câu tạo thành một tập các câu Trên mỗi câu tiến hành nhận dạng thực thể và gán nhãn từ loại, ta được một tập các cụm từ tiềm năng NPi như đã nói ở trên Tiến hành ghép cặp các cụm
từ trong một câu với nhau và các câu khác ở phía trước nó
• Mỗi một cặp cụm từ thể hiện cho một quan hệ Mỗi quan hệ này sẽ tương ứng với một vector đặc trưng
• Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp (1) tương ứng với cặp có quan hệ đồng tham chiếu, lớp (-1) tương ứng với cặp không có quan hệ đồng tham chiếu
• Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm
Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm hai phần
Trang 23chính: phần xây dựng bộ dữ liệu học và phần áp dụng mô hình học máy để xác định các nhóm đồng tham chiếu
2.1.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt
Như ý tưởng đã trình bày ở phần trước, mô hình trích chọn đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ sử dụng một bộ phân lớp để nhận dạng các cặp cụm từ có quan hệ đồng tham chiếu sẽ được xây dựng Tuy nhiên, để xây dựng bộ phân lớp trên đòi hỏi phải
có một bộ dữ liệu học ban đầu
2.1.2.1 Xây dựng bộ dữ liệu học
Một trong các bước quan trọng của phương pháp SVM là việc xây dựng bộ dữ liệu học Đây là một quá trình cần thiết
Việc xây dựng bộ dữ liệu học được mô tả qua hai bước sau:
Bước 1: Thu nhập dữ liệu thô
Dữ liệu ban đầu có thể nhập tay, hoặc sử dụng một công cụ thích hợp
để tải tự động các thông tin, tài liệu từ các trang web có sẵn
Tiếp đến, sẽ có thành phần bóc tách nội dung chính dữ liệu thô vừa thu thập được theo các đặc trưng riêng đã được xác định trước
Bước 2: Xây dựng bộ học dữ liệu
Tập dữ liệu thô thu thập ở bước trên được đưa qua các bước tiền xử lý: gán nhãn, nhận dạng, ghép cặp các cụm từ tiềm năng… Sau đó với mỗi cặp cụm từ tiềm năng sinh một vector đặc trưng tương ứng Tập vector đặc trưng này sẽ được gán nhãn bằng tay Nếu cặp cụm từ có quan hệ đồng tham chiếu, vector tương ứng sẽ được gán nhãn là 1, ngược lại sẽ được gán nhãn là -1 Cuối cùng, tập vector đặc trưng đã gán nhãn được cho vào huấn luyện để xây dựng bộ phân lớp SVM
Dưới đây là mô hình dữ liệu học:
Trang 24Hình 2.1: Mô hình dữ liệu học
2.1.2.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt
Từ ý tưởng của phương pháp học máy SVM, ta sẽ thiết lập được một
mô hình trích chọn quan hệ đồng tham chiếu trong văn bản trong tiếng Việt bao gồm ba pha chính: pha tiền xử lý có vai trò nhận dạng và sinh tập các cụm từ tiềm năng, pha sinh vector đặc trưng có nhiệm vụ ghép cặp các cụm từ tiềm năng và sinh tập các vector đặc trưng tương ứng, pha nhận dạng dựa trên
bộ phân lớp SVM được học để xác định các cặp cụm từ đồng tham chiếu và
gom nhóm chúng lại với nhau.Làm theo các bước đó ta có một mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt như sau:
Hình 2.2: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản
Trang 25a Pha tiền xử lý:
Đầu vào: Văn bản tiếng Việt
Đầu ra: Tập các câu và các cụm từ đã nhận dạng trong câu tương ứng
b Pha sinh vector đặc trưng:
Trong pha này gồm hai thành phần xử lý con
b.1 Ghép cặp:
Đầu vào: Tập các câu và các thành phần đã nhận dạng
Đầu ra: Tập các cặp từ các thành phần đã nhận dạng
b.2 Sinh vector đặc trưng:
Mỗi một cặp ở trên tương ứng với một quan hệ Mỗi một quan hệ được biểu diễn bởi một vector đặc trưng Trong khóa luận đề cập đến bảy loại đặc trưng chính như sau:
• Đặc trưng chủ ngữ (Subject Feature): Cụm từ đang xét có phải là chủ
ngữ (chủ thể) của câu hay không?
• Đặc trưng số (ít/nhiều - Number Feature): Kiểm tra số lượng biểu diễn
trong cặp cụm từ đang xét: Cùng số ít/nhiều, hay không cùng số ít/nhiều
• Đặc trưng giới tính (Gender Feature): Kiểm tra giới tính (nam/nữ)biểu diễn trong cặp cụm từ đang xét
• Đặc trưng vị trí (Position Feature): Thể hiện đặc trưng về vị trí của câu
chứa cụm từ trong tập các câu đã xử lý hoặc đặc trưng về vị trí của cụm từ trong câu
• Đặc trưng về lớp (Class Feature): Cặp cụm từ tiềm năng đang xét có
thuộc cùng lớp (người/vật) hay không
• Đặc trưng về vị ngữ: Cụm từ đang xét có phải là vị ngữ (đối tượng) của câu hay không
• Đặc trưng danh từ: Kiểm tra xem N (danh từ) đang xét có phải là danh
từ riêng không
Trang 26c Pha nhận dạng
Tập các vector đặc trưng được sinh ra sẽ được đưa qua mô hình phân lớp đã được học trong phần trước nhằm xác định nhãn lớp Từ đó, xác định được cặp cụm từ của vector đặc trưng được gán nhãn tương ứng có quan hệ đồng tham chiếu với nhau (thể hiện bằng nhãn (1)) hay không có quan hệ đồng tham chiếu (thể hiện bằng nhãn (-1))
Bước cuối cùng là nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm
Dựa vào phân tích trong khóa luận, cũng như dựa vào các nghiên cứu trong và ngoài nước, cho thấy SVM là phương pháp học máy mang lại hiệu quả khá tốt cho nhiều bài toán Đặc biệt với toán đồng tham chiếu danh từ, mang lại tính khả thi cao cho việc thực hiện xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt
2.2 Conditional Random Fields (CRF)
2.2.1 Định nghĩa CRF
CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp CRF là mô hình dựa trên xác xuất điều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại
Trước khi xem định nghĩa trường ngẫu nhiên có điều kiện ta xem định nghĩa thế nào là một trường ngẫu nhiên
Cho một đồ thị vô hướng không có chu trình G(V,E) ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh của đồ thị nếu thỏa
i k k i j
i j
v
Trang 27Hình 2.3: Một trường ngẫu nhiên
P(Y5| Yi) = P(Y5|Y4,Y6) Vậy Y= {Y5, Y4,Y6} là trường ngẫu nhiên Tiếp đến chúng ta định nghĩa trường ngẫu nhiên có điều kiện như sau:
X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn.Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S Các đỉnh
V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một – một giữa các đỉnh và một thành phần Yv của Y Ta nói:
CRF được định nghĩa: (Y|X) là một trường ngẫu nhiên điều kiện
(Conditional Random Field) với điều kiện X khi ta chỉ tính được xác xuất có
điệu kiện P(Yi|Xi) với Yi Y và Xi X và với mỗi Xi ta chọn được argmaxYP(Yi|Xi).Trong bài toán dữ liệu dạng chuỗi, G có thể được biểu diễn như sau: G = (V= {1,2,3,…m}, E={i,i+1}i=1…m-1) (2.1)
Kí hiệu X=(X1, X2…Xn), Y= (Y1, Y2,…Yn) Ta có mô hình đồ thị vô hướng của CRF có dạng sau:
Trang 28Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu diễn cấu trúc của một CRF) Theo kết quả của Hammerly- Clifford cho các trường Markov, ta thừa số hóa được P(y|x) – xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát – thành tích các hàm tiềm năng:
Có thể mô phỏng như hình sau:
Hình 2.5: Mô tả các hàm tiềm năng
Tính chất của trường ngẫu nhiên có điệu kiện là:
• Mô hình phân biệt (discriminative models)
• Mô hình chuỗi (sequential models)
• Mô hình đồ thị vô hướng (Undirected graphical models)
2.2.2 Mô hình CRF
2.2.2.1 Độ đo Entropy điều kiện
Entropy là độ đo tính đồng đều hay tính không chắc chắn của một phân phối xác suất Độ đo Entropy điều kiện của một phân phối mô hình trên “một
chuỗi trạng thái với điều kiện biết chuỗi dữ liệu quan sát” p(y|x) có dạng sau:
H(y | x) = -
y x,
= -
y x,
p^(x)*p(y | x)*log p(y | x)
Trang 292.2.2.2 Các ràng buộc đối với phân phối mô hình
Vấn đề chính là phải tìm ra chuỗi p*(y|x) sao cho thỏa mãn hàm mục tiêu
Các ràng buộc đối với mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập dữ liệu huấn luyện Ví dụ về một thuộc tính:
fi(x, y) =
Tập các thuộc tính là tập hợp các thông tin quan trọng trong dữ liệu huấn luyện Ký hiệu kì vọng của thuộc tính f theo phân phối xác suất thực nghiệm:
)
,
(
p = 1/N * số lần xuất hiện đồng thời của x, y trong tập huấn luyện
Kỳ vọng của thuộc tính f theo phân phối xác suất trong mô hình :
E p [f] =p x( )* (y | x)*fp i( )x y, (2.6) Phân phối mô hình thống nhất với phân phối thực nghiệm chỉ khi kỳ vọng của mọi thuộc tính theo phân phối xác suất phải sấp xỉ bằng kì vọng của tính đó theo phân phối mô hình
Từ các công thức trên có thể thấy rõ các ràng buộc của mô hình
2.2.2.3 Nguyên lý cực đại hóa Entropy
Gọi P là không gian của tất cả các phân phối xác suất điều kiện, và n là
số các thuộc tính rút ra từ dữ liệu huấn luyện P’ là tập con của P, P’ được xác định như sau:
Trang 30nghĩa là ta phải tìm phân phối mô hình p(y|x) thỏa mãn hai điều kiện thứ nhất
phải thuộc tập P’ thứ hai là nó phải làm cực đại hóa Entropy điều kiện
Với mỗi một thuộc tính fi ta đưa vào một thừa số langrange λ i, ta định
nghĩa hàm Lagrange L(p, λ) như sau:
2.2.2.4 Hàm tiềm năng của các mô hình CRF
Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng hàm số mũ
Trang 31f k là một thuộc tính của chuỗi dữ liệu quan sát
y k là trọng số chỉ mức độ biểu đạt thông tin của thuộc tính f k
A là đồ thị con của đồ thị vô hướng G 2.2.2.5 Conditional Random Fields
Mô hình CRF cho phép các quan sát trên toàn bộ X, nhờ đó chúng ta có
thể sử dụng nhiều thuộc tính hơn phương pháp Hidden Markov Model Một cách hình thức chúng ta có thể xác định được quan hệ giữa một dãy các nhãn
y và một câu đầu vào x qua công thức sau
i k
x Z x
y
) (
1 )
|
Ở đây x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng:
tk(y i-1 ,y i ,x,i): là thuộc tính của toàn bộ chuỗi quan sát và các trạng thái tại vị trí
i-1, i trong chuỗi trạng thái s k (y i ,x,i): là thuộc tính của toàn bộ chuỗi quan sát
và trạng thái tại vị trí i trong chuỗi trạng thái: λj, μk là các tham số được thiết lập từ dữ liệu huấn luyện
Khi định nghĩa các thuộc tính, chúng ta xây dựng một chuỗi các thuộc
tính b(x,i) của chuỗi dữ liệu quan sát để diễn tả vài đặc trưng nào đó của phân
phối thực nghiệm của dữ liệu huấn luyện
Mỗi một hàm mô tả sẽ nhận một giá trị của một trong số các giá trị thực
b(x,i) là trạng thái hiện tại (nếu trong trường hợp hàm trạng thái) hoặc là trạng
thái trước và trạng thái hiện tại (trong trường hợp là hàm dịch chuyển) nhận giá trị riêng Do đó toàn bộ hàm mô tả có giá trị thực
Hàm trạng thái s k (y i ,x,i) dùng để xác định định danh của trạng thái
Hàm dịch chuyển giúp thêm vào mối quan hệ giữa một nhãn và các nhãn liền kệ với nó Ở đó Z(x) là thừa số chuẩn hóa Và được tính theo công thức sau:
k
Trang 32θ(λ 1 , λ 2 … ,μ 1 , μ 2 ) là các vector tham số của mô hình θ sẽ được ước lượng giá
trị trong phần tiếp theo Chú ý rằng ta có thể viết một cách đơn giản như sau:
s k (y i ,x,i)= s k (y i-1 , y i ,x,i) và Fj(y,x)=
1
1 , , , )
Ở đó fj(y i-1 ,y i ,x,i) là hàm trạng thái sk(y i-1 , y i ,x,i) hoặc hàm dịch chuyển
t k (y i-1 ,y i ,x,i) Điều này cho ta tính được xác suất của nhãn y khi biết chuỗi
quan sát x:
) (
1
x
Z exp(
j j
j F (y,x)
Nhận xét: Dựa vào một số nghiên cứu với các kết quả thực nghiệm cho
thấy phương pháp học máy CRF đem lại kết quả khá tốt cho các bài toán ứng dụng, được đánh giá cao trong các phương pháp học máy Với các mô hình huấn luyện dựa trên xác xuất điều kiện, CRF là một công cụ rất hữu ích trong việc trích chọn các thông tin theo chủ đề như: trích chọn thông tin nhà đất, thông tin về thể thao… Đặc biệt trong tiếng Việt, CRF thích hợp cho các bài toán phân đoạn tiếng Việt
2.3 TiMBL
2.3.1 Phương pháp học K láng giềng gần nhất
Học dựa bộ nhớ là kỹ thuật học máy có nguồn gốc từ phương pháp
k-láng giềng gần nhất (K-Nearest Neighbors algorithm) Các tên khác được
dùng cho loại thuật toán học này là học dựa thể hiện, dựa mẫu, dựa ví dụ, dựa trường hợp, phép loại suy và trọng số địa phương
K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh vực khai phá dữ liệu K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp
(Query point) và tất cả các đối tượng trong dữ liệu huấn luyện
Một đối tượng được phân lớp dựa vào K láng giềng của nó
Trang 33K là số nguyên dương được xác định trước khi thực hiện thuật toán Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng
Thuật toán K-NN được mô tả như sau:
1 Xác định giá trị tham số K (số láng giềng gần nhất)
2 Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất
cả các đối tượng trong dữ liệu huấn luyện (thường sử dụng khoảng các Euclidean)
3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point
4 Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho Query Point
Ví dụ::
Trong hình dưới đây, dữ liệu huấn luyện được mô tả bởi dấu (+) và dấu
(-), đối tượng cần được xác định lớp cho nó (Query point) là hình tròn đỏ
Nhiệm vụ của chúng ta là ước lượng (hay dự đoán) lớp của Query point dựa vào việc lựa chọn số láng giềng gần nhất với nó Nói cách khác chúng ta
muốn biết liệu Query Point sẽ được phân vào lớp (+) hay lớp (-)
Trang 342-Nearest neighbors: không xác định lớp cho Query Point vì số láng giềng gần nhất với nó là 2 trong đó 1 là lớp + và 1 là lớp – (không có lớp nào
có số đối tượng nhiều hơn lớp kia)
5-Nearest neighbors: Kết quả là - (Query Point được xếp vào lớp dấu (–) vì trong 5 láng giềng gần nhất với nó thì có 3 đối tượng thuộc lớp (-)nhiều hơn lớp (+) chỉ có 2 đối tượng)
Vậy học theo mấy láng giềng gần nhất?
Việc phân lớp chỉ dựa trên duy nhất một láng giềng gần nhất thường không chính xác Bởi vậy người ta thường xét các bài toán K-NN với k > 1
Đối với bài toán chỉ gồm 2 lớp, để tránh cân bằng về tỷ lệ các ví dụ giữa 2 lớp, K thường được chọn là số lẻ: 3, 5, 7
2.3.2 Cách sử dụng TiMBL
Trong khóa luận này đề cập đến cách sử dụng TiMBL trên Windows
Trước tiên cần tạo các thuộc tính cho ví dụ cần xét Tạo ra file.test để lưu giá trị các thuộc tính File.train để lưu các giá trị học
Sử dụng tool TiMBL1 với dòng lệnh Command Prompt:
1 Bộ cài TiMBL phiên bản 6.2 do nhóm nghiên cứu của trường Đại học Tilburg tại Hà Lan phát triển và duy trì Công
cụ này có thể sử dụng được cả trên Windows và Linux
Trang 35Nhận xét: Phương pháp học máy TiMBL được sử dụng khá nhiều vào
các bài toán ứng dụng mang lại hiệu suất trung bình khoảng 70% đến 80%
Khi sử dụng phương pháp học máy TiMBL cho dữ liệu đầu vào là tiếng Việt cho thấy việc gán nhãn cho dữ liệu đạt hiệu quả khá cao
2.4 Nhận xét đánh giá về các phương pháp
Nghiên cứu các kết quả thực nghiệm đã được thực hiện cho thấy cả ba phương pháp học máy đã được áp dụng đều cho độ chính xác khá cao, đặc biệt là CRF ở mức trung bình từ 90% đến 91% với bộ dữ liệu học2 Sau đó phải kể đến phương pháp SVM và TiMBL
Trong đó, thực nghiệm dựa trên phương pháp SVM cho độ chính xác cao đối với bài toán xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt Bên cạnh đó, các yếu tố về thời gian có sự chênh lệch khá nhiều (CRF cần nhiều thời gian để huấn luyện nhất, bù lại tốc độ gán nhãn rất nhanh, TiMBL có tốc độ gán nhãn nhanh, ít sai sót, SVM có ưu thế về mặt thời gian huấn luyện, tốc độ gán nhãn cũng khá tốt) Như vậy việc lựa chọn sử dụng mô hình áp dụng cần phù hợp điều kiện thực tế
2 file:///D:/KHOA%20LUAN/K47_Nguyen_Trung_Kien_Thesis.pdf
Trang 363.1 Mô hình hóa bài toán đồng tham chiếu danh từ
3.1.1 Phát biểu bài toán
Tổng quát bài toán xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt gồm các bước chính được miêu tả trong hình vẽ dưới đây:
Hình 3.1: Mô hình tổng quát xử lý hiện tượng đồng tham chiếu danh từ
Quá trình hậu
xử lý tách từ
Qúa trình pháthiện Np-anaphora
Qúa trình xử lý hiện tượng Np-anphora
Output: đoạn văn
chứa câu đã hoàn
thành xử lý
Trang 37trong khóa luận này sử dụng bộ tách từ vnTagger3 của Lê Hồng Phương
Bước 2 Quá trình hậu xử lý tách từ
Do hệ thống tách từ vnTagger đôi khi sinh ra các từ hoặc nhãn sai nên tại bước này, hệ thống tiến hành sửa các lỗi gặp phải Bên cạnh đó, hệ thống còn thực hiện các phép gộp từ để phục vụ cho mục đích xử lý đồng tham chiếu danh từ, cụm danh từ Các trường hợp cần gộp từ
+ Ghép các từ chỉ số lượng và danh từ (ví dụ: “một” (M) ghép với “cái” (Nc) và “bánh” (N) thành “một cái bánh” (N))
+ Ghép các danh từ (Ví dụ: “em” (N) ghép với “học sinh” (N) thành
“em học sinh” (N), “bố” (N) ghép với “tôi” (P) thành “bố tôi” (N), “chị” (N) ghép với “ấy là”(V) thành “chị ấy” (P) và “là” (V)
+ Ghép các đại từ (Ví dụ: “cô” (N) ghép với “ấy”(P) thành “cô ấy”(N) + Ghép số nhiều (Ví dụ: “Hoàng” (N) ghép với “và”, “với” (CC) ghép với “Lan”(N) thành “Hoàng và Lan” (N), hoặc “Hoàng với Lan”)
+ Ghép sở hữu (Ví dụ: “mẹ” (N) ghép “của” (E) ghép “tôi” (P) thành
“mẹ của tôi” (N)
Bước 3 Quá trình phát hiện hiện tượng Np-anaphora
Trong quá trình này ta sẽ dựa vào các đặc trưng của hiện tượng để từ đó phát hiện xem trong câu có xảy ra hiện tượng đó hay không
Ví dụ: Nếu câu chứa đại từ “anh ấy” và có tham chiếu tới một danh từ chỉ tên riêng đứng trước đó (chẳng hạn là “Tuấn Anh”) thì có thể xảy ra hiện tượng Np-anaphora
Bước 4 Quá trình xử lý hiện tượng Np-anaphora
Với Np-anaphora thì ta sẽ sử dụng học máy sau đó lấy kết quả là danh
từ phù hợp, rồi ghép lại thành câu đã xử lý xong, và chuyển ra output
* Out put: Đoạn văn chứa câu đã được xử lý hiện tượng anaphora
3 vnTagger Lê Hồng Phương Vietnamese part-of-speech tagger,
http://mim.hus.vnu.edu.vn/phuonglh/softwares
Trang 383.1.2 Hướng giải quyết bài toán
3.1.2.1 Áp dụng phương pháp máy vetor hỗ trợ (SVM)
Từ việc tìm hiểu ba phương pháp học máy và dựa trên những cơ sở lý thuyết về xử lý đồng tham chiếu cũng như các đặc thù về tiếng Việt, đặc biệt
là từ loại danh từ trong văn bản tiếng Việt Trong khóa luận sẽ sử dụng phương pháp máy vector hỗ trợ (SVM) làm công cụ để xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt
Như đã trình bày ở chương trước, SVM là một phương pháp học máy được sử dụng để giải quyết nhiều bài toán trong thực tế như: phân lớp văn bản, câu hỏi, trả lời hồi quy và đem lại được những kết quả khá tốt, đặc biệt với các bài toán dữ liệu đầu vào là tiếng Việt
Việc sử dụng SVM vào xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt cơ bản cho thấy sự phù hợp và lợi ích nhất định của chúng với những lí do sau:
- Phương pháp này dễ thực hiện, nó chủ yếu dựa vào khoảng cách giữa các vector đặc trưng để đưa ra quyết định cuối cùng
- Phương pháp này cho phép tùy chọn các thuộc tính trong tập các vector đặc trưng theo từng bài toán cụ thể
- Tập huấn luyện được huấn luyện dựa trên thông tin từ chính các mẫu huấn luyện
- Bổ sung mẫu huấn luyện vào tập huấn luyện một cách dễ dàng
- Khi tập huấn luyện với dữ liệu càng lớn thì độ chính xác càng cao
- Dễ dàng sử dụng bộ tool SVM ngay trên Windows
• Cách sử dụng SVM:
Ở đây em sẽ trình bày cách sử dụng SVM trên Windows
➢ Trước tiên cần tạo các thuộc tính cho dữ liệu đầu vào
➢ Tạo ra file test để lưu giá trị các thuộc tính – là bộ dữ liệu thử nghiệm