Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt (Có code)

Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu. Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics), IJCAI (International Joint Conference on Artifical intelligence)...Vậy phương pháp nào là tối ưu và đem lại hiệu quả tốt? Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức phong phú. Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong văn bản... Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt nghiệp. Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt.

Trang 1

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ 5

DANH MỤC CÁC BẢNG BIỂU 6

MỞ ĐẦU 7

1 Lý do chọn đề tài khóa luận 7

2 Mục tiêu khóa luận 8

3 Nhiệm vụ nghiên cứu 8

4 Phương pháp nghiên cứu 8

5 Đối tượng và phạm vi nghiên cứu 8

6 Ý nghĩa khoa học 9

7 Bố cục khóa luận 9

CHƯƠNG 1: TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ 10

1.1 Tổng quan về tình hình nghiên cứu đồng tham chiếu 10

1.2 Khái niệm đồng tham chiếu 11

1.2.1 Khái niệm 11

1.2.2 Các thành phần trong quan hệ đồng tham chiếu thường gặp 13

1.3 Phân loại đồng tham chiếu 14

1.3.1 NP-anaphora 14

1.3.2 VP-anaphora 15

1.3.3 S-anaphora 15

1.3.4 “One” anaphora 15

1.4 Đồng tham chiếu danh từ (Np-anaphora) 16

1.5 Cách tiếp cận để xử lý đồng tham chiếu danh từ 16

1.5.1 Xử lý đồng tham chiếu 16

1.5.2 Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động 17

1.5.3 Các yếu tố xử lý đồng tham chiếu 18

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ ĐỒNG THAM CHIẾU DANH TỪ 21

2.1 Phương pháp máy vector hỗ trợ (SVM) 21

2.1.1 Định nghĩa và cơ sở của phương pháp SVM 21

2.1.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt 23

2.2 Conditional Random Fields (CRF) 26

2.2.1 Định nghĩa CRF 26

2.2.2 Mô hình CRF 28

2.3 TiMBL 32

2.3.1 Phương pháp học K láng giềng gần nhất 32

2.3.2 Cách sử dụng TiMBL 34

2.4 Nhận xét đánh giá về các phương pháp 35 CHƯƠNG 3: ÁP DỤNG PHƯƠNG PHÁP HỌC MÁY SVM TRONG XỬ

LÝ ĐỒNG THAM CHIẾU DANH TỪ TRONG VĂN BẢN TIẾNG VIỆT 36

Trang 2

3.1 Mô hình hóa bài toán đồng tham chiếu danh từ 36

3.1.1 Phát biểu bài toán 36

3.1.2 Hướng giải quyết bài toán 38

3.1.3 Xử lý dữ liệu đầu vào 48

3.1.4 Hoạt động của SVM với các mô hình dữ liệu 51

3.1.5 Các từ điển sử dụng trong chương trình 55

3.2 Môi trường thực nghiệm 56

3.2.1 Phần cứng 56

3.2.2 Phần mềm 56

3.3 Thực nghiệm 56

3.3.1 Mô tả cài đặt chương trình 57

3.3.2 Dữ liệu thực nghiệm 64

3.3.3 Kết quả và đánh giá 72

3.4 Hướng phát triển 73

KẾT LUẬN 74

TÀI LIỆU THAM KHẢO 76

Trang 3

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Các ký hiệu, từ viết tắt Ý nghĩa

AR – Anaphora Resolution Xử lý đồng tham chiếu

CC (Coordinating conjunction) Liên từ kết hợp (và, nhưng…)

CRF (Conditional Random Fields) Là mô hình dựa trên xác suất điều

kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví

dụ kí tự, ngôn ngữ tự nhiên

CRF giải quyết - sự chuyển trạng thái từ một trạng thái cho trước tới trạng thái tiếp theo chỉ xem xét xác suất dịch chuyển giữa chúng, chứ không xem xét các xác suất dịch chuyển khác trong mô hình

entropy Memory-Based Learner Bộ học dựa trên bộ nhớ

N (Common noun) Danh từ thông dụng (họa sĩ, nhà, )

Nc (Classifier) Từ phân loại (cái, chiếc, )

Trang 4

Np (Proper noun) Danh từ riêng (HàNội, Hương, )

SVM (Support Vector Machine) Phương pháp máy vector hỗ trợ TiMBL

(Nearest Neighbors algorithim)

Học dựa bộ nhớ là kỹ thuật học máy

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 3.1: Mô hình tổng quát xử lý hiện tượng đồng tham chiếu danh từ 36

Hình 3.2: Kết quả file a1a.out 39

Hình 3.3: Ví dụ xác định tập thuộc tính 42

Hình 3.4: Ví dụ chủ ngữ giả 46

Hình 3.5: Ví dụ câu phức 46

Hình 3.6: Ví dụ câu ghép 47

Hình 3.7: Ví dụ đại từ “ông ấy” 49

Hình 3.8: Ví dụ danh từ “bố tôi” 49

Hình 3.9: Ví dụ đại từ “cô ấy” 50

Hình 3.10: Ví dụ ghép danh từ 50

Hình 3.11: Ghép “tôi” và danh từ 51

Hình 3.12: File train 53

Hình 3.13: File test 53

Hình 3.14: File test đầy đủ 52

Hình 3.15: File mô hình huấn luyện 52

Hình 3.16: Kết quả phân lớp 52

Hình 3.17: Cấu trúc từ điển danh từ mới 55

Hình 3.18: Cấu trúc từ điển đại từ 56

Hình 3.19: Biểu đồ tuần tự 57

Hình 3.20: Biểu đồ trạng thái máy 58

Hình 3.21: Giao diê ̣n chương trình 64

Trang 6

DANH MU ̣C CÁC BẢNG BIỂU

Bảng 3.1: Xác định giá trị các thuộc tính 41

Bảng 3.2: Bộ dữ liệu dùng để thiết kế file train 51

Bảng 3.3: Lớp Word 59

Bảng 3.4: Lớp Sentence 59

Bảng 3.5: Lớp NPConnectionXML 60

Bảng 3.6: Lớp Gender 61

Bảng 3.7: Lớp DiscoverNpAnaphora 61

Bảng 3.8: Lớp TaggerClass 62

Bảng 3.9: Lớp NpSolve 63

Bảng 3.10: Kết quả thử nghiệm với dữ liệu tự tạo 64

Bảng 3.11: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực xã hội 66

Bảng 3.12: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực văn hóa 67

Bảng 3.13: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực thể thao 69

Bảng 3.14: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực đời sống 70

Bảng 3.15: Kết quả thử nghiệm với dữ liệu thuộc lĩnh vực giáo dục 71

Trang 7

MỞ ĐẦU

1 Lý do chọn đề tài khóa luận

Bài toán đồng tham chiếu danh từ trong văn bản là bài toán xác định các cụm danh từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên, nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như:

ACL (Association for Computational Linguistics), IJCAI (International Joint

Conference on Artifical intelligence) Vậy phương pháp nào là tối ưu và đem

lại hiệu quả tốt?

Ngày nay, việc ứng dụng công nghệ vào xử lý ngôn ngữ cũng hết sức phong phú Chúng có thể giải quyết các bài toán như xử lý tiếng nói hay xử lý

hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining), xử lý đồng tham chiếu trong

văn bản Tất cả các bài toán đó đều đã được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế nào để máy có thể xử lý một cách tự động lại là một bài toán khó Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người

Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, những câu hỏi thắc mắc rằng: phương pháp nào, cách nào mà máy có thể hiểu và xử lý được ngôn ngữ tự nhiên, đặc biệt là đối với một ngôn ngữ rất đa dạng và phong phú

như tiếng Việt là lí do để em chọn đề tài “Áp dụng học máy trong xử lý đồng

tham chiếu danh từ trong văn bản tiếng Việt” làm đề tài khóa luận tốt

nghiệp

Trong phạm vi khóa luận này em sẽ tìm hiểu về một số phương pháp học máy và chọn ra phương pháp phù hợp để cài đặt, giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt

Trang 8

2 Mục tiêu khóa luận

- Nghiên cứu, tìm hiểu bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt, các phương pháp tiếp cận để giải quyết bài toán

- Sử dụng một phương pháp tiếp cận phù hợp, áp dụng mô hình này vào xây dựng một chương trình chuyên biệt giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt

3 Nhiệm vụ nghiên cứu

- Nghiên cứu các loại đồng tham chiếu trong tiếng Việt, đi sâu giải quyết đồng tham chiếu danh từ

- Đưa ra phương pháp tiếp cận phù hợp và chương trình cài đặt giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt

4 Phương pháp nghiên cứu

• Phương pháp nghiên cứu tự luận: Đọc và nghiên cứu tài liệu, giáo

trình có liên quan đến bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt

• Phương pháp tổng kết kinh nghiệm: Qua việc nghiên cứu, tham

khảo tài liệu, giáo trình từ đó rút ra kinh nghiệm để áp dụng vào việc nghiên cứu

• Phương pháp lấy ý kiến chuyên gia: Lấy ý kiến của giảng viên trực

tiếp hướng dẫn, các giảng viên khác để hoàn thiện về mặt nội dung và hình thức của khóa luận

5 Đối tượng và phạm vi nghiên cứu

• Đối tượng:

- Cấu trúc ngữ pháp tiếng Việt

- Một số cách tiếp cận để giải quyết bài toán đồng tham chiếu danh từ trong văn bản tiếng Việt

Trang 9

Học máy là phương pháp học tốn ít thời gian và đảm bảo tối đa hiệu quả công việc Phương pháp này có ứng dụng rất cao trong việc trích xuất dữ liệu, phân loại văn bản, nhận dạng ngôn ngữ văn bản, nhận dạng tiếng nói và chữ viết, dịch tự động… Đây là kỹ thuật chưa được nghiên cứu phổ biến ở Việt Nam điều đó mở ra hướng nghiên cứu, ứng dụng mới trong tương lai

Đây còn là tài liệu tham khảo cho những ai quan tâm đến đề tài này

7 Bố cục đề tài

Ngoài phần mở đầu, kết luận, tài liệu tham khảo, khóa luận được chia thành các chương như sau:

Chương 1: Tổng quan về đồng tham chiếu danh từ

Chương 2: Một số phương pháp học máy trong xử lý đồng tham chiếu danh từ

Chương 3: Áp dụng phương pháp học máy SVM trong xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt

Trang 10

CHƯƠNG 1 TỔNG QUAN VỀ ĐỒNG THAM CHIẾU DANH TỪ

1.1 Tổng quan về tình hình nghiên cứu đồng tham chiếu

Hệ thống của Hobbs tìm kiếm tiền ngữ trong cây phân tích cú pháp

+ Lappin và Leass (1994): Cách tiếp cận dựa trên yếu tố/chỉ số đề ra

bởi Lappin và Leass sử dụng một tập các yếu tố nổi bật (salience factors) để

xác định tiền ngữ phù hợp nhất cho một từ thay thế cho trước Một số yếu tố nổi bật được gán cho tiền ngữ tiềm năng: độ gần câu, nhấn mạnh chủ thể, đối tượng, nhấn mạnh sự tồn tại, danh từ đầu

+ Cách tiếp cận thống kê hay học máy dựa trên tài liệu huấn luyện Phương pháp này có thể được chia thành phương pháp giám sát và không giám sát tuỳ thuộc vào loại tài liệu huấn luyện mà chúng sử dụng Phương pháp giám sát yêu cầu tài liệu huấn luyện đã được chú thích thông tin về các loại danh mục mà hệ thống xử lý trong khi điều này không cần thiết cho các phương pháp không giám sát

Trang 11

đồng tham chiếu xảy ra trong tiếng Việt, về các cách tiếp cận khác nhau để giải quyết đồng tham chiếu Các nghiên cứu đang hướng tới sử dụng các phương pháp học máy khác nhau như: SVM, CRF, TiMBL,…Mỗi phương pháp có đặc thù riêng và việc đánh giá độ chính xác, tin cậy, hiệu suất cũng khác nhau.Tuy nhiên các nghiên cứu cho tiếng Việt vẫn còn rất nhiều hạn chế

1.2 Khái niệm đồng tham chiếu

1.2.1 Khái niệm

Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản thì việc xác định quan hệ đồng tham chiếu là một vấn đề quan trọng Quan hệ đồng tham chiếu thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng

và giữa các câu chứa các cụm từ đó nói chung Nếu xác định được sự liên kết này sẽ làm tăng chất lượng trích xuất thông tin tri thức từ tập văn bản.Vì vậy, chúng ta cần hiểu chính xác thế nào là đồng tham chiếu, để từ đó phát hiện và

xử lý các hiện tượng đó một cách hiệu quả

Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định nghĩa về quan hệ đồng tham chiếu đã được đưa ra Theo Véronique Hoste định nghĩa về quan hệ đồng tham chiếu như sau:

“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ tới một thực thể xác định trong thế giới thực.”

Ví dụ: Hồ Hoài Anh là một giảng viên trường thanh nhạc Anh ấy còn

là một ca sĩ nổi tiếng

Trong ví dụ trên, đại từ “Anh ấy” và danh từ tên riêng “Hồ Hoài Anh”

có quan hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ Hoài Anh”

Một cách định nghĩa khác về hiện tượng đồng tham chiếu như sau:

Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ hay một cụm

từ để thay thế cho một từ, một cụm từ, một phần câu đã được nhắc đến trước

đó

Trang 12

Xét thêm một ví dụ đơn giản của hiện tượng đồng tham chiếu:

- Ca sĩ Thùy Chi là người ở đâu?

- Cô ấy hiện tại đang ở thành phố Hà Nội

Trong ví dụ trên, “Cô ấy” chính là đại từ thay thế cho “Thùy Chi” Vấn

đề đặt ra là làm sao để hệ thống nhận diện được “Cô ấy” chính là từ thay thế cho “Thùy Chi”

Hai ví dụ trên chỉ là một trường hợp thường thấy của một dạng đồng tham chiếu mà ta gặp hàng ngày trong cuộc sống Xử lý đồng tham chiếu là một vấn đề cực kỳ khó khăn, nó yêu cầu trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúc ngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó đòi hỏi cả hiểu biết “thực” trong đời sống Mặc

dù vấn đề này được nhận diện từ khá sớm nhưng một giải pháp xử lý đồng tham chiếu hoàn chỉnh vẫn chưa có lời giải cuối cùng Các giải pháp được

nghiên cứu trong những năm 70, 80 của thế kỷ trước (điển hình là Hobbs

1978) chỉ tập trung vào ngữ pháp của câu và chỉ giải quyết được những

trường hợp không có sự mập mờ về ngữ nghĩa

Xét trường hợp sau:

- Ông già đi nhanh quá

Trong câu trên, nghĩa của câu có thể biến đổi tùy theo hoàn cảnh mà câu được sử dụng

Có hai cách để hiểu: Ông/già đi nhanh quá Nếu phân tích như vậy, ta

sẽ hiểu rằng câu nói đang đề cập đến vấn đề tuổi tác – ông cụ đang già đi

Cách thứ hai: Ông già/đi nhanh quá Khác với cách phân tích thứ nhất, cách này cho ta hiểu đang nói đến hành động đi nhanh của một cụ già

Như vậy, khi đặt trường hợp này vào hiện tượng đồng tham chiếu sẽ gây khó khăn trong việc phát hiện và xử lý vì sự mập mờ của ngữ nghĩa

Các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phân tích cú pháp và các thuật toán về ngữ nghĩa cùng nhiều cách tiếp

Trang 13

cận khác nhau tuỳ từng loại đồng tham chiếu

1.2.2 Các thành phần trong quan hệ đồng tham chiếu thường gặp

Một quan hệ đồng tham chiếu thường là quan hệ giữa các cặp cụm từ

cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ Trong đó các danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu Nó

là nền tảng để xác định các cụm đồng tham chiếu trong văn bản

a Danh từ riêng

Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh

Ví dụ: • Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp…

• Tên tổ chức: WTO, WHO…

• Tên địa danh: Hà Nội, Hải Phòng, Nam Định, Phú Thọ…

b Đại từ

Bao gồm các loại đại từ nhân xưng, đại từ tân ngữ, đại từ tương hỗ và đại từ phản thân:

• Đại từ nhân xưng đại diện cho tên người và tên vật: Tôi, cô, anh, nó…

Ví dụ: Tôi thích chơi ghita

• Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay

mệnh đề: anh ấy (him), cô ấy (her) …

Ví dụ: Hằng yêu anh ấy

• Đại từ tương hỗ: chỉ mối quan hệ tương hỗ: nhau, cả hai …

Ví dụ: Họ cùng giúp đỡ nhau

• Đại từ phản thân được sử dụng khi một người/vật tác động lên chính nó: mình

Ví dụ: Anh ta tự bắn chính mình

c Danh từ thuần túy

Là các danh từ chỉ chức vụ, được xét đến nhiều trong trường hợp này như: bác sĩ, giám đốc…

Ví dụ: Bình là một bác sĩ

Trang 14

1.3 Phân loại đồng tham chiếu

Có một số loại tham chiếu Anaphora, có thể phân loại dựa trên cú pháp (tức là dựa trên hình thức của chúng) hoặc cơ sở ngữ nghĩa (dựa trên mối quan hệ từ thay thế – tiền ngữ)

➢ Về mặt hình thức, đồng tham chiếu tồn tại dưới hai dạng:

- Từ được thay thế và từ thay thế nằm cùng trong một câu

Các đại từ thay thế, bao gồm tất cả các dạng như anh ta (he, his, him),

cô ta (she, her, hers), chúng nó (they, them)…là dạng phổ biến nhất của

NP- anaphora

Dạng này có thể xảy ra ở cả hai hình thức ở hai câu khác nhau

(intra-sententially) và trong cùng một câu (inter-sententially) Ví dụ:

- Hưng tặng Hảo một bông hoa - Cô ấy đã làm nát nó

Trang 15

- Sau vụ nổ, tất cả các ngôi nhà đều phải thay mái mới (ở đây – “mái”

có sự liên quan ngầm với “tất cả các ngôi nhà”)

1.3.2 VP-anaphora

VP-anaphora là trường hợp từ thay thế cho động từ hoặc một cụm động

từ đã nói đến ở phía trước

Ví dụ: Lan đang làm bài tập về nhà Tôi cũng thế

Trong ví dụ trên “thế” là từ thay thế cho cụm động từ “đang làm bài tập

về nhà”

1.3.3 S-anaphora

S-anaphora là trường hợp mà một từ thay thế cho hẳn một câu hoặc thay thế cho một câu đầy đủ nằm trong một câu bao ngoài đã nêu ở phía trước S-anaphora được minh họa thông qua ví dụ sau:

- Bộ phim The Heirs đã đứng đầu trong bảng xếp hạng các phim ăn khách nhất năm 2013

- Ôi! Điều đó thật tuyệt

Trong ví dụ trên thì cụm từ “Điều đó” đã được thay thế cho cả câu ở phía trước

Xét ví dụ một câu hội thoại sau:

- Anh định đặt mua năm chiếc Nokia Lumia 525 ạ?

- Không, chỉ ba chiếc thôi

Trang 16

Ở đây số từ “ba” đã được dùng để thay thế cho từ “Nokia Lumia 525”

1.4 Đồng tham chiếu danh từ (Np-anaphora)

Cũng như hiện tượng đồng tham chiếu nói chung, đồng tham chiếu danh từ là một trường hợp của hiện tượng đồng tham chiếu trong văn bản tiếng Việt Trong đồng tham chiếu danh từ, thì từ thay thế được dùng để thay thế cho một danh từ, hay một cụm danh từ đã được nhắc đến trước đó

Trong tiếng Việt, sự phong phú về ngữ nghĩa cũng như các đặc trưng

về tên riêng đã tạo nên những khó khăn và thách thức trong việc xử lý đồng tham chiếu danh từ

Ví dụ: Bình là người trực tiếp giúp đỡ Hoa và Thái làm bài tập nghiên cứu Họ đều là những học viên xuất sắc

Trong ví dụ trên, “họ” là đại từ chỉ đến cả Bình, Hoa và Thái Nhưng máy tính chỉ có hiểu rằng “họ” thay thế cho Hoa và Thái Như vậy, sẽ gây khó khăn trong việc xử lý

Hay một ví dụ khác cho thấy sự đa dạng và phức tạp của đồng tham chiếu danh từ trong tiếng Việt:

Ví dụ: Hoàng nói yêu Hạnh

Cô ấy cảm thấy rất hạnh phúc

Rõ ràng, nếu theo ngữ nghĩa và đặc trưng của tên riêng trong tiếng Việt, chúng ta hiểu rằng “Cô ấy” ở đây là từ thay thế cho “Hạnh”, xong máy tính có thể hiểu là “Cô ấy” là từ thay thế cho Hoàng

Từ hai ví dụ trên cho thấy: Đồng tham chiếu danh từ trong tiếng Việt rất đa dạng và khá phức tạp Đây là một dạng đồng tham chiếu cần được đi sâu nghiên cứu và xử lý

1.5 Cách tiếp cận để xử lý đồng tham chiếu danh từ

1.5.1 Xử lý đồng tham chiếu

Quá trình xử lý đồng tham chiếu thường theo ba bước:

Bước 1: Nhận diện các từ thay thế

Trang 17

Bước 2: Xác định các ứng viên tiền ngữ

Bước 3: Lựa chọn ứng viên tiền ngữ có khả năng nhất

Cụ thể:

1 Nhận diện các từ thay thế: liên quan đến việc xác định các biểu hiện

tham chiếu và nó là nhiệm vụ phức tạp vì không phải tất cả các đại từ là đồng tham chiếu (Ví dụ: Nó là quan trọng để lưu ý ) và ít các mô tả đồng tham chiếu rõ ràng trong ngữ liệu điển hình

2 Xác định các ứng viên tiền ngữ: nói đến quá trình tìm kiếm các tiền

ngữ tiềm năng trong nguồn biểu diễn, trong đó bao gồm việc duyệt qua tất cả các tiền ngữ có thể và lựa chọn tiền ngữ nào mà phù hợp với từ thay thế Hạn chế kích thước của tập các tiền ngữ có thể là quan trọng đối với vấn đề hiệu suất và được thực hiện bằng cách xác định một phạm vi tìm kiếm

Xác định mỗi tiền ngữ sẽ được thực hiện trong hai hoặc ba câu phía trước từ thay thế Điều này dựa trên thực tế rằng nhiều cách tiếp cận xử lý đồng tham chiếu đại từ sử dụng phạm vi này cho kết quả thoả mãn

Một khi các từ thay thế và ứng viên tiền ngữ được xác định, thì sẽ lựa chọn ứng viên nhiều khả năng nhất

3 Bước xử lý cuối cùng là lựa chọn một tiền ngữ từ tập các ứng viên,

sau đó tiền ngữ được đề xuất hoặc số “-1” được trả về nếu không có tiền ngữ phù hợp được tìm thấy Quá trình lựa chọn này có xét đến một loạt các yếu tố

xử lý đồng tham chiếu mà có thể hoạt động ở các mức độ khác nhau (Ví dụ: hình thái cú tháp, ngữ nghĩa, ngôn từ) những yếu tố này được hạn chế trong dạng các ràng buộc hoặc độ ưu tiên, từ đó các ứng viên thoả mãn có cơ hội tốt hơn được lựa chọn

1.5.2 Nguồn kiến thức cần thiết cho xử lý đồng tham chiếu tự động

- Hình thái học và kiến thức từ vựng: Hình thái học và thông tin từ vựng như từ loại, giới tính, số và người là cần thiết để xử lý đồng tham chiếu Trước tiên chúng cung cấp thông tin cần thiết để xác định loại Anaphora, đại

Trang 18

từ Thứ hai chúng giúp làm rõ tiền ngữ trên cơ sở sự đồng nhất về giới tính và

số, và thứ ba chúng cũng là cần thiết cho mức độ xử lý tiếp theo (Ví dụ: phân tích cú pháp…)

- Hình thức cú pháp: Cú pháp cung cấp thông tin quan trọng về các thành phần (Ví dụ: Np, mệnh đề, câu ) làm cơ sở cho việc xác định các Anaphora và các tiền ngữ tiềm năng, làm cơ sở cho việc phân định phạm vi tìm kiếm các tiền ngữ (Ví dụ: cách phát âm), cú pháp còn cung cấp một số loại Anaphora như từ phản thân, thông tin cần thiết để xác định các ràng buộc chặt trên những liên kết nào có thể và không thể đồng tham chiếu

- Kiến thức ngữ nghĩa: thông tin về hạn chế lựa chọn rất hữu ích trong việc thực hiện các ràng buộc về những loại liên kết nào là hợp lệ (có ý nghĩa)

và loại liên kết nào là không hợp lệ

- Kiến thức ngôn từ: Xử lý đồng tham chiếu phần lớn là một hiện tượng diễn ngôn, góp phần trực tiếp đến mức độ gắn kết và tính mạch lạc hiển thị bằng diễn ngôn, một số loại tham chiếu chỉ cần một khái niệm cục bộ của cấu trúc diễn ngôn (Ví dụ: đại từ) trong khi những loại khác là toàn cục (Ví dụ: các mô tả xác định)

- Kiến thức thế giới thực: Loại kiến thức này là cần thiết cho việc giải quyết nhiều loại tham chiếu như “WTO”, “Đức Giáo Hoàng”, “Mỹ”, và nó là một trong những khó khăn nhất để viết mã và biểu diễn xử lý đồng tham chiếu

1.5.3 Các yếu tố xử lý đồng tham chiếu

Dưới đây là một số yếu tố ảnh hưởng đến hiệu suất xử lý đồng tham chiếu:

• Sự đồng thuận về giới tính và số

Cả từ thay thế và tiền ngữ phải đồng nhất về số và giới tính

Ví dụ: Tuấn và Tùng đã đến sân vận động Họ đã ở đó cả buổi sáng

Trang 19

Ở ví dụ trên có thể xác định hai từ thay thế trong câu thứ hai Đại từ chỉ người - số nhiều - ngôi thứ ba – nam giới “Họ” và trạng từ chỉ vị trí “đó” bằng cách phân tích câu trước đó, hai Np (“Tuấn và Tùng” và “sân vận động” được xác định là ứng viên tiền ngữ có thể Bằng cách sử dụng một yếu tố đồng thuận về giới tính và số có thể xác định “Tuấn và Tùng” là tiền ngữ của từ thay thế thuộc về đại từ, “Họ” và “đó” là một từ thay thế thuộc trạng ngữ có

“sân vận động” là tiền ngữ của nó

Như vậy các danh từ và đại từ thường được đánh dấu rõ ràng bằng giới tính và số, yếu tố này có tầm quan trọng lớn trong quá trình xử lý đồng tham chiếu

• Giới hạn lựa chọn

Yếu tố này cũng được gọi là sự hạn chế ngữ nghĩa, nếu một giới hạn lựa chọn được áp dụng cho một từ thay thế, nó cũng nên được áp dụng cho tiền ngữ của nó Hãy xét ví dụ sau:

- Huyền lấy thức ăn trong hộp ra và ăn nó

- Huyền lấy thức ăn trong hộp ra và rửa nó

Trong ví dụ trên giới hạn ngữ nghĩa áp dụng cho đại từ thay thế “nó” phải được áp dụng cho tiền ngữ của nó Mặc dù thực tế có ba ứng viên tiền ngữ số ít - giống cái cho đại từ “nó” (Huyền, thức ăn, hộp) Huyền được loại

bỏ vì danh từ chỉ người, chỉ một trong số chúng có thể thoả mãn đầy đủ các ràng buộc phân bố tương ứng với động từ “ăn” và “rửa” Trong ví dụ thứ nhất

“nó” có thể là “ăn” vì vậy tiền ngữ là “thức ăn” Trong ví dụ thứ hai “nó” có thể là “rửa cái hộp”, vì vậy tiền ngữ là “hộp”

• Cụm danh từ gần nhất

Đây là một yếu tố còn yếu cho xử lý đồng tham chiếu, thường Np gần nhất mà phù hợp về giới tính và số với từ thay thế có thể là tiền ngữ đúng, nhưng điều này không phải luôn là như vậy

Ví dụ: Lan nhờ Trang giúp đỡ cô ấy

Trang 20

Khi Np gần nhất là “Trang” nó sẽ được chọn là tiền ngữ cho “cô ấy” nhưng trong trường hợp này tiền ngữ là “Lan” vì mệnh đề còn phụ thuộc vào động từ “nhờ” và động từ này đặt ra rằng chủ ngữ của câu nguyên thể là đồng tham chiếu với tân ngữ gián tiếp, vì vậy đại từ chỉ cách chỉ có thể tham chiếu tới chủ ngữ chính của câu

• Ưu tiên chủ ngữ

Yếu tố này ưu tiên cho chủ ngữ của câu trước đó là tiền ngữ của đại từ chủ ngữ

Ví dụ: Huấn gọi Thắng Anh ấy muốn hỏi anh ta để mượn xe

Chủ ngữ của ví dụ trên “Huấn” là tiền ngữ của từ tham chiếu “Anh ấy” Tuy nhiên ưu tiên này không quá mạnh

Ví dụ: Huấn gọi Thắng Anh ấy không trả lời điện thoại

Người không trả lời điện thoại là “Thắng”, trong trường hợp này ưu tiên chủ ngữ không vững chắc

Như chúng ta thấy một số yếu tố có thể được xem là quan trọng hơn so với yếu tố khác, chủ yếu là do đặc điểm ngôn ngữ được phân tích Chẳng hạn trong tiếng Việt sự đồng thuận về giới tính và số là yếu tố mạnh hơn so với cụm danh từ gần nhất, khi chúng ta loại trừ một số ứng viên dựa trên giới tính

và số của từ thay thế và ứng viên Mặt khác yếu tố tương tự, như khoảng cách tương đối giữa từ thay thế và các ứng viên tiền ngữ không phải là yếu tố quyết định hoàn toàn trong quá trình xử lý đồng tham chiếu Tuy nhiên điều này không có nghĩa rằng một vài yếu tố yếu hơn được xem là không đáng kể Trong việc xác định tiền ngữ đồng tham chiếu, việc sử dụng kết hợp một số yếu tố xử lý đồng tham chiếu với nhau sẽ cho độ tin cậy lớn hơn

Trang 21

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP HỌC MÁY TRONG XỬ LÝ

ĐỒNG THAM CHIẾU DANH TỪ

2.1 Phương pháp máy vector hỗ trợ (SVM)

2.1.1 Định nghĩa và cơ sở của phương pháp SVM

Phương pháp máy vector hỗ trợ SVM ra đời từ lý thuyết học thống kê

do Vapnik và Chervonekis xây dựng năm 1995, và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tế SVM là một họ các

phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước

lượng

Bài toán cơ bản của SVM là bài toán phân loại hai lớp: Cho trước n điểm trong không gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là (+1)

hoặc (–1)) Mục đích của giải thuật SVM là tìm một siêu phẳng (hyperplane)

phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này

Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân lớp cũng như trong nhiều ứng dụng khác

(ước lượng hồi quy, nhận dạng chữ viết tay…)

Đố i với bài toán xử lý đồng tham chiếu danh từ, tư tưởng chính khi sử

dụng hướng tiếp cận này là dùng bộ phân lớp để xác định xem một cụm từ có đồng tham chiếu với một tiền ngữ ứng viên trước nó hay không

Nếu coi các cụm từ đồng tham chiếu bao gồm cả thực thể tên, danh từ, đại từ kí hiệu là NPi thì các nhóm cụm từ đồng tham chiếu được kí hiệu là {NPi} Trong mỗi nhóm, mỗi cặp NPi đều là đồng tham chiếu của nhau Vì lý

do này, bài toán bây giờ trở thành: tìm tất cả các cặp cụm từ tiềm năng có quan hệ đồng tham chiếu của nhau trong văn bản tiếng Việt Tuy nhiên, vấn

đề quan trọng nhất vẫn là việc xác định tính chất đồng tham chiếu của một

Trang 22

cặp cụm từ tiềm năng Dựa trên tư tưởng phương pháp máy vector hỗ trợ (SVM) vừa được giới thiệu trong phần trên, coi mỗi cặp này thể hiện một quan hệ, mỗi quan hệ này được biểu diễn bởi một vector các đặc trưng tương ứng với miền dữ liệu tiếng Việt, ý tưởng giải quyết vấn đề này là sử dụng một

bộ phân lớp Bộ phân lớp này có vai trò xác định xem vector đặc trưng trên thuộc lớp nào trong 2 lớp: Lớp nhãn (1) là các cặp có quan hệ đồng tham chiếu và lớp nhãn (-1) là các cặp không có quan hệ đồng tham chiếu Sau đó các cặp có quan hệ đồng tham chiếu với nhau được nhóm cùng vào một nhóm

Ngoài ra, trong một văn bản có nhiều câu, trong một câu có thể có một hoặc nhiều các cụm từ tiềm năng như: thực thể tên, danh từ, đại từ Như vậy, bài toán còn liên quan tới bài toán ghép cặp các cụm từ trong các câu với nhau

Ý tưởng giải quyết bài toán được mô tả cụ thể như sau:

• Văn bản đầu vào được tiến hành tách câu tạo thành một tập các câu Trên mỗi câu tiến hành nhận dạng thực thể và gán nhãn từ loại, ta được một tập các cụm từ tiềm năng NPi như đã nói ở trên Tiến hành ghép cặp các cụm

từ trong một câu với nhau và các câu khác ở phía trước nó

• Mỗi một cặp cụm từ thể hiện cho một quan hệ Mỗi quan hệ này sẽ tương ứng với một vector đặc trưng

• Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp (1) tương ứng với cặp có quan hệ đồng tham chiếu, lớp (-1) tương ứng với cặp không có quan hệ đồng tham chiếu

• Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm

Mô hình giải quyết bài toán đồng tham chiếu, cụ thể là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm hai phần

Trang 23

chính: phần xây dựng bộ dữ liệu học và phần áp dụng mô hình học máy để xác định các nhóm đồng tham chiếu

2.1.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt

Như ý tưởng đã trình bày ở phần trước, mô hình trích chọn đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ sử dụng một bộ phân lớp để nhận dạng các cặp cụm từ có quan hệ đồng tham chiếu sẽ được xây dựng Tuy nhiên, để xây dựng bộ phân lớp trên đòi hỏi phải

có một bộ dữ liệu học ban đầu

2.1.2.1 Xây dựng bộ dữ liệu học

Một trong các bước quan trọng của phương pháp SVM là việc xây dựng bộ dữ liệu học Đây là một quá trình cần thiết

Việc xây dựng bộ dữ liệu học được mô tả qua hai bước sau:

Bước 1: Thu nhập dữ liệu thô

Dữ liệu ban đầu có thể nhập tay, hoặc sử dụng một công cụ thích hợp

để tải tự động các thông tin, tài liệu từ các trang web có sẵn

Tiếp đến, sẽ có thành phần bóc tách nội dung chính dữ liệu thô vừa thu thập được theo các đặc trưng riêng đã được xác định trước

Bước 2: Xây dựng bộ học dữ liệu

Tập dữ liệu thô thu thập ở bước trên được đưa qua các bước tiền xử lý: gán nhãn, nhận dạng, ghép cặp các cụm từ tiềm năng… Sau đó với mỗi cặp cụm từ tiềm năng sinh một vector đặc trưng tương ứng Tập vector đặc trưng này sẽ được gán nhãn bằng tay Nếu cặp cụm từ có quan hệ đồng tham chiếu, vector tương ứng sẽ được gán nhãn là 1, ngược lại sẽ được gán nhãn là -1 Cuối cùng, tập vector đặc trưng đã gán nhãn được cho vào huấn luyện để xây dựng bộ phân lớp SVM

Dưới đây là mô hình dữ liệu học:

Trang 24

Hình 2.1: Mô hình dữ liệu học

2.1.2.2 Mô hình trích chọn quan hệ đồng tham chiếu danh từ trong văn bản tiếng Việt

Từ ý tưởng của phương pháp học máy SVM, ta sẽ thiết lập được một

mô hình trích chọn quan hệ đồng tham chiếu trong văn bản trong tiếng Việt bao gồm ba pha chính: pha tiền xử lý có vai trò nhận dạng và sinh tập các cụm từ tiềm năng, pha sinh vector đặc trưng có nhiệm vụ ghép cặp các cụm từ tiềm năng và sinh tập các vector đặc trưng tương ứng, pha nhận dạng dựa trên

bộ phân lớp SVM được học để xác định các cặp cụm từ đồng tham chiếu và

gom nhóm chúng lại với nhau.Làm theo các bước đó ta có một mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt như sau:

Hình 2.2: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản

Trang 25

a Pha tiền xử lý:

Đầu vào: Văn bản tiếng Việt

Đầu ra: Tập các câu và các cụm từ đã nhận dạng trong câu tương ứng

b Pha sinh vector đặc trưng:

Trong pha này gồm hai thành phần xử lý con

b.1 Ghép cặp:

Đầu vào: Tập các câu và các thành phần đã nhận dạng

Đầu ra: Tập các cặp từ các thành phần đã nhận dạng

b.2 Sinh vector đặc trưng:

Mỗi một cặp ở trên tương ứng với một quan hệ Mỗi một quan hệ được biểu diễn bởi một vector đặc trưng Trong khóa luận đề cập đến bảy loại đặc trưng chính như sau:

• Đặc trưng chủ ngữ (Subject Feature): Cụm từ đang xét có phải là chủ

ngữ (chủ thể) của câu hay không?

• Đặc trưng số (ít/nhiều - Number Feature): Kiểm tra số lượng biểu diễn

trong cặp cụm từ đang xét: Cùng số ít/nhiều, hay không cùng số ít/nhiều

• Đặc trưng giới tính (Gender Feature): Kiểm tra giới tính (nam/nữ)biểu diễn trong cặp cụm từ đang xét

• Đặc trưng vị trí (Position Feature): Thể hiện đặc trưng về vị trí của câu

chứa cụm từ trong tập các câu đã xử lý hoặc đặc trưng về vị trí của cụm từ trong câu

• Đặc trưng về lớp (Class Feature): Cặp cụm từ tiềm năng đang xét có

thuộc cùng lớp (người/vật) hay không

• Đặc trưng về vị ngữ: Cụm từ đang xét có phải là vị ngữ (đối tượng) của câu hay không

• Đặc trưng danh từ: Kiểm tra xem N (danh từ) đang xét có phải là danh

từ riêng không

Trang 26

c Pha nhận dạng

Tập các vector đặc trưng được sinh ra sẽ được đưa qua mô hình phân lớp đã được học trong phần trước nhằm xác định nhãn lớp Từ đó, xác định được cặp cụm từ của vector đặc trưng được gán nhãn tương ứng có quan hệ đồng tham chiếu với nhau (thể hiện bằng nhãn (1)) hay không có quan hệ đồng tham chiếu (thể hiện bằng nhãn (-1))

Bước cuối cùng là nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm

Dựa vào phân tích trong khóa luận, cũng như dựa vào các nghiên cứu trong và ngoài nước, cho thấy SVM là phương pháp học máy mang lại hiệu quả khá tốt cho nhiều bài toán Đặc biệt với toán đồng tham chiếu danh từ, mang lại tính khả thi cao cho việc thực hiện xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt

2.2 Conditional Random Fields (CRF)

2.2.1 Định nghĩa CRF

CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp CRF là mô hình dựa trên xác xuất điều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại

Trước khi xem định nghĩa trường ngẫu nhiên có điều kiện ta xem định nghĩa thế nào là một trường ngẫu nhiên

Cho một đồ thị vô hướng không có chu trình G(V,E) ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh của đồ thị nếu thỏa

i k k i j

i j

v

Trang 27

Hình 2.3: Một trường ngẫu nhiên

P(Y5| Yi) = P(Y5|Y4,Y6) Vậy Y= {Y5, Y4,Y6} là trường ngẫu nhiên Tiếp đến chúng ta định nghĩa trường ngẫu nhiên có điều kiện như sau:

X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn.Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng Mỗi thành phần Yi của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S Các đỉnh

V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một – một giữa các đỉnh và một thành phần Yv của Y Ta nói:

CRF được định nghĩa: (Y|X) là một trường ngẫu nhiên điều kiện

(Conditional Random Field) với điều kiện X khi ta chỉ tính được xác xuất có

điệu kiện P(Yi|Xi) với Yi Y và Xi  X và với mỗi Xi ta chọn được argmaxYP(Yi|Xi).Trong bài toán dữ liệu dạng chuỗi, G có thể được biểu diễn như sau: G = (V= {1,2,3,…m}, E={i,i+1}i=1…m-1) (2.1)

Kí hiệu X=(X1, X2…Xn), Y= (Y1, Y2,…Yn) Ta có mô hình đồ thị vô hướng của CRF có dạng sau:

Trang 28

Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu diễn cấu trúc của một CRF) Theo kết quả của Hammerly- Clifford cho các trường Markov, ta thừa số hóa được P(y|x) – xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát – thành tích các hàm tiềm năng:

Có thể mô phỏng như hình sau:

Hình 2.5: Mô tả các hàm tiềm năng

Tính chất của trường ngẫu nhiên có điệu kiện là:

• Mô hình phân biệt (discriminative models)

• Mô hình chuỗi (sequential models)

• Mô hình đồ thị vô hướng (Undirected graphical models)

2.2.2 Mô hình CRF

2.2.2.1 Độ đo Entropy điều kiện

Entropy là độ đo tính đồng đều hay tính không chắc chắn của một phân phối xác suất Độ đo Entropy điều kiện của một phân phối mô hình trên “một

chuỗi trạng thái với điều kiện biết chuỗi dữ liệu quan sát” p(y|x) có dạng sau:

H(y | x) = - 

y x,

= - 

y x,

p^(x)*p(y | x)*log p(y | x)

Trang 29

2.2.2.2 Các ràng buộc đối với phân phối mô hình

Vấn đề chính là phải tìm ra chuỗi p*(y|x) sao cho thỏa mãn hàm mục tiêu

Các ràng buộc đối với mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập dữ liệu huấn luyện Ví dụ về một thuộc tính:

fi(x, y) =

Tập các thuộc tính là tập hợp các thông tin quan trọng trong dữ liệu huấn luyện Ký hiệu kì vọng của thuộc tính f theo phân phối xác suất thực nghiệm:

)

,

(

p = 1/N * số lần xuất hiện đồng thời của x, y trong tập huấn luyện

Kỳ vọng của thuộc tính f theo phân phối xác suất trong mô hình :

E p [f] =p x( )* (y | x)*fp i( )x y, (2.6) Phân phối mô hình thống nhất với phân phối thực nghiệm chỉ khi kỳ vọng của mọi thuộc tính theo phân phối xác suất phải sấp xỉ bằng kì vọng của tính đó theo phân phối mô hình

Từ các công thức trên có thể thấy rõ các ràng buộc của mô hình

2.2.2.3 Nguyên lý cực đại hóa Entropy

Gọi P là không gian của tất cả các phân phối xác suất điều kiện, và n là

số các thuộc tính rút ra từ dữ liệu huấn luyện P’ là tập con của P, P’ được xác định như sau:

Trang 30

nghĩa là ta phải tìm phân phối mô hình p(y|x) thỏa mãn hai điều kiện thứ nhất

phải thuộc tập P’ thứ hai là nó phải làm cực đại hóa Entropy điều kiện

Với mỗi một thuộc tính fi ta đưa vào một thừa số langrange λ i, ta định

nghĩa hàm Lagrange L(p, λ) như sau:

2.2.2.4 Hàm tiềm năng của các mô hình CRF

Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng hàm số mũ

Trang 31

f k là một thuộc tính của chuỗi dữ liệu quan sát

y k là trọng số chỉ mức độ biểu đạt thông tin của thuộc tính f k

A là đồ thị con của đồ thị vô hướng G 2.2.2.5 Conditional Random Fields

Mô hình CRF cho phép các quan sát trên toàn bộ X, nhờ đó chúng ta có

thể sử dụng nhiều thuộc tính hơn phương pháp Hidden Markov Model Một cách hình thức chúng ta có thể xác định được quan hệ giữa một dãy các nhãn

y và một câu đầu vào x qua công thức sau

i k

x Z x

y

) (

1 )

|

Ở đây x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng:

tk(y i-1 ,y i ,x,i): là thuộc tính của toàn bộ chuỗi quan sát và các trạng thái tại vị trí

i-1, i trong chuỗi trạng thái s k (y i ,x,i): là thuộc tính của toàn bộ chuỗi quan sát

và trạng thái tại vị trí i trong chuỗi trạng thái: λj, μk là các tham số được thiết lập từ dữ liệu huấn luyện

Khi định nghĩa các thuộc tính, chúng ta xây dựng một chuỗi các thuộc

tính b(x,i) của chuỗi dữ liệu quan sát để diễn tả vài đặc trưng nào đó của phân

phối thực nghiệm của dữ liệu huấn luyện

Mỗi một hàm mô tả sẽ nhận một giá trị của một trong số các giá trị thực

b(x,i) là trạng thái hiện tại (nếu trong trường hợp hàm trạng thái) hoặc là trạng

thái trước và trạng thái hiện tại (trong trường hợp là hàm dịch chuyển) nhận giá trị riêng Do đó toàn bộ hàm mô tả có giá trị thực

Hàm trạng thái s k (y i ,x,i) dùng để xác định định danh của trạng thái

Hàm dịch chuyển giúp thêm vào mối quan hệ giữa một nhãn và các nhãn liền kệ với nó Ở đó Z(x) là thừa số chuẩn hóa Và được tính theo công thức sau:

k

Trang 32

θ(λ 1 , λ 2 … ,μ 1 , μ 2 ) là các vector tham số của mô hình θ sẽ được ước lượng giá

trị trong phần tiếp theo Chú ý rằng ta có thể viết một cách đơn giản như sau:

s k (y i ,x,i)= s k (y i-1 , y i ,x,i) và Fj(y,x)= 

1

1 , , , )

Ở đó fj(y i-1 ,y i ,x,i) là hàm trạng thái sk(y i-1 , y i ,x,i) hoặc hàm dịch chuyển

t k (y i-1 ,y i ,x,i) Điều này cho ta tính được xác suất của nhãn y khi biết chuỗi

quan sát x:

) (

1

x

Z exp(

j j

j F (y,x)

Nhận xét: Dựa vào một số nghiên cứu với các kết quả thực nghiệm cho

thấy phương pháp học máy CRF đem lại kết quả khá tốt cho các bài toán ứng dụng, được đánh giá cao trong các phương pháp học máy Với các mô hình huấn luyện dựa trên xác xuất điều kiện, CRF là một công cụ rất hữu ích trong việc trích chọn các thông tin theo chủ đề như: trích chọn thông tin nhà đất, thông tin về thể thao… Đặc biệt trong tiếng Việt, CRF thích hợp cho các bài toán phân đoạn tiếng Việt

2.3 TiMBL

2.3.1 Phương pháp học K láng giềng gần nhất

Học dựa bộ nhớ là kỹ thuật học máy có nguồn gốc từ phương pháp

k-láng giềng gần nhất (K-Nearest Neighbors algorithm) Các tên khác được

dùng cho loại thuật toán học này là học dựa thể hiện, dựa mẫu, dựa ví dụ, dựa trường hợp, phép loại suy và trọng số địa phương

K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh vực khai phá dữ liệu K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp

(Query point) và tất cả các đối tượng trong dữ liệu huấn luyện

Một đối tượng được phân lớp dựa vào K láng giềng của nó

Trang 33

K là số nguyên dương được xác định trước khi thực hiện thuật toán Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng

Thuật toán K-NN được mô tả như sau:

1 Xác định giá trị tham số K (số láng giềng gần nhất)

2 Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất

cả các đối tượng trong dữ liệu huấn luyện (thường sử dụng khoảng các Euclidean)

3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point

4 Lấy tất cả các lớp của K láng giềng gần nhất đã xác định

5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho Query Point

Ví dụ::

Trong hình dưới đây, dữ liệu huấn luyện được mô tả bởi dấu (+) và dấu

(-), đối tượng cần được xác định lớp cho nó (Query point) là hình tròn đỏ

Nhiệm vụ của chúng ta là ước lượng (hay dự đoán) lớp của Query point dựa vào việc lựa chọn số láng giềng gần nhất với nó Nói cách khác chúng ta

muốn biết liệu Query Point sẽ được phân vào lớp (+) hay lớp (-)

Trang 34

2-Nearest neighbors: không xác định lớp cho Query Point vì số láng giềng gần nhất với nó là 2 trong đó 1 là lớp + và 1 là lớp – (không có lớp nào

có số đối tượng nhiều hơn lớp kia)

5-Nearest neighbors: Kết quả là - (Query Point được xếp vào lớp dấu (–) vì trong 5 láng giềng gần nhất với nó thì có 3 đối tượng thuộc lớp (-)nhiều hơn lớp (+) chỉ có 2 đối tượng)

Vậy học theo mấy láng giềng gần nhất?

Việc phân lớp chỉ dựa trên duy nhất một láng giềng gần nhất thường không chính xác Bởi vậy người ta thường xét các bài toán K-NN với k > 1

Đối với bài toán chỉ gồm 2 lớp, để tránh cân bằng về tỷ lệ các ví dụ giữa 2 lớp, K thường được chọn là số lẻ: 3, 5, 7

2.3.2 Cách sử dụng TiMBL

Trong khóa luận này đề cập đến cách sử dụng TiMBL trên Windows

Trước tiên cần tạo các thuộc tính cho ví dụ cần xét Tạo ra file.test để lưu giá trị các thuộc tính File.train để lưu các giá trị học

Sử dụng tool TiMBL1 với dòng lệnh Command Prompt:

1 Bộ cài TiMBL phiên bản 6.2 do nhóm nghiên cứu của trường Đại học Tilburg tại Hà Lan phát triển và duy trì Công

cụ này có thể sử dụng được cả trên Windows và Linux

Trang 35

Nhận xét: Phương pháp học máy TiMBL được sử dụng khá nhiều vào

các bài toán ứng dụng mang lại hiệu suất trung bình khoảng 70% đến 80%

Khi sử dụng phương pháp học máy TiMBL cho dữ liệu đầu vào là tiếng Việt cho thấy việc gán nhãn cho dữ liệu đạt hiệu quả khá cao

2.4 Nhận xét đánh giá về các phương pháp

Nghiên cứu các kết quả thực nghiệm đã được thực hiện cho thấy cả ba phương pháp học máy đã được áp dụng đều cho độ chính xác khá cao, đặc biệt là CRF ở mức trung bình từ 90% đến 91% với bộ dữ liệu học2 Sau đó phải kể đến phương pháp SVM và TiMBL

Trong đó, thực nghiệm dựa trên phương pháp SVM cho độ chính xác cao đối với bài toán xử lý đồng tham chiếu danh từ trong văn bản tiếng Việt Bên cạnh đó, các yếu tố về thời gian có sự chênh lệch khá nhiều (CRF cần nhiều thời gian để huấn luyện nhất, bù lại tốc độ gán nhãn rất nhanh, TiMBL có tốc độ gán nhãn nhanh, ít sai sót, SVM có ưu thế về mặt thời gian huấn luyện, tốc độ gán nhãn cũng khá tốt) Như vậy việc lựa chọn sử dụng mô hình áp dụng cần phù hợp điều kiện thực tế

2 file:///D:/KHOA%20LUAN/K47_Nguyen_Trung_Kien_Thesis.pdf

Trang 36

3.1 Mô hình hóa bài toán đồng tham chiếu danh từ

3.1.1 Phát biểu bài toán

Tổng quát bài toán xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt gồm các bước chính được miêu tả trong hình vẽ dưới đây:

Hình 3.1: Mô hình tổng quát xử lý hiện tượng đồng tham chiếu danh từ

Quá trình hậu

xử lý tách từ

Qúa trình pháthiện Np-anaphora

Qúa trình xử lý hiện tượng Np-anphora

Output: đoạn văn

chứa câu đã hoàn

thành xử lý

Trang 37

trong khóa luận này sử dụng bộ tách từ vnTagger3 của Lê Hồng Phương

Bước 2 Quá trình hậu xử lý tách từ

Do hệ thống tách từ vnTagger đôi khi sinh ra các từ hoặc nhãn sai nên tại bước này, hệ thống tiến hành sửa các lỗi gặp phải Bên cạnh đó, hệ thống còn thực hiện các phép gộp từ để phục vụ cho mục đích xử lý đồng tham chiếu danh từ, cụm danh từ Các trường hợp cần gộp từ

+ Ghép các từ chỉ số lượng và danh từ (ví dụ: “một” (M) ghép với “cái” (Nc) và “bánh” (N) thành “một cái bánh” (N))

+ Ghép các danh từ (Ví dụ: “em” (N) ghép với “học sinh” (N) thành

“em học sinh” (N), “bố” (N) ghép với “tôi” (P) thành “bố tôi” (N), “chị” (N) ghép với “ấy là”(V) thành “chị ấy” (P) và “là” (V)

+ Ghép các đại từ (Ví dụ: “cô” (N) ghép với “ấy”(P) thành “cô ấy”(N) + Ghép số nhiều (Ví dụ: “Hoàng” (N) ghép với “và”, “với” (CC) ghép với “Lan”(N) thành “Hoàng và Lan” (N), hoặc “Hoàng với Lan”)

+ Ghép sở hữu (Ví dụ: “mẹ” (N) ghép “của” (E) ghép “tôi” (P) thành

“mẹ của tôi” (N)

Bước 3 Quá trình phát hiện hiện tượng Np-anaphora

Trong quá trình này ta sẽ dựa vào các đặc trưng của hiện tượng để từ đó phát hiện xem trong câu có xảy ra hiện tượng đó hay không

Ví dụ: Nếu câu chứa đại từ “anh ấy” và có tham chiếu tới một danh từ chỉ tên riêng đứng trước đó (chẳng hạn là “Tuấn Anh”) thì có thể xảy ra hiện tượng Np-anaphora

Bước 4 Quá trình xử lý hiện tượng Np-anaphora

Với Np-anaphora thì ta sẽ sử dụng học máy sau đó lấy kết quả là danh

từ phù hợp, rồi ghép lại thành câu đã xử lý xong, và chuyển ra output

* Out put: Đoạn văn chứa câu đã được xử lý hiện tượng anaphora

3 vnTagger Lê Hồng Phương Vietnamese part-of-speech tagger,

http://mim.hus.vnu.edu.vn/phuonglh/softwares

Trang 38

3.1.2 Hướng giải quyết bài toán

3.1.2.1 Áp dụng phương pháp máy vetor hỗ trợ (SVM)

Từ việc tìm hiểu ba phương pháp học máy và dựa trên những cơ sở lý thuyết về xử lý đồng tham chiếu cũng như các đặc thù về tiếng Việt, đặc biệt

là từ loại danh từ trong văn bản tiếng Việt Trong khóa luận sẽ sử dụng phương pháp máy vector hỗ trợ (SVM) làm công cụ để xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt

Như đã trình bày ở chương trước, SVM là một phương pháp học máy được sử dụng để giải quyết nhiều bài toán trong thực tế như: phân lớp văn bản, câu hỏi, trả lời hồi quy và đem lại được những kết quả khá tốt, đặc biệt với các bài toán dữ liệu đầu vào là tiếng Việt

Việc sử dụng SVM vào xử lý hiện tượng đồng tham chiếu danh từ trong văn bản tiếng Việt cơ bản cho thấy sự phù hợp và lợi ích nhất định của chúng với những lí do sau:

- Phương pháp này dễ thực hiện, nó chủ yếu dựa vào khoảng cách giữa các vector đặc trưng để đưa ra quyết định cuối cùng

- Phương pháp này cho phép tùy chọn các thuộc tính trong tập các vector đặc trưng theo từng bài toán cụ thể

- Tập huấn luyện được huấn luyện dựa trên thông tin từ chính các mẫu huấn luyện

- Bổ sung mẫu huấn luyện vào tập huấn luyện một cách dễ dàng

- Khi tập huấn luyện với dữ liệu càng lớn thì độ chính xác càng cao

- Dễ dàng sử dụng bộ tool SVM ngay trên Windows

• Cách sử dụng SVM:

Ở đây em sẽ trình bày cách sử dụng SVM trên Windows

➢ Trước tiên cần tạo các thuộc tính cho dữ liệu đầu vào

➢ Tạo ra file test để lưu giá trị các thuộc tính – là bộ dữ liệu thử nghiệm

Định dạng
Số trang	76
Dung lượng	0,96 MB
File đính kèm	Code.rar (592 KB)