1. Trang chủ
  2. » Luận Văn - Báo Cáo

GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM

55 371 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 486,53 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tóm tắtBài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ ngữ danh từ hoặc đại từ trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhó

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Đức Trọng

GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU

TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO

PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI – 2011

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Đức Trọng

GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: TS Nguyễn Trí Thành

Cán bộ đồng hướng dẫn: ThS Trần Mai Vũ

HÀ NỘI - 2011

Trang 3

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Tiến sĩ Nguyễn Trí Thành, Thạc sỹ Trần Mai Vũ đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp này

Tôi xin chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi

để tôi học tập, rèn luyện và nghiên cứu tại trường Đại học Công nghệ

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên tại phòng thí nghiệm KT-Sislab, các bạn trong nhóm nghiên cứu khoa học đã giúp đỡ, hỗ trợ tôi trong quá trình thu thập dữ liệu và thực nghiệm mô hình Đồng thời tôi xin gửi lời cảm

ơn đề tài QG 10.38 đã hỗ trợ tôi trong quá trình hoàn thành khóa luận này

Tôi gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã ủng hộ, khích lệ, giúp đỡ và luôn sát cánh bên tôi trong suốt quá trình học tập, rèn luyện tại trường

Và cuối cùng, tôi xin gửi lời cảm ơn vô hạn tới gia đình, người thân và bạn bè – những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống cũng như học tập, công việc

Tôi xin chân thành cảm ơn !

Sinh viên

Lê Đức Trọng

Trang 4

Lời cam đoan

Tôi xin cam đoan mô hình đề xuất giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt và thực nghiệm được trình bày trong khóa luận này do tôi thực hiện dưới sự hướng dẫn của Tiến sĩ Nguyễn Trí Thành và Thạc sỹ Trần Mai Vũ

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Khóa luận không sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về mặt tài liệu tham khảo

Các kết quả thực nghiệm của khóa luận đều được tiến hành thực nghiệm và thống kê từ kết quả thực thế

Sinh viên

Lê Đức Trọng

Trang 5

Tóm tắt

Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] Đây là một vấn đề khó của lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được sự quan tâm rất lớn

từ các nhà nhiên cứu cũng như các hội nghị lớn trên thế giới Tại Việt Nam, bài toán này vẫn đặt ra nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ các nguồn tài nguyên ngôn ngữ học chuNn Tuy nhiên, nó là một bài toán có tiềm năng khai thác cho nguồn dữ liệu tiếng Việt, cần được tìm hiểu và nghiên cứu

Dựa trên cơ sở những đặc trưng của miền dữ liệu tiếng Việt, dựa trên tính mới, tính chính xác của các phương pháp tiếp cận giải quyết, khóa luận chọn hướng tiếp cận

sử dụng phương pháp máy vector hỗ trợ SVM để giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt Ý tưởng của hướng tiếp cận là ghép cặp các cụm từ tiềm năng, mỗi cụm từ thể hiện cho một quan hệ, mỗi quan hệ được biểu diễn bởi một vector đặc trưng Sau đó được đưa vào bộ phân lớp SVM để xác định tính chất đồng tham chiếu, từ đó gom nhóm các cụm từ đồng tham chiếu với nhau Khóa luận sử dụng nguồn dữ liệu là nội dung các bài báo được tải tự động và bóc tách nội dung chính từ chuyên mục Văn hóa – xã hội của báo điện tử Vnexpress.net để xây dựng dữ liệu học cho mô hình đề xuất

Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đạt độ chính xác

76,51 % Trong khi đó độ chính xác trên mô hình cơ sở là 73.79 % với các đặc trưng

tương đương Điều này khẳng định mô hình là khả thi và có khả năng ứng dụng thực

tế

Trang 6

Lời mở đầu 1

Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản 3

1.1 Quan hệ đồng tham chiếu 3

1.1.1 Khái niệm 3

1.1.2 Các thành phần trong quan hệ đồng tham chiếu thường gặp 3

1.1.3 Phân loại các quan hệ đồng tham chiếu 4

1.2 Bài toán đồng tham chiếu trong văn bản 5

1.3 Ứng dụng 6

1.4 Khó khăn và thách thức 7

Tóm tắt chương một 8

Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản 9

2.1 Phương pháp học không giám sát 9

2.1.1 Phương pháp xếp hạng 9

2.1.2 Phương pháp gom cụm 11

2.2 Phương pháp học giám sát 15

2.2.1 Phương pháp cây quyết định C4.5 15

2.2.2 Phương pháp máy vector hỗ trợ (SVM) 17

2.3 Nhận xét 21

Tóm tắt chương hai 21

Chương 3 Giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 22

3.1 Đặc trưng của văn bản tiếng Việt 22

3.1.1 Đặc trưng từ trong tiếng Việt 22

3.1.2 Đặc trưng về tên người trong tiếng Việt 23

3.1.3 Đặc trưng về quan hệ ngữ nghĩa 24

3.2 Phát biểu bài toán đồng tham chiếu trong văn bản tiếng Việt 25

3.2.1 Phát biểu bài toán 25

3.2.2 Ý tưởng giải quyết bài toán 25

3.3 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ 26

3.3.1 Xây dựng bộ dữ liệu học 26

3.3.2 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29

Tóm tắt chương 3 34

Trang 7

Chương 4: Thực nghiệm và đánh giá 35

4.1 Môi trường thực nghiệm 35

4.1.1 Cấu hình sử dụng 35

4.1.2 Công cụ phần mền 35

4.2 Dữ liệu thực nghiệm 36

4.3 Thực nghiệm 36

4.3.1 Mô tả cài đặt chương trình 36

4.3.2 Xây dựng bộ dữ liệu học 36

4.3.3 Xây dựng bộ phân lớp 40

4.4 Đánh giá, so sánh 40

4.4.1 Đánh giá hệ thống 40

4.4.2 Phương pháp đánh giá 40

4.4.3 Kết quả thực nghiệm 41

4.5 Nhận xét 42

Kết luận 44

Tài liệu tham khảo 45

Trang 8

Danh sách các hình vẽ

Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu 6

Hình 2: Một ví dụ về cây quyết định 15

Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học 27

Hình 4: Văn bản tải về dạng html 28

Hình 5 : Mô hình xây dựng bộ dữ liệu học 28

Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt 29

Hình 7: Ví dụ về dữ liệu gán nhãn 37

Hình 8: Một ví dụ về sinh vector đặc trưng 39

Hình 9: Kết quả độ đo chính xác của hai mô hình thực nghiệm trên 10 văn bản 41

Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản 42

Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản 42

Danh sách các bảng Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách 13

Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ 18

Bảng 3: Đặc trưng mô tả cụm từ đang xét 18

Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 18

Bảng 5: Đặc trưng thêm mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ đang xét 20

Bảng 6: Bảng đặc trưng của cụm từ NP1 32

Bảng 7: Bảng đặc trưng của cụm từ NP2 32

Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 33

Bảng 9: Cấu hình phần cứng 35

Bảng 10: Danh sách các phần mềm sử dụng 35

Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực nghiệm thực tế trên 10 văn bản 41

Trang 9

Bảng các kí hiệu viết tắt

Trang 10

Lời mở đầu

Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu cùng chỉ tới một thực thể xác định trong thế giới thực và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu [6] Đây là một vấn đề khó trong lĩnh vực xử lý ngôn ngữ tự nhiên [16], nhận được nhiều sự quan tâm của các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for Computational Linguistics ), IJCAI (International Joint Conference on Artifical intelligence) Nếu một phương pháp giải quyết được đề xuất cho kết quả tốt thì nhiều bài toán khác như: Hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt văn bản [20], tự động sinh các biểu diễn tương đương của đoạn văn bản [4] … sẽ được cải thiện về chất lượng một cách đáng kể Xuất phát từ lý do đó và mong muốn nâng cao chất lượng đề tài nghiên cứu khoa học sinh viên 2010 – 2011 là “Hệ thống hỏi đáp thực thể tên người cho tiếng Việt”, khóa luận chọn bài toán đồng tham chiếu trong văn bản tiếng Việt làm nội dung tập trung nghiên cứu và xây dựng mô hình giải quyết

Bài toán đồng tham chiếu trong văn bản ra đời từ những năm 60-70 của thế kỉ trước [21], các phương pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp cận kinh nghiệm Cho tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề xuất để giải quyết bài toán Tuy nhiên, nổi bật hơn là các phương pháp dựa trên hướng tiếp cận học máy không giám sát và học máy giám sát Những công trình này mang tính ứng dụng cao, đang ngày càng được cải tiến cho hiệu quả tốt hơn Khóa luận này giới thiệu một số phương pháp tiếp cận giải quyết điển hình như: phương pháp xếp hạng, phương pháp gom cụm, phương pháp cây quyết định và phương pháp máy vector hỗ trợ (SVM) Trong những phương pháp đó, phương pháp máy vector hỗ trợ là phương pháp mới (2005) cho kết quả khả quan (độ chính xác đạt 69.2%) Vì vậy chúng tôi sử dụng phương pháp này cho việc giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là xây dựng mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt Kết quả thực nghiệm bước đầu cho thấy mô hình phù hợp với miền dữ liệu tiếng Việt và có khả năng ứng dụng tốt

Nội dung của khóa luận bao gồm có 4 chương:

Chương 1: Giới thiệu khái quát về bài toán đồng tham chiếu cũng như các khái

niệm liên quan

Chương 2: Giới thiệu một số phương pháp tiếp cận giải quyết bài toán đồng

tham chiếu bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có giám sát Đây là cơ sở lý thuyết, phương pháp luận quan trọng để khóa

Trang 11

luận đưa ra mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt ở trong chương 4

Chương 3: Trên cơ sở những phương pháp tiếp cận trình bày ở chương 2 và

thông qua khảo sát miền dữ liệu văn bản tiếng Việt, khóa luận đã lựa chọn phương pháp máy vector hỗ trợ (SVM) là cơ sở của việc giải quyết bài toán đồng tham chiếu trong tiếng Việt Nội dung chính của chương này trình bày một số đặc trưng của văn bản tiếng Việt, bài toán đồng tham chiếu trong văn bản tiếng Việt và mô hình đề xuất

Chương 4: Thực nghiệm, kết quả và đánh giá Tiến hành thực nghiệm việc xây

dựng bộ dữ liệu học, xây dựng bộ phân lớp SVM để xác định các cặp cụm từ có quan

hệ đồng tham chiếu trong văn bản tiếng Việt Trong chương này đánh giá, so sánh kết quả giữa mô hình đề xuất và mô hình cơ sở mà khóa luận dựa trên

Phần kết luận và định hướng phát triển: Tóm lược những kết quả đạt được

của khóa luận Đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra định hướng nghiên cứu trong thời gian sắp tới

Trang 12

Chương 1: Khái quát về bài toán đồng tham chiếu trong văn bản

Nội dung chính của khóa luận là đề xuất một mô hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ (SVM) Trong chương này sẽ giới thiệu các khái niệm cơ bản về quan hệ đồng tham chiếu, bài toán đồng tham chiếu trong văn bản và những ứng dụng của nó Đây là cơ sở lý thuyết quan trọng cho việc xác định những mục tiêu cũng như phạm vi giải quyết của mô hình đề xuất ở chương thứ tư của khóa luận

1.1 Quan hệ đồng tham chiếu

1.1.1 Khái niệm

Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định nghĩa về quan hệ đồng tham chiếu đã được đưa ra Theo Véronique Hoste [9] định nghĩa về quan hệ đồng tham chiếu như sau:

“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ

Ví dụ: Hồ Chí Minh là danh nhân văn hóa thế giới Ông là người đầu tiên truyền bá

chủ nghĩa Mác – Lênin vào Việt Nam

Trong ví dụ trên, Đại từ “Ông” và danh từ tên riêng “Hồ Chí Minh” có quan

hệ đồng tham chiếu vì cùng chỉ về một thực thể người có tên là “Hồ Chí Minh”

Trong các bài toán liên quan tới xử lý ngôn ngữ tự nhiên trong văn bản thì việc xác định quan hệ đồng tham chiếu là một vấn đề quan trọng Quan hệ đồng tham chiếu thể hiện tính liên kết giữa hai cụm từ trong văn bản nói riêng và giữa các câu chứa các cụm từ đó nói chung Nếu xác định được sự liên kết này sẽ làm tăng chất lượng trích xuất thông tin tri thức từ tập văn bản Vì vậy, chúng ta cần nhận biết các quan hệ đồng tham chiếu và tìm hiểu các phương pháp để xác định được các quan hệ đó

Một quan hệ đồng tham chiếu theo Hoste [9] thường là quan hệ giữa các cặp cụm từ cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ Trong đó các danh từ riêng đóng vai trò quan trọng trong mối quan hệ đồng tham chiếu Nó là nền tảng để xác định các cụm đồng tham chiếu trong văn bản

Gồm các tên và thực thể tên như: Tên người, tên tổ chức, tên địa danh …

Ví dụ:

Trang 13

• Tên riêng: Hồ Chí Minh, Trường Chinh, Võ Nguyên Giáp …

• Tên tổ chức: FAO, WTO, WHO …

• Tên địa danh: Hà Nội, Hải Phòng, Nam Định, Vĩnh Linh …

Ví dụ: Tôi thích chơi ghita

• Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay

mệnh đề: anh ấy (him), cô ấy (her) …

Ví dụ: Hằng yêu anh ấy

• Đại từ tương hỗ: chỉ mối quan hệ tương hỗ: nhau, cả hai …

Ví dụ: Họ cùng giúp đỡ nhau

• Đại từ phản thân được sử dụng khi một người/vật tác động lên chính

nó: mình

Ví dụ: Anh ta tự bắn chính mình

Bao gồm các danh từ chung khác Thường các danh từ chỉ nghề nghiệp, chức vụ được xét đến nhiều trong trường hợp này: bác sĩ, giám đốc, …

Ví dụ: Bình là một bác sĩ

Qua quá trình khảo sát và nghiên cứu, Hoste [9] và McCathy [11] đã tổng kết một số loại quan hệ đồng tham chiếu như sau:

- Quan hệ đồng nhất (Identity relations)

Ví dụ: Lê Công Vinh là tiền đạo xuất sắc nhất của đội tuyển bóng đá Việt Nam Anh hiện đang đầu quân cho câu lạc bộ T&T Hà Nội

- Quan hệ cùng chủng loại (Type/token relations)

Ví dụ: Inova và Camry là hai dòng xe nổi tiếng của Toyota

- Quan hệ bộ phận (Part-whole/ element-set relations)

Trang 14

Ví dụ: “Lan và Nam là vợ chồng Họ đã từng là bạn học của nhau từ đại

học”

Các tính chất của quan hệ đồng tham chiếu giữa các cụm từ NPi [9]:

- Tính chất đối xứng: NP1, NP2 là đồng tham chiếu thì NP2, NP1 cũng là

1.2 Bài toán đồng tham chiếu trong văn bản

Trong các văn bản, các cụm từ có quan hệ đồng tham chiếu nằm rải rác trong các câu, tạo nên sự liên kết về ngữ nghĩa của các câu trong văn bản đó Xác định sự liên kết này phụ thuộc vào việc xác định các cụm từ có quan hệ đồng tham chiếu Morton [13] , Dzunic[5] và Denis [6] đã phát biểu bài toán đồng tham chiếu trong văn bản như sau:

“Là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu

có quan hệ đồng tham chiếu và gom nhóm các cụm từ này thành các chuỗi đồng tham

Cụ thể là:

Ví dụ: Cho một đoạn văn bản với các cụm từ thuộc các thành phần phổ biến mục 1.2

được in đậm sau:

“Đến tuổi đi học, ông ngoại là đôi chân thứ hai cùng em đến lớp Bất kể trời

mưa hay nắng, năm này sang năm khác ông Khôi đều cõng Trung trên đôi vai gầy guộc của mình để đưa cháu đến trường Hình ảnh một ông già ngoài 70 tuổi ngày ngày chở đứa cháu khuyết tật tới trường bằng chiếc xe máy cũ kĩ luôn hiện hữu trong

Khi đó, kết quả các cụm đồng tham chiếu như sau:

Cụm 1: ông ngoại, ông Khôi, ông già ngoài 70 tuổi, mình, đôi chân thứ

hai

Trang 15

Cụm 2: em, Trung, cháu, đứa cháu khuyết tật

khác như: Trích xuất thông tin (Information extraction), hỏi đáp tự động (Question

động sinh các biểu diễn tương đương của đoạn văn bản của tác giả Lê Thanh Hương [3] Trong các bài toán này, chức năng của việc xác định các quan hệ đồng tham chiếu

là nhận dạng, thu thập và gom các cụm từ đồng tham chiếu nhằm trích xuất thêm các quan hệ ngữ nghĩa, hỗ trợ máy tính phát hiện đầy đủ hơn các tri thức có trong văn bản

McCarthy, 1996 [11] đã nhúng một hệ thống phát hiện quan hệ đồng tham chiếu vào hệ thống giải quyết bài toán trích xuất thông tin của mình Mục đích của bài toán trích xuất thông tin là nhận dạng những thành phần thông tin cụ thể của một văn bản, những thành phần này là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản [22]

Trang 16

Vì vậy, việc xác định các quan hệ đồng tham chiếu giúp nhận dạng các thành phần này bằng cách xác định sự liên quan về ngữ nghĩa của các cặp cụm từ trong văn bản

Trong mô hình giải quyết bài toán hỏi đáp tự động của mình năm 1999, Morton

[14] coi mỗi câu hỏi truy vấn định nghĩa một quan hệ giữa các sự kiện và các thực thể

Và mỗi câu trả lời cũng bao gồm các sự kiện và các thực thể ấy Hướng tiếp cận của Morton là tìm ra các mối quan hệ đồng tham chiếu giữa các thực thể và các sự kiện trong câu hỏi truy vấn với các thực thể và các sự kiện liên quan trong tài liệu Dựa trên những quan hệ đó, các câu trả về được xếp hạng Sau đó, hệ thống đưa ra các câu có hạng cao nhất cho người dùng

Phương pháp tiếp cận giải quyết bài toán tóm tắt văn bản của Steinberger và đồng nghiệp, 2007 [18] đã sử dụng việc phát hiện quan hệ đồng tham chiếu nhằm xác định các cụm từ cùng nói về một thực thể Từ đó thu thập toàn bộ thông tin về thực thể

đó bao gồm thông tin biểu diễn các đồng vị ngữ và các cấu trúc vị ngữ khác phục vụ cho bài toán tóm tắt văn bản

Tác giả Lê Thanh Hương, 2007 [3] đã sử dụng cơ chế thay đổi các từ đồng tham chiếu trong việc xử lý bài toán tự động sinh biểu diễn tương đương của đoạn văn bản Mục đích là giải quyết vấn đề thiếu mạch lạc, phi ngữ pháp khi đổi vị trí các mệnh đề của đoạn để sinh ra đoạn văn bản mới Bởi vì cách sinh biểu diễn tương đương này gây ra việc đại từ đi trước danh từ mà nó thay thế

Thứ nhất, đó là sự nhập nhằng ngữ nghĩa Trong ví dụ “Thọ là cánh tay phải

Nhưng để máy nhận ra rằng cụm từ “cánh tay phải” chỉ về một thực thể người (Thọ)

và không phải chỉ về thực thể người (Năm) vẫn là một vấn đề khó với xử lý ngôn ngữ

tự nhiên nói chung và bài toán đồng tham chiếu nói riêng

Thứ hai, đó là sự nhập nhằng thực thể xảy ra khi trong đoạn văn bản có quá

nhiều thực thể Trong ví dụ: “Đạt là thầy giáo trực tiếp hướng dẫn của Bình và An Họ

Trang 17

đều là những gương mặt tiêu biểu của khoa Công nghệ thông tin ”, từ “Họ” đồng tham chiếu với cả 3 thực thể tên là “Đạt, Bình, An” Tuy nhiên trong thực thế, máy tính chỉ hiểu “Họ” và “Bình, An” mới là đồng tham chiếu của nhau

Cuối cùng, đó là sự phụ thuộc vào bước tiền xử lý: Việc xác định các cặp có quan hệ đồng tham chiếm chỉ được thực hiện sau các bước tiền xử lý như: Tách câu, tách từ, gán nhãn, phân đoạn, nhận dạng thực thể … Độ chính xác của nó phụ thuộc nhiều vào độ chính xác của các bước kia Bước tiền xử lý càng tốt thì kết quả của bài toán đồng tham chiếu càng cao

Tóm tắt chương một

Trong chương này, khóa luận đã giới thiệu khái quát các khái niệm liên quan tới quan hệ đồng tham chiếu, bài toán đồng tham chiếu trong văn bản và một số ứng dụng của nó Trong chương tiếp theo, khóa luận sẽ giới thiệu một số phương pháp mô hình hóa bài toán đồng tham chiếu trong văn bản và hướng tiếp cận giải quyết tương ứng

Trang 18

Chương 2: Một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản

Có nhiều phương pháp giải quyết bài toán đồng tham chiếu trong văn bản Trong chương này, khóa luận giới thiệu một số hướng tiếp cận giải quyết bài toán đồng tham chiếu trong văn bản bao gồm hai phương pháp học máy không giám sát và hai phương pháp học máy có giám sát Đây là những phương pháp tiếp cận phổ biến cho kết quả tương đối khả quan tại thời điểm đề xuất

2.1 Phương pháp học không giám sát

Một phương pháp tiếp cận truyền thống với bài toán đồng tham chiếu dựa trên ngôn ngữ học và miền tri thức được Mitkov [12] đề xuất năm 1998 Đây là hướng tiếp cận giải quyết bài toán đồng tham chiếu đại từ trực tiếp trong trường hợp tri thức không đủ nhiều Đầu vào được kiểm tra với một số đặc trưng và điều kiện của tiền

ngữ Các ứng viên được tính điểm (-1, 0, 1, 2) dựa trên các điều kiện đó Tiền ngữ

đồng tham chiếu trả về là ứng viên có số điểm số tổng hợp cao nhất

Những tiền điều kiện, đặc trưng của tiền ngữ được sử dụng trong phương pháp tiếp cận này:

trước giống với các tiền ngữ đồng tham chiếu của đại từ, được gán điểm lần

lượt là 0 và -1

hiện “thông tin đã cho” là các ứng viên tốt hơn cho các tiền ngữ đồng tham

chiếu Chúng được tính điểm là 1 Ngược lại tính là 0

describe, define, show, check, develop, review, report, outline, consider, investigate, explore, assess, analyse, synthesise, study, survey,

đồng tham chiếu cao hơn Và được gán điểm là 1 Ngược lại là 0

nếu lặp lại nhiều hơn hai lần trong cùng văn bản, có điểm là 1 nếu lặp lại 1 lần và có điểm là 0 nếu không lặp lại

Trang 19

Danh từ chính của câu (Section heading preference): Nếu một ngữ danh từ

đứng ở đầu câu thì nó được gán điểm là 1 Ngược lại gán là 0

danh từ phi giới từ được ưu tiên cao hơn (gán điểm là 0) là cụm ngữ danh từ

là bộ phận của một cụm giới từ ( gán điểm là -1)

ứng viên mà là đồng vị của một đại từ, được gán điểm là 2 Ngược lại gán điểm là 0

mẫu : “…(You) V1 NP con (you) V2 it (con (you) V3 it)”, trong đó

“con” thuộc tập {and/or/before/after…}, cụm ngữ danh từ xuất hiện ngay sau V1 giống với ứng viên của tiền ngữ đồng tham chiếu của đại từ “it” ngay sau V2 Chúng được lần lượt gán điểm là 2 và 0

trước là các ứng viên tốt nhất cho tiền ngữ đồng tham chiếu, tiếp theo bởi

các cụm ngữ danh từ ở hai câu phía sau và được gán điểm là 1, 0, -1

từ là một điều kiện ưu tiên, 0 trường hợp còn lại

Dựa trên những điều kiện trên, phương pháp tiếp cận này gồm các bước như sau:

Xử lý:

tìm các cụm ngữ danh từ bên trái của đại từ

lượng với các đại từ trùng lặp Nhóm chúng thành tập ứng viên tiềm năng

Tiền ngữ đồng tham chiếu là ưng viên có điểm cao nhất

Ưu, nhược điểm của hướng tiếp cận:

• Ưu điểm:

o Chi phí thời gian và công sức thấp hơn so với các phương pháp dựa trên ngôn ngữ và miền tri thức truyền thống

Trang 20

o Đạt kết quả khả quan trên miền dữ liệu tiếng Anh và tiếng Balan

• Nhược điểm:

o Chưa xác định được đầy đủ các cặp đồng tham chiếu

o Chi phí tính toán cao

Năm 1999, Claire Cardie và Kiri Wagstaff [4] đã giải quyết bài toán đồng tham chiếu ngữ danh từ bằng phương pháp gom cụm Hướng tiếp cận này bắt đầu với việc giả định rằng mỗi nhóm đồng tham chiếu ngữ danh từ được định nghĩa như là một lớp

Do đó, quá trình xác định đồng tham chiếu đơn giản chỉ là xác định các phân vùng hay gom nhóm các ngữ danh từ Bằng trực giác, tất cả các ngữ danh từ được sử dụng để

mô tả một khái niệm cụ thể nào đó sẽ gán nhãn hoặc có biểu diễn quan hệ với nó theo một hình thức nào đó, nghĩa là “khoảng cách” giữa các khái niệm sẽ nhỏ Các tác giả

đã đưa ra cách mô tả của mỗi ngữ danh từ và một phương pháp ước lượng khoảng cách giữa hai ngữ danh từ, một thuật toán gom nhóm các ngữ danh từ lại với nhau:

Ngữ danh từ với khoảng cách lớn hơn bán kính r không được gom vào trong cùng một

phân nhóm và ngược lại thì xem chúng như là các đồng tham chiếu trong cùng phân nhóm

Trong phương pháp này, mỗi ngữ danh từ được biểu diễn bởi tập 11 đặc trưng như

sau:

như là một đặc trưng

từ đầu tiên trong các từ còn lại của ngữ chính là danh từ chính của ngữ danh

từ

đầu tiên của văn bản được đánh với vị trí là 0

giá trị là None đối với đặc trưng này

tiếng Anh có các từ như a, an) hoặc Indenfinite với trường hợp không xác

định và None là không rõ

Trang 21

Đồng vị ngữ (Appositive): Nếu bao quanh ngữ danh từ bởi dấu phảy, một

mạo từ và đặt ngay trước một ngữ danh từ khác thì nó được coi là đồng vị ngữ

Ví dụ: Ông Nguyễn Tấn Dũng, thủ tướng nước Việt Nam …

thì danh từ này được đánh dấu là Plural; ngược lại, nó được xem như là

“mười”, “một số”, … Đứng ở vị trí bắt đầu ngữ danh từ

các từ trong ngữ

lấy thông tin lớp ngữ nghĩa của danh từ chính Danh từ chính sẽ được gắn đặc trưng như TIME, CITY, ANIMAL, HUMAN, hoặc OBJECT Nếu một trong những lớp này gắn với danh từ chính, thì lớp ngữ nghĩa sẽ được trả về

được xác định thông qua sử dụng WordNet và (đối với tên riêng) danh sách các tên thông thường

còn lại các ngữ danh từ khác được đánh nhãn là NANIM

Khoảng cách giữa hai cụm ngữ danh từ NP i và NP j được ký hiệu là dist(NP i , NP j ) xác

định bởi công thức:

݀݅ݏݐ൫ܰܲ௜, ܰܲ௝൯ = ෍ ݓ௙∗ ݅݊ܿ݋݉݌ܽݐܾ݈݅݅݅ݐݕ௙(ܰܲ௜, ܰܲ௝)

௙ ∈ி

Trong đó :

• F tương đương với tập các đặc trưng của NP được mô tả ở trên; tương

ứng f là một hàm để trả về giá trị 0 hoặc 1 nếu đặc trưng f tương ứng

của các NP i và NP j là như nhau; và w f là giá trị biểu diễn độ quan trọng

của đặc trưng f

• Hàm bất tương hợp (incompatibility) và các trọng số tương ứng được

quy ước trong [4] như bảng 1 dưới đây Thông thường, các trọng số được chọn để biểu diễn tri thức ngôn ngữ về đồng tham chiếu Các mẫu với trọng số biểu diễn bộ lọc với các luật không thể xác định Hai ngữ danh

Trang 22

từ không thể là tham chiếu của nhau khi các giá trị của chúng không tương đương nhau đôi với các đặng trưng của mẫu

Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách

nhau trong văn bản

từ ; ngược lại 0

đồng vị ngữ; ngược lại 0

Appositive −∞ 1 ngữ ngay trước; ngược lại 0 nếu NP j là đồng vị ngữ và NP i là tiền

Trang 23

Gender ∞ 1 ngược lại 0 nếu chúng không cùng giới tính;

Bởi vì ngữ danh từ thường tham chiếu đến ngữ danh từ trước đó, chúng ta bắt đầu tại

vị trí kết thúc văn bản và tiến hành xử lý ngược lên Thuật toán gom nhóm được đề xuất như sau:

Xử lý:

ngữ danh từ NP j , xét các cụm ngữ danh từ trước nó NP i

o Dễ dàng mở rộng cho nguồn dữ liệu khác

o Đạt kết quả khả quan so (53,6 %) với các phương pháp tương đương

• Nhược điểm:

o Khó khăn trong việc một ngưỡng r, trọng số đặc trưng phù hợp

o Chưa phát hiện được hết những cặp đồng tham chiếu

Trang 24

2.2 Phương pháp học giám sát

Phương pháp này được Joseph F McCarthy đề xuất năm 1995, sau đó được Zoran Dzunic và đồng nghiệp thực nghiệm lại năm 2006 với một số cải tiến trong

thuật toán đối sánh (Matching) của đặc trưng đối sánh xâu ký tự [5] Tư tưởng chính

của phương pháp này sử dụng thuật toán cây quyết định để phân các cụm từ liên quan tới cụm từ đang xét vào hai lớp: Lớp đồng tham chiếu và lớp không đồng tham chiếu với cụm từ đang xét đó dựa trên các thuộc tính đặc trưng liên quan giữa hai cụm từ

Hình 2: Một ví dụ về cây quyết định

Trong phương pháp này đã định nghĩa một số khái niệm như sau:

• Với mỗi cặp cụm từ (I, J) trong văn bản T, chúng ta nói I bên trái J và viết I < J nếu và chỉ nếu I xuất hiện trước J trong văn bản T J được gọi

là anaphora và I được gọi là tiền ngữ

• Khoảng cách giữa hai xâu kí tự s1 và s2 bằng cực tiểu số kí tự được

chuyển đổi chính xác giữa hai xâu

Và 10 thuộc tính đặc trưng thể hiện mối quan hệ giữa hai cụm từ I, J như sau:

• String_match: Thuộc tính có 2 giá trị là True và False Thuộc tính này thể hiện sự giống nhau giữa 2 cụm từ I, J theo chiến thuật khử các từ dừng (stop

words) và chiến thuật đối sánh xấp xỉ

Ví dụ: Với 2 cụm từ “the man” và “this man” hàm thuộc tính trả về giá trị

Swedish girl

blond

dark

Trang 25

• Alias: Có hai giá trị True và False Thuộc tính kiểm tra xem hai từ có phải là dạng viết tắt của nhau không trong các kiểu viết tắt : từ viết tắt (NATO, FAO .), bí danh của một người (John Smith và Mr Smith), ngày tháng (October

• Appositive: Có hai giá trị là True và False Thuộc tính này kiểm tra xem hai

cụm từ có phải là đồng vị ngữ hay không trong trường hợp hai cụm từ cách nhau bởi dấu phảy, không chứa động từ và ít nhất một cụm từ là tên riêng

Ví dụ : Công Vinh, tiền đạo nổi tiếng, vừa bị chấn thương trong trận gặp Lào

Trong ví dụ trên thì “Công Vinh” và “tiền đạo nổi tiếng” là đồng vị ngữ

• J pronoun: Có hai giá trị là True và False Thuộc tính này kiểm tra xem cụm

từ J có là đại từ ko

• I pronound: Có hai giá trị là True và False Thuộc tính này kiểm tra xem cụm từ I có là đại từ ko

• Distance: Có giá trị là số nguyên Thuộc tính thể hiện khoảng cách giữ 2

cụm từ bằng số câu (sentences) giữa 2 cụm từ này

Ví dụ : Peter muốn sửa xe oto của anh ấy (0) Anh ấy(1) đưa nó vào gara

Long Vũ

• Gender_agreement: Có 3 giá trị là True, False và Unknow Thuộc tính thể hiện sự đồng nhất về giới tính giữa hai cụm từ I, J nếu nó cùng nói về người Trả về True nếu hai cụm từ I, J thể hiện cùng giới tính, False nếu không cùng giới tính Và Unknow nếu không xác định được sự đồng nhất

• Definite_np: True nếu I là một cụm từ xác định ( Ví dụ: Công ty FPT) Ngược lại có giá trị là False

• Number_agreement: True nếu cụm từ được bắt đầu bởi một danh từ chỉ số lượng Ngược lại trả về False

• Demonstrative_np: True nếu I là đại từ chỉ định Ngược lại có giá trị là

False

• Both_proper_names: True nếu cả hai cụm từ đều là tên riêng Ngược lại trả

về False

Dựa trên những khái niệm và thuộc tính đặc trưng đó, thuật toán cây quyết định được

áp dụng vào giải quyết bài toán đồng tham chiếu trong một văn bản:

: Các cụm từ và danh sách các cụm từ đồng tham chiếu tương ứng

Trang 26

Xử lý:

đứng trước J

cụm từ I, J Nếu (I, J) đồng tham chiếu, cụm từ I được thêm vào danh sách L các cụm từ đồng tham chiếu của J Tiếp tục xét các cụm từ I’ khác cho tới khi danh sách F được duyệt hết

Bước 5: Khi P được duyệt hết, trả về tập các cụm từ và danh sách các cụm từ

đồng tham chiếu với nó

Ưu, nhược điểm của hướng tiếp cận:

Đây là một hướng tiếp cận mới được bởi hai tác giả Thomas Finly và Thorsten Joachims đề xuất năm 2005 [7] Năm 2009, Rahman và Ng [17] cải tiến và giới thiệu

ba mô hình giải quyết bài toán đồng tham chiếu trong văn bản sử dụng bộ phân lớp SVM Trong khóa luận này chỉ giới thiệu mô hình theo cặp (mention-pair model)

Tư tưởng chính của hướng tiếp cận này là sử dụng bộ phân lớp để xác định xem

một cụm từ m k có đồng tham chiếu với một tiền ngữ ứng viên m j hay không

Mỗi một thể hiện hoặc ví dụ i(m j , m k ) biểu diễn mối liên hệ giữa m j và m k bao

gồm 39 đặc trưng được đề cập các bảng dưới đây Các đặc trưng này được chia làm 4

phần: Bảng 2 và bảng 3 bao gồm các đặc trưng miêu tả thuộc tính của m j và m k tương ứng; hai bảng 4 và 5 mô tả các đặc trưng của mối quan hệ giữa m và m Bộ phân lớp

Trang 27

tiến hành học kết hợp trên cả các ví dụ âm (negative) và dương (positive) tưng ứng với việc m j và m k có đồng tham chiếu với nhau hay không Cụ thể:

• Đặc trưng mô tả m j - ứng viên tiền ngữ

Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ

• Đặc trưng mô tả m k – cụm từ đang xét

Bảng 3: Đặc trưng mô tả cụm từ đang xét

GENDER_2

MALE , FEMALE, NEUTER hoặc UNKNOW xác định bởi

danh sách các tên đầu thường gặp

SEMCLASS_2

WordNet và bộ nhận dạng thực thể NER

ANIMACY_2

Y nếu m k được xác định là HUMAN hoặc ANIMAL bởi WordNet và bộ nhận dạng thực thể NER (Name entity

Đặc trưng mô tả mối qua hệ giữa m j và m k

Bảng 4: Đặc trưng mô tả mối quan hệ giữa tiền ngữ ứng viên và cụm từ

đang xét

I

ngược lại I

Ngày đăng: 05/11/2016, 13:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn CNm Tú. Giáo trình khai phá dữ liệu Web. Nhà xuất bản giáo dục Việt Nam, 2009 Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu Web
Nhà XB: Nhà xuất bản giáo dục Việt Nam
[3] Lê Thanh Hương: Một cách tiếp cận trong việc tự động sinh các biểu diễn tương đương của đoạn văn bản, Tạp chí Bưu chính viễn thông và Công nghệ thông tin, 10/2007Tiếng Anh Sách, tạp chí
Tiêu đề: Một cách tiếp cận trong việc tự động sinh các biểu diễn tương đương của đoạn văn bản
[4] C. Cardie, K. Wagstaff: Noun Phrase Coreference as Clustering, Empirical Methods in Natural Language Processing Conference (EMNLP 1999) Sách, tạp chí
Tiêu đề: Noun Phrase Coreference as Clustering
[5] Z Dzunic, S Momcilovic, B Todorovic: Coreference Resolution Using Decision Tree, Neural Network Applications in Electrical Engineering, 2006 [6] Pascal Denis, Jason Baldridge: A ranking approach to pronoun resolution.Proceedings of the 20th International Joint Conference on Artifical intelligence (IJCAI 2007) Sách, tạp chí
Tiêu đề: Coreference Resolution Using Decision Tree, "Neural Network Applications in Electrical Engineering, 2006 [6] Pascal Denis, Jason Baldridge: "A ranking approach to pronoun resolution
[7] T. Finley, T. Joachims: Supervised clustering with Support Vector Machines, Proceeding of the 22 nd International Conference on Machine Learning, Germany 2005 Sách, tạp chí
Tiêu đề: Supervised clustering with Support Vector Machines
[8] Iris Hendrickx, Su Nam Kim, Zornitsa Kozareva, Preslav Nakov, Diarmuid O Seaghdha,Sebastian Pado, Marco Pennacchiotti, Lorenza Romano and Stan Szpakowicz: Multi-Way Classification of Semantic Relations Between Pairs of Nominals. SEW, 2009 Sách, tạp chí
Tiêu đề: Multi-Way Classification of Semantic Relations Between Pairs of Nominals
[9] V´ronique Hoste: Manual for the Annotation of Coreferences in Dutch Newspaper Texts, 2005 Sách, tạp chí
Tiêu đề: Manual for the Annotation of Coreferences in Dutch Newspaper Texts
[10] Corina Roxana Girju: Text mining for semantic relations. PhD. Thesis. The University of Texas at Dallas, 2002 Sách, tạp chí
Tiêu đề: Text mining for semantic relations
[12] Ruslan Mitkov: Robust pronoun resolution with limited knowledge. The 17th international conference on Computational linguistics, COLING 1998 Sách, tạp chí
Tiêu đề: Robust pronoun resolution with limited knowl
[13] Thomas S. Morton: Coreference for NLP applications. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000 [14] Thomas S. Mortan: Using coreference for question answering, In Proceedings of the 8th Text Retrieval Conference, 1999 Sách, tạp chí
Tiêu đề: Coreference for NLP applications". Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000 [14] Thomas S. Mortan: "Using coreference for question answering
[15] Vincent Ng. : Machine Learning for Coreference Resolution: From Local Classification to Global Ranking. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL-05), 2005 Sách, tạp chí
Tiêu đề: Machine Learning for Coreference Resolution: From Local Classification to Global Ranking
[16] Vincent Ng: Supervised Noun Phrase Coreference Research: The First Fifteen Years. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL-10), 2010 Sách, tạp chí
Tiêu đề: Supervised Noun Phrase Coreference Research: The First Fifteen Years
[17] Altaf Rahman and Vincent Ng.:Supervised Models for Coreference Resolution. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP-09), 2009 Sách, tạp chí
Tiêu đề: Supervised Models for Coreference Resolution
[18] Josef Steinberger, Massimo Poesio, Mijail A. Kabadjov, Karel Jezek: Two Uses of Anaphora Resolution in Summarization, Information Processing and Management: an International Journal , 2007 Sách, tạp chí
Tiêu đề: Two Uses of Anaphora Resolution in Summarization
[19] José Vicedo, Antonio Ferrández: Importance of pronominal anaphora resolution in question answering systems, ACL, 2000 Sách, tạp chí
Tiêu đề: Importance of pronominal anaphora resolution in question answering systems
[20] Yannick Versley, Simone Paolo Ponzetto, Massimo Poesio : BART: A Modular Toolkit for Coreference Resolution, LREC 2008 Sách, tạp chí
Tiêu đề: BART: A Modular Toolkit for Coreference Resolution
[21] Yang Xiaofeng: A twin-candidate model for learning based coreference resolution, Doctor thesis, NUS, 2005 Sách, tạp chí
Tiêu đề: A twin-candidate model for learning based coreference resolution
[22] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A : Knowledge-Based Information Extraction System for Semi-structured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning, 2002 Sách, tạp chí
Tiêu đề: Knowledge-Based Information Extraction System for Semi-structured Labeled Documents
[11] Joseph F. Mccarthy: A trainable approach to coreference resolution for information extraction, 1996 Khác

HÌNH ẢNH LIÊN QUAN

Bảng các kí hiệu viết tắt - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng c ác kí hiệu viết tắt (Trang 9)
Hình 1: Mô hình chung giải quyết bài toán đồng tham chiếu - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 1 Mô hình chung giải quyết bài toán đồng tham chiếu (Trang 15)
Bảng 1: Hàm bất tương hợp (incompatibility) và các trọng số đặc  trưng tương ứng trong ma trận khoảng cách - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 1 Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách (Trang 22)
Hình 2: Một ví dụ về cây quyết định - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 2 Một ví dụ về cây quyết định (Trang 24)
Bảng 2: Đặc trưng mô tả ứng viên tiền ngữ - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 2 Đặc trưng mô tả ứng viên tiền ngữ (Trang 27)
Hình 3: Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 3 Mô hình thu thập dữ liệu thô cho việc xây dựng bộ dữ liệu học (Trang 36)
Hình 4: Văn bản tải về dạng html - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 4 Văn bản tải về dạng html (Trang 37)
Hình 6: Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 6 Mô hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt (Trang 38)
Bảng 6: Bảng đặc trưng của cụm từ NP1 - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 6 Bảng đặc trưng của cụm từ NP1 (Trang 41)
Bảng 8: Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 8 Bảng đặc trưng mô tả quan hệ giữa NP1 và NP2 (Trang 42)
Bảng 9: Cấu hình phần cứng - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 9 Cấu hình phần cứng (Trang 44)
Bảng 10: Danh sách các phần mềm sử dụng - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 10 Danh sách các phần mềm sử dụng (Trang 44)
Bảng 11: Độ chính xác trung bình của hai mô hình theo LibSVM và thực - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Bảng 11 Độ chính xác trung bình của hai mô hình theo LibSVM và thực (Trang 50)
Hình 10: Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 10 Kết quả độ đo hồi tưởng của hai mô hình thực nghiệm trên 10 văn bản (Trang 51)
Hình 11: Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản - GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT DỰA VÀO PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ SVM
Hình 11 Kết quả độ đo F1 của hai mô hình thực nghiệm trên 10 văn bản (Trang 51)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w