Học mối quan hệ trong trích rút thông tin tiếng việt

DANH MỤC CÁC BẢNG Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt ...31 Bảng 5.1: Kết quả đo theo từng trường thông tin trong trường hợp có sử dụng luật trích rút gần đúng...98 Bản

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGÀNH: CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

LÊ THANH HƯƠNG

HÀ NỘI – 2010

Trang 2

LỜI CAM ĐOAN

Tôi Chử Đăng Định – học viên lớp Cao học CNTT 2008-2010 xin cam kết:

1 Luận văn tốt nghiệp Thạc sĩ này là công trình nghiên cứu của bản thân tôi dưới sự

hướng dẫn của TS Lê Thanh Hương

2 Các kết quả trong luận văn tốt nghiệp là trung thực, không phải sao chép toàn văn của bất kỳ công trình nào khác

Hà Nội, ngày 29 tháng 10 năm 2010

Tác giả LVTN

Chử Đăng Định

Trang 3

Xin chân thành cảm ơn các thành viên trong nhóm xử lý ngôn ngữ tự nhiên của Viện Công nghệ Thông tin và Truyền thông đã đưa ra góp ý, nhận xét về giải pháp cũng như kết quả của đề tài

Mặc dù em đã cố gắng hoàn thành luận văn này trong phạm vi khả năng cho phép nhưng chắc chắn không không thể tránh được những thiếu sót Em kính mong được nhận được sự thông cảm và sự chỉ bảo tận tình của các thầy cô và các bạn

Hà Nội 10/2010 Học viên: Chử Đăng Định Lớp: Cao học CNTT 2008-2010

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 9

PHẦN MỞ ĐẦU 11

CHƯƠNG 1 TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN VÀ CÁC MÔ HÌNH HỌC QUAN HỆ 14

1.1 Tổng quan về trích rút thông tin 15

1.1.1 Trích rút thông tin 15

1.1.2 Trích rút thông tin và thu thập thông tin 16

1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic) 17

1.2.1 Các vấn đề về thiết kế giải thuật tổng thể 18

1.2.2 FOIL 20

1.2.3 GOLEM 23

1.2.4 CHILLIN 26

1.2.5 PROGOL 27

1.3 Các phương pháp học 28

1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên 29

1.4.1 Phân tách từ vựng (Word Segmentation) 30

1.4.2 Gán nhãn từ loại (Part-of-speech tagger) 31

1.4.3 Từ điển từ vựng (Lexicon) 33

Trang 5

1.4.4 Nhận dạng thực thể có tên (Named-Entity Recognition) 35

1.5 Kết chương 36

CHƯƠNG 2 HƯỚNG TIẾP CẬN RAPIER CHO BÀI TOÁN TRÍCH RÚT THÔNG TIN 37

2.1 Biểu diễn luật 38

2.2 Giải thuật học 39

2.2.1 Các lựa chọn thiết kế giải thuật 39

2.2.2 Tổng quan về giải thuật 41

2.2.3 Xây dựng tập luật khởi đầu 42

2.2.4 Cô đọng tập luật 43

2.2.5 Tiêu chuẩn đánh giá luật 48

2.2.6 Tính toán mẫu khái quát hóa của hai mẫu 51

2.2.7 Pha chuyên biệt hóa 61

2.3 Áp dụng phương pháp học tích cực với RAPIER 65

2.3.1 Lấy mẫu có lựa chọn 66

2.3.2 Áp dụng phương pháp lấy mẫu có lựa chọn vào RAPIER 67

Độ không chắc chắn trong RAPIER 68

Trang bị khả năng học tăng cường cho RAPIER 69

CHƯƠNG 3 ĐỀ XUẤT MÔ HÌNH RAPIER CHO TRÍCH RÚT THÔNG TIN TIẾNG VIỆT 72

3.1 Các điều chỉnh khi áp dụng mô hình RAPIER với tiếng Việt 73

3.1.1 Công cụ tách từ tiếng Việt 73

3.1.2 Công cụ gán nhãn từ loại tiếng Việt 74

3.1.3 Cây ngữ nghĩa và từ điển ngữ nghĩa tiếng Việt 74

3.2 Các cải tiến cho mô hình 74

3.2.1 Tích hợp nhận dạng thực thể có tên 74

3.2.2 Sinh luật trích rút gần đúng 77

3.2.3 Tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin 78

Trang 6

CHƯƠNG 4 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 79

4.1 Xác định yêu cầu 80

4.2 Phân tích thiết kế hệ thống 81

4.2.1 Thiết kế tổng thể của hệ thống trích rút thông tin tiếng Việt 81

4.2.2 Chức năng tiền xử lý văn bản 83

4.2.3 Chức năng học luật 86

4.2.4 Chức năng trích rút thông tin 91

4.2.5 Chức năng đánh giá luật 92

CHƯƠNG 5 – CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ 94

5.1 Cài đặt chương trình 95

5.2 Phương pháp thực nghiệm 95

Các độ đo thực nghiệm 95

Các phiên bản thực nghiệm 96

5.3 Ngữ liệu thực nghiệm 97

5.4 Kết quả thực nghiệm 98

5.5 Đánh giá thực nghiệm 101

5.5.1 Về thời gian thực hiện 101

5.5.2 Về công cụ tách từ và gán nhãn từ loại 101

5.5.3 Về từ điển ngữ nghĩa và tác vụ gán nhãn thực thể có tên 102

5.5.4 Về các luật trích rút gần đúng 103

KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 104

TÀI LIỆU THAM KHẢO 106

PHẦN PHỤ LỤC 108

PHỤ LỤC 1 - TẬP CÁC NHÃN TỪ LOẠI TIẾNG VIỆT ĐƯỢC SỬ DỤNG109 PHỤ LỤC 2 - TẬP LUẬT KẾT QUẢ THỰC NGHIỆM 110

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

1 CFG Context Free Grammar

Văn phạm phi ngữ cảnh

2 filler Thông tin điền hay thông tin cần trích rút

3 FOIL First Order Inductive Learning

6 ILP Trình logic quy nạp

Inductive Logic Programming

7 IR Hệ thu thập thông tin

Information Retrieval

8 LGG Phép tổng quát hóa ít khái quát nhất

Least-general generalization

9 literal Ký hiệu mệnh đề

Trang 8

STT Từ viết tắt Giải nghĩa

10 MUC Message Understanding Conferences

11 NER Named-Entity Recognition

Nhận dạng thực thể có tên

12 NLP Natural Language Processing

Xử lý ngôn ngữ tự nhiên

13 POS Part of Speech - Từ loại

14 RAPIER Robust Automated Production of Information Extraction Rules

Tự động linh hoạt sinh luật trích rút thông tin

15 slot-filler Thông tin cần trích rút của trường

16 SVM Support Vector Machine

Mô hình máy vector hỗ trợ

Trang 9

DANH MỤC CÁC BẢNG

Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt 31 Bảng 5.1: Kết quả đo theo từng trường thông tin trong trường hợp có sử dụng luật trích rút gần đúng 98 Bảng 5.2: Kết quả đo tổng thể và thời gian thực hiện trung bình trong trường hợp có

sử dụng luật trích rút gần đúng 99 Bảng 5.3: Kết quả đo theo từng trường thông tin trong trường hợp không sử dụng luật trích rút gần đúng 99 Bảng 5.4: Kết quả đo tổng thể và thời gian thực hiện trung bình trong trường hợp không sử dụng luật trích rút gần đúng 99

Trang 10

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Thu thập thông tin 16

Hình 1.2 Trích rút thông tin 16

Hình 1.3 Mối quan hệ giữa IR, IE và Full Text Understanding[3] 17

Hình 1.4: Giải thuật bao phủ FOIL 21

Hình 1.5: Bước “tìm mệnh đề” trong giải thuật FOIL 22

Hình 1.6: Hai trường hợp cụ thể của mối quan hệ uncle 24

Hình 1.7: Mệnh đề LGG của các mệnh đề trong Hình 1.6 24

Hình 1.8: Kết quả của việc đơn giản hóa các mệnh đề bằng cách loại bỏ các literal dư thừa 25

Hình 1.9: Giải thuật xây dựng mệnh đề của GOLEM 25

Hình 1.10: Giải thuật gộp của CHILLIN 27

Hình 2.1: Ví dụ về các mẫu và các ràng buộc trong 1 luật 39

Hình 2.2: Giải thuật RAPIER 41

Hình 2.3: Giải thuật RAPIER để qui nạp các luật trích rút 47

Hình 2.4: Một ví dụ về việc khái quát hóa hai phần tử mẫu 54

Hình 2.5: Ví dụ về việc khái quát hóa một cặp hai mẫu cùng độ dài 55

Hình 2.6: Hai mẫu khác độ dài Các đường thẳng chỉ các các phần tử khác nhau có thể được nhóm cùng nhau để khái quát hóa 56

Hình 2.7: Sáu cách có thể có các phần tử của các mẫu trong Hình 2.6 có thể được so sánh để khái quát hóa 57

Hình 2.8: Cách nhóm thu được từ việc tìm một so khớp chính xác giữa phần tử 3 của mẫu dài với phần tử 2 của mẫu ngắn trong Hình 2.6 Khi các phần tử giống nhau đã được ghép cặp, phần còn lại chỉ còn lại một cách ghép nhóm 58

Hình 2.9: Khái quát hóa của một mẫu hai phần tử với một mẫu không có phần tử nào 59

Hình 2.10: Khái quát hóa của mẫu hai phần tử với mẫu có một phần tử Vì mẫu B là mẫu dạng danh sách có độ dài 3, các khái quát hóa cũng phải có độ dài 3 59

Hình 2.11: Giải thuật RAPIER để chuyên biệt hóa mẫu pre-filler của luật 63

Hình 2.12: Giải thuật RAPIER để chuyên biệt hóa mẫu post-filler của luật 64

Hình 2.13: Các pha trong giải thuật học RAPIER 65

Hình 3.1: Giải thuật gộp theo nhãn thực thể 76

Hình 4.1 Các chức năng hệ thống trích rút thông tin vnRAPIER 81

Hình 4.2: Sơ đồ hệ thống trích rút thông tin vnRAPIER 82

Trang 11

Hình 4.3: Tiền xử lý văn bản đã gán nhãn thực thể có tên 84

Hình 4.4: File văn bản đầu vào đã được gán nhãn thực thể bằng tay 84

Hình 4.5: File văn bản sau khi gán nhãn từ loại 85

Hình 4.6: Sơ đồ chức năng học luật trích rút 86

Hình 4.7: Ví dụ về khuôn mẫu thông tin trích rút 89

Hình 4.8: Một ví dụ về file chú thích cho văn bản huấn luyện 89

Hình 4.9: Mỗi ví dụ huấn luyện gồm văn bản và phần chú thích 89

Hình 4.10: Sơ đồ chức năng trích rút thông tin 91

Hình 4.11: Sơ đồ chức năng đánh giá luật 93

Hình 5.1: Độ đo F thu được theo số lượng ví dụ huấn luyện 100

Trang 12

của trích rút thông tin (Information Extraction - IE)

Các nghiên cứu gần đây về ngôn ngữ học tính toán cho thấy rằng các phương pháp dựa trên thực nghiệm hoặc dựa trên ngữ liệu là cách tiếp cận hứa hẹn nhất để phát triển các hệ thống xử lý ngôn ngữ tự nhiên (NLP) mạnh mẽ, hiệu quả Các phương pháp đó thu được một cách tự động hoá nhiều tri thức phức tạp cần thiết cho NLP bằng cách huấn luyện kho ngữ liệu ngôn ngữ tự nhiên phù hợp đã được chú thích

(annotate)

Hầu hết các phương pháp NLP dựa trên thực nghiệm đó sử dụng các kỹ thuật thống

kê như mô hình n-gram, mô hình Markov ẩn (HMMs), và văn phạm phi ngữ cảnh kết hợp xác suất (PCFGs) Cũng đã có các nghiên cứu quan trọng áp dụng các phương mạng nơ-ron để xử lý ngôn ngữ (Reilly & Sharkey, 1992; Miikkulainen,

1993) Ngoài ra, đã có nghiên cứu sử dụng học dựa trên ký hiệu (symbolic learning)

như sử dụng cây quyết định (Magerman 1995; Aone & Bennett, 1995), luật chuyển đổi (Brill, 1993, 1995), và các phương pháp dựa trên ký hiệu khác (Wermter, Rilo,

& Scheler, 1996)

Trước các thành công của các phương pháp xử lý ngôn ngữ tự nhiên mang tính thực nghiệm, các nhà nghiên cứu đã bắt đầu áp dụng các phương pháp học để xây dựng

các hệ thống trích rút thông tin (McCarthy & Lehnert, 1995; Soderland, Fisher,

Aseltine & Lehnert, 1995, 1996; Rilo, 1993, 1996; Kim & Moldovan, 1995;

Trang 13

Huffman, 1996) Một trong số đó là nghiên cứu của tác giả Mary Elaine Califf (Đại

học Texas), có tên RAPIER (Robust Automated Production of Information

Extraction Rules)[2] RAPIER học các luật đối với tác vụ trích rút thông tin, các

luật đó tạo ra các mục thông tin mong muốn một cách trực tiếp từ các tài liệu mà không có phân tích cú pháp trước hay bất cứ khâu hậu xử lý nào Thay vì học phân loại, RAPIER thực hiện học theo dạng biểu diễn ký hiệu có cấu trúc (có biểu thị mối quan hệ)

Xuất phát từ ngữ liệu các tài liệu đi đôi với các khuôn mẫu thông tin điền sẵn (filled

templale), RAPIER học các mẫu dạng Eliza (Weizenbaum, 1966) tạo ra các thông

tin ràng buộc về cú pháp và ngữ nghĩa, bằng cách sử dụng các nguồn tri thức linh

hoạt, sẵn có và miễn phí như bộ gán nhãn từ loại (POS tagger) hay bộ từ vựng Các

luật được xây dựng từ các mẫu đó có thể xem xét một ngữ cảnh không giới hạn, trao cho chúng một lợi thế so với các cách biểu diễn có giới hạn mà chỉ xem xét một số lượng từ cố định Cách biểu diễn tương đối phong phú này đòi hỏi một giải thuật học có khả năng giải quyết những phức tạp rắc rối của nó Do đó, RAPIER sử dụng một giải thuật học mối quan hệ mà kết hợp các kỹ thuật từ một số hệ thống ILP

(Inductive Logic Programming) Các kỹ thuật đó là phù hợp vì chúng được phát

triển để làm việc với cách biểu diễn phong phú, có biểu thị quan hệ (các mệnh đề logic bậc 1) RAPIER sử dụng chủ yếu dạng tìm kiếm từ cụ thể đến khái quát hay

dưới-lên (bottom-up)

Trên thế giới đã có nhiều nghiên cứu về bài toán IE và đã có thành tựu đáng kể Tuy nhiên, các nghiên cứu về tiếng Việt thì còn khá mới mẻ và còn hạn chế Vì vậy,

người viết luận văn xin thực hiện đề tài “Học mối quan hệ trong trích rút thông

tin tiếng Việt” Mục đích của đề tài là tìm hiểu về các kỹ thuật học, cụ thể là học

mối quan hệ, áp dụng mô hình học RAPIER vào tiếng Việt và đưa ra một số đóng góp cải tiến cho mô hình này

Hướng tiếp cận của người viết luận văn là sử dụng các thành quả đã đạt được về xử

lý văn bản tiếng Việt như bài toán phân tách từ, bài toán gán nhãn từ loại, đồng thời

Trang 14

sử dụng các tài nguyên sẵn có về tiếng Việt để tự xây dựng từ điển ngữ nghĩa tiếng Việt (ở mức sơ khai) Từ đó có đủ các điều kiện cần thiết để áp dụng mô hình học RAPIER Dựa trên giải thuật đưa ra trong mô hình RAPIER, người viết cũng xây dựng chương trình thực nghiệm với lĩnh vực thực nghiệm là trích rút thông tin từ các trang web cá nhân của các nhà khoa học người Việt trong và ngoài nước

Ngoài việc kế thừa các giải thuật mà mô hình đã có, người viết đã có các cải tiến, đóng góp mới của mình, đó là:

+ tích hợp tác vụ nhận dạng thực thể có tên (Named-Entity Recognition - NER) vào

khâu tiền xử lý văn bản;

+ bổ sung chức năng sinh luật trích rút gần đúng với các mục thông tin trích rút có cấu trúc đặc biệt;

+ bổ sung khả năng tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin cần trích rút

Nội dung của luận văn gồm có 5 chương trong đó:

Chương 1 Trình bày về các cơ sở lý thuyết của lĩnh vực trích rút thông tin, các mô

hình học quan hệ và các công cụ và nguồn lực xử lý ngôn ngữ tự nhiên mà mô hình

đề cập có thể sử dụng

Chương 2 Hướng tiếp cận RAPIER cho bài toán trích rút thông tin Phần này trình

bày cách biểu diễn luật, tiêu chuẩn đánh giá luật, giải thuật học và áp dụng phương pháp học chủ động vào mô hình

Chương 3 Trình bày đề xuất mô hình RAPIER cho trích rút thông tin tiếng Việt

(vnRAPIER), trong đó đề cập tới các điều chỉnh khi áp dụng mô hình RAPIER vào tiếng Việt đồng thời đưa ra các đóng góp cải tiến đối với mô hình

Chương 4 Trình bày về phân tích và thiết kế tổng thể hệ thống trích rút thông tin

tiếng Việt thực nghiệm dựa trên mô hình đề xuất vnRAPIER

Chương 5 Cài đặt mô hình và kiểm thử kết quả

Trang 15

CHƯƠNG 1 TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN VÀ CÁC MÔ

HÌNH HỌC QUAN HỆ

NỘI DUNG:

1.1 Tổng quan về trích rút thông tin 1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic) 1.3 Các phương pháp học

1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên

1.5 Kết chương

Trang 16

1.1 Tổng quan về trích rút thông tin

1.1.1 Trích rút thông tin

Trích rút thông tin là quá trình lấy ra các mẩu thông tin cần thiết từ các dữ liệu thô hoặc dữ liệu bán cấu trúc (văn bản ngôn ngữ tự nhiên) Thông tin được lấy ra là những thông tin có cấu trúc Thông tin trích rút sau đó có thể được lưu trong cơ sở

dữ liệu mà có thể được truy vấn bằng các ngôn ngữ truy vấn cơ sở dữ liệu hoặc một giao diện cơ sở dữ liệu ngôn ngữ tự nhiên

Tác vụ trích rút thông tin rất hữu ích trong các tình huống nơi một tập hợp các tài liệu văn bản có chứa thông tin có thể được sử dụng dễ dàng hơn bởi con người hay máy tính nếu các thông tin đã có sẵn trong một định dạng cơ sở dữ liệu thống nhất Như vậy, một hệ thống trích rút thông tin được đưa ra tập hợp các tài liệu và một khuôn mẫu các trường thông tin (slot) để được điền thông tin từ tài liệu đó Các hệ thống trích rút thông tin sẽ xác định vị trí và tìm cách xác định cụ thể phần thông tin cần thiết từ mỗi tài liệu

Dữ liệu được trích rút từ văn bản có hai dạng khác nhau: dạng phổ biến là hệ thống xác định và lấy trực tiếp một chuỗi từ văn bản; dạng thứ hai là hệ thống chọn từ một tập các giá trị có thể điền được vào trường thông tin đó Một ví dụ cho dạng thứ hai này là các mục thông tin ngày tháng cần định dạng thống nhất, hoặc đơn giản là các mục cung cấp các giá trị thống nhất cho thông tin thể hiện trong văn bản

Dữ liệu được trích rút có thể được chỉ rõ theo một trong hai cách Hệ thống có thể điền vào một mẫu với các giá trị lấy từ văn bản, hoặc trong trường hợp tất cả các trường thông tin được điền trực tiếp bởi các chuỗi từ văn bản, hệ thống có thể tạo chú thích trực tiếp trên văn bản đó

Trích rút thông tin có thể hữu ích trong nhiều lĩnh vực Các hội thảo Message

Understanding Conferences (MUC) từ những năm 90 về lĩnh vực xử lý ngôn ngữ tự

nhiên đã áp dụng vào các lĩnh vực như chủ nghĩa khủng bố khu vực Mỹ Latinh, liên doanh, vi điện tử Một số khác đã sử dụng trích rút thông tin để theo dõi hồ sơ y tế

Trang 17

bệnh nhân (Soderland et al., 1995) và để theo dõi các vụ hợp nhất công ty (Huffman, 1996) Gần đây hơn, các nhà nghiên cứu đã áp dụng khai thác thông tin cho các thể loại văn bản không chính thức như quảng cáo cho thuê (Soderland,

1998) và các trang web (Freitag, 1998a; Hsu & Dung, 1998; Muslea, Minton, & Knoblock, 1998) Năm 2007, nhóm tác giả Tianhao Wu, Stephen V Zanias,

William M.Pottenger đã xây dựng hệ thống Phần mềm để trích rút thông tin trong

Hệ thống Thông tin Tư pháp hình sự [3]

1.1.2 Trích rút thông tin và thu thập thông tin

Trích rút thông tin là công việc khác với thu thập thông tin (IR) IR là tìm các tài liệu, thường là văn bản, mà có liên quan tới nhu cầu thông tin của người dùng[3] Google, một hệ thống IR trên web nổi tiếng, là một ví dụ điển hình về hệ thống IR Giống như các kết quả tạo ra bởi bộ tìm kiếm web Google, đầu ra của một hệ thống

IR là một tập con các văn bản mà có liên quan tới truy vấn của người dùng Ngược lại, mục tiêu của hệ thống IE không phải là để trích rút bản thân các tài liệu mà là trích rút các đặc trưng định trước từ các tài liệu đó Trong một hệ thống IE, các thuộc tính thông tin được trích rút đó thường được đưa vào cơ sở dữ liệu một cách

tự động Nói một cách ngắn gọn, IR thu thập tài liệu trong khi IE thu thập đặc trưng

Hình 1.1 Thu thập thông tin

Wiliam Doctor Martin Master

Hình 1.2 Trích rút thông tin

Trang 18

Theo [3], mức độ cao hơn IE là Full Text Understanding, tức là đòi hỏi máy tính hiểu được văn bản ngôn ngữ tự nhiên Đây là công việc rất khó vì văn bản ngôn ngữ

tự nhiên thường quá phức tạp để hiểu một cách đầy đủ ngay cả với con người chứ chưa nói tới máy tính Có thể xem Full Text Understanding, IE và IR là ba dạng khác nhau của việc lấy thông tin văn bản, vì chúng đều cần hiểu thông tin văn bản ở mức độ nào đó Mối quan hệ giữa ba dạng này có thể minh họa như trên Hình 1.3

Hình 1.3 Mối quan hệ giữa IR, IE và Full Text Understanding[3]

1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic)

Từ nhiều công trình thực nghiệm về xử lý ngôn ngữ tự nhiên đã sử dụng các kỹ

thuật thống kê (Charniak 1993; Miller, Stallard, Bobrow, & Schwartz, 1996;

Smadja, McKeown, & Hatzivas siloglou-1996; Wermter et al, 1996), phần này thảo

luận về lợi thế tiềm tàng của việc học quan hệ kiểu ký hiệu (Symbolic relational

learrning) Để đánh giá chính xác xác suất từ dữ liệu có giới hạn, hầu hết các kỹ

thuật thống kê đều đưa ra các quyết định dựa trên một bối cảnh rất hạn chế, chẳng

hạn như các bộ đôi (bigram) hay bộ ba (trigram) (các ngữ cảnh 2 hoặc 3 từ) Tuy

nhiên, các quyết định xử lý ngôn ngữ tự nhiên thường xuyên phải dựa trên ngữ cảnh lớn hơn nhiều bao gồm một loạt các dấu hiệu về cú pháp, ngữ nghĩa, và dụng ngôn

(pragmatic) Do đó, các nhà nghiên cứu đã bắt đầu sử dụng các kỹ thuật học mà có thể xử lý những ngữ cảnh lớn hơn, chẳng hạn như cây quyết định (Magerman 1995;

Miller et al., 1996; Aone & Bennett, 1995), phương pháp mẫu điển hình (dựa trên

tình huống) (Cardie 1993; Ng & Lee, 1996), và phương pháp mô hình entropy cực đại (Ratnaparkhi, 1997) Tuy nhiên, những kỹ thuật này vẫn còn đòi hỏi người phát

triển hệ thống xác định một tập hợp hữu hạn, có thể quản lý được các đặc trưng để

sử dụng trong việc ra quyết định Việc phát triển này tập hợp các đặc trưng này có

Information

Retrieval

Information Extraction

Full Text Understanding

Cụ thể hơn

Trang 19

thể đòi hỏi cơ chế biểu diễn có ý nghĩa thống kê (significant) và vẫn có thể loại trừ

thông tin quan trọng theo ngữ cảnh

Ngược lại, các phương pháp học quan hệ (Birnbaum & Collins, 1991) cho phép qui

nạp trên các ví dụ có cấu trúc mà có thể bao gồm các vị từ logic bậc 1 và các cấu trúc dữ liệu không giới hạn như là danh sách và cây Đặc biệt, kỹ thuật lập trình

Inductive Logic Programming (ILP) cho phép học qui nạp các luật dạng logic bậc 1

(các chương trình Prolog)

Hai lợi thế khác của các kỹ thuật dựa trên ILP là tính hiểu được (comprehensibility)

và khả năng sử dụng tri thức cơ sở Tính hiểu được của các luật dạng ký hiệu giúp cho người phát triển dễ hiểu và dễ xác minh được hệ thống kết quả và thậm chí là

chỉnh sửa tri thức đã học được (Cohen, 1996) Đối với kiến thức cơ sở, các hệ thống

ILP được trao cho các định nghĩa Prolog đối với một tập các vị từ mà có thể được

sử dụng trong thân các luật học được Điều này cho phép hệ thống tận dụng các khái niệm đã bao gồm trong các vị từ cơ sở mà có liên quan đối với khái niệm đang được học

Tuy RAPIER không phải là một hệ thống ILP, nhưng nó là một giải thuật học quan

hệ học kiểu biểu diễn luật có cấu trúc và các giải thuật của nó được lấy ý tưởng từ các hệ thống ILP Các ý tưởng dựa trên ILP là phù hợp vì chúng được phát triển để làm việc với cách biểu diễn phong phú, có biểu thị quan hệ Các phần sau đây sẽ thảo luận về các vấn đề thiết kế tổng thể để phát triển ILP và các hệ thống học luật khác, sau đó mô tả một số hệ thống ILP mà ảnh hưởng tới giải thuật học RAPIER, bao gồm ba mô hình mà RAPIER trực tiếp phỏng theo: GOLEM, CHILLIN, và PROGOL.

1.2.1 Các vấn đề về thiết kế giải thuật tổng thể

Một trong số các vấn đề thiết kế trong các hệ thống học luật là cấu trúc tổng thể của

giải thuật Có hai dạng chính là cô đọng lại (compression) và bao phủ (covering)

Hệ thống sử dụng dạng cô đọng bắt đầu bằng cách tạo một tập ban đầu các luật có

Trang 20

mức độ cụ thể cao, thường là một luật cho mỗi ví dụ Ở mỗi bước lặp, một luật khái quát hơn được xây dựng, thay thế các luật nó đã bao gộp, vì thế tập luật được cô đọng lại Ở mỗi bước lặp, tất cả các ví dụ dương đang được xem xét tới phạm vi nào

đó và độ đo để đánh giá các luật mới là thiên về tập luật được cô đọng nhiều hơn Việc học luật kết thúc khi không tìm được các luật mới cô đọng hơn Các hệ thống

sử dụng dạng cô đọng lại bao gồm DUCE, hệ thống học luật mệnh đề sử dụng phân

tích nghịch đảo (Muggleton, 1987), CIGOL, một hệ thống ILP sử dụng phân tích nghịch đảo (Muggleton & Buntine, 1988) và CHILLIN (Zelle & Mooney, 1994)

Các hệ thống sử dụng dạng bao phủ thì bắt đầu với một tập ví dụ dương Sau đó, khi mỗi luật được học, tất cả các ví dụ dương luật mới bao phủ sẽ được loại bỏ khi xem xét để tạo luật tiếp theo Việc học luật kết thúc khi tất cả các ví dụ dương đã được bao phủ Đây có lẽ là cách phổ biển hơn để tổ chức một hệ thống học luật Các ví dụ

về dạng này bao gồm FOIL (Quinlan, 1990), GOLEM (Muggleton & Feng, 1992), PROGOL (Muggleton, 1995), Claudien (De Raedt & Bruynooghe, 1993) và các hệ thống khác dựa trên FOIL như FOCL (Pazzani, Brunk, & Silverstein, 1992), mFOIL (Lavrac & Dzeroski, 1994) và FOIDL (Mooney & Califf, 1995)

Có sự thỏa hiệp giữa hai dạng thiết kế nói trên Sự khác biệt chính là sự thỏa hiệp giữa một phép tìm kiếm hiệu quả hơn hoặc một phép tìm kiếm kỹ lưỡng hơn Các

hệ thống dạng bao phủ có xu hướng có phần hiệu quả hơn, vì chúng không tìm đến

để học các luật đối với các ví dụ mà đã được bao phủ Tuy nhiên, phép tìm kiếm của

hệ thống dạng này ít kỹ lưỡng hơn so với các hệ thống dạng cô đọng lại, vì chúng

có thể không “thích” các luật mà vừa bao phủ các ví dụ còn lại vừa bao gộp các luật đang tồn tại Do đó, các hệ thống dạng bao phủ có thể kết thúc với một tập luật khá

cụ thể trong các trường hợp một phép tìm kiếm kỹ lưỡng hơn có thể đã phát hiện ra một luật khái quát hơn bao phủ cùng một tập ví dụ

Một vấn đề thiết kế cơ bản nữa là quyết định lựa chọn là xu hướng của phép tìm kiếm được sử dụng để xây dựng các luật cá thể Các hệ thống thường làm việc theo hai hướng:

Trang 21

- các hệ thống dưới-lên (từ cụ thể đến khái quát) tạo các luật rất cụ thể sau đó khái quát các luật đó để bao phủ các ví dụ dương thêm vào;

- các hệ thống trên-xuống (từ khái quát đến cụ thể) khởi đầu với các luật rất khái quát, các luật tiêu biểu bao phủ tất cả các ví dụ, âm và dương, sau đó chuyên biệt hóa các luật đó, cố gắng để không bao phủ các ví dụ âm trong khi vẫn tiếp tục bao phủ nhiều ví dụ dương

Trong số các hệ thống trên, DUCE, CIGOL, và GOLEM là các hệ thống dưới-lên thuần túy, trong khi FOIL và các hệ thống dựa trên FOIL là các hệ thuần túy trên-xuống CHILLIN và PROGOL kết hợp cả hai phương pháp dưới-lên và trên-xuống

Rõ ràng, việc lựa chọn xu hướng tìm kiếm cũng dẫn đến các thỏa hiệp Các hệ thống trên-xuống thường tốt hơn về việc tìm các luật khái quát bao phủ số lượng lớn các ví dụ, vì chúng khởi đầu với một luật khái quát nhất và chuyên biệt hóa nó chỉ

đủ để tránh các ví dụ âm Các hệ thống dưới-lên có thể tạo ra các luật quá cụ thể đến nỗi không hoạt động tốt trên dữ liệu không so sánh được bởi vì chúng có thể không thành công khi khái quát hóa các luật khởi đầu một cách đầy đủ Với một không gian tìm kiếm khá nhỏ các hằng và các mối liên hệ cơ sở thì phép tìm kiếm trên-xuống có thể hiệu quả hơn Tuy nhiên, khi hệ số rẽ nhánh cho phép tìm kiếm trên-xuống rất cao (như là khi có nhiều cách để chuyên biệt hóa một luật), thì tìm kiếm kiểu dưới-lên thường sẽ hiệu quả hơn Các hệ thống sử dụng kết hợp cả hai kỹ thuật tìm kiếm dưới-lên và trên-xuống sẽ cố gắng khai thác lợi thế của từng kỹ thuật Các phần tiếp theo sẽ giới thiệu tóm tắt về mô hình FOIL và ba mô hình mà ảnh hưởng trực tiếp nhất tới giải thuật của RAPIER

1.2.2 FOIL

FOIL là một ví dụ nguyên mẫu của một giải thuật ILP trên-xuống mà sử dụng giải thuật dạng bao phủ Nó học một định nghĩa dạng hàm tự do mệnh đề chuẩn HORN bậc 1 của vị từ đích dưới dạng chính nó và các vị từ cơ sở khác Đầu vào gồm có các định nghĩa mở rộng những vị từ này thành các bộ hằng số của các kiểu cụ thể

Trang 22

Chẳng hạn, một đầu vào tương thích để học một định nghĩa về danh sách thành viên như sau:

member(Elt, Lst): { <a, [a]>, <a, [a, b]>, <b, [a, b]>, <a, [a, b, c]>, }

components(Lst, Elt, Lst): { <[a], a, []>, <[a, b], a, [b]>, <[a, b, c], a, [b, c]> }

trong đó Elt là một kiểu biểu thị các phần tử có thể tồn tại bao gồm a, b, c và d;

Lst là một kiểu được định nghĩa là bao gồm các danh sách có chứa ba trong số các

phần tử đó;

components(A,B,C) là một vị từ cơ sở mà là đúng nếu A là một danh sách mà phần

tử đầu tiên của nó là B và phần còn lại của nó là danh sách C

FOIL cũng đòi hỏi các ví dụ âm của khái niệm đích mà có thể được cung cấp trực

tiếp hoặc được tính toán sử dụng một giả thiết đóng (closed-world assumption)

Chẳng hạn, giả thiết đóng sẽ tạo ra toàn bộ các cặp dạng <Alt, Lst> mà không được qui định một cách rõ ràng như các ví dụ dương (ví dụ <b, [a]>) Với đầu vào này, FOIL học chương trình một mệnh đề duy nhất vào mỗi thời điểm sử dụng giải thuật tham lam dạng bao phủ (như mô tả trong Hình 1.4)

Hình 1.4: Giải thuật bao phủ FOIL

Chẳng hạn, một mệnh đề có thể được học cho định nghĩa member trong một bước

While Remaining không rỗng

Tìm một mệnh đề, C, mà bao phủ một số ví dụ trong Remaining,

nhưng không bao phủ các ví dụ âm

Loại bỏ các ví dụ được bao phủ bởi C khỏi Remaining

Thêm C vào Definition

Trang 23

vì nó bao phủ tất cả các ví dụ dương có phần tử này là phần tử đầu tiên trong danh sách mà không bao phủ bất cứ ví dụ âm nào Một mệnh đề có thể được học để bao phủ ví dụ còn lại là:

member(A,B) :- components(B,C,D), member(A,D)

Hai mệnh đề kết hợp cùng nhau tạo thành một chương trình đúng đắn cho định

nghĩa member

Bước “tìm mệnh đề” được thực hiện bởi một phép tìm kiếm kiểu leo đồi từ khái quát tới cụ thể mà bổ sung mỗi lần một “tổ tiên” vào mệnh đề đang phát triển Tại

mỗi bước, nó đánh giá các ký hiệu mệnh đề (literal) khả dĩ mà có thể được bổ sung

và lựa chọn một literal mà cực đại hóa hàm trọng số lợi ích thông tin

(information-gain) Giải thuật duy trì một tập các bộ dữ liệu mà thỏa mãn mệnh đề hiện thời và

bao gồm các ràng buộc cho bất cứ biến mới nào được đưa vào bên trong thân giải thuật Hình 1.5 mô tả thủ tục này

Hình 1.5: Bước “tìm mệnh đề” trong giải thuật FOIL

Các literal được đánh giá dựa trên số lượng bộ dữ liệu dương và âm được bao phủ,

ưu tiên các literal bao phủ nhiều dương hơn âm Đặt T+ biểu thị số lượng bộ dữ liệu dương trong tập T; thì độ đo thông tin của mệnh đề được định nghĩa là:

Khởi tạo C to R(V 1 ; V 2 ; :::; V k ) :- Trong đó R là vị từ mục tiêu với bậc là k

Khởi tạo T để chứa các bộ dữ liệu dương trong positives-to-cover và tất cả

các bộ dữ liệu âm

While T chứa các bộ dữ liệu âm

Tìm literal tốt nhất L để bổ sung vào mệnh đề

Tạo tập vị từ mới T’ chứa thay cho mỗi bộ dữ liệu t trong T mà thỏa L,

tất cả các bộ dữ liệu có dạng t.b (t và b được nối vào nhau) trong

đó b là một tập vị từ sinh đối với các biến mới đưa vào bởi L để cho literal này được thỏa

Thay thế T bằng T’

Trang 24

I(T) = -log2(T+ / |T|)

Literal được chọn là literal đạt cực đại hóa đại lượng sau:

gain(L) = s (I(T) - I(T’))

trong đó s là số lượng bộ dữ liệu dương được L bao phủ

Phép tìm kiếm một literal tốt để thêm vào mệnh đề có thể gây bùng nổ không gian bài toán khi số lượng vị từ cơ sở lớn, bậc của các vị từ lớn hoặc có số lượng rất lớn các hằng số lý thuyết (các hằng số có thể xuất hiện trong các mệnh đề)

1.2.3 GOLEM

Golem (Muggleton & Feng, 1992) cũng sử dụng một giải thuật tham lam dạng bao

phủ rất giống với của FOIL Tuy nhiên, việc xây dựng các mệnh đề cá thể là dạng

dưới-lên, dựa trên xây dựng các phép tổng quát hóa ít khái quát nhất (LGGs -

least-general least-generalization) của nhiều mệnh đề cụ thể (Plotkin, 1970) Một mệnh đề G

bao gộp mệnh đề C nếu có một sự thay thế các biến trong G để làm cho các literal trong G thành một tập con của các literal trong C Nói một cách nôm na, chúng ta

có thể đưa C trở về G bằng cách ngắt bỏ một số điều kiện và thay đổi một số hằng

số thành các biến Nếu G bao gộp C, bất cứ thứ gì có thể được chứng minh từ C cũng có thể được chứng minh từ G, vì G áp đặt ít điều kiện hơn Do đó G được gọi

là khái quát hơn C

LGG của các mệnh đề C1 và C2 được định nghĩa là mệnh đề ít khái quát nhất mà bao gộp cả C1 và C2 Một mệnh đề LGG được tính toán một cách dễ dàng bằng cách “so khớp” các literal tương thích (để tạo thành cặp) của các mệnh đề; bất cứ chỗ nào các literal có cấu trúc khác nhau, LGG sẽ chứa một biến Khi nào các cặp giống hệt nhau của các cấu trúc khác nhau xuất hiện, biến đó được sử dụng cho cặp

ở tất cả các vị trí

Trang 25

Hình 1.6: Hai trường hợp cụ thể của mối quan hệ uncle

Ví dụ, hãy xem xét các mệnh đề trong Hình 1.6 Hai mệnh đề cụ thể đó mô tả khái

niệm uncle trong ngữ cảnh về các mối quan hệ gia đình nào đó đã biết Mệnh đề

LGG phức tạp hơn của các mệnh đề đó được trình bày trong Hình 1.7

Hình 1.7: Mệnh đề LGG của các mệnh đề trong Hình 1.6

Ở đây, A thay thế cho cặp (john, bill), B thay cho cặp (deb, jay), C thay cho cặp (ron, bruce)… Chú ý rằng kết quả chứa bốn literal parent (hai trong số đó giống hệt nhau) tương ứng với bốn cách so khớp các cặp literal parent từ các mệnh đề ban đầu Tương tự, có bốn literal đối với male Trong trường hợp xấu nhất, kết quả của

một phép tính LGG có thể chứa n2 literal cho hai mệnh đề đầu vào có độ dài n

Trong ví dụ trên LGG không chứa literal female vì mệnh đề thứ hai không chứa

literal tương thích Đơn giản hóa một cách dễ dàng kết quả này bằng cách loại bỏ các literal dư thừa sẽ được mệnh đề như trong Hình 1.8

uncle(A,B):-

sibling(A,C), sibling(A,D),

parent(C,B), parent(C,E), parent(C,F), parent(C,E),

male(A), male(G), male(H), male(I)

Trang 26

Hình 1.8: Kết quả của việc đơn giản hóa các mệnh đề bằng cách loại bỏ các literal

dư thừa

Việc xây dựng LGG của hai mệnh đề phần nào mang nghĩa “phi ngữ cảnh” Mệnh

đề khái quát kết quả được xác định hoàn toàn theo dạng của các mệnh đề đầu vào Không có sự xem xét về tri thức cơ sở tiềm tàng Để đưa tri thức cơ sở vào GOLEM

tạo ra các mệnh đề ứng viên bằng cách tính đến các LGG có liên quan (RLGGS -

Relative LGGs) của các ví dụ dương đối với tri thức cơ sở Ý tưởng đó được bắt đầu

với giả thiết rằng bất cứ và tất cả thông tin cơ sở có thể có liên quan để xác định rằng một trường hợp ngoại lệ là một ví dụ dương Vì vậy, mỗi ví dụ dương được

biểu diễn bởi một mệnh đề có dạng: E :- (every ground fact), trong đó (every

ground fact) là kết hợp của tất cả các literal cơ sở đúng mà có thể nhận được từ các

mối quan hệ cơ sở

Hình 1.9: Giải thuật xây dựng mệnh đề của GOLEM

Đặt Pairs = mẫu ngẫu nhiên các cặp ví dụ dương

Đặt RLggs = {C :(e, e’) ∈ Pairs và C = RLGG(e, e’) và C đồng nhất}

Đặt S là tập các cặp (e, e’) với RLgg bao phủ tốt nhất trong RLggs

Do

Đặt Examples là một mẫu ngẫu nhiên các cặp ví dụ dương

Đặt RLggs = {C: e’ ∈ Examples và C = RLGG(S U e’)) và C đồng nhất }

Tìm e’ = which produces greatest cover in RLggs

Trang 27

Hình 1.9 mô tả giải thuật xây dựng mệnh đề của GOLEM dựa trên việc xây dựng

các phép sinh quan hệ ít tổng quát nhất (rlggs) Giải thuật hoạt động bằng cách chọn ngẫu nhiên các cặp ví dụ dương, tính rlggs của mỗi cặp và lựa chọn các mệnh đề cấu thành với độ hội tụ (coverage) các mẫu là lớn nhất Các mệnh đề này được tổng quát hóa hơn bằng cách tính rlggs của mệnh đề dương được lấy ngẫu nhiên Quá

trình kết thúc khi độ hội tụ không được cải thiện tiếp

1.2.4 CHILLIN

Hệ thống CHILLIN kết hợp các kỹ thuật lập trình logic quy nạp (ILP) trên-xuống

và dưới-lên Giải thuật bắt đầu với định nghĩa cụ thể nhất và tổng quát hóa dần nó Việc tổng quát hóa được thực hiện bằng cách lựa chọn các cặp mệnh đề trong định nghĩa và tính LGGs Nếu mệnh đề kết quả chứa cả các mẫu âm, nó được làm chi tiết hơn bằng cách thêm các ký hiệu thuộc lớp trên theo kiểu trên-xuống Việc tìm ký hiệu mới được thực hiện theo kiểu leo đồi, sử dụng ma trận lượng thông tin

(information gain) để đánh giá các ký hiệu này Nó giống như giải thuật tìm kiếm trong FOIL (Quinlan, 1990) Nếu có một mệnh đề đúng không được học với các

quan hệ cơ sở, CHILLIN cố xây dựng các mệnh đề mới để phân biệt các ví dụ âm khỏi các ví dụ dương Tại mỗi bước, một số phép sinh được tạo ra Phép sinh tạo ra nhiều ảnh hưởng nhất được sử dụng, và quá trình tiếp tục CHILLIN sử dụng phép

gộp thực nghiệm (empirical subsumption), có nghĩa là các mệnh đề mới, tổng quát

được thêm vào, tất cả các mệnh đề không cần thiết để chứng minh các mẫu dương được loại bỏ khỏi định nghĩa

Trang 28

Hình 1.10: Giải thuật gộp của CHILLIN

Hình 1.10 trình bày giải thuật gộp của CHILLIN Trong đó, giải thuật build_gen cố

gắng xây dựng một mệnh đề mà gộp thực nghiệm một số mệnh đề của DEF và không bao phủ bất cứ ví dụ âm nào Bước đầu tiên là xây dựng mệnh đề LGG của các mệnh đề đầu vào Nếu LGG không bao phủ bất cứ ví dụ âm nào thì không cần cải thiện thêm nữa Nếu mệnh đề là quá chung chung, nó sẽ được cải thiện tiếp sử dụng cơ chế giống như FOIL, tức là thêm các literal có thể suy luận từ cơ sở hoặc từ các vị từ đã tạo ra trước đó Nếu mệnh đề kết quả vẫn quá chung chung, nó được chuyển cho một thủ tục, thủ tục này sẽ tạo một vị từ mới để phân biệt các ví dụ dương với các ví dụ âm mà vẫn được bao phủ

1.2.5 PROGOL

PROGOL (Muggleton, 1995) kết hợp tìm kiếm trên-xuống và dưới-lên Giống như

FOIL và GOLEM, PROGOL sử dụng giải thuật dạng bao phủ Sử dụng kiểu khai báo cho cả các vị từ cơ sở và các vị từ được học, nó xây dựng một mệnh đề cụ thể hơn cho một ví dụ ngẫu nhiên nào đó Kiểu khai báo xác định cho mỗi tham số của

vị từ cả kiểu tham số và nó có thể là hằng số, giới hạn biến trước khi vị từ được gọi, hoặc giới hạn biến bởi vị từ Cho một mệnh đề cụ thể, PROGOL sử dụng giải thuật

tìm kiếm A* trên tập các mệnh đề gồm có k biến để tìm ra phép tổng quát hóa bền

vững nhất để thêm vào định nghĩa Ưu điểm của PROGOL là các ràng buộc trong

DEF := {E :- true | E ∈ Positives}

Repeat

PAIRS := một mẫu gồm các cặp mệnh đề từ DEF

GENS := {G | G = build_gen(Ci, Cj, DEF, Positives, Negatives)

với (Ci, Cj) ∈ PAIRS}

G := Clause in GENS yielding most compaction

DEF := (DEF – (các mệnh đề đã được gộp bởi G)) U G

Until không thể gộp hơn nữa

Trang 29

giải thuật tìm kiếm khá hiệu quả, đặc biệt cho một số nhiệm vụ mà cách tiếp cận trên-xuống không hiệu quả Giải thuật tìm kiếm đảm bảo tìm thấy phép tổng quát

đơn giản nhất nếu mệnh đề đó tồn tại với không quá k biến Vấn đề với PROGOL là

nó cần cơ chế khai báo Nếu k quá nhỏ, PROGOL có thể không học được các mệnh

đề đúng, k quá lớn thì bùng nổ không gian bài toán

1.3 Các phương pháp học

Phần này giới thiệu phân loại các phương pháp học máy để học các luật trích rút thông tin

- Học có giám sát (Supervised learning): Máy tính được xem một số mẫu gồm đầu

vào (input) và đầu ra (output) tương ứng trước Sau khi học xong các mẫu này, máy tính quan sát một đầu vào mới và cho ra kết quả

Cùng với hệ thống RAPIER, các hệ thống trích rút thông tin khác như CRYSTAL, (LP)2, WHISK đều là các hệ thống học có giám sát Do việc tạo chú thích

(annotate) tốn rất nhiều thời gian, cho nên sẽ không khả thi nếu người dùng phải tạo

chú thích một số lượng lớn văn bản Tuy nhiên, dữ liệu không được chú thích khá

lớn Vì vậy các nhà nghiên cứu IE đã nghiên cứu các kỹ thuật học chủ động (Active

Learning) để tự động nhận biết các văn bản để người dùng tạo chú thích

- Học chủ động (Active learning):

Học chủ động nghiên cứu các phương pháp học để tham gia một cách tích cực vào việc tập tập hợp các ví dụ huấn luyện thay vì tin cậy vào “người dạy” hoặc lấy mẫu một cách ngẫu nhiên

Mục tiêu chính của học chủ động là giảm số lượng các ví dụ huấn luyện có giám sát cần thiết để đạt được một mức độ hiệu năng đề ra Các hệ thống học chủ động có thể xây dựng các ví dụ của riêng chúng, đòi hỏi các kiểu ví dụ nào đó, hoặc xác định những ví dụ nào trong tập các ví dụ không được chú thích là hữu ích nhất nếu đánh dấu

Trang 30

Học chủ động hay lấy mẫu có lựa chọn sẽ được đề cập trong luận văn này Trong trường hợp này, việc học bắt đầu với một nhóm nhỏ các ví dụ đã chú thích và một nhóm lớn các ví dụ chưa được chú thích, và bộ học cố gắng để chọn các ví dụ thêm vào cung cấp nhiều thông tin nhất cho việc chú thích Các kết quả trên một số tác vụ học ngôn ngữ tự nhiên đã chỉ ra rằng dạng lấy mẫu có lựa chọn có hiệu quả trong việc giảm nhu cầu về các ví dụ cần tạo chú thích Có hai cách tiếp cận cơ bản để

thực hiện nhiệm vụ này: các phương pháp dựa trên độ chắc chắn (certainty-based)

và các phương pháp dựa trên hội đồng (committee-based)[4]

Trong mô hình dựa trên độ chắc chắn, một hệ thống được huấn luyện trên một số

lượng nhỏ các ví dụ đã tạo chú thích (annotated examples) để học bộ phân loại (classifier) ban đầu Tiếp theo, hệ thống kiểm tra các ví dụ không được chú thích (un-annotated examples), và gắn độ chắc chắn cho các ví dụ đó K ví dụ có độ chắc

chắn thấp nhất sẽ được đưa ra cho người dùng để tạo chú thích và cho huấn luyện

Mô hình học RAPIER sẽ khai thác mô hình này (trình bày chi tiết trong phần 2.3) Trong mô hình dựa trên hội đồng, một “hội đồng” đa dạng các bộ phân loại được tạo ra từ một số lượng nhỏ các ví dụ đã tạo chú thích Mỗi “thành viên hội đồng” cố gắng tạo chú thích cho các ví dụ thêm vào Các ví dụ mà kết quả tạo chú thích có nhiều bất đồng nhất giữa các “thành viên hội đồng” được đưa ra cho người dùng để tạo chú thích và cho huấn luyện

- Học không giám sát (Unsupervised learning): Máy tính chỉ được xem các mẫu

không có đầu ra, sau đó máy tính phải tự tìm cách phân loại các mẫu này và các mẫu mới

- Học bán giám sát (Semi-Supervised learning): Một dạng lai giữa hai nhóm có

giám sát và không giám sát nêu trên

1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên

Phần này trình bày các bài toán, các nguồn lực về xử lý ngôn ngữ tự nhiên mà bài toán trích rút thông tin, cụ thể là mô hình RAPIER cần khai thác, sử dụng

Trang 31

1.4.1 Phân tách từ vựng (Word Segmentation)

Phân tách từ là cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị

từ vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (các tên riêng, ký hiệu, chữ viết tắt,…- phát hiện đơn vị từ vựng mới) Công việc này làm tiền đề cho việc mô hình hóa văn bản, là bài toán cơ bản nhất trong các bài toán xử lý ngôn ngữ

tự nhiên

Đối với các ngôn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề này không phức tạp bằng các ngôn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ

Ví dụ: Xét câu tiếng Anh sau :

We learn English

Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :

We| learn| English

Tuy nhiên ta xem câu tiếng Việt tương ứng :

Chúng tôi học tiếng Anh

Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này Kết quả phân tách thuật ngữ đúng phải là như sau:

Chúng tôi| học| tiếng Anh

Chính vì sự khác biệt nói trên mà khi áp dụng mô hình RAPIER vào tiếng Việt, cần

có bước tách từ mới so khớp chính xác được Vấn đề này sẽ được người viết đề cập chi tiết ở Chương 3

Ở Việt Nam, đã có một số kết quả nghiên cứu nhất định về bài toán tách từ tiếng Việt, trong đó có hướng tiếp cận sử dụng giải thuật di truyền[7]; hướng tiếp cận dựa

trên CRFs và SVMs[16]; hướng tiếp cận lai (Hybrid)[12] Bảng 1.1 thể hiện kết quả

Trang 32

so sánh một số công cụ tách từ tiếng Việt[14] Trong đó, bộ tách từ vnTokenizer

được lựa chọn sử dụng trong nghiên cứu này

vnTokenizer 93.68% 94.42% 94.05%

JVnSegmenter (original) 85.22% 81.40% 83.27%

JVnSegmenter (re-trained) 95.03% 93.82% 94.42%

Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt

1.4.2 Gán nhãn từ loại (Part-of-speech tagger)

Bài toán gán nhãn từ loại là thực hiện công việc phân loại các từ thành các lớp từ

loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với một hình thái

và một vai trò ngữ pháp nhất định Các bộ chú thích từ loại có thể thay đổi tuỳ theo

quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng

dụng cụ thể Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và

việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại

hay không

Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ

loại thì nó làm tiền đề cho nhiều bài toán trong xử lý ngôn ngữ tự nhiên như: phân

tích cú pháp, nhận diện danh ngữ, chuyển đổi cú pháp, xem xét ngữ nghĩa và được

ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin thông minh, hệ thống trích

rút thông tin, trong các hệ thống dịch máy…

Gán nhãn từ loại (POS tagger) cung cấp thông tin cơ bản về cú pháp bằng cách ghi

nhãn cho mỗi từ hoặc mỗi ký hiệu trong câu với các các nhãn từ loại (danh từ, động

từ, tính từ, giới từ…) Công việc này không cung cấp nhiều thông tin như bộ phân

tích cú pháp, vì nó không nhận biết các mệnh đề hay các mối liên hệ giữa các phần

của câu Tuy nhiên, bộ gán nhãn có đặc thù là nhanh và linh hoạt hơn các bộ phân

tích cú pháp, đặc biệt là khi đối mặt với các văn bản không đúng ngữ pháp cũng như

Trang 33

thường được thấy trong các bài viết thảo luận nhóm, các thông điệp thư điện tử, và phạm vi ít hơn như trong các bài viết dạng cung cấp tin nhanh trên Internet

Trên thế giới hiện nay đã xuất hiện rất nhiều các mô hình xử lý cho bài toán gán nhãn từ loại và các mô hình này ngày cành được phát triển hoàn thiện qua việc áp dụng các giải thuật tiên tiến vào bài toán gán nhãn từ loại cũng đã làm cho bài toán này có độ chính xác tăng lên đáng kể so với thời gian đầu Các giải thuật được áp dụng vào lĩnh vực này mang lại kết quả khả quan có thể kể đến các giải thuật: mô

hình Entropy cực đại (Maximum Entropy), Transformation-Based Learning (TBL), N-Gram, Mô hình Markov ẩn (Hidden Markov Model - HMM), Mạng Neural…

Trong đó các phương pháp áp dụng mô hình Markov ẩn được sử dụng nhiều nhất

Các phương pháp như Bigram, Trigram hay Văn phạm phi ngữ cảnh (Context Free

Grammar - CFG) đều thuộc loại này Hiện nay một bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt được 98% từ gán nhãn đúng [8]

Bộ gán nhãn được sử dụng trong nghiên cứu RAPIER với tiếng Anh là của tác giả

Eric Brill được huấn luyện trên ngữ liệu Wall Street Journal (Brill, 1994, 1995) Bộ

này sử dụng 36 nhãn khác nhau loại trừ các dấu câu, cho nên phân biệt khá rõ ràng các trường hợp: chẳng hạn, nhận biết được sáu dạng động từ khác nhau cộng với các động từ tình thái; phân biệt các từ hạn định dạng wh-, đại từ, đại từ sở hữu và trạng từ với các từ hạn định, đại từ và trạng từ khác; phân biệt giới từ “to” với các các giới từ khác Bộ gán nhãn này cũng đạt độ chính xác khá cao trên lĩnh vực mà

nó được huấn luyện, đạt 96.6% trên ngữ liệu Penn Treebank Wall Street Journal

(Brill, 1995) Tất nhiên, độ chính xác sẽ thấp hơn khi áp dụng trên lĩnh vực khác,

nhưng nó có lợi thế là có thể huấn luyện thêm được

Riêng đối với các văn bản tiếng Việt, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất và để cho công việc gán nhãn được thực hiện một cách có nền tảng khoa học và khách quan nhất thì trong mô

Trang 34

hình bài toán gán nhãn từ loại cho văn bản tiếng Việt không thể không đề cập tới các đặc trưng của tiếng Việt

Một số bộ gán nhãn từ loại tiếng Việt được công bố gần đây bao gồm Công cụ VnQTag của nhóm Nguyễn Thị Minh Huyền[8]; JVnTagger: Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy[6]; bộ vnTagger của tác giả Lê Hồng Phương[11]

1.4.3 Từ điển từ vựng (Lexicon)

Các bộ từ vựng, đặc biệt là bộ từ vựng với hệ thống phân cấp ngữ nghĩa, có thể cung cấp thông tin lớp ngữ nghĩa Trong mô hình RAPIER bộ từ vựng không phụ

thuộc lĩnh vực được sử dụng là WordNet (Miller, Beckwith, Fellbaum, Gross, &

Miller, 1993; Fellbaum, 1998), một cơ sở dữ liệu từ vựng do Đại học Princeton phát

triển WordNet đã tạo ra một tập hợp từ vựng đồ sộ, theo đó các từ được sắp xếp trong dãy của những tập hợp đồng nghĩa, giúp cho việc xác định nghĩa của từ và để phân biệt được nghĩa đang xét với các nghĩa khác Nguyên lí tổ chức chung của WordNet là mạng lưới quan hệ ngữ nghĩa Đó là quan hệ đồng nghĩa

(synonym): dog – domestic dog; quan hệ trái nghĩa (antonym): rich – poor; quan hệ cấp bậc (hyponym): maple – tree, parent – father; quan hệ bộ phận và toàn thể (meronym): body – limb; quan hệ kéo theo (entailment): snore – sleep (cho động

Ví dụ, trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:

i) Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương ứng là

“lá thư”, “thư tín”

Trang 35

ii) Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic character

với nghĩa tiếng Việt tương ứng “ký tự”, “chữ” hay “chữ cái”

iii) Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,

“nghĩa mặt chữ”

iv) Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương ứng là

“huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể thao đặc biệt ở trường

Các loại quan hệ trong WordNet:

Trong WordNet các từ được sắp xếp vào thành các tập đồng nghĩa Và giữa các tập đồng nghĩa này có thể mang các mối quan hệ ngữ nghĩa với nhau Các quan hệ chính được xây dựng bên trong WordNet bao gồm:

- Quan hệ đồng nghĩa (synonym): Các tập đồng nghĩa được gọi là có quan hệ

đồng nghĩa với nhau khi chúng có thể thay thế cho nhau trong một số ngữ

cảnh nào đó Vì thế WordNet đã được chia thành nhóm danh từ (noun), động

từ (verb), tính từ (adjective), và trạng từ (adverb) Và những mối quan hệ

đồng nghĩa chỉ tồn tại giữa các tập đồng nghĩa ở cùng dạng từ loại Điều này cũng thật dễ hiểu, bởi vì các danh từ sẽ diễn tả những khái niệm thuộc về danh từ, động từ thì diễn tả những khái niệm chỉ hành động, còn tính từ và trạng từ thì giúp ta có thể diễn tả mức độ của những khái niệm trên

- Quan hệ trái nghĩa (antonym): Một từ trái nghĩa của từ x thông thường sẽ là

not-x, nhưng không phải lúc nào cũng đúng như vậy Chẳng hạn, ta có từ rich (giàu) và poor (nghèo) là hai từ trái nghĩa, nhưng ta không thể nói rằng một người không giàu là một người nghèo Quan hệ trái nghĩa là một quan hệ giữa các từ với nhau chứ không phải là quan hệ giữa các nghĩa của từ với nhau

- Quan hệ cấp bậc (hyponym): Ngược với quan hệ đồng nghĩa và trái nghĩa là

các quan hệ giữa các từ với nhau, quan hệ cấp bậc là quan hệ giữa các nghĩa

của từ Có thể hiểu hyponym/hypernym (nghĩa con/nghĩa cha) là một loại

Trang 36

quan hệ theo kiểu IS_A (là một) Một ý niệm tương ứng với synset {x, x, }

được gọi là một hyponym của ý niệm tương ứng với synset {y, y, } khi chúng ta có thể nói x là một (một dạng của) y - an x is (a kind of) y Một

nghĩa con nghĩa con (hyponym) kế thừa tất cả những tính chất của nghĩa cha

đồng thời bổ sung thêm những thuộc tính mới phân biệt với những nghĩa con khác

- Quan hệ bộ phận và toàn thể (meronym): Một loại quan hệ ngữ nghĩa khác được định nghĩa trong WordNet đó là quan hệ bộ phận và toàn thể (part-

whole relation) còn gọi là meronym/holonym Một ý niệm tương ứng với

synset {x, x, } được gọi là một meronym của ý niệm tương ứng với synset

{y, y, } khi chúng ta có thể nói “một y có một x” (a y has an x) hoặc “một

x là một phần của y” (an x is a part of a y)

Có thể nói WordNet là một từ điển ngữ nghĩa hoàn chỉnh nhất hiện nay Hệ thống WordNet biểu diễn đầy đủ các quan hệ ngữ nghĩa, đã được xây dựng rất tốt cho tiếng Anh, là cơ sở để xây dựng WordNet tiếng Việt Tuy nhiên, cho đến nay vẫn chưa có một công trình nghiên cứu nào hoàn thiện được công bố về việc xây dựng WordNet tiếng Việt để có thể đưa vào sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên

Để có một WordNet tiếng Việt để đưa vào mô hình trích rút thông tin trong nghiên cứu này, người viết tự xây dựng một mô hình đơn giản dựa trên cây phân cấp ngữ

nghĩa của Trung tâm từ điển học (Vietlex) và một từ điển tiếng Việt được cung cấp

từ nghiên cứu [10]

1.4.4 Nhận dạng thực thể có tên (Named-Entity Recognition)

Nhận dạng thực thể có tên (Named-Entity Recognition – NER) nhằm mục đích phân

loại các từ trong một văn bản vào các lớp thực thể được định nghĩa trước như con người, tổ chức, địa danh, biểu thức số học, ngày tháng, tiền tệ… Hiện tại, đây được

Trang 37

coi là công việc cơ bản cho nhiều tác vụ xử lý ngôn ngữ tự nhiên như thu thập thông tin, dịch máy, trích rút thông tin và hỏi đáp tự động

Trong lĩnh vực tiếng Việt, gần đây đã có một số công trình nghiên cứu nhằm giải quyết bài toán nhận dạng thực thể có tên Các hướng tiếp cận chính bao gồm sử

dụng mô hình Support Vector Machine[13], mô hình Conditional Random

Fields[15], mô hình Markov ẩn[9], và sử dụng văn phạm JAPE trong GATE[5]

Tuy nhiên, đến nay cũng chưa có một công cụ hoàn thiện nào được công bố

Việc đưa chức năng nhận dạng thực thể có tên vào khâu tiền xử lý trong mô hình RAPIER sẽ làm cho tập luật có mức khái quát cao hơn, bao phủ tốt hơn Do chưa thể sử dụng lại các kết quả nghiên cứu (chưa có công cụ hoàn chỉnh) về bài toán NER và thời gian nghiên cứu có hạn nên việc tích hợp mô đun NER chỉ mang tính giả định để đánh giá thực nghiệm, cụ thể là tác giả sẽ thực hiên công đoạn nhận dạng thực thể có tên bằng tay Điều này sẽ được đề cập chi tiết ở Chương 3

1.5 Kết chương

Trong chương này, tác giả đã trình bày về bài toán trích rút thông tin và các bài toán liên quan, về kỹ thuật học quan hệ dựa trên ký hiệu và về các nguồn lực xử lý ngôn ngữ tự nhiên Trong phần giới thiệu kỹ thuật học quan hệ dựa trên ký hiệu, người viết đã nêu ra các lợi thế của kỹ thuật này, các vấn đề về thiết kế giải thuật tổng thể trong hệ thống học luật, đồng thời giới thiệu một số mô hình học kiểu ILP mà mô hình RAPIER đề cập trong nghiên cứu này đã khai thác Trong phần các nguồn lực

xử lý ngôn ngữ tự nhiên, người viết đề cập tới các bài toán, các công cụ và các nguồn lực về xử lý ngôn ngữ tự nhiên cần có với mô hình RAPIER Qua đó cho thấy việc áp dụng bài toán trích rút thông tin vào lĩnh vực tiếng Việt gặp rất nhiều khó khăn do đặc thù tiếng Việt và do điều kiện cơ sở cho nghiên cứu còn rất hạn chế, đặc biệt là về từ điển ngữ nghĩa

Trong chương sau, tác giả sẽ đi vào một vấn đề nghiên cứu chính được đặt ra trong

đề tài Đó là kỹ thuật học mối quan hệ dựa trên so khớp mẫu – mô hình RAPIER

Trang 38

CHƯƠNG 2 HƯỚNG TIẾP CẬN RAPIER CHO BÀI TOÁN TRÍCH RÚT

THÔNG TIN

NỘI DUNG:

2.1 Biểu diễn luật 2.2 Giải thuật học 2.2.1 Các lựa chọn thiết kế giải thuật 2.2.2 Tổng quan về giải thuật

2.2.3 Xây dựng tập luật khởi đầu 2.2.4 Cô đọng tập luật

2.2.5 Tiêu chuẩn đánh giá luật 2.2.6 Tính toán mẫu khái quát hóa của hai mẫu 2.2.7 Pha chuyên biệt hóa

2.3 Áp dụng phương pháp học tích cực với RAPIER

2.4 Kết chương

Trang 39

RAPIER học các luật trích rút thông tin từ các ví dụ huấn luyện bao gồm các văn bản ghép cặp với các mẫu đã điền kết quả Chương này sẽ trình bày về cách biểu diễn luật và giải thuật học của RAPIER[2]

2.1 Biểu diễn luật

Cách biểu diễn luật của RAPIER sử dụng mẫu (pattern) giống như mẫu Eliza (Weizenbaum, 1966) có thể tạo ra các thông tin ràng buộc về cú pháp và ngữ nghĩa Các luật được đánh chỉ số bởi tên khuôn mẫu (template name) tên trường thông tin (slot name) và bao gồm ba phần: 1) một mẫu pre-filler để so khớp đoạn văn bản ngay trước thông tin trích rút (mẫu filler), 2) một mẫu khớp thông tin cần trích rút của trường và 3) một mẫu post-filler để so khớp với đoạn văn bản ngay sau thông tin trích rút Mỗi mẫu là một chuỗi (có thể độ dài 0 trong trường hợp các mẫu pre-

filler và post-filler) các phần tử mẫu (element) Có hai kiểu phần từ được sử dụng:

dạng mục (pattern items) và dạng danh sách (pattern lists) Một mẫu dạng item so khớp chính xác một từ (word) hay một ký hiệu (symbol) từ văn bản thỏa các ràng buộc của item Một mẫu dạng danh sách định rõ độ dài tối đa N và so khớp 0 đến N

từ hoặc ký hiệu từ văn bản, mỗi từ hoặc ký hiệu đó phải thỏa các ràng buộc của danh sách RAPIER sử dụng ba dạng ràng buộc trên các phần tử mẫu: các ràng buộc

về các từ mà phần tử có thể so khớp, về các nhãn từ loại (POS tag) được gán cho các từ mà phần tử có thể so khớp và ràng buộc về lớp ngữ nghĩa (semantic class)

của các từ mà phần tử có thể so khớp Các ràng buộc này là các danh sách tách rời của một hay nhiều từ, nhãn từ loại hay lớp ngữ nghĩa và các mục của văn bản phải

so khớp một trong số các từ, nhãn, hay lớp đó để đáp ứng ràng buộc

Hình 2.1 trình bày một ví dụ về một luật mà cho thấy các dạng khác nhau của các phần tử mẫu và các ràng buộc Luật này được xây dựng bởi RAPIER để trích rút sản lượng giao dịch của một dịch vụ cung cấp tin liên quan tới một vụ mua lại công

ty Luật này sẽ trích rút giá trị “undisclosed” từ các câu như là “sold to the bank for

an undisclosed ammount” hoặc “paid Honeywell an undisclosed price” Trong luật

Trang 40

này, mẫu pre-filler bao gồm hai phần tử mẫu Phần tử thứ nhất là một mục với ràng buộc về từ loại là danh từ (noun-nn) hoặc danh từ riêng (proper noun-nnp) Phần tử thứ hai là một danh sách độ dài tối đa là 2 và không có ràng buộc nào Mẫu filler là một mục đơn với ràng buộc về từ là từ “undisclosed”, ràng buộc về từ loại là một tính từ (adjective-jj) Mẫu post-filler cũng là một mục đơn với ràng buộc về lớp ngữ nghĩa là “price"

Trong việc sử dụng những mẫu này để trích rút thông tin, RAPIER áp dụng tất cả các luật cho một trường thông tin đã định sẵn cho một văn bản và đưa ra tất cả các

chuỗi trích rút được gọi là thông tin cần trích rút của trường (slot-filler), được loại

trừ trùng lắp Các luật cũng có thể được áp dụng nhiều lần Trong nhiều trường hợp, mỗi trường có thể có nhiều thông tin cần trích rút, nhưng hệ thống chỉ đưa ra một

thông tin điền (filler) đối với các trường mà ở đó chỉ yêu cầu một thông tin điền

Post-filler Pattern:

1) semantic: price

Hình 2.1: Ví dụ về các mẫu và các ràng buộc trong 1 luật

2.2 Giải thuật học

2.2.1 Các lựa chọn thiết kế giải thuật

Như đã nêu ở phần mở đầu, RAPIER được phỏng theo các phương pháp ILP, cụ thể

là GOLEM, CHILLIN và PROGOL Nó dựa trên việc nén (cô đọng lại) tập luật và

chủ yếu gồm có phép tìm kiếm từ cụ thể đến khái quát (dưới-lên) Việc lựa chọn

cách tiếp cận dưới-lên có hai lý do Lý do thứ nhất là hệ số rẽ nhánh về không gian tìm kiếm là rất lớn, đặc biệt là để tìm các ràng buộc về từ và ngữ nghĩa Các hệ thống học hoạt động về ngôn ngữ tự nhiên thường phải có cơ chế nào đó để xử lý việc tìm kiếm bị áp đặt bởi kho từ vựng lớn với số lượng đáng kể văn bản (hoặc câu) Nhiều hệ thống giải quyết vấn đề này bằng cách áp đặt các giới hạn đối với

Định dạng
Số trang	117
Dung lượng	1,4 MB