DANH MỤC CÁC BẢNG Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt ...31 Bảng 5.1: Kết quả đo theo từng trường thông tin trong trường hợp có sử dụng luật trích rút gần đúng...98 Bản
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGÀNH: CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
LÊ THANH HƯƠNG
HÀ NỘI – 2010
Trang 2LỜI CAM ĐOAN
Tôi Chử Đăng Định – học viên lớp Cao học CNTT 2008-2010 xin cam kết:
1 Luận văn tốt nghiệp Thạc sĩ này là công trình nghiên cứu của bản thân tôi dưới sự
hướng dẫn của TS Lê Thanh Hương
2 Các kết quả trong luận văn tốt nghiệp là trung thực, không phải sao chép toàn văn của bất kỳ công trình nào khác
Hà Nội, ngày 29 tháng 10 năm 2010
Tác giả LVTN
Chử Đăng Định
Trang 3Xin chân thành cảm ơn các thành viên trong nhóm xử lý ngôn ngữ tự nhiên của Viện Công nghệ Thông tin và Truyền thông đã đưa ra góp ý, nhận xét về giải pháp cũng như kết quả của đề tài
Mặc dù em đã cố gắng hoàn thành luận văn này trong phạm vi khả năng cho phép nhưng chắc chắn không không thể tránh được những thiếu sót Em kính mong được nhận được sự thông cảm và sự chỉ bảo tận tình của các thầy cô và các bạn
Hà Nội 10/2010 Học viên: Chử Đăng Định Lớp: Cao học CNTT 2008-2010
Trang 4MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 6
DANH MỤC CÁC BẢNG 8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 9
PHẦN MỞ ĐẦU 11
CHƯƠNG 1 TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN VÀ CÁC MÔ HÌNH HỌC QUAN HỆ 14
1.1 Tổng quan về trích rút thông tin 15
1.1.1 Trích rút thông tin 15
1.1.2 Trích rút thông tin và thu thập thông tin 16
1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic) 17
1.2.1 Các vấn đề về thiết kế giải thuật tổng thể 18
1.2.2 FOIL 20
1.2.3 GOLEM 23
1.2.4 CHILLIN 26
1.2.5 PROGOL 27
1.3 Các phương pháp học 28
1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên 29
1.4.1 Phân tách từ vựng (Word Segmentation) 30
1.4.2 Gán nhãn từ loại (Part-of-speech tagger) 31
1.4.3 Từ điển từ vựng (Lexicon) 33
Trang 51.4.4 Nhận dạng thực thể có tên (Named-Entity Recognition) 35
1.5 Kết chương 36
CHƯƠNG 2 HƯỚNG TIẾP CẬN RAPIER CHO BÀI TOÁN TRÍCH RÚT THÔNG TIN 37
2.1 Biểu diễn luật 38
2.2 Giải thuật học 39
2.2.1 Các lựa chọn thiết kế giải thuật 39
2.2.2 Tổng quan về giải thuật 41
2.2.3 Xây dựng tập luật khởi đầu 42
2.2.4 Cô đọng tập luật 43
2.2.5 Tiêu chuẩn đánh giá luật 48
2.2.6 Tính toán mẫu khái quát hóa của hai mẫu 51
2.2.7 Pha chuyên biệt hóa 61
2.3 Áp dụng phương pháp học tích cực với RAPIER 65
2.3.1 Lấy mẫu có lựa chọn 66
2.3.2 Áp dụng phương pháp lấy mẫu có lựa chọn vào RAPIER 67
Độ không chắc chắn trong RAPIER 68
Trang bị khả năng học tăng cường cho RAPIER 69
2.4 Kết chương 70
CHƯƠNG 3 ĐỀ XUẤT MÔ HÌNH RAPIER CHO TRÍCH RÚT THÔNG TIN TIẾNG VIỆT 72
3.1 Các điều chỉnh khi áp dụng mô hình RAPIER với tiếng Việt 73
3.1.1 Công cụ tách từ tiếng Việt 73
3.1.2 Công cụ gán nhãn từ loại tiếng Việt 74
3.1.3 Cây ngữ nghĩa và từ điển ngữ nghĩa tiếng Việt 74
3.2 Các cải tiến cho mô hình 74
3.2.1 Tích hợp nhận dạng thực thể có tên 74
3.2.2 Sinh luật trích rút gần đúng 77
3.2.3 Tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin 78
Trang 63.3 Kết chương 78
CHƯƠNG 4 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 79
4.1 Xác định yêu cầu 80
4.2 Phân tích thiết kế hệ thống 81
4.2.1 Thiết kế tổng thể của hệ thống trích rút thông tin tiếng Việt 81
4.2.2 Chức năng tiền xử lý văn bản 83
4.2.3 Chức năng học luật 86
4.2.4 Chức năng trích rút thông tin 91
4.2.5 Chức năng đánh giá luật 92
4.3 Kết chương 93
CHƯƠNG 5 – CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ 94
5.1 Cài đặt chương trình 95
5.2 Phương pháp thực nghiệm 95
Các độ đo thực nghiệm 95
Các phiên bản thực nghiệm 96
5.3 Ngữ liệu thực nghiệm 97
5.4 Kết quả thực nghiệm 98
5.5 Đánh giá thực nghiệm 101
5.5.1 Về thời gian thực hiện 101
5.5.2 Về công cụ tách từ và gán nhãn từ loại 101
5.5.3 Về từ điển ngữ nghĩa và tác vụ gán nhãn thực thể có tên 102
5.5.4 Về các luật trích rút gần đúng 103
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 104
TÀI LIỆU THAM KHẢO 106
PHẦN PHỤ LỤC 108
PHỤ LỤC 1 - TẬP CÁC NHÃN TỪ LOẠI TIẾNG VIỆT ĐƯỢC SỬ DỤNG109 PHỤ LỤC 2 - TẬP LUẬT KẾT QUẢ THỰC NGHIỆM 110
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
1 CFG Context Free Grammar
Văn phạm phi ngữ cảnh
2 filler Thông tin điền hay thông tin cần trích rút
3 FOIL First Order Inductive Learning
6 ILP Trình logic quy nạp
Inductive Logic Programming
7 IR Hệ thu thập thông tin
Information Retrieval
8 LGG Phép tổng quát hóa ít khái quát nhất
Least-general generalization
9 literal Ký hiệu mệnh đề
Trang 8STT Từ viết tắt Giải nghĩa
10 MUC Message Understanding Conferences
11 NER Named-Entity Recognition
Nhận dạng thực thể có tên
12 NLP Natural Language Processing
Xử lý ngôn ngữ tự nhiên
13 POS Part of Speech - Từ loại
14 RAPIER Robust Automated Production of Information Extraction Rules
Tự động linh hoạt sinh luật trích rút thông tin
15 slot-filler Thông tin cần trích rút của trường
16 SVM Support Vector Machine
Mô hình máy vector hỗ trợ
Trang 9DANH MỤC CÁC BẢNG
Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt 31 Bảng 5.1: Kết quả đo theo từng trường thông tin trong trường hợp có sử dụng luật trích rút gần đúng 98 Bảng 5.2: Kết quả đo tổng thể và thời gian thực hiện trung bình trong trường hợp có
sử dụng luật trích rút gần đúng 99 Bảng 5.3: Kết quả đo theo từng trường thông tin trong trường hợp không sử dụng luật trích rút gần đúng 99 Bảng 5.4: Kết quả đo tổng thể và thời gian thực hiện trung bình trong trường hợp không sử dụng luật trích rút gần đúng 99
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Thu thập thông tin 16
Hình 1.2 Trích rút thông tin 16
Hình 1.3 Mối quan hệ giữa IR, IE và Full Text Understanding[3] 17
Hình 1.4: Giải thuật bao phủ FOIL 21
Hình 1.5: Bước “tìm mệnh đề” trong giải thuật FOIL 22
Hình 1.6: Hai trường hợp cụ thể của mối quan hệ uncle 24
Hình 1.7: Mệnh đề LGG của các mệnh đề trong Hình 1.6 24
Hình 1.8: Kết quả của việc đơn giản hóa các mệnh đề bằng cách loại bỏ các literal dư thừa 25
Hình 1.9: Giải thuật xây dựng mệnh đề của GOLEM 25
Hình 1.10: Giải thuật gộp của CHILLIN 27
Hình 2.1: Ví dụ về các mẫu và các ràng buộc trong 1 luật 39
Hình 2.2: Giải thuật RAPIER 41
Hình 2.3: Giải thuật RAPIER để qui nạp các luật trích rút 47
Hình 2.4: Một ví dụ về việc khái quát hóa hai phần tử mẫu 54
Hình 2.5: Ví dụ về việc khái quát hóa một cặp hai mẫu cùng độ dài 55
Hình 2.6: Hai mẫu khác độ dài Các đường thẳng chỉ các các phần tử khác nhau có thể được nhóm cùng nhau để khái quát hóa 56
Hình 2.7: Sáu cách có thể có các phần tử của các mẫu trong Hình 2.6 có thể được so sánh để khái quát hóa 57
Hình 2.8: Cách nhóm thu được từ việc tìm một so khớp chính xác giữa phần tử 3 của mẫu dài với phần tử 2 của mẫu ngắn trong Hình 2.6 Khi các phần tử giống nhau đã được ghép cặp, phần còn lại chỉ còn lại một cách ghép nhóm 58
Hình 2.9: Khái quát hóa của một mẫu hai phần tử với một mẫu không có phần tử nào 59
Hình 2.10: Khái quát hóa của mẫu hai phần tử với mẫu có một phần tử Vì mẫu B là mẫu dạng danh sách có độ dài 3, các khái quát hóa cũng phải có độ dài 3 59
Hình 2.11: Giải thuật RAPIER để chuyên biệt hóa mẫu pre-filler của luật 63
Hình 2.12: Giải thuật RAPIER để chuyên biệt hóa mẫu post-filler của luật 64
Hình 2.13: Các pha trong giải thuật học RAPIER 65
Hình 3.1: Giải thuật gộp theo nhãn thực thể 76
Hình 4.1 Các chức năng hệ thống trích rút thông tin vnRAPIER 81
Hình 4.2: Sơ đồ hệ thống trích rút thông tin vnRAPIER 82
Trang 11Hình 4.3: Tiền xử lý văn bản đã gán nhãn thực thể có tên 84
Hình 4.4: File văn bản đầu vào đã được gán nhãn thực thể bằng tay 84
Hình 4.5: File văn bản sau khi gán nhãn từ loại 85
Hình 4.6: Sơ đồ chức năng học luật trích rút 86
Hình 4.7: Ví dụ về khuôn mẫu thông tin trích rút 89
Hình 4.8: Một ví dụ về file chú thích cho văn bản huấn luyện 89
Hình 4.9: Mỗi ví dụ huấn luyện gồm văn bản và phần chú thích 89
Hình 4.10: Sơ đồ chức năng trích rút thông tin 91
Hình 4.11: Sơ đồ chức năng đánh giá luật 93
Hình 5.1: Độ đo F thu được theo số lượng ví dụ huấn luyện 100
Trang 12của trích rút thông tin (Information Extraction - IE)
Các nghiên cứu gần đây về ngôn ngữ học tính toán cho thấy rằng các phương pháp dựa trên thực nghiệm hoặc dựa trên ngữ liệu là cách tiếp cận hứa hẹn nhất để phát triển các hệ thống xử lý ngôn ngữ tự nhiên (NLP) mạnh mẽ, hiệu quả Các phương pháp đó thu được một cách tự động hoá nhiều tri thức phức tạp cần thiết cho NLP bằng cách huấn luyện kho ngữ liệu ngôn ngữ tự nhiên phù hợp đã được chú thích
(annotate)
Hầu hết các phương pháp NLP dựa trên thực nghiệm đó sử dụng các kỹ thuật thống
kê như mô hình n-gram, mô hình Markov ẩn (HMMs), và văn phạm phi ngữ cảnh kết hợp xác suất (PCFGs) Cũng đã có các nghiên cứu quan trọng áp dụng các phương mạng nơ-ron để xử lý ngôn ngữ (Reilly & Sharkey, 1992; Miikkulainen,
1993) Ngoài ra, đã có nghiên cứu sử dụng học dựa trên ký hiệu (symbolic learning)
như sử dụng cây quyết định (Magerman 1995; Aone & Bennett, 1995), luật chuyển đổi (Brill, 1993, 1995), và các phương pháp dựa trên ký hiệu khác (Wermter, Rilo,
& Scheler, 1996)
Trước các thành công của các phương pháp xử lý ngôn ngữ tự nhiên mang tính thực nghiệm, các nhà nghiên cứu đã bắt đầu áp dụng các phương pháp học để xây dựng
các hệ thống trích rút thông tin (McCarthy & Lehnert, 1995; Soderland, Fisher,
Aseltine & Lehnert, 1995, 1996; Rilo, 1993, 1996; Kim & Moldovan, 1995;
Trang 13Huffman, 1996) Một trong số đó là nghiên cứu của tác giả Mary Elaine Califf (Đại
học Texas), có tên RAPIER (Robust Automated Production of Information
Extraction Rules)[2] RAPIER học các luật đối với tác vụ trích rút thông tin, các
luật đó tạo ra các mục thông tin mong muốn một cách trực tiếp từ các tài liệu mà không có phân tích cú pháp trước hay bất cứ khâu hậu xử lý nào Thay vì học phân loại, RAPIER thực hiện học theo dạng biểu diễn ký hiệu có cấu trúc (có biểu thị mối quan hệ)
Xuất phát từ ngữ liệu các tài liệu đi đôi với các khuôn mẫu thông tin điền sẵn (filled
templale), RAPIER học các mẫu dạng Eliza (Weizenbaum, 1966) tạo ra các thông
tin ràng buộc về cú pháp và ngữ nghĩa, bằng cách sử dụng các nguồn tri thức linh
hoạt, sẵn có và miễn phí như bộ gán nhãn từ loại (POS tagger) hay bộ từ vựng Các
luật được xây dựng từ các mẫu đó có thể xem xét một ngữ cảnh không giới hạn, trao cho chúng một lợi thế so với các cách biểu diễn có giới hạn mà chỉ xem xét một số lượng từ cố định Cách biểu diễn tương đối phong phú này đòi hỏi một giải thuật học có khả năng giải quyết những phức tạp rắc rối của nó Do đó, RAPIER sử dụng một giải thuật học mối quan hệ mà kết hợp các kỹ thuật từ một số hệ thống ILP
(Inductive Logic Programming) Các kỹ thuật đó là phù hợp vì chúng được phát
triển để làm việc với cách biểu diễn phong phú, có biểu thị quan hệ (các mệnh đề logic bậc 1) RAPIER sử dụng chủ yếu dạng tìm kiếm từ cụ thể đến khái quát hay
dưới-lên (bottom-up)
Trên thế giới đã có nhiều nghiên cứu về bài toán IE và đã có thành tựu đáng kể Tuy nhiên, các nghiên cứu về tiếng Việt thì còn khá mới mẻ và còn hạn chế Vì vậy,
người viết luận văn xin thực hiện đề tài “Học mối quan hệ trong trích rút thông
tin tiếng Việt” Mục đích của đề tài là tìm hiểu về các kỹ thuật học, cụ thể là học
mối quan hệ, áp dụng mô hình học RAPIER vào tiếng Việt và đưa ra một số đóng góp cải tiến cho mô hình này
Hướng tiếp cận của người viết luận văn là sử dụng các thành quả đã đạt được về xử
lý văn bản tiếng Việt như bài toán phân tách từ, bài toán gán nhãn từ loại, đồng thời
Trang 14sử dụng các tài nguyên sẵn có về tiếng Việt để tự xây dựng từ điển ngữ nghĩa tiếng Việt (ở mức sơ khai) Từ đó có đủ các điều kiện cần thiết để áp dụng mô hình học RAPIER Dựa trên giải thuật đưa ra trong mô hình RAPIER, người viết cũng xây dựng chương trình thực nghiệm với lĩnh vực thực nghiệm là trích rút thông tin từ các trang web cá nhân của các nhà khoa học người Việt trong và ngoài nước
Ngoài việc kế thừa các giải thuật mà mô hình đã có, người viết đã có các cải tiến, đóng góp mới của mình, đó là:
+ tích hợp tác vụ nhận dạng thực thể có tên (Named-Entity Recognition - NER) vào
khâu tiền xử lý văn bản;
+ bổ sung chức năng sinh luật trích rút gần đúng với các mục thông tin trích rút có cấu trúc đặc biệt;
+ bổ sung khả năng tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin cần trích rút
Nội dung của luận văn gồm có 5 chương trong đó:
Chương 1 Trình bày về các cơ sở lý thuyết của lĩnh vực trích rút thông tin, các mô
hình học quan hệ và các công cụ và nguồn lực xử lý ngôn ngữ tự nhiên mà mô hình
đề cập có thể sử dụng
Chương 2 Hướng tiếp cận RAPIER cho bài toán trích rút thông tin Phần này trình
bày cách biểu diễn luật, tiêu chuẩn đánh giá luật, giải thuật học và áp dụng phương pháp học chủ động vào mô hình
Chương 3 Trình bày đề xuất mô hình RAPIER cho trích rút thông tin tiếng Việt
(vnRAPIER), trong đó đề cập tới các điều chỉnh khi áp dụng mô hình RAPIER vào tiếng Việt đồng thời đưa ra các đóng góp cải tiến đối với mô hình
Chương 4 Trình bày về phân tích và thiết kế tổng thể hệ thống trích rút thông tin
tiếng Việt thực nghiệm dựa trên mô hình đề xuất vnRAPIER
Chương 5 Cài đặt mô hình và kiểm thử kết quả
Trang 15CHƯƠNG 1 TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN VÀ CÁC MÔ
HÌNH HỌC QUAN HỆ
NỘI DUNG:
1.1 Tổng quan về trích rút thông tin 1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic) 1.3 Các phương pháp học
1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên
1.5 Kết chương
Trang 161.1 Tổng quan về trích rút thông tin
1.1.1 Trích rút thông tin
Trích rút thông tin là quá trình lấy ra các mẩu thông tin cần thiết từ các dữ liệu thô hoặc dữ liệu bán cấu trúc (văn bản ngôn ngữ tự nhiên) Thông tin được lấy ra là những thông tin có cấu trúc Thông tin trích rút sau đó có thể được lưu trong cơ sở
dữ liệu mà có thể được truy vấn bằng các ngôn ngữ truy vấn cơ sở dữ liệu hoặc một giao diện cơ sở dữ liệu ngôn ngữ tự nhiên
Tác vụ trích rút thông tin rất hữu ích trong các tình huống nơi một tập hợp các tài liệu văn bản có chứa thông tin có thể được sử dụng dễ dàng hơn bởi con người hay máy tính nếu các thông tin đã có sẵn trong một định dạng cơ sở dữ liệu thống nhất Như vậy, một hệ thống trích rút thông tin được đưa ra tập hợp các tài liệu và một khuôn mẫu các trường thông tin (slot) để được điền thông tin từ tài liệu đó Các hệ thống trích rút thông tin sẽ xác định vị trí và tìm cách xác định cụ thể phần thông tin cần thiết từ mỗi tài liệu
Dữ liệu được trích rút từ văn bản có hai dạng khác nhau: dạng phổ biến là hệ thống xác định và lấy trực tiếp một chuỗi từ văn bản; dạng thứ hai là hệ thống chọn từ một tập các giá trị có thể điền được vào trường thông tin đó Một ví dụ cho dạng thứ hai này là các mục thông tin ngày tháng cần định dạng thống nhất, hoặc đơn giản là các mục cung cấp các giá trị thống nhất cho thông tin thể hiện trong văn bản
Dữ liệu được trích rút có thể được chỉ rõ theo một trong hai cách Hệ thống có thể điền vào một mẫu với các giá trị lấy từ văn bản, hoặc trong trường hợp tất cả các trường thông tin được điền trực tiếp bởi các chuỗi từ văn bản, hệ thống có thể tạo chú thích trực tiếp trên văn bản đó
Trích rút thông tin có thể hữu ích trong nhiều lĩnh vực Các hội thảo Message
Understanding Conferences (MUC) từ những năm 90 về lĩnh vực xử lý ngôn ngữ tự
nhiên đã áp dụng vào các lĩnh vực như chủ nghĩa khủng bố khu vực Mỹ Latinh, liên doanh, vi điện tử Một số khác đã sử dụng trích rút thông tin để theo dõi hồ sơ y tế
Trang 17bệnh nhân (Soderland et al., 1995) và để theo dõi các vụ hợp nhất công ty (Huffman, 1996) Gần đây hơn, các nhà nghiên cứu đã áp dụng khai thác thông tin cho các thể loại văn bản không chính thức như quảng cáo cho thuê (Soderland,
1998) và các trang web (Freitag, 1998a; Hsu & Dung, 1998; Muslea, Minton, & Knoblock, 1998) Năm 2007, nhóm tác giả Tianhao Wu, Stephen V Zanias,
William M.Pottenger đã xây dựng hệ thống Phần mềm để trích rút thông tin trong
Hệ thống Thông tin Tư pháp hình sự [3]
1.1.2 Trích rút thông tin và thu thập thông tin
Trích rút thông tin là công việc khác với thu thập thông tin (IR) IR là tìm các tài liệu, thường là văn bản, mà có liên quan tới nhu cầu thông tin của người dùng[3] Google, một hệ thống IR trên web nổi tiếng, là một ví dụ điển hình về hệ thống IR Giống như các kết quả tạo ra bởi bộ tìm kiếm web Google, đầu ra của một hệ thống
IR là một tập con các văn bản mà có liên quan tới truy vấn của người dùng Ngược lại, mục tiêu của hệ thống IE không phải là để trích rút bản thân các tài liệu mà là trích rút các đặc trưng định trước từ các tài liệu đó Trong một hệ thống IE, các thuộc tính thông tin được trích rút đó thường được đưa vào cơ sở dữ liệu một cách
tự động Nói một cách ngắn gọn, IR thu thập tài liệu trong khi IE thu thập đặc trưng
Hình 1.1 Thu thập thông tin
Wiliam Doctor Martin Master
Hình 1.2 Trích rút thông tin
Trang 18Theo [3], mức độ cao hơn IE là Full Text Understanding, tức là đòi hỏi máy tính hiểu được văn bản ngôn ngữ tự nhiên Đây là công việc rất khó vì văn bản ngôn ngữ
tự nhiên thường quá phức tạp để hiểu một cách đầy đủ ngay cả với con người chứ chưa nói tới máy tính Có thể xem Full Text Understanding, IE và IR là ba dạng khác nhau của việc lấy thông tin văn bản, vì chúng đều cần hiểu thông tin văn bản ở mức độ nào đó Mối quan hệ giữa ba dạng này có thể minh họa như trên Hình 1.3
Hình 1.3 Mối quan hệ giữa IR, IE và Full Text Understanding[3]
1.2 Kỹ thuật học quan hệ kiểu ký hiệu (symbolic)
Từ nhiều công trình thực nghiệm về xử lý ngôn ngữ tự nhiên đã sử dụng các kỹ
thuật thống kê (Charniak 1993; Miller, Stallard, Bobrow, & Schwartz, 1996;
Smadja, McKeown, & Hatzivas siloglou-1996; Wermter et al, 1996), phần này thảo
luận về lợi thế tiềm tàng của việc học quan hệ kiểu ký hiệu (Symbolic relational
learrning) Để đánh giá chính xác xác suất từ dữ liệu có giới hạn, hầu hết các kỹ
thuật thống kê đều đưa ra các quyết định dựa trên một bối cảnh rất hạn chế, chẳng
hạn như các bộ đôi (bigram) hay bộ ba (trigram) (các ngữ cảnh 2 hoặc 3 từ) Tuy
nhiên, các quyết định xử lý ngôn ngữ tự nhiên thường xuyên phải dựa trên ngữ cảnh lớn hơn nhiều bao gồm một loạt các dấu hiệu về cú pháp, ngữ nghĩa, và dụng ngôn
(pragmatic) Do đó, các nhà nghiên cứu đã bắt đầu sử dụng các kỹ thuật học mà có thể xử lý những ngữ cảnh lớn hơn, chẳng hạn như cây quyết định (Magerman 1995;
Miller et al., 1996; Aone & Bennett, 1995), phương pháp mẫu điển hình (dựa trên
tình huống) (Cardie 1993; Ng & Lee, 1996), và phương pháp mô hình entropy cực đại (Ratnaparkhi, 1997) Tuy nhiên, những kỹ thuật này vẫn còn đòi hỏi người phát
triển hệ thống xác định một tập hợp hữu hạn, có thể quản lý được các đặc trưng để
sử dụng trong việc ra quyết định Việc phát triển này tập hợp các đặc trưng này có
Information
Retrieval
Information Extraction
Full Text Understanding
Cụ thể hơn
Cụ thể hơn
Trang 19thể đòi hỏi cơ chế biểu diễn có ý nghĩa thống kê (significant) và vẫn có thể loại trừ
thông tin quan trọng theo ngữ cảnh
Ngược lại, các phương pháp học quan hệ (Birnbaum & Collins, 1991) cho phép qui
nạp trên các ví dụ có cấu trúc mà có thể bao gồm các vị từ logic bậc 1 và các cấu trúc dữ liệu không giới hạn như là danh sách và cây Đặc biệt, kỹ thuật lập trình
Inductive Logic Programming (ILP) cho phép học qui nạp các luật dạng logic bậc 1
(các chương trình Prolog)
Hai lợi thế khác của các kỹ thuật dựa trên ILP là tính hiểu được (comprehensibility)
và khả năng sử dụng tri thức cơ sở Tính hiểu được của các luật dạng ký hiệu giúp cho người phát triển dễ hiểu và dễ xác minh được hệ thống kết quả và thậm chí là
chỉnh sửa tri thức đã học được (Cohen, 1996) Đối với kiến thức cơ sở, các hệ thống
ILP được trao cho các định nghĩa Prolog đối với một tập các vị từ mà có thể được
sử dụng trong thân các luật học được Điều này cho phép hệ thống tận dụng các khái niệm đã bao gồm trong các vị từ cơ sở mà có liên quan đối với khái niệm đang được học
Tuy RAPIER không phải là một hệ thống ILP, nhưng nó là một giải thuật học quan
hệ học kiểu biểu diễn luật có cấu trúc và các giải thuật của nó được lấy ý tưởng từ các hệ thống ILP Các ý tưởng dựa trên ILP là phù hợp vì chúng được phát triển để làm việc với cách biểu diễn phong phú, có biểu thị quan hệ Các phần sau đây sẽ thảo luận về các vấn đề thiết kế tổng thể để phát triển ILP và các hệ thống học luật khác, sau đó mô tả một số hệ thống ILP mà ảnh hưởng tới giải thuật học RAPIER, bao gồm ba mô hình mà RAPIER trực tiếp phỏng theo: GOLEM, CHILLIN, và PROGOL.
1.2.1 Các vấn đề về thiết kế giải thuật tổng thể
Một trong số các vấn đề thiết kế trong các hệ thống học luật là cấu trúc tổng thể của
giải thuật Có hai dạng chính là cô đọng lại (compression) và bao phủ (covering)
Hệ thống sử dụng dạng cô đọng bắt đầu bằng cách tạo một tập ban đầu các luật có
Trang 20mức độ cụ thể cao, thường là một luật cho mỗi ví dụ Ở mỗi bước lặp, một luật khái quát hơn được xây dựng, thay thế các luật nó đã bao gộp, vì thế tập luật được cô đọng lại Ở mỗi bước lặp, tất cả các ví dụ dương đang được xem xét tới phạm vi nào
đó và độ đo để đánh giá các luật mới là thiên về tập luật được cô đọng nhiều hơn Việc học luật kết thúc khi không tìm được các luật mới cô đọng hơn Các hệ thống
sử dụng dạng cô đọng lại bao gồm DUCE, hệ thống học luật mệnh đề sử dụng phân
tích nghịch đảo (Muggleton, 1987), CIGOL, một hệ thống ILP sử dụng phân tích nghịch đảo (Muggleton & Buntine, 1988) và CHILLIN (Zelle & Mooney, 1994)
Các hệ thống sử dụng dạng bao phủ thì bắt đầu với một tập ví dụ dương Sau đó, khi mỗi luật được học, tất cả các ví dụ dương luật mới bao phủ sẽ được loại bỏ khi xem xét để tạo luật tiếp theo Việc học luật kết thúc khi tất cả các ví dụ dương đã được bao phủ Đây có lẽ là cách phổ biển hơn để tổ chức một hệ thống học luật Các ví dụ
về dạng này bao gồm FOIL (Quinlan, 1990), GOLEM (Muggleton & Feng, 1992), PROGOL (Muggleton, 1995), Claudien (De Raedt & Bruynooghe, 1993) và các hệ thống khác dựa trên FOIL như FOCL (Pazzani, Brunk, & Silverstein, 1992), mFOIL (Lavrac & Dzeroski, 1994) và FOIDL (Mooney & Califf, 1995)
Có sự thỏa hiệp giữa hai dạng thiết kế nói trên Sự khác biệt chính là sự thỏa hiệp giữa một phép tìm kiếm hiệu quả hơn hoặc một phép tìm kiếm kỹ lưỡng hơn Các
hệ thống dạng bao phủ có xu hướng có phần hiệu quả hơn, vì chúng không tìm đến
để học các luật đối với các ví dụ mà đã được bao phủ Tuy nhiên, phép tìm kiếm của
hệ thống dạng này ít kỹ lưỡng hơn so với các hệ thống dạng cô đọng lại, vì chúng
có thể không “thích” các luật mà vừa bao phủ các ví dụ còn lại vừa bao gộp các luật đang tồn tại Do đó, các hệ thống dạng bao phủ có thể kết thúc với một tập luật khá
cụ thể trong các trường hợp một phép tìm kiếm kỹ lưỡng hơn có thể đã phát hiện ra một luật khái quát hơn bao phủ cùng một tập ví dụ
Một vấn đề thiết kế cơ bản nữa là quyết định lựa chọn là xu hướng của phép tìm kiếm được sử dụng để xây dựng các luật cá thể Các hệ thống thường làm việc theo hai hướng:
Trang 21- các hệ thống dưới-lên (từ cụ thể đến khái quát) tạo các luật rất cụ thể sau đó khái quát các luật đó để bao phủ các ví dụ dương thêm vào;
- các hệ thống trên-xuống (từ khái quát đến cụ thể) khởi đầu với các luật rất khái quát, các luật tiêu biểu bao phủ tất cả các ví dụ, âm và dương, sau đó chuyên biệt hóa các luật đó, cố gắng để không bao phủ các ví dụ âm trong khi vẫn tiếp tục bao phủ nhiều ví dụ dương
Trong số các hệ thống trên, DUCE, CIGOL, và GOLEM là các hệ thống dưới-lên thuần túy, trong khi FOIL và các hệ thống dựa trên FOIL là các hệ thuần túy trên-xuống CHILLIN và PROGOL kết hợp cả hai phương pháp dưới-lên và trên-xuống
Rõ ràng, việc lựa chọn xu hướng tìm kiếm cũng dẫn đến các thỏa hiệp Các hệ thống trên-xuống thường tốt hơn về việc tìm các luật khái quát bao phủ số lượng lớn các ví dụ, vì chúng khởi đầu với một luật khái quát nhất và chuyên biệt hóa nó chỉ
đủ để tránh các ví dụ âm Các hệ thống dưới-lên có thể tạo ra các luật quá cụ thể đến nỗi không hoạt động tốt trên dữ liệu không so sánh được bởi vì chúng có thể không thành công khi khái quát hóa các luật khởi đầu một cách đầy đủ Với một không gian tìm kiếm khá nhỏ các hằng và các mối liên hệ cơ sở thì phép tìm kiếm trên-xuống có thể hiệu quả hơn Tuy nhiên, khi hệ số rẽ nhánh cho phép tìm kiếm trên-xuống rất cao (như là khi có nhiều cách để chuyên biệt hóa một luật), thì tìm kiếm kiểu dưới-lên thường sẽ hiệu quả hơn Các hệ thống sử dụng kết hợp cả hai kỹ thuật tìm kiếm dưới-lên và trên-xuống sẽ cố gắng khai thác lợi thế của từng kỹ thuật Các phần tiếp theo sẽ giới thiệu tóm tắt về mô hình FOIL và ba mô hình mà ảnh hưởng trực tiếp nhất tới giải thuật của RAPIER
1.2.2 FOIL
FOIL là một ví dụ nguyên mẫu của một giải thuật ILP trên-xuống mà sử dụng giải thuật dạng bao phủ Nó học một định nghĩa dạng hàm tự do mệnh đề chuẩn HORN bậc 1 của vị từ đích dưới dạng chính nó và các vị từ cơ sở khác Đầu vào gồm có các định nghĩa mở rộng những vị từ này thành các bộ hằng số của các kiểu cụ thể
Trang 22Chẳng hạn, một đầu vào tương thích để học một định nghĩa về danh sách thành viên như sau:
member(Elt, Lst): { <a, [a]>, <a, [a, b]>, <b, [a, b]>, <a, [a, b, c]>, }
components(Lst, Elt, Lst): { <[a], a, []>, <[a, b], a, [b]>, <[a, b, c], a, [b, c]> }
trong đó Elt là một kiểu biểu thị các phần tử có thể tồn tại bao gồm a, b, c và d;
Lst là một kiểu được định nghĩa là bao gồm các danh sách có chứa ba trong số các
phần tử đó;
components(A,B,C) là một vị từ cơ sở mà là đúng nếu A là một danh sách mà phần
tử đầu tiên của nó là B và phần còn lại của nó là danh sách C
FOIL cũng đòi hỏi các ví dụ âm của khái niệm đích mà có thể được cung cấp trực
tiếp hoặc được tính toán sử dụng một giả thiết đóng (closed-world assumption)
Chẳng hạn, giả thiết đóng sẽ tạo ra toàn bộ các cặp dạng <Alt, Lst> mà không được qui định một cách rõ ràng như các ví dụ dương (ví dụ <b, [a]>) Với đầu vào này, FOIL học chương trình một mệnh đề duy nhất vào mỗi thời điểm sử dụng giải thuật tham lam dạng bao phủ (như mô tả trong Hình 1.4)
Hình 1.4: Giải thuật bao phủ FOIL
Chẳng hạn, một mệnh đề có thể được học cho định nghĩa member trong một bước
While Remaining không rỗng
Tìm một mệnh đề, C, mà bao phủ một số ví dụ trong Remaining,
nhưng không bao phủ các ví dụ âm
Loại bỏ các ví dụ được bao phủ bởi C khỏi Remaining
Thêm C vào Definition
Trang 23vì nó bao phủ tất cả các ví dụ dương có phần tử này là phần tử đầu tiên trong danh sách mà không bao phủ bất cứ ví dụ âm nào Một mệnh đề có thể được học để bao phủ ví dụ còn lại là:
member(A,B) :- components(B,C,D), member(A,D)
Hai mệnh đề kết hợp cùng nhau tạo thành một chương trình đúng đắn cho định
nghĩa member
Bước “tìm mệnh đề” được thực hiện bởi một phép tìm kiếm kiểu leo đồi từ khái quát tới cụ thể mà bổ sung mỗi lần một “tổ tiên” vào mệnh đề đang phát triển Tại
mỗi bước, nó đánh giá các ký hiệu mệnh đề (literal) khả dĩ mà có thể được bổ sung
và lựa chọn một literal mà cực đại hóa hàm trọng số lợi ích thông tin
(information-gain) Giải thuật duy trì một tập các bộ dữ liệu mà thỏa mãn mệnh đề hiện thời và
bao gồm các ràng buộc cho bất cứ biến mới nào được đưa vào bên trong thân giải thuật Hình 1.5 mô tả thủ tục này
Hình 1.5: Bước “tìm mệnh đề” trong giải thuật FOIL
Các literal được đánh giá dựa trên số lượng bộ dữ liệu dương và âm được bao phủ,
ưu tiên các literal bao phủ nhiều dương hơn âm Đặt T+ biểu thị số lượng bộ dữ liệu dương trong tập T; thì độ đo thông tin của mệnh đề được định nghĩa là:
Khởi tạo C to R(V 1 ; V 2 ; :::; V k ) :- Trong đó R là vị từ mục tiêu với bậc là k
Khởi tạo T để chứa các bộ dữ liệu dương trong positives-to-cover và tất cả
các bộ dữ liệu âm
While T chứa các bộ dữ liệu âm
Tìm literal tốt nhất L để bổ sung vào mệnh đề
Tạo tập vị từ mới T’ chứa thay cho mỗi bộ dữ liệu t trong T mà thỏa L,
tất cả các bộ dữ liệu có dạng t.b (t và b được nối vào nhau) trong
đó b là một tập vị từ sinh đối với các biến mới đưa vào bởi L để cho literal này được thỏa
Thay thế T bằng T’
Trang 24I(T) = -log2(T+ / |T|)
Literal được chọn là literal đạt cực đại hóa đại lượng sau:
gain(L) = s (I(T) - I(T’))
trong đó s là số lượng bộ dữ liệu dương được L bao phủ
Phép tìm kiếm một literal tốt để thêm vào mệnh đề có thể gây bùng nổ không gian bài toán khi số lượng vị từ cơ sở lớn, bậc của các vị từ lớn hoặc có số lượng rất lớn các hằng số lý thuyết (các hằng số có thể xuất hiện trong các mệnh đề)
1.2.3 GOLEM
Golem (Muggleton & Feng, 1992) cũng sử dụng một giải thuật tham lam dạng bao
phủ rất giống với của FOIL Tuy nhiên, việc xây dựng các mệnh đề cá thể là dạng
dưới-lên, dựa trên xây dựng các phép tổng quát hóa ít khái quát nhất (LGGs -
least-general least-generalization) của nhiều mệnh đề cụ thể (Plotkin, 1970) Một mệnh đề G
bao gộp mệnh đề C nếu có một sự thay thế các biến trong G để làm cho các literal trong G thành một tập con của các literal trong C Nói một cách nôm na, chúng ta
có thể đưa C trở về G bằng cách ngắt bỏ một số điều kiện và thay đổi một số hằng
số thành các biến Nếu G bao gộp C, bất cứ thứ gì có thể được chứng minh từ C cũng có thể được chứng minh từ G, vì G áp đặt ít điều kiện hơn Do đó G được gọi
là khái quát hơn C
LGG của các mệnh đề C1 và C2 được định nghĩa là mệnh đề ít khái quát nhất mà bao gộp cả C1 và C2 Một mệnh đề LGG được tính toán một cách dễ dàng bằng cách “so khớp” các literal tương thích (để tạo thành cặp) của các mệnh đề; bất cứ chỗ nào các literal có cấu trúc khác nhau, LGG sẽ chứa một biến Khi nào các cặp giống hệt nhau của các cấu trúc khác nhau xuất hiện, biến đó được sử dụng cho cặp
ở tất cả các vị trí
Trang 25Hình 1.6: Hai trường hợp cụ thể của mối quan hệ uncle
Ví dụ, hãy xem xét các mệnh đề trong Hình 1.6 Hai mệnh đề cụ thể đó mô tả khái
niệm uncle trong ngữ cảnh về các mối quan hệ gia đình nào đó đã biết Mệnh đề
LGG phức tạp hơn của các mệnh đề đó được trình bày trong Hình 1.7
Hình 1.7: Mệnh đề LGG của các mệnh đề trong Hình 1.6
Ở đây, A thay thế cho cặp (john, bill), B thay cho cặp (deb, jay), C thay cho cặp (ron, bruce)… Chú ý rằng kết quả chứa bốn literal parent (hai trong số đó giống hệt nhau) tương ứng với bốn cách so khớp các cặp literal parent từ các mệnh đề ban đầu Tương tự, có bốn literal đối với male Trong trường hợp xấu nhất, kết quả của
một phép tính LGG có thể chứa n2 literal cho hai mệnh đề đầu vào có độ dài n
Trong ví dụ trên LGG không chứa literal female vì mệnh đề thứ hai không chứa
literal tương thích Đơn giản hóa một cách dễ dàng kết quả này bằng cách loại bỏ các literal dư thừa sẽ được mệnh đề như trong Hình 1.8
uncle(A,B):-
sibling(A,C), sibling(A,D),
parent(C,B), parent(C,E), parent(C,F), parent(C,E),
male(A), male(G), male(H), male(I)
Trang 26Hình 1.8: Kết quả của việc đơn giản hóa các mệnh đề bằng cách loại bỏ các literal
dư thừa
Việc xây dựng LGG của hai mệnh đề phần nào mang nghĩa “phi ngữ cảnh” Mệnh
đề khái quát kết quả được xác định hoàn toàn theo dạng của các mệnh đề đầu vào Không có sự xem xét về tri thức cơ sở tiềm tàng Để đưa tri thức cơ sở vào GOLEM
tạo ra các mệnh đề ứng viên bằng cách tính đến các LGG có liên quan (RLGGS -
Relative LGGs) của các ví dụ dương đối với tri thức cơ sở Ý tưởng đó được bắt đầu
với giả thiết rằng bất cứ và tất cả thông tin cơ sở có thể có liên quan để xác định rằng một trường hợp ngoại lệ là một ví dụ dương Vì vậy, mỗi ví dụ dương được
biểu diễn bởi một mệnh đề có dạng: E :- (every ground fact), trong đó (every
ground fact) là kết hợp của tất cả các literal cơ sở đúng mà có thể nhận được từ các
mối quan hệ cơ sở
Hình 1.9: Giải thuật xây dựng mệnh đề của GOLEM
Đặt Pairs = mẫu ngẫu nhiên các cặp ví dụ dương
Đặt RLggs = {C :(e, e’) ∈ Pairs và C = RLGG(e, e’) và C đồng nhất}
Đặt S là tập các cặp (e, e’) với RLgg bao phủ tốt nhất trong RLggs
Do
Đặt Examples là một mẫu ngẫu nhiên các cặp ví dụ dương
Đặt RLggs = {C: e’ ∈ Examples và C = RLGG(S U e’)) và C đồng nhất }
Tìm e’ = which produces greatest cover in RLggs
Trang 27Hình 1.9 mô tả giải thuật xây dựng mệnh đề của GOLEM dựa trên việc xây dựng
các phép sinh quan hệ ít tổng quát nhất (rlggs) Giải thuật hoạt động bằng cách chọn ngẫu nhiên các cặp ví dụ dương, tính rlggs của mỗi cặp và lựa chọn các mệnh đề cấu thành với độ hội tụ (coverage) các mẫu là lớn nhất Các mệnh đề này được tổng quát hóa hơn bằng cách tính rlggs của mệnh đề dương được lấy ngẫu nhiên Quá
trình kết thúc khi độ hội tụ không được cải thiện tiếp
1.2.4 CHILLIN
Hệ thống CHILLIN kết hợp các kỹ thuật lập trình logic quy nạp (ILP) trên-xuống
và dưới-lên Giải thuật bắt đầu với định nghĩa cụ thể nhất và tổng quát hóa dần nó Việc tổng quát hóa được thực hiện bằng cách lựa chọn các cặp mệnh đề trong định nghĩa và tính LGGs Nếu mệnh đề kết quả chứa cả các mẫu âm, nó được làm chi tiết hơn bằng cách thêm các ký hiệu thuộc lớp trên theo kiểu trên-xuống Việc tìm ký hiệu mới được thực hiện theo kiểu leo đồi, sử dụng ma trận lượng thông tin
(information gain) để đánh giá các ký hiệu này Nó giống như giải thuật tìm kiếm trong FOIL (Quinlan, 1990) Nếu có một mệnh đề đúng không được học với các
quan hệ cơ sở, CHILLIN cố xây dựng các mệnh đề mới để phân biệt các ví dụ âm khỏi các ví dụ dương Tại mỗi bước, một số phép sinh được tạo ra Phép sinh tạo ra nhiều ảnh hưởng nhất được sử dụng, và quá trình tiếp tục CHILLIN sử dụng phép
gộp thực nghiệm (empirical subsumption), có nghĩa là các mệnh đề mới, tổng quát
được thêm vào, tất cả các mệnh đề không cần thiết để chứng minh các mẫu dương được loại bỏ khỏi định nghĩa
Trang 28Hình 1.10: Giải thuật gộp của CHILLIN
Hình 1.10 trình bày giải thuật gộp của CHILLIN Trong đó, giải thuật build_gen cố
gắng xây dựng một mệnh đề mà gộp thực nghiệm một số mệnh đề của DEF và không bao phủ bất cứ ví dụ âm nào Bước đầu tiên là xây dựng mệnh đề LGG của các mệnh đề đầu vào Nếu LGG không bao phủ bất cứ ví dụ âm nào thì không cần cải thiện thêm nữa Nếu mệnh đề là quá chung chung, nó sẽ được cải thiện tiếp sử dụng cơ chế giống như FOIL, tức là thêm các literal có thể suy luận từ cơ sở hoặc từ các vị từ đã tạo ra trước đó Nếu mệnh đề kết quả vẫn quá chung chung, nó được chuyển cho một thủ tục, thủ tục này sẽ tạo một vị từ mới để phân biệt các ví dụ dương với các ví dụ âm mà vẫn được bao phủ
1.2.5 PROGOL
PROGOL (Muggleton, 1995) kết hợp tìm kiếm trên-xuống và dưới-lên Giống như
FOIL và GOLEM, PROGOL sử dụng giải thuật dạng bao phủ Sử dụng kiểu khai báo cho cả các vị từ cơ sở và các vị từ được học, nó xây dựng một mệnh đề cụ thể hơn cho một ví dụ ngẫu nhiên nào đó Kiểu khai báo xác định cho mỗi tham số của
vị từ cả kiểu tham số và nó có thể là hằng số, giới hạn biến trước khi vị từ được gọi, hoặc giới hạn biến bởi vị từ Cho một mệnh đề cụ thể, PROGOL sử dụng giải thuật
tìm kiếm A* trên tập các mệnh đề gồm có k biến để tìm ra phép tổng quát hóa bền
vững nhất để thêm vào định nghĩa Ưu điểm của PROGOL là các ràng buộc trong
DEF := {E :- true | E ∈ Positives}
Repeat
PAIRS := một mẫu gồm các cặp mệnh đề từ DEF
GENS := {G | G = build_gen(Ci, Cj, DEF, Positives, Negatives)
với (Ci, Cj) ∈ PAIRS}
G := Clause in GENS yielding most compaction
DEF := (DEF – (các mệnh đề đã được gộp bởi G)) U G
Until không thể gộp hơn nữa
Trang 29giải thuật tìm kiếm khá hiệu quả, đặc biệt cho một số nhiệm vụ mà cách tiếp cận trên-xuống không hiệu quả Giải thuật tìm kiếm đảm bảo tìm thấy phép tổng quát
đơn giản nhất nếu mệnh đề đó tồn tại với không quá k biến Vấn đề với PROGOL là
nó cần cơ chế khai báo Nếu k quá nhỏ, PROGOL có thể không học được các mệnh
đề đúng, k quá lớn thì bùng nổ không gian bài toán
1.3 Các phương pháp học
Phần này giới thiệu phân loại các phương pháp học máy để học các luật trích rút thông tin
- Học có giám sát (Supervised learning): Máy tính được xem một số mẫu gồm đầu
vào (input) và đầu ra (output) tương ứng trước Sau khi học xong các mẫu này, máy tính quan sát một đầu vào mới và cho ra kết quả
Cùng với hệ thống RAPIER, các hệ thống trích rút thông tin khác như CRYSTAL, (LP)2, WHISK đều là các hệ thống học có giám sát Do việc tạo chú thích
(annotate) tốn rất nhiều thời gian, cho nên sẽ không khả thi nếu người dùng phải tạo
chú thích một số lượng lớn văn bản Tuy nhiên, dữ liệu không được chú thích khá
lớn Vì vậy các nhà nghiên cứu IE đã nghiên cứu các kỹ thuật học chủ động (Active
Learning) để tự động nhận biết các văn bản để người dùng tạo chú thích
- Học chủ động (Active learning):
Học chủ động nghiên cứu các phương pháp học để tham gia một cách tích cực vào việc tập tập hợp các ví dụ huấn luyện thay vì tin cậy vào “người dạy” hoặc lấy mẫu một cách ngẫu nhiên
Mục tiêu chính của học chủ động là giảm số lượng các ví dụ huấn luyện có giám sát cần thiết để đạt được một mức độ hiệu năng đề ra Các hệ thống học chủ động có thể xây dựng các ví dụ của riêng chúng, đòi hỏi các kiểu ví dụ nào đó, hoặc xác định những ví dụ nào trong tập các ví dụ không được chú thích là hữu ích nhất nếu đánh dấu
Trang 30Học chủ động hay lấy mẫu có lựa chọn sẽ được đề cập trong luận văn này Trong trường hợp này, việc học bắt đầu với một nhóm nhỏ các ví dụ đã chú thích và một nhóm lớn các ví dụ chưa được chú thích, và bộ học cố gắng để chọn các ví dụ thêm vào cung cấp nhiều thông tin nhất cho việc chú thích Các kết quả trên một số tác vụ học ngôn ngữ tự nhiên đã chỉ ra rằng dạng lấy mẫu có lựa chọn có hiệu quả trong việc giảm nhu cầu về các ví dụ cần tạo chú thích Có hai cách tiếp cận cơ bản để
thực hiện nhiệm vụ này: các phương pháp dựa trên độ chắc chắn (certainty-based)
và các phương pháp dựa trên hội đồng (committee-based)[4]
Trong mô hình dựa trên độ chắc chắn, một hệ thống được huấn luyện trên một số
lượng nhỏ các ví dụ đã tạo chú thích (annotated examples) để học bộ phân loại (classifier) ban đầu Tiếp theo, hệ thống kiểm tra các ví dụ không được chú thích (un-annotated examples), và gắn độ chắc chắn cho các ví dụ đó K ví dụ có độ chắc
chắn thấp nhất sẽ được đưa ra cho người dùng để tạo chú thích và cho huấn luyện
Mô hình học RAPIER sẽ khai thác mô hình này (trình bày chi tiết trong phần 2.3) Trong mô hình dựa trên hội đồng, một “hội đồng” đa dạng các bộ phân loại được tạo ra từ một số lượng nhỏ các ví dụ đã tạo chú thích Mỗi “thành viên hội đồng” cố gắng tạo chú thích cho các ví dụ thêm vào Các ví dụ mà kết quả tạo chú thích có nhiều bất đồng nhất giữa các “thành viên hội đồng” được đưa ra cho người dùng để tạo chú thích và cho huấn luyện
- Học không giám sát (Unsupervised learning): Máy tính chỉ được xem các mẫu
không có đầu ra, sau đó máy tính phải tự tìm cách phân loại các mẫu này và các mẫu mới
- Học bán giám sát (Semi-Supervised learning): Một dạng lai giữa hai nhóm có
giám sát và không giám sát nêu trên
1.4 Các nguồn lực xử lý ngôn ngữ tự nhiên
Phần này trình bày các bài toán, các nguồn lực về xử lý ngôn ngữ tự nhiên mà bài toán trích rút thông tin, cụ thể là mô hình RAPIER cần khai thác, sử dụng
Trang 311.4.1 Phân tách từ vựng (Word Segmentation)
Phân tách từ là cho một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị
từ vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (các tên riêng, ký hiệu, chữ viết tắt,…- phát hiện đơn vị từ vựng mới) Công việc này làm tiền đề cho việc mô hình hóa văn bản, là bài toán cơ bản nhất trong các bài toán xử lý ngôn ngữ
tự nhiên
Đối với các ngôn ngữ Latin giống như tiếng Anh và tiếng Pháp thì vấn đề này không phức tạp bằng các ngôn ngữ khác như tiếng Việt, tiếng Trung Quốc hay tiếng Nhật… do các từ của tiếng Anh hay tiếng Pháp được tách nhau bởi một hay nhiều dấu cách còn trong tiếng Việt, Trung Quốc, Nhật… thì giữa các dấu cách không phải là từ mà là tiếng (chữ) - một đơn vị nhỏ hơn từ
Ví dụ: Xét câu tiếng Anh sau :
We learn English
Dựa vào dấu cách chúng ta có thể phân tách được các từ dễ dàng :
We| learn| English
Tuy nhiên ta xem câu tiếng Việt tương ứng :
Chúng tôi học tiếng Anh
Rõ ràng chúng ta không thể dùng dấu cách để phân tách từ cho câu này Kết quả phân tách thuật ngữ đúng phải là như sau:
Chúng tôi| học| tiếng Anh
Chính vì sự khác biệt nói trên mà khi áp dụng mô hình RAPIER vào tiếng Việt, cần
có bước tách từ mới so khớp chính xác được Vấn đề này sẽ được người viết đề cập chi tiết ở Chương 3
Ở Việt Nam, đã có một số kết quả nghiên cứu nhất định về bài toán tách từ tiếng Việt, trong đó có hướng tiếp cận sử dụng giải thuật di truyền[7]; hướng tiếp cận dựa
trên CRFs và SVMs[16]; hướng tiếp cận lai (Hybrid)[12] Bảng 1.1 thể hiện kết quả
Trang 32so sánh một số công cụ tách từ tiếng Việt[14] Trong đó, bộ tách từ vnTokenizer
được lựa chọn sử dụng trong nghiên cứu này
vnTokenizer 93.68% 94.42% 94.05%
JVnSegmenter (original) 85.22% 81.40% 83.27%
JVnSegmenter (re-trained) 95.03% 93.82% 94.42%
Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt
1.4.2 Gán nhãn từ loại (Part-of-speech tagger)
Bài toán gán nhãn từ loại là thực hiện công việc phân loại các từ thành các lớp từ
loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với một hình thái
và một vai trò ngữ pháp nhất định Các bộ chú thích từ loại có thể thay đổi tuỳ theo
quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng
dụng cụ thể Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và
việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại
hay không
Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ
loại thì nó làm tiền đề cho nhiều bài toán trong xử lý ngôn ngữ tự nhiên như: phân
tích cú pháp, nhận diện danh ngữ, chuyển đổi cú pháp, xem xét ngữ nghĩa và được
ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin thông minh, hệ thống trích
rút thông tin, trong các hệ thống dịch máy…
Gán nhãn từ loại (POS tagger) cung cấp thông tin cơ bản về cú pháp bằng cách ghi
nhãn cho mỗi từ hoặc mỗi ký hiệu trong câu với các các nhãn từ loại (danh từ, động
từ, tính từ, giới từ…) Công việc này không cung cấp nhiều thông tin như bộ phân
tích cú pháp, vì nó không nhận biết các mệnh đề hay các mối liên hệ giữa các phần
của câu Tuy nhiên, bộ gán nhãn có đặc thù là nhanh và linh hoạt hơn các bộ phân
tích cú pháp, đặc biệt là khi đối mặt với các văn bản không đúng ngữ pháp cũng như
Trang 33thường được thấy trong các bài viết thảo luận nhóm, các thông điệp thư điện tử, và phạm vi ít hơn như trong các bài viết dạng cung cấp tin nhanh trên Internet
Trên thế giới hiện nay đã xuất hiện rất nhiều các mô hình xử lý cho bài toán gán nhãn từ loại và các mô hình này ngày cành được phát triển hoàn thiện qua việc áp dụng các giải thuật tiên tiến vào bài toán gán nhãn từ loại cũng đã làm cho bài toán này có độ chính xác tăng lên đáng kể so với thời gian đầu Các giải thuật được áp dụng vào lĩnh vực này mang lại kết quả khả quan có thể kể đến các giải thuật: mô
hình Entropy cực đại (Maximum Entropy), Transformation-Based Learning (TBL), N-Gram, Mô hình Markov ẩn (Hidden Markov Model - HMM), Mạng Neural…
Trong đó các phương pháp áp dụng mô hình Markov ẩn được sử dụng nhiều nhất
Các phương pháp như Bigram, Trigram hay Văn phạm phi ngữ cảnh (Context Free
Grammar - CFG) đều thuộc loại này Hiện nay một bộ gán nhãn từ loại (POS Tagger) chính xác nhất đạt được 98% từ gán nhãn đúng [8]
Bộ gán nhãn được sử dụng trong nghiên cứu RAPIER với tiếng Anh là của tác giả
Eric Brill được huấn luyện trên ngữ liệu Wall Street Journal (Brill, 1994, 1995) Bộ
này sử dụng 36 nhãn khác nhau loại trừ các dấu câu, cho nên phân biệt khá rõ ràng các trường hợp: chẳng hạn, nhận biết được sáu dạng động từ khác nhau cộng với các động từ tình thái; phân biệt các từ hạn định dạng wh-, đại từ, đại từ sở hữu và trạng từ với các từ hạn định, đại từ và trạng từ khác; phân biệt giới từ “to” với các các giới từ khác Bộ gán nhãn này cũng đạt độ chính xác khá cao trên lĩnh vực mà
nó được huấn luyện, đạt 96.6% trên ngữ liệu Penn Treebank Wall Street Journal
(Brill, 1995) Tất nhiên, độ chính xác sẽ thấp hơn khi áp dụng trên lĩnh vực khác,
nhưng nó có lợi thế là có thể huấn luyện thêm được
Riêng đối với các văn bản tiếng Việt, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất và để cho công việc gán nhãn được thực hiện một cách có nền tảng khoa học và khách quan nhất thì trong mô
Trang 34hình bài toán gán nhãn từ loại cho văn bản tiếng Việt không thể không đề cập tới các đặc trưng của tiếng Việt
Một số bộ gán nhãn từ loại tiếng Việt được công bố gần đây bao gồm Công cụ VnQTag của nhóm Nguyễn Thị Minh Huyền[8]; JVnTagger: Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy[6]; bộ vnTagger của tác giả Lê Hồng Phương[11]
1.4.3 Từ điển từ vựng (Lexicon)
Các bộ từ vựng, đặc biệt là bộ từ vựng với hệ thống phân cấp ngữ nghĩa, có thể cung cấp thông tin lớp ngữ nghĩa Trong mô hình RAPIER bộ từ vựng không phụ
thuộc lĩnh vực được sử dụng là WordNet (Miller, Beckwith, Fellbaum, Gross, &
Miller, 1993; Fellbaum, 1998), một cơ sở dữ liệu từ vựng do Đại học Princeton phát
triển WordNet đã tạo ra một tập hợp từ vựng đồ sộ, theo đó các từ được sắp xếp trong dãy của những tập hợp đồng nghĩa, giúp cho việc xác định nghĩa của từ và để phân biệt được nghĩa đang xét với các nghĩa khác Nguyên lí tổ chức chung của WordNet là mạng lưới quan hệ ngữ nghĩa Đó là quan hệ đồng nghĩa
(synonym): dog – domestic dog; quan hệ trái nghĩa (antonym): rich – poor; quan hệ cấp bậc (hyponym): maple – tree, parent – father; quan hệ bộ phận và toàn thể (meronym): body – limb; quan hệ kéo theo (entailment): snore – sleep (cho động
Ví dụ, trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:
i) Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương ứng là
“lá thư”, “thư tín”
Trang 35ii) Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic character
với nghĩa tiếng Việt tương ứng “ký tự”, “chữ” hay “chữ cái”
iii) Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,
“nghĩa mặt chữ”
iv) Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương ứng là
“huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể thao đặc biệt ở trường
Các loại quan hệ trong WordNet:
Trong WordNet các từ được sắp xếp vào thành các tập đồng nghĩa Và giữa các tập đồng nghĩa này có thể mang các mối quan hệ ngữ nghĩa với nhau Các quan hệ chính được xây dựng bên trong WordNet bao gồm:
- Quan hệ đồng nghĩa (synonym): Các tập đồng nghĩa được gọi là có quan hệ
đồng nghĩa với nhau khi chúng có thể thay thế cho nhau trong một số ngữ
cảnh nào đó Vì thế WordNet đã được chia thành nhóm danh từ (noun), động
từ (verb), tính từ (adjective), và trạng từ (adverb) Và những mối quan hệ
đồng nghĩa chỉ tồn tại giữa các tập đồng nghĩa ở cùng dạng từ loại Điều này cũng thật dễ hiểu, bởi vì các danh từ sẽ diễn tả những khái niệm thuộc về danh từ, động từ thì diễn tả những khái niệm chỉ hành động, còn tính từ và trạng từ thì giúp ta có thể diễn tả mức độ của những khái niệm trên
- Quan hệ trái nghĩa (antonym): Một từ trái nghĩa của từ x thông thường sẽ là
not-x, nhưng không phải lúc nào cũng đúng như vậy Chẳng hạn, ta có từ rich (giàu) và poor (nghèo) là hai từ trái nghĩa, nhưng ta không thể nói rằng một người không giàu là một người nghèo Quan hệ trái nghĩa là một quan hệ giữa các từ với nhau chứ không phải là quan hệ giữa các nghĩa của từ với nhau
- Quan hệ cấp bậc (hyponym): Ngược với quan hệ đồng nghĩa và trái nghĩa là
các quan hệ giữa các từ với nhau, quan hệ cấp bậc là quan hệ giữa các nghĩa
của từ Có thể hiểu hyponym/hypernym (nghĩa con/nghĩa cha) là một loại
Trang 36quan hệ theo kiểu IS_A (là một) Một ý niệm tương ứng với synset {x, x, }
được gọi là một hyponym của ý niệm tương ứng với synset {y, y, } khi chúng ta có thể nói x là một (một dạng của) y - an x is (a kind of) y Một
nghĩa con nghĩa con (hyponym) kế thừa tất cả những tính chất của nghĩa cha
đồng thời bổ sung thêm những thuộc tính mới phân biệt với những nghĩa con khác
- Quan hệ bộ phận và toàn thể (meronym): Một loại quan hệ ngữ nghĩa khác được định nghĩa trong WordNet đó là quan hệ bộ phận và toàn thể (part-
whole relation) còn gọi là meronym/holonym Một ý niệm tương ứng với
synset {x, x, } được gọi là một meronym của ý niệm tương ứng với synset
{y, y, } khi chúng ta có thể nói “một y có một x” (a y has an x) hoặc “một
x là một phần của y” (an x is a part of a y)
Có thể nói WordNet là một từ điển ngữ nghĩa hoàn chỉnh nhất hiện nay Hệ thống WordNet biểu diễn đầy đủ các quan hệ ngữ nghĩa, đã được xây dựng rất tốt cho tiếng Anh, là cơ sở để xây dựng WordNet tiếng Việt Tuy nhiên, cho đến nay vẫn chưa có một công trình nghiên cứu nào hoàn thiện được công bố về việc xây dựng WordNet tiếng Việt để có thể đưa vào sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên
Để có một WordNet tiếng Việt để đưa vào mô hình trích rút thông tin trong nghiên cứu này, người viết tự xây dựng một mô hình đơn giản dựa trên cây phân cấp ngữ
nghĩa của Trung tâm từ điển học (Vietlex) và một từ điển tiếng Việt được cung cấp
từ nghiên cứu [10]
1.4.4 Nhận dạng thực thể có tên (Named-Entity Recognition)
Nhận dạng thực thể có tên (Named-Entity Recognition – NER) nhằm mục đích phân
loại các từ trong một văn bản vào các lớp thực thể được định nghĩa trước như con người, tổ chức, địa danh, biểu thức số học, ngày tháng, tiền tệ… Hiện tại, đây được
Trang 37coi là công việc cơ bản cho nhiều tác vụ xử lý ngôn ngữ tự nhiên như thu thập thông tin, dịch máy, trích rút thông tin và hỏi đáp tự động
Trong lĩnh vực tiếng Việt, gần đây đã có một số công trình nghiên cứu nhằm giải quyết bài toán nhận dạng thực thể có tên Các hướng tiếp cận chính bao gồm sử
dụng mô hình Support Vector Machine[13], mô hình Conditional Random
Fields[15], mô hình Markov ẩn[9], và sử dụng văn phạm JAPE trong GATE[5]
Tuy nhiên, đến nay cũng chưa có một công cụ hoàn thiện nào được công bố
Việc đưa chức năng nhận dạng thực thể có tên vào khâu tiền xử lý trong mô hình RAPIER sẽ làm cho tập luật có mức khái quát cao hơn, bao phủ tốt hơn Do chưa thể sử dụng lại các kết quả nghiên cứu (chưa có công cụ hoàn chỉnh) về bài toán NER và thời gian nghiên cứu có hạn nên việc tích hợp mô đun NER chỉ mang tính giả định để đánh giá thực nghiệm, cụ thể là tác giả sẽ thực hiên công đoạn nhận dạng thực thể có tên bằng tay Điều này sẽ được đề cập chi tiết ở Chương 3
1.5 Kết chương
Trong chương này, tác giả đã trình bày về bài toán trích rút thông tin và các bài toán liên quan, về kỹ thuật học quan hệ dựa trên ký hiệu và về các nguồn lực xử lý ngôn ngữ tự nhiên Trong phần giới thiệu kỹ thuật học quan hệ dựa trên ký hiệu, người viết đã nêu ra các lợi thế của kỹ thuật này, các vấn đề về thiết kế giải thuật tổng thể trong hệ thống học luật, đồng thời giới thiệu một số mô hình học kiểu ILP mà mô hình RAPIER đề cập trong nghiên cứu này đã khai thác Trong phần các nguồn lực
xử lý ngôn ngữ tự nhiên, người viết đề cập tới các bài toán, các công cụ và các nguồn lực về xử lý ngôn ngữ tự nhiên cần có với mô hình RAPIER Qua đó cho thấy việc áp dụng bài toán trích rút thông tin vào lĩnh vực tiếng Việt gặp rất nhiều khó khăn do đặc thù tiếng Việt và do điều kiện cơ sở cho nghiên cứu còn rất hạn chế, đặc biệt là về từ điển ngữ nghĩa
Trong chương sau, tác giả sẽ đi vào một vấn đề nghiên cứu chính được đặt ra trong
đề tài Đó là kỹ thuật học mối quan hệ dựa trên so khớp mẫu – mô hình RAPIER
Trang 38CHƯƠNG 2 HƯỚNG TIẾP CẬN RAPIER CHO BÀI TOÁN TRÍCH RÚT
THÔNG TIN
NỘI DUNG:
2.1 Biểu diễn luật 2.2 Giải thuật học 2.2.1 Các lựa chọn thiết kế giải thuật 2.2.2 Tổng quan về giải thuật
2.2.3 Xây dựng tập luật khởi đầu 2.2.4 Cô đọng tập luật
2.2.5 Tiêu chuẩn đánh giá luật 2.2.6 Tính toán mẫu khái quát hóa của hai mẫu 2.2.7 Pha chuyên biệt hóa
2.3 Áp dụng phương pháp học tích cực với RAPIER
2.4 Kết chương
Trang 39RAPIER học các luật trích rút thông tin từ các ví dụ huấn luyện bao gồm các văn bản ghép cặp với các mẫu đã điền kết quả Chương này sẽ trình bày về cách biểu diễn luật và giải thuật học của RAPIER[2]
2.1 Biểu diễn luật
Cách biểu diễn luật của RAPIER sử dụng mẫu (pattern) giống như mẫu Eliza (Weizenbaum, 1966) có thể tạo ra các thông tin ràng buộc về cú pháp và ngữ nghĩa Các luật được đánh chỉ số bởi tên khuôn mẫu (template name) tên trường thông tin (slot name) và bao gồm ba phần: 1) một mẫu pre-filler để so khớp đoạn văn bản ngay trước thông tin trích rút (mẫu filler), 2) một mẫu khớp thông tin cần trích rút của trường và 3) một mẫu post-filler để so khớp với đoạn văn bản ngay sau thông tin trích rút Mỗi mẫu là một chuỗi (có thể độ dài 0 trong trường hợp các mẫu pre-
filler và post-filler) các phần tử mẫu (element) Có hai kiểu phần từ được sử dụng:
dạng mục (pattern items) và dạng danh sách (pattern lists) Một mẫu dạng item so khớp chính xác một từ (word) hay một ký hiệu (symbol) từ văn bản thỏa các ràng buộc của item Một mẫu dạng danh sách định rõ độ dài tối đa N và so khớp 0 đến N
từ hoặc ký hiệu từ văn bản, mỗi từ hoặc ký hiệu đó phải thỏa các ràng buộc của danh sách RAPIER sử dụng ba dạng ràng buộc trên các phần tử mẫu: các ràng buộc
về các từ mà phần tử có thể so khớp, về các nhãn từ loại (POS tag) được gán cho các từ mà phần tử có thể so khớp và ràng buộc về lớp ngữ nghĩa (semantic class)
của các từ mà phần tử có thể so khớp Các ràng buộc này là các danh sách tách rời của một hay nhiều từ, nhãn từ loại hay lớp ngữ nghĩa và các mục của văn bản phải
so khớp một trong số các từ, nhãn, hay lớp đó để đáp ứng ràng buộc
Hình 2.1 trình bày một ví dụ về một luật mà cho thấy các dạng khác nhau của các phần tử mẫu và các ràng buộc Luật này được xây dựng bởi RAPIER để trích rút sản lượng giao dịch của một dịch vụ cung cấp tin liên quan tới một vụ mua lại công
ty Luật này sẽ trích rút giá trị “undisclosed” từ các câu như là “sold to the bank for
an undisclosed ammount” hoặc “paid Honeywell an undisclosed price” Trong luật
Trang 40này, mẫu pre-filler bao gồm hai phần tử mẫu Phần tử thứ nhất là một mục với ràng buộc về từ loại là danh từ (noun-nn) hoặc danh từ riêng (proper noun-nnp) Phần tử thứ hai là một danh sách độ dài tối đa là 2 và không có ràng buộc nào Mẫu filler là một mục đơn với ràng buộc về từ là từ “undisclosed”, ràng buộc về từ loại là một tính từ (adjective-jj) Mẫu post-filler cũng là một mục đơn với ràng buộc về lớp ngữ nghĩa là “price"
Trong việc sử dụng những mẫu này để trích rút thông tin, RAPIER áp dụng tất cả các luật cho một trường thông tin đã định sẵn cho một văn bản và đưa ra tất cả các
chuỗi trích rút được gọi là thông tin cần trích rút của trường (slot-filler), được loại
trừ trùng lắp Các luật cũng có thể được áp dụng nhiều lần Trong nhiều trường hợp, mỗi trường có thể có nhiều thông tin cần trích rút, nhưng hệ thống chỉ đưa ra một
thông tin điền (filler) đối với các trường mà ở đó chỉ yêu cầu một thông tin điền
Post-filler Pattern:
1) semantic: price
Hình 2.1: Ví dụ về các mẫu và các ràng buộc trong 1 luật
2.2 Giải thuật học
2.2.1 Các lựa chọn thiết kế giải thuật
Như đã nêu ở phần mở đầu, RAPIER được phỏng theo các phương pháp ILP, cụ thể
là GOLEM, CHILLIN và PROGOL Nó dựa trên việc nén (cô đọng lại) tập luật và
chủ yếu gồm có phép tìm kiếm từ cụ thể đến khái quát (dưới-lên) Việc lựa chọn
cách tiếp cận dưới-lên có hai lý do Lý do thứ nhất là hệ số rẽ nhánh về không gian tìm kiếm là rất lớn, đặc biệt là để tìm các ràng buộc về từ và ngữ nghĩa Các hệ thống học hoạt động về ngôn ngữ tự nhiên thường phải có cơ chế nào đó để xử lý việc tìm kiếm bị áp đặt bởi kho từ vựng lớn với số lượng đáng kể văn bản (hoặc câu) Nhiều hệ thống giải quyết vấn đề này bằng cách áp đặt các giới hạn đối với