Lợi thế của các hệ thông học máy không giám sắt là không đòi hỏi dữ liệu huấn luyện, nhưng thường cho một hiệu năng trích rút không cao, không đáp ứng được các yêu cầu vẻ độ chính xác c
Trang 1
SAM CHANRATHANY
TRICH RUT THUC THE CO TEN VA QUAN HE
THUC THE TRONG VAN BAN TIENG VIET
LUAN AN TIEN SI CONG NGHE THONG TIN
Ha Nội - 2012
Trang 2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRUONG DAI HOC BACH KHOA HA NOI
SAM CHANRATHANY
TRICH RUT THUC THE CO TEN VA QUAN HE
THU THE TRONG VAN BAN TIENG VIET
Chuyên ngành: Hệ thống Thông tin
LUAN AN TIEN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC
1 GS.TS Nguyễn Thanh Thủy
2 PGS.TS Lê Thanh Hương
HA NỘI - 2012
Trang 3
I.uận án được hoản thành tại trường Đại học Bách khoa Hà Nội Để hoàn thành
luận án nảy, tắc giả đã nhận được sự chỉ bảo tận tỉnh, củng những yêu cầu nghiêm
khắc của G8 T8 Nguyễn Thanh Thủy, PGS.TS Lê Thanh Hương Thầy, Cô đã
truyền đạt rất nhiều kiến thức quí báu cũng như những kinh nghiêm nghiên cứu
khoa học trong suốt thời gian tác giả làm nghiên cứu sinh Lời đầu Liên, Lác giả xin
bảy tỏ lòng kính trọng vả biết ơn sâu sắc tới Thầy và Cô
Tác giả xin chân thành gửi lời biết ơn đến: Ban lãnh đạo Viện Công nghệ
thông tin và Truyền thông, Bộ môn Hệ thống Thông tím, Viện Đảo tao Sau dai hoc,
'Irung tâm 'Tính toán Hiệu năng cao, thuộc trường Đại học Bách khoa Hà Nội đã
tạo điều kiện thuận lợi trong quá trình học tập, nghiền cứu và hoàn thành luận án
‘Tac giả cảm ơn các Thầy giáo, Cô giáo ở Hộ môn Hệ thống Thông tin- Viễn
Công nghệ Thông tin và Truyền thông, trường Dại học Bách khoa Hà Nội đã động
viên vá trao đổi kinh nghiệm để tác giá có thể hoàn thiện luận én
“Tác giả cảm ơn 18 Nguyễn Hữu Dức và các cán bộ các anh chị em ở Irung
tâm Tính toán IIiệu năng cao, đã tạo điều kiện, nhiệt tình giúp đỡ vả trao đổi học
hỏi trong quá trình làm luận án
Sự quan tâm, mong mỗi của mọi thành viễn trong gia đình là một trong động
cơ dễ tác giả nỗ lực học tập, nghiên cửu Luận án nảy như một món qua tinh than,
xin đáp lại những niềm quan tâm, mong mỏi đó
Cuối cùng, tác giả xin bày tỏ lòng biết ơn tới những người thân và bạn bè đã
ưu ái, piúp đỡ, đông viên, khích lê để tác giã hoàn thành luận án này
Trang 4LOI CAM DOAN
Tôi xin cam đoan đây là công trình nghiên cửu của riêng tôi Các kết quả được viết
chung với các tác giả khác đều dược sự déng ý của dồng tác piả trước khi dưa vào
luận án Các kết quả trong luận án là trung thực và chưa từng được công bố trong
bắt kỳ công trình nào khác
Táo giả luận án
Sam Chanrathany
Trang 51.22 Phạm vinghiên cửu ¬— ÔỎ 6 1.3 Đồng góp chính của luận án - - - 7
1.4 Câu trúc của luận án chọn HH HH0 Ha gu 8
1.5 Các thuật ngữ được sử dụng trong luận ản nhu ren 8
CHƯƠNG 2 CÁC NGHIÊN CỨU LIEN QUAN .cccccccccssssesssescssnsessunsereeiensesne LO
2.1 Bài toàn trích rút thông tin sành HH1 1e 10 2.2 Bài toán trích rút thục thể - - woe 12 2.2.1 Ởác đặc trung duge si dung trong bai toan NER wee 1B 2.2.2 Tình hinh nghiên cửu ngoài nước về bái toán XE sứ dụng hoe may 14 23.3 Tình hình nghiên cửu trong nước về bài toán NER 17 2.3 Bài toán trích rút mỏi quan hệ giữa các thực thé (RE)
2.3.1 Các đặc trưng được sứ dụng trong bài toàn RỊ ìàccecceee 18
2.3.2 Tỉnh hỉnh nghiên cứu ngoài nước về bài toán RE - 19
2.3.3 Tình hình nghiên cửu trong nước về bài toán RE ccsoeenriec 23
Trang 6Một số phương pháp học bán giảm sát kháo
Cúc phương pháp đánh giả kết quả trích rút
Cách đánh giá dựa trên độ trừng khớp TH HH Hước
Cách đánh giá của MUC
Mô hình trường ngẫu nhiên có điêu kiện
Khai riệm mô hình trường ngẫu nhiên có điều kiện CRE
Huan luyén CRF
Gan whan cho dit ligu dang chudi
Mô hình máy vectơ hỗ trợ "
Môi số đặc điểm tiếng Việt ảnh hưởng đến việc trích rút thực thé
'Trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện
Mô bình học bán giảm sát đựa trên kết hợp luật đảng tham chiều về tên
với CRE
Mồ hình học bán giảm sát sử dụng CRF theo dạng Hapging
Trich rút thực thể sử đụng phương pháp lan truyền nhấn
Phương pháp đo mức độ tương đồng giữa các từ
Trang 7
5.2 Tríchrút môi quan hệ dựa trên máy vectơ hỗ trợ SVM 8 5.21 Mô hình học có giám sát dụa trên phương pháp ngôn tre? mức nông TÔ 5.2.2 Mô hình học bản giám sát đựa trên phương pháp ngôn ngữ mức nông
theo kidu Bagging Bootstrapping
CHƯƠNG 6 KÉT LUẬN VÀ THƯỚNG PHÁT TRƯN 86
G1 Các kết quả dạt đượt àà uc cà nàn nen eceeeereveeu SỐ
6.11 Kết quả về thuật giải co co cọ nen cọ c8,
6.2 Hướng phát triển
TAI LIEU THAM KHẢO
CAC CONG TRINH KHOA HOC CUA TAC GIA
Trang 8DANH MUC CHU VIET TAT
Antomalic Context Extraction
Begin Inside Outside Conditional Random Fields Computational Natural Language Leaming Expovlalion Maximnization
Global Context Keel Hidden Markov Model Information léxtraction Java Simple Relation ixtraction Maximum Fritropy Markov Model Noun Pluase
Local Context Kemel Latent Direchlet Alocattion Message Understanding Conference
Named Entity Regeonilion
Trang 9SVM
Shallow Linguistic Kernel Support Vector Machine
Trang 10Rang so sánh nhân của hệ thông so với nhần được gân bằng tay,
kèm: theo mô tả lỗi tương ứng, - 27
Nhóm luật nhận dạng thực thê (Nhóm luật 2 , - 4?
Kat quả thực nghiệm của hệ thông ER sử đựng phương pháp học bản giảm sát HH Hư khan 63
So sánh kết qnả lần lặp Thứ 9 của 3 phương pháp nói trên 63
So sánh kết quả trích rút thực thế ŒE.F cỏ giảm sắt với lan truyền nhãn 64
So sánh hệ thông R1 có giám sát các hàm nhân ngữ cảnh tổng hợp 82
So sánh kết quả hệ thẳng bán giám sát với hệ thông có giám sát 82
So sánh kết quả khi chưa chuẩn hoá và sau khi chuẩn hod mea ten 83
So sánh kết quả phương pháp so tring thuộc tính từ với LDA 83
So sanh 46 do F cña ba phương pháp lan truyền nhân sứ dụng so trùng thuộc tỉnh tử,
Trang 11Tinh 1.1 Phạm vi nghiên cứu của luận án - - 6 Hình 2.1 Các thao tác chỉnh của bài toán trích rút thông tỉn LÏ
Hình 2.2 Dỗ thị phụ thuộc của ví dụ 2.4 - - - 19
Hình 3.1 Đỗ thị vô hướng mô tả CRF - 30
Hinh 3.2 Siêu phẳng phân chia tập mẫu huấn luyện
TTình 3.4 Hiễu điển trực quan của phương pháp Bootstrapping 48
Trang 12CHƯƠNG 1
MỞ ĐẦU
1.1 Dộng cơ nghiên cứu của luận án
tiện nay, với sự phát triển của hemet và việc kết nổi băng (hơng rộng, khả năng tiếp cận
thơng qua máy tỉnh được kết nỗi Internet với khối lượng lớn các kho dữ liệu văn bản khấp
nơi trên thể giới la rất lớn 'Tuy nhiên, chính khối lượng dữ liệu quá lớn cĩ thể làm người
dùng bị “chìm ngập” trong thơng tin hoặc mốt quá nhiều thời gian để cĩ được thơng lim
mơng muơn Vấn đề này được quan tâm giới quyết trong các hệ thơng trịch rút thơng tin
(Information I:xtraclion — IE) theo miễn ứng dựng nhằm trích rút thơng tĩn tử các đữ liệu
phí cầu trúo hoặc bản cấu trúc, chuyển thành đữ liệu cĩ câu trúc Trên cơ số đĩ, ta cỏ (hŠ thực hiện các truy vẫn đa đạng và phức tạp hơn với việc tìm kiểm theo từ khĩa đơn thuần hiện cĩ, hoặc xây dụng các ứng dụng như khai phá dữ liêu, hỏi đáp, rạng ngữ ngiữa,
Van để trích rút thơng tin đang được quan tâm nghiên cứu nhiễu trên thể giới Mặc địi vậy,
các kết quả đạt được vẫn cịn hạn chế Các bài tốn được đặt ra trong trích rút thơng tin từ
dữ liệu văn bản là: trích rút thục thể cĩ tên, trích rút cáo thuộc tính của thực thể, trích rút
thơng tin vé thé gian và trích rúi thơng tím về mơi quan hệ giữa các thực thế Trong [hực
tế, các hệ thơng trích rút thơng tia thường được cài đặt cho một ứng dung cụ thế Các ứng,
dung khác nhau sẽ được giải quyết ở các khía cạnh và mức độ khác nhau Phần lớn các hệ
thẳng trieh rút thơng tín hiện ray chả trìch rút được các thơng tin theo một khuơn đựng nhật định, như thời gian (đd⁄mm/yy), mỡ vùng, mmä nước, v.v Cĩ rất nhiều dạng thực thể và thuộc tỉnh mà các hệ thơng IE chưa khai thác được
Quá trình trích rút thơng tin bao gồm các bước chính la: (1) Hiển xử
nhận đạng thực thể (3) phân tỉch đồng tham chiếu (4) trích rứt mỗi quan hệ giữa các thực thể và (5) xuất ra theo khuơn dạng định nghĩa trước (cĩ thể là cơ sở đữ liệu hoặc ontolog)
Tiên xử lý là bước nhân tách cân, phân tách từ, gản nhấn từ loại cho văn bản hộc tập
văn bản (2)
văn bản đâu vào Thực thể được quau tâm ở đây là những đổi tượng được tham chiêu qua
tên gọt như đên người, tên tễ chức, lên cịa diễm, hoặc các đổi tượng khác dược tham chiếu
theo tên riêng [21] Khái niệm thực thể cĩ thể mỏ rơng, kẻm theo cả thời gian và số lượng
Trang 13Nhiệm vụ của công việc nhận dang thực thể là định vi và phân lớp cáo tử và cụm từ
Thuộc kiển đên người là ":Kiên” và thuộc kiểu đên tổ chúc là “trường ĐHRKHN” Trong câu
Trích rúi mỗi quan hệ giữa các thục thê có lên là việ
này lồn tại mit quan hé lam viện cho (ïên người — tên sổ chức) giữa thực tứ này,
Bai toán trích rút mỗi quan hệ giữa các thục thể khác vỏi bai toán tích rút thực thể ở chỗ trích rút thực thé Ia bai toan quan tâm đến các chuỗi tủ, tức là tim và phân lớp chuỗi fir hoặc, nói cách khác, gán nhăn cho các chuỗi từ, trong khi đó bài toán trích rút mỗt quan hệ giữa các thực thể lại Không gắn nhấn cho đấy từ, mã quan tôm đến xác định mỗi quan hệ giữa các thực thé
Trong hơn một thập niên qua đã có nhiều nghiên cứn vẻ trích rút thực thể [
38] và kích rút mỗi quan hệ giữa các thực thể [15, 16, 86, 101, 102] Phản lớn cäc nghiên
cứu được chia thành hai hưởng: đó là tiếp cân dựa trên học luật tủ công và tiếp cân học
máy Chẳng lưm, đối với bài toán Irich rút thực thể, đứ liệu đầu vào (văn bản thông thường hoặc hoặc văn bản trên trang web) được tách thành các từ hoặc cụm từ, sau đó dựa vào cáo dâu hiệu dc biệt
có thể được xây dựng một cách thủ công hoặo một cách tự động dựa trên cáo kỹ thuật học
ễ xác định cáo từ hay cụm tử lả thực thé Các dâu hiệu xác định thực thể
may ¥ dựng luật xá định giá trị thuộc lính của thực thể một cách thủ oông dụa
trên các đặc điểm của thực thể cần trích rút Ví đụ, một địa chí ở trong tiếng Việt thường,
chứa các xâu ký tự như piổ, đường, ngách, hẻm, Vì vây, các từ khóa này có thể sử dụng,
để xác định thông tin vẻ địa chỉ
Do ludt được xây dựng đựa trên việc quan sắt đữ liệu nân thưởng có độ chỉnh xác
cao Tưy nhiên, cách tiếp cận này không xử lý được các trường hợp chưa được nhắc đến
trong tập luật ITơn nữa, với các trường dữ liệu không có khuôn đạng nhật định như lĩnh
vực nghiên cứu thi cách tiếp cận này không khả thí Ở Việt Nam đã cỏ một số công ty xây
dưng hệ thống trích rút thông tin theo cách tiếp cận này Dữ liệu sau khi trích rút được hưu
trong CSDLL và giao điện người đừng Tà giao điện truy vẫn CSDT, thông thưởng,
Trong Khí đó, các kĩ thuật học máy thường sử dụng một tập các dữ liệu đã được gản nhãn cho trước để xây dựng nên một mỏ hình phue vụ cho mục đích của bài toán (học có
Trang 14giảm sảU Đây là cách tiếp cận tự động, cho phép học những luật, xuất hiện trong đữ liệu
tuần tuyện, nhưng khó có thể phát hiện được bằng quan sát thủ công của con người Bạn dâu khi đữ liêu mẫu dùng dễ học còn it, cách tiếp cận này có thể cho kết quả không chính xác như cách tiếp cân dựa trên tập luật được xây dụng thủ công Tuy nhiên, khi đữ liệu học
nhiễn, độ chính xác của hệ thông sẽ lăng Ngoài ra, hệ thông còn cho phép xử lý được các
loại dữ liên không eó khuôn dạng nhất định
Một thách thức lớn trong thực tế áp dụng tiếp cận học máy là đời hỏi tập dữ liều
được gắn nhần (khi đồ tà nội học máy có giám sát) có kích cố cực lớn, phục vụ cho việc Tuần luyện mô hình trích rút Đã có được tập đữ liện huấn luyện lớn, chúng ta thưởng phải
at do
đâu tư nhiền thời gian và công sức Dây là điểm thật sư đáng lưu ý đối với tiéng
thiểu cáo trí thức chuyên sầu và các tập đữ liệu huấn luyện cờ lớn Bên cạnh tiển cận thủ
công và tiếp al đã nêu trên, những năm gân đây bắt đầu xuất hiện
m học máy gó
một số hệ thống sứ đụng cách tiếp cân học máy không giảm sát nhằm giải quyết bái toán
trích rút thực thể và quan hệ giữa các thực thể Lợi thế của các hệ thông học máy không
giám sắt là không đòi hỏi dữ liệu huấn luyện, nhưng thường cho một hiệu năng trích rút
không cao, không đáp ứng được các yêu cầu vẻ độ chính xác cần thiết
Những hạn chế của các cách Hiếp cận đã đuợc để cập ở trên gợi ý cho ta ý lưởng lựa
chọn một giải pháp mềm dẻo hơn cho bài toán trích rút thông tỉn đỏ là sử dụng phương pháp học máy bán giám sắt, chí đỏi hỏi một tập nhỏ dữ liệu huân Tuyện đế định hưởng cho quá trình trích rút, đẳng thời tân dụng các trí thúc chuyên sầu sẵn có để khai thắc dữ liệu bản huu luyện với các văn bản đầu vào chưa gán nhấn nhằm nông cao liệu năng trích ri
thực thể và các mỗi quan hệ giữa chủng cúa hệ thông
Đối với hướng tiếp cận học mày, nhiều kỹ thuật đã được áp dựng cho bài toán trích
rút thông tin như mô hình trường ngẫu nhiêu có điều kiện (Condiional Random Ficlds — CRF) |58, 63], máy vecto hé tro (Support Vector Machine SVM) |89, 92], mô hình markov fn (Ilidden Markov Model -IIMM) [62], mô hình markov enropy cực đại
(Maximum Entropy Markov Model- MEMM) [13], v.v Ban chat cia trich rit thse thé
1ả găn nhãn các tử, cụm tử trong văn bãn với loại thực thể tương ứng (như đên ngiedi, #8 16 chức) Vì vậy, có thể coi bài toán trích rút thực thé là bài toán phân lớp dữ liệu, tức là phân lớp mỗi từ thành kiểu thực thễ mà nó thuộc vào SVM là phương pháp phân lớp dữ liệu,
nên được coi là một giải pháp cho bai toan nay Van dé khó khăn là việc gản nhãn kiểu
thực thế cho một từ phụ thuộc vào nhãn của các từ xung quanh nó Ví đụ, từ "phá đriễn"
Trang 15SVM là không giải quyết được vấn để phụ thuộc nhãn giữa các tử Vì vị
Tô hình khác có thể giải quyết được vẫn đã này, đó là mô hình CRE, CRE có uu điểm hơn phương pháp khác như SVM hay ITMM ở chỗ nó có thể giải quyết được vẫn để phụ
a cân đến một:
ci
thuộc giữa các từ Ngoài ra nó có ưu điểm hơn phương pháp MEMM ở chỗ có thể giải
được vẫn đề sai lệch nhãn CRL cho phép f2 tích hợp nhiều đặc trưng của bản thân tí, cũng
tửn các từ xung quanh của nó, đỗ làm cơ sở cho việc xây dựng mô hình nên tích hợp hơn cho bai toan nay SVM phù hợp với bài toán trích rút méi quan hé giữa các thực thể hơn do bài toán trích rút mỗi quan hệ giữa các thục thể không gán nhăn cho chuỗi tit ma chi quan
tim đến xác định môi quan hệ giữa các thục thể, cụ thể là xác định xem một câu có thuộc
méi quan hệ đang xót hay không Do SVM và CRF đêu là các phương pháp học có giảm
sit, Ia sẽ sử dụng các phương pháp này dưới dạng học bản giảm sát, kết hợp với kỹ thuật
+khác nhm kỹ thuật Boofstrapping', đo các tác giả trong [7] để xuất
Ở Việt Nam, các nghiền cửu xung quanh linh vực này còn it và chưa có nhiễu kết
quả thực tiễn Theo luận án được biết, hẳu hất các nghiên cứu về trích rút thông tim đều tập
trung vào trích rút thục thể và chỉ có một nghiền cứu liên quan đến trích rút quan hệ [88] với nục đích xác định mỗi quan hệ giữa các thục thể trong câu hỏi của hệ thông hỏi đáp
TMgoải ra, chủng ta chưa có một tập đữ liệu tiếng Việt đã gản nhãn nào được công bỗ phục
vụ cho bài toán trích rứt thông tin Như trên đã nói, việc xây dụng từ đầu một tập ngít liêu
đủ lớn cho phương pháp học có giám sắt phục vụ bài Loin ich nit thông tìn mt rất nhiều thời gian và công sức
"Trên cơ sở các vân để sòn tồn tại trong trích rút thông tin nói chưng và trích rút
thông tin cho liếng Việt nói riêng như đã trình bảy ở trên, luận ân muôn lập trung nghiên
cửu các vẫn đề sau:
-_ Nghiên cứu các phương pháp học bán giảm sắt để giải quyết vân để thiểu tận đít
Tiệu liễng Việt đã gán nhăn,
-_ Để xuất các phương pháp nhằm nâng cao độ chính xác của trích rút uực thế cho
Trang 1612 Mục tiêu và phạm vi nghiên cứu của luận án
1.2.1 Mục tiêu nghiên cứu
'Tử động cơ nghiên cửu nêu tiên, luận an để xuất mở rộng một sö phương pháp học máy
bản giám sát cho bài toán trích rút thực thể có tên vả trích rút môi quan hệ giữa cáo thực
thể oó tên Đây là vẫn để cất lõi và đồng thời là mục tiêu nghiên cứu của luận án
Theo cáo tắc giả rong [61, 87, 99], hục bán giám sát có nhiều phuơng pháp khác nhau và cũng đã có một số phương pháp được sử dựng trong trích rút thông tin |18, 28, 58,
22, 47, 100] đầy, luận án để xuất sử dụng hai phương pháp là phương pháp
Boolsuapping và phương pháp lan truyền nhãn
Mỗi phương pháp trên đều có ưu điểm và nhược điểm nữhư đã được phân tích trong, Chương 2 và Chương 3 Trên cơ sở việc nghiên cứu các phương pháp nảy (em Chương 2
và Chương 3) và những giải pháp dã được công bố trên thế giới [7, 12, 22, 45, 58, 63, 96,
100], luận án đề xuất cách tiếp cân trong việc biểu điễn đữ liệu, các thuộc tính cho quá
trình trích rút thực thể và môi quan hệ gia các thục thể và phương pháp huấn luyện các hệ
thông đó
Định hưởng dén tinh kha thi trong nghiên cửa lý thuyết vả thử nghiệm đạt được kết
quả mong muốn, hận án fập trưng vào:
(œ) Nghiên cứu và phát triển phương pháp trích rút thục thể, dựa trần học bản giảm
sắt, kết hợp CRF với các luật tim đông tham chiếu về tên
(b) Kết hợp kỹ thuật Bagzing” [L2] với phương pháp nghiên cứu ở (a) cho bài toán trích rút thực thỄ có tên nhằm năng cao độ chính xác
(c) Nghiên cửu và phát triển phương pháp trích rất mỗi quan hệ giữa các thực thd, dựa trên học bán giám sát sử dụng kỹ thuật Hagging-Bootstrapping [7, 12
Trang 171.2.2 Phạm vinghiễn cứu
Laiận án lập trung vào việc trích rút thực thể và quan hệ giữa chúng từ văn bàn phi cầu trúc thuộc Tĩnh vực tim lắc Các tập đừ liêu thử nghiệm được thu thập từ các lờ báo điện tử trục
tuyến Hệ thông sẽ trích rút từ văn bản phi cảu trúc này các Thực thể : đên người, lên tổ
chức, tên địu điểm, chức vụ và từ đó, tìn mỗi quan hệ giữa các thực thễ như : lâm việc tại
(iên người-tên tẲ chức), sống ở (lên người-tân địa điểm), chức vụ (lên người-clufc vụ) Nhật
đã nớt ở lrên, hệ thông trích rút thông tin bao gdm năm bước chính là: tiền xử lý, trích rất
thực thể, phát hiện đồng tham chiếu, trích rút mỗi quan hệ giữa các thực thễ và xuất ra theo
khuén dang định nghĩa trước Do phần mềm tiên xử lý trong văn bản
tách tử, phân tích tử loại) đã dạt dược độ chính xác khá cao (> 93%),
lại các công cụ sẵn cỏ đỏ và nếu có lỗi thí sẽ sửa lại trực tiếp bằng tay
Hình 1.1.Phgm vi nghiên ciiu của luận ân
Luận án sẽ tập trung giải quyết các bước sau (xem Hình 1.1):
- _ Nhận đạng thục thể, tập trung vào các thuc thể đã liệt kê ở trên
- _ Nhận đạng mỗi quan hệ giữa cáo thực thể, tập trung vào quan hệ giữa các thực thể
nằm long cùng một cãu Vi lý đo đó, trong bước phân tich dong Tham chiếu luận
án chỉ tập trung vào tim các đồng tham chiểu về tên, nhằm phục vụ cho bài toán
tim thye thể có tên và coi rửnz là một phần lrong bước nhận dạng thực thổ Các
Trang 18phát hiện đồng tham chiếu chung chung (phục vụ bước nhận dạng mốt quan hệ đã
nói ở trên) sẽ bỏ tua
- _ Kết xuất kết quả đưới dạng bằng dử liệu
1.3 Đồng góp chỉnh của luận án
Luận án đã đạt được một sô đóng góp mới về mặt khoa học như sau:
« _ Với bài toàn trích rủi thực thế
-_ ĐỂ xuất thuật giải kết hợp 11 luật đồng tham chiếu về tên với mẻ hình CRE
cho quá trình hoc bán giảm sát cho tiếng Việt 11 Luật đồng tham chiến vì
lên này dược áp đụng trơng việc phát hiện thêm thực thể đễ bổ sưng dữ liệu
huấn luyện Các đữ liệu này sẽ được tăng cường vào tập đỡ liệu huẫn luyện,
phục vụ quá trình huấn luyên hệ thẳng ở các vòng lập sau
-_ Để xuất thuật giải kết hợp sử đưng luật đẳng tham chiến về tên và CRT với
phương pháp Bagging [12] nhằm nâng cao đò chính xác của hệ thông và đồng
thời bổ sung thêm dữ liệu huần luyện mới
-_ Để xuất thuật giải lan truyền nhấn [96] cho bài toán trích rút thực thể sử đụng phương phân học bản giám sài Ba đồng gúp chính là: (ï) để xuất Tựa chợn các cum danh tử thành de cử viên cho việc nhận dạng thực thế; G1) đã xuẤt các
phương pháp đo độ trơng tự ngữ nghĩa giữa các từ; (n) đã xmất phương pháp
giảm ảnh hưởng của các nhăn có lấn suất xuất hiện lớn đến quả trình lan
truyền nhãn
« Với bài toán trích rút mỗi quan hệ giữa các thực thẻ:
-_ Để xuất thuật giải học có giám sát đựa trên phương pháp hàm hạt nhân mức nông
-_ ĐỂ xuấi thuật giải lích hợp học có giảm sát dựa lrần phương phúp hàm hạt nhân mức nông với phương phap Bagging Bootstrapping |7, 12| cho vi8e
huần luyện hệ thông học bán giám sát
~ Ap dung va cai tiến mật giải lan truyền nhãn cho bài toán trích rút mỗi quan
hệ giữa các thực thể sử đụng phương pháp học bản giám sắt ĐỀ xuất các phương pháp đo độ tương đồng giữa cảc câu phục vụ cho thuật toán này
Trang 19những đóng góp chỉnh, câu trúc của luận án
Chương 2 giới thiệu tổng quan về mích rút thông tin, các nghiên cứu ở trong nước và ngoài nước về bài toán trích rút thực thể và trích rút mỗi quan hệ giữa các thực thé va cic
phương pháp đánh giá kết quả trích rút
Chương 3 giới thiệu các phương pháp học máy sử dựng Irong luận án bao gồm: CRT, SVM, LDA và một số plrương pháp học bán giám sát
Chương 4 trùnh bảy phương pháp học máy bản giảm sát cho bài toản trích rút thực
thể từ văn bản tiếng Việt Luận án để xuất ba phương pháp để giải quyết bài toán này là: (1)
tiếp cận sử đụng CRE kết hợp với các luật đông tham chiếu về (én; (ii) sử đụng phương, pháp CRF kết hợp với kỹ thuật Bagging-Bootstrapping; đi) sử dụng phương pháp lan
truyền nhấn Các thuộc tính được sử đụng trong quá trình huấn luyện cũng được trình bày
trong chương này
Chương 5 trình bảy cách tiếp cân và kết quả của luận án trong bải toán trích rút mỗi quan hệ giifa các thực thể Chương này mô tả kiến trúc hệ thống trích rất môi quan hệ giữa
các thực thể Luận án đưa ra giải pháp phủ hợp với văn bân tiếng Việt, dễ xuất các đặc
trưng mới phục vụ cho việc trích rit quan hệ thực thể Giải pháp học bản giám sát sử dụng,
phương pháp Hagging-bootstrpping [7, 12] và phương pháp ngân ngữ mủo nông oũng
được đưa ra Một kết quả khác của luận án là kỹ thuật lan truyền nhấn sử đụng độ lương,
đồng giữa các cầu, cũng được trình bày ở trong chương này
Chương ó tổng kết lại cáo kết quả đạt được của luận án và để xuất các hướng nghiên
cứu Irong tương lai có liên quan đến luận ân
1.5 Các thuật ngữ được sử dụng trong luận án
-_ Phân lửn thực thể hài toan trích rút thực thể có thỂ ơi là bài loán lm và phan
lớp các từ hoặc cụm từ cho trước thành các lớp như: rêu người, tên tổ chứe, Vì
vậy, trong luận án khi đề cập đến phân lớp thực thẻ có thể hiểu là trích rủt thực thé
- Phân lớp quan hệ bài toán trích rút môi quan hệ giữa các thực thể có thê coi là
bài toán tim và phân lớp các câu thành lớp quan hệ như sống ở, lảm việc cho VÌ
Trang 209
vậy, trong luân án khi đã cập đến phân lớp quan hệ có thể hiểu là trích rút mỗi
quan hệ giữa các thực thể
Bộ phân lớp hoặc mô hình phân lớp hoặc mồ hình trích rút clủ tới mỏ hình
hoặc hệ thông nhận được trong quá trình huân luyện
Tập dữ liệu huấn luyện: chỉ tới các dữ liệu đã gán nhãn
Bagging là phương pháp tạo thêm một số mẫu từ một mẫu ban đầu, sau dỏ sử dung các mẫu này để huấn luyện các mô hình phân lớp Sử dựng các mô hình phân lứp vừa học được đỗ phân lớp mẫu ruới nhằm để tìm mẫu tốt nhải, dựa trên việc tỉnh trung bình kết quả của cäc mô hinh phân lớp
Bootstrapping (Lự nâng): là phương pháp huấn luyện hệ thẳng cải tiền dần, hằng
cach hoc lap dip lại trên tập dữ liệu gân nhãn và chưa gắn nhấn
Trang 21CHƯƠNG 2
CÁC NGHIÊN CỨU LIÊN QUAN
"Trong chương này, luận án sẽ trình bày các kiến thức cơ bản về trích rút thông tin và các
nghién ctm trang nước và ngoài nước về trích rút thông tin, bao gồm: các định nghĩa trích rút thông fin, trích rút thực thể, trích rút mỗi quan hệ grữa các thực thê, cáo phương pháp
đánh giá chal lượng hệ thông và các cách tiếp cận đã được để xuất nhằm giải quyết bai
toan trong cac tài liệu chuyên mởn trong nước và ngoài nude
2.1 Bải toán trích rút thông tin
Có nhiên định nghĩa về trích rút thông tin 'Trên cơ sở nghiên cứu các nghiên cứu liền quan
(14, 23, 24, 86], có thể định nghữa trích rủi thông tỉn như sau:
Định nghĩa 2.1: Trích rút thong tin (Inforrnatien Extraction - IE) là việc nhận biết các đoạn văn bản ứng với các lớp thực thể và xuôi quan hệ giữa các thực thể từ dữ liệu dạng
văn bản và chuyển chúng sang dạng biểu điển có cầu trúc (ví dụ, cơ sở đữ liệu)
‘Vide trích rút ra các Thông tin có cầu trúc từ dữ liệu phi câu trúc là một công việc rât
+hó khăn, thu hút được sự quan tâm của công đồng các nhà nghiên cứu trong hai thập ki
qua Hát nguồn từ cộng đồng các nhà xử lý ngôn ngữ tự nhiên, 1l: đã nhanh chóng được
quan tâm chú ý bởi những công đồng nghiên cửu khác nhau về học máy, truy vẫn thông
tin, cơ sở dũữ liệu, Web và phân tích văn bản Hai hội nghị quan trọng vả các nghiên cửu về
trích rút thang tin la: Message Understanding Conference (MUC) |25, 44, 46, 103, 104] va Automati¢ Content Extraction (ACE) [6, 75]
Có nhiều mức độ trích rút thông tin từ văn bản như tríchzút thực thể (Naincd Entity Recognition NEE), trích rút quan hệ giữa các thực thé (Relation Extraction - RE), phin
giải đồng tham chiếu (Co-Referenee Resolution) Các kĩ thuật được sử đụng trong trích
rút thông tin gồm có: phân đoạn, phân lớp, kết hợp và phân cụm
IE có nhiều ứng đụng rộng rãi và hữu ¡ch Trên thế giới, TE được ứng đụng kha nhiều
vào việc trích rút thông tin trên Internet Các ứng dụng thực tế hao gầm: lấy thông tin về
tên của ác công ty, tên người điều hành công Ly, theo đối thông tin vé cáo địch bệnh, theo đối các sự kiện khủng bổ IE cỏn được ứng dụng vào việc chăm sóc khách hàng, đỏ lả
việc tìm kiếm và trích rút ra các thông tin của khách hàng như họ tên, địa chỉ, email, số
điện thoại rồi hưu vào co sở đít liệu (CSDL) hay phục vụ các hệ thẳng quản lý thông tin cả
Trang 221]
nhân Gần đây II: đặc biệt được chú trọng trong linh vực y học Đã có khá nhiều nghiên
cửu được tiễn hành nhằm tng dung TF vio vide trích rút các thực thể trong y học nữ tên các profcin va gene
'Theo MUC [31, 44, 47, 103, 104], hệ thống trích rút thông tin có các thao tác chính
Như đi trình bảy ở trên, mục tiêu của luận ản là bài toán trích tất thực thể và trích
rút mỗi quan hệ giữa các thục thế Các bài toán đó sẽ được phân tích kỹ hơn ở phần sau
Phần 2.2 trinh bày khái niệm vẻ trích rút thực thể, các nghiên cứn liên quan về trích rút
thực thê và các đặc trưng hay được sử đựng trong teh ral thục thể Phần 2.3 trình bày khái
niệm vẻ trích rút môi quan hệ các thực thể, các nghiên cứu liên quan vẻ trích rút mỗi quan
hệ giữa các thực thể và các đặc trưng được sử dụng để giải quyết vấn đề này Phần 2.4
Trang 23ở cụ tởn (Named Entity Regeoniion-NER) hoặc xõc định thực thể (Entity Identification),
lỏ viởc xõc đỉnh cõc tỉ, cụm tử trong văn bản đụng vai trú 1ỏ Thực Thể thuộc một lớp định nghĩa trước Khải niệm nỏy thường được nhắc đẻn trong cõc bỏi bảo tiếng Anh với tởn việt tắt la NER Vi vay sau nay huận õn gọi bai toõn trợch rỷt thuực thể lỏ bỏi toan NER
Cụ thờ coi trợch rỷt thục thể lỏ viờe thn kiểm vỏ phón lớp cõc từ (cụm Li) trong vin tón vỏo cõc nhỏm thực thể như sởn người (person), lởn địa ciềm (location), iởn (Ổ chức (organization), ngỏy thắng (date), đhời gian (time), 05 12 (percentage), điểm đệ (monetary)
[ian nay, trợch rỷt thực thể được mở rừng sang nhiởn lớn khõc như tởn protein, chủ đề bỏi
bảo, tởn tạp chỉ Hội thảo MUC-6 [44] đọ phần bỏi loỏn NER thõnh ba loại: trợch rỷt tởn cõc thực thể bao gồm: đến người, tởn 1ế chức, tởn đĩa điểm, nhận dang cac biểu thức thời
gian như “9-2-2000”, “09/02/2000”, ”10h:20”” vỏ trợch rỷt cõc tiểu thức số, nh “4594”,
“15m”, “25kg", Dưới đóy lỏ văn bản vợ dụ được trợch từ [8ụ], được gản nhọn theo 3 loại thục thở lỏ: Per (đờn người), Loe (/ởn địa điểm), Ong (lởn tổ chức)
Vợ dụ 2.1:
According la <Per>Rober Calahen<ŒPer>, preailerl dj <Org> Eastern’s
</Org> light attendants union, the past practice of <Org> Eustern’s</Org> parent, <LocÍ Houston </Loc>-based <Org> Texas Air Corp.</Org’>, has
involved ultimatims to unions to accept the carrier's terms
NER 1a bude co ban va quan trong tude khi giai quyờt cõc bỏi toỏn phức tạp hơn
Rử rỏng lỏ trước khi nhón dạng được cõo quan hệ giữa cõc thực thể ta phải xõc định được đóu lỏ cic thyc thể (ham gia vỏo mỗi quan hệ đụ Ban đóu, NER dược xem lỏ một thao tac
đơn giản trong IE Nhung hiện nay, NER cụ một vai trú quan trọng quyết định đến cõc bõi
toõn khõc cụ độ phức lạp cao hơn nhợt trey van thờng tin (Information Retrieval-IR) hay
Trang 242.3.1 Các đặc trưng được sử dụng trong hải toán NER
Sau đây là các đặc trưng hay được sử dựng trong bai todn NER:
Tử loại: mỗi từ dược gán một nhãn, xác định kiểu từ loại của từ dó trong cảu dựa trên sử dụng từ diễn các nhấn đã được định nghĩa sẵn Thông thường, từ diễn từ loại cỏ các nhân sau: Danh từ, Động từ, Tính từ, Mạo từ, Dại tứ, Giới từ, Phó từ, Trang từ, Liên từ
Dinh đạng từ liên quan đến đặc điểm cầu lạo của lừ, như là chữ viết hoa, là số
Case -_ Bất đầu bng chữ viếthoa
~ Toàn bộ các chữ trong từ là chữ viết hoa
- Bao gdm cite chữ viết hoa và chữ thường (VÌ
du, ProSys, eBay) Punctuation - — Kết thúc bằng đâu chấm, có đấu chấm bên
trong (vi đụ S†.L.B.M)
- Ban gồm cả chí cải, lần chữ số (Vi đụ:
W3C, ) Morphology -— TiểnHỗ hântố
- Từ kếtthúo bằng một cụm chữ chưng (ví đu Các từ kết fhúc băng chữ ish trong tiếng Anh 1a Spanish, Danish, )
Trang 25- Danh sách chữ viết lát
Danh sách các thực thé - Tén td chic: government, airline
- _ Họ, tên đêm, tân
-_ Tên địa điểm: Lià Nội, Việt Nam
Danh sách từ gợi ý vé thue thé ~ Tử viết tắt chung cho một loại tổ chức (Inc.,.)
- Từ việt cùng vúi /ôn người như: Mĩ, Ms,
2.2.2 Tình hình nghiên cứu ngoài nước vẻ bài toán NER sử đụng học máy
Phân lớn các nghiên cứu về NER hiện nay đều sứ dụng các cách tiếp cận dựa trên học máy,
bao gằm học có giám sát, học không giám sát và học bán giảm sát Trong phần này, lận
ân sẽ giới thiệu và phân tích ưu nhược điểm của lừng cách tiếp cận
Học có giảm sắt
của học có giám sát như sau: Cho tập các đổi tượng và nhãn của chúng, xác
định qui luật gắn nhăn của dữ liệu Trên cơ sở đỏ, cho một đổi tượng mới, hệ thông có thể
gàn nhãn cho đối tượng này dựa trên qui luật gản nhãn vửa học được
Hiện nay, phần lớn các công trỉnh giải quyết bài trán trích rút thục thể thường sử
dụng các kỹ thuật học máy có giám sát như mô hình Markev ẩn T17, 62], cây quyết định,
mô hình Maximum entopy (13, 55|, máy veetơ hỗ trơ (SVM) |66, 92, mô hình trường,
ngẫu nhiên có điểu kiện CRE [11, 60, 63, B2]
Phương pháp học có giám ái cho kết quả chính xác, rứnng đôi hôi một lập dữ li
Truấn luyện được gản nhãn có kich cố lớn Hiệu quả trịch rút của hệ thống phụ thuộc nhiều
vào việc tập dữ liệu huấn luyện đủ lớn để bao quát được các hiện tương phúc lap trong
*hăn kế trên làm cho các tập đữ liệu huân luyện được gản nhăn đâm bảo chết lượng tương,
đổi khan hiểm Mặt khác, các kho đã liêu ca gán nhăn ngày cảng xmất hiện nhiều và
chưa được khái thác một cách tương xứng Thực tế này đời hỏi phải fim cách giảm yên cầu
Trang 26lỗ
về qui mô tập đữ liệu huân luyện, đồng thời vẫn đám bảo hiện năng của hệ thông trích rút
¡ra bằng cách khái thắc tôi lượng dữ Hậu lớn chưa được gáu nhấn
Học không giảm sắt
Dé giải quyết vấn để gán nhãn bang tay, mệt số nhà nghiên cứu đã sử đụng phương
pháp học không giám sắt như [41, 97]
Tiếp cận chưng của mô hình học không giam sát là kỹ thuật phán cụm Ý tưởng chính của kỹ thuật này 14, cho một tập các đối tượng (không có nhãn), xác định gui luật tổ chức của cáo đối tượng đó đỗ nhóm các đổi lượng giông nhau lại thành cụm Trên cơ số
đó, cho một đói tượng mới, hệ thông có thể đưa đổi tượng này vào cụm có nhiều điểm
chưng nhất với nó
'Tiếp cận trích rút thực thể bằng việc phân cụm các đặc trưng tử dua tran mức độ
tương tự vỀ ngữ vith, có sử dụng cúc các thi nguyên lù vựng (vi dụ, Wordncl), các mẫu lừ
vựng, kết hợp với phương pháp học thống kê trên tập đữ liệu chưa gán nhãn có kích cỡ lên
Các hệ thông học máy khổng giảm sát không đời hỏi đữ liệu huấn luyện, nhưng khả
năng phát hiện thực thễ không cao và độ chính xác thấp
'Học bán giám sát
Như đã trình bày ở trên, phương pháp học có giám sắt cho ta kết quả trích rút có độ chính xác cao, nhưng đời hỏi tập dữ liệu huần luyện cỡ lớn, trong khi đó phương pháp học
không giám sát không đòi hỏi tập dữ liên đã gán nhãn, nhưng hiện quả trích rất lại rất thấp
Phương pháp họp bản giảm sal co thổ khắc phục được nhược điểm của hai phương pháp
trên, bằng cách huân luyện hệ thông với một tập đữ liệu huân luyện gân nhãn nhưng số
lượng nhỏ và sau dé hoc Lap đi lập lại, để cải thiên chât lượng hệ thống bằng cách đứa
thêm cáo dữ Tiệu, vừa được gắn nhấn nhận dược tử mô hình học úp đụng vào lập đữ luyện
thuần luyện và ding chính tập đữ liệu mới được gắn nhãn nay dé huấn luyện lại mỗ hình
Có thể kể đến một số nghiên cứu về trích rút thục thể sử đựng phương pháp học bán giảm
sắt như [18, 28, 58]
Brin [I8] sử đụng các đặc trưng tử vựng được biểu diễn dưới đạng biểu thức chính
quy để tạo ra danh sách các cặp tiện đềvà tên tác giả Hệ thông ban đầu sử dụng tập tên cơ
tân như {Isace, Asitnov, Tho Robot of D2awn} và một lập luật (vì dụ như biển thức chính
qui |A-Z|JA-Za-z.,&[°""].A-Za-z{) dé mô tà tiêu đẻ Trên cơ sở đó, hệ thông xây dung tap
mâu chứa các website phù hợp với tập luật đã xây dựng Cặp tiêu để va tên tác giả trưởng
Trang 27được nhận dạng sử dụng các ràng buộc đơn giản như sự giảng nhau giữa ngữ cảnh trước, giữa và sau của cặp đăng xóL Vì dụ: Đoạn “The Robots of Dawn, by Issac Asimov Puperback?” cho phép hệ thông tìm được trong cùng mét website doan “The Anty, by Bernard WWorber (Paperbacl)”
Collin và Singer [28] sứ đựng phân tích từ loại cùng với lập đữ liệu để tìm các img viên mẫu thực thể Vi dụ, mẫu là danh từ riêng (được xác định dựa trên tử loai) đi cùng với cụm danh từ duéi dạng phần chủ thích (vi du, “Maury Cooper, a vice president at S&P”) Các ấu được đưa ra đưới đựng cặp {spclling,conlexU, rong dé spelling 1a danh li riéng,
context là các cụm danh tử ngữ cảnh của chúng Bát dầu hệ thông sử dụng Tập cơ sở chứa
cáo luật spalling ( ví du: luật 1: nếu spalling là “Aew Yor/©” thi cụm từ đang xét là đân địa
điêm, luật 2: nến spelling chứa “A#r.” thì cụm tử đang xét là zâ; ngưới; luật 3: nếu spelling
¡cả đếu là chữ viết hơa, thì cựn từ đang xét là sên sổ chức) dễ phát hiện củc ứng ct
Các ứng cử viên thỏa mãn luật spelling được phân lớp dựa trên luật Các ngữ cảnh
ên nhật được đưa vào tập luật context Tập luật oontext lại được sử dụng để tim các luật spcllng Tiếp tụe làm như váy, tập luật context vừa nhận được lai được sử đụng để tìm thêm luật spelling
Liao [58] sử đụng môi tập đữ liệu đã được gắn nñiần ban đầu có kích cỡ nhỏ I, để học
ra một mồ hình trích rút thực thế M sử dụng phương pháp CRF Mỏ hình này lúc đầu có độ
chính xác chưa cao, vi dữ liệu huấn luyện ban dầu chưa lớn, chưa bao ham nhiễu các đặc
trung ngôn ngữ (ngữ cảnh) phục vụ cho quả trình trích rút Dễ nâng cao độ chính xác của xuô hình M, cúc phương pháp học máy bản giảm sát tin các cách thức khác nhau để bố
sung tự động vào L những đỡ liệu huấn luyện mới Những đỡ liệu huân luyện mới này cân
cụng cap cho mnô hình những đặc trưng mới, đặc biệt là những đạo trưng với tần suất xuất
thấp, để làm tăng thêm hiểu biết của mô hình về các hiện tượng ngôn ngữ: Từ đó, cái thiên khá năng nhận điện thục thể của mô hình Dâ thực hiện việc này, Liao đã áp đựng mô tỉnh ban đầu M để gán nhân (trích rút thực thể) «ho một tập đữ liêu chưa gán nhấn cho trước Ú, sau đỏ sử đụng các thực thể T: trong U được nhân biết bởi M với độ tỉn cây thập, nhưng được nhân biết bởi các trí tước chuyên gia bên ngoài với một độ tin cây cao, dễ bố
sung vào lập dữ liêu huân huyện L ban đầu Ta gợi tập đứt liên L khi đã được bể sưng thèm
đữ Tiệu huận luyệu mới là 1" Với việc các thực thể E có độ lin cậy thấp trơng M được bỗ
sung vào tập đữ liệu huần luyện L„ mô hinh mới M? được học ra tử tập đữ liệu huần luyện.
Trang 2812
mới L` sẽ tốt hơn mô hình ban đầu M Liao để xuất các trí thức để tìm các dữ liệu huấn
Tuyện mới, các trí thức bên ngoài được sử đụng Tà hai giả định ngôn ngữ sau đây:
1 Giả định xuất hiện nhiều lần: Những cụm tử (viết hơa) giỗng hệt nhau củng xuất
hiện trong một văn bản thường có kiểu thực thể giống nhau Chẳng hạn, trong một
“John”
van tì chinh, “Soha” co the xual tién nhieu lan vai cùng một lên
se Giả định ngữ cảnh Các thực thể như con người, tổ chức, địa điểm thường có các ngữ cảnh xung quanh giúp chúng ta nhễn biết được chúng một cách dễ dàng
Chẳng hạn, tên một lỗ chức thưởng được đi cũng bởi các hậu tô như: ñ
tên một người thường dược di cùng bởi các tiên tô như: Ä#-,CEØ,
'Trên cơ sở phương pháp học bán giám sát để xuất bởi Liao [58], luận án để xuất cách
mở rông các tri thức phụe vu việc tim các dữ liên huấn luyện mới bằng cách sử đụng tập
luật đồng tham chiếu về lên của tiếng ViệL Chỉ Hết của phương pháp này được đễ cập
trong Chương 4
3.2.3 Tình hình nghiên cứu trang nước về bài toắn NER
Đã có một số nghiên cửu về trích rút thự thể cho liễng Việt Tuy xiên, các nghiên cứu
này đều tập trung vào trích rúi thực thẻ, sử dụng, phương pháp học có giễm sát Tran và các công sự [S9] sử dụng mô tủnh mây vactơ hỗ trợ SVM cho việc phân lớp thực th3 Nguyen
và các cộng sự [76] sử dụng trường ngẫu nhiên có điều kiện CRF cho việc trích rút thực
thế, Các tác giả trong |3, 4, 68, 69, 70, 71, 72, 73] đã sử dụng phương pháp lặp cải thiện
dần bằng cách sử đụng các luật đồng tham chiến vì tên, omtology, các trí thức nhận được
từ trang wikipedia, kết hợp với mô hình thông kê để phân giải nhập nhằng giữa các lên, tức
lả ảnh xạ tên đúng với thực thể mả chủng tham chiếu Vi đụ, Philip cỏ thễ là giáo viên của trường đại học hoặc la cảnh sát viên
'Nhược điểm của các phương pháp trong [76, 89] chính ở chỗ chúng đổi hồi tap dtr
liệu huân luyện đã được gản nhãn có kích cỡ lớn, trong khi đó tiếng Việt chưa có một tập
lừ liệu như vậy Hơn nữa, việc xây dụng một tập dữ liệu như vậy cân rất nhiều thời gian
và công súc Vì vậy, để giải quyết vẫn đề này, luận án để xuất phương pháp học bán giám
sit, phù hợp với đặc điểm ngôn ngữ tiếng Việt Phương pháp này sẽ được nói chỉ tiết ở
Chương 4
Trang 292.3 Bài toán trích rút mối quan hệ giữa các thực thé (RE)
Định nghĩa 2.3: Trích rút mối quan hệ giữa các thực thể (Rclation Extraction - RE) là
việc xác định quan hệ giữa các cặp thục thể trong văn bản
Vi du, ching ta có quan hệ sống ở giữa hai Thực thê “ rên người” VÀ "tên địa điểm”,
quan hệ lọ hông giữa hai thục thể “⁄6n người” và “iên người” Bài toàn trích rút mỗi quan
hệ giữa các thực thể kháo với bài toán trích rút thực thả ở chỗ trích rút thực thé là bài toán quan lâm đến các đấy từ, tức là tì và phân lớp dãy lừ, lay nỏi cách khác, gân nhãn cho cae diy tir; trong khi đỏ bái toán tích rút môi quan hệ giữa các thục thể lại không gắn nhãn
cho diy tử, mà quan tầm đến xác định mối quan hệ giữa các thực thể Trong luận an tập
trung vào việc tìm mỗi quan hệ giữa cáo cặp thực thể nằm trong cùng một câu
2.3.1 Các đặc trưng được sử dụng trong bài toán RE
Các đặc trưng thưởng sử dụng để giải quyết bái toán RE bao gdm:
Từ: Các từ xung quanh hai thực thể, các từ nằm giữa hai thực thế có thể chứa các
qnan tệ giữa các thục thể Ví đụ, quan hệ “iz ziasatsz" giữa hai thực thé: tn cdng ty va tén dja điên sẽ dược xắc dịnh théng qua cum ti “located ø” năm giữa hai thực thể:
các thực thể đều tà danh từ, hoặc cụm danh từ †n chỉ sử đụng các danh từ, cụm danh
tử để nhận dạng thực thế, cỏn cáo động tử, cụm động từ được sử dụng như là các dâu hiệu
để tìm mỗi quan hệ giữa các thực thể
Ví dụ 2.3
<Location>The University of Helsinkt </Location> hosis <Conference> ICML
<iConference> this year
Trơng câu trên, mỗi quan hé “held in” giữa hai thực thể: tân hội nghị và tên địa điễm
được xác định qua dong ti “hosés”
Cây phân tích củ pháp: cây phân tích củ pháp cho phép nhóm các từ trong câu thành các kiểu cụm từ như: cụm đanh fừ, cụm đồng từ và cụm trạng tử Do đó, cây phân
tíơh củ pháp có vai tr quan trong hom từ loại khả nhận dang mdi quan hộ giữa các thựơ thể
Trang 3019
Ví dụ 2.4:
<Location> Haifa </Location>, Located 53 miles from <Location> Tel Aviv
<Location> will host <Conference>ICML</Conference> in 2010
Dua trén khoang cach (so véi the thé ICML), cap thu thé “ Tel Aviv” va “ICML”
được xem là có moi quan hé “held in” manh hon cap thue thé “Haifa” va “ICML” Tuy nhiên, dựa trên cây củ pháp của câu trên, thực thể ICML sé gan thue the “Haifa” hon so
với thực thể “7e! Aviv”, béi vi “Haifa” 1a dau cia cum danh tit “Haifa, located 53 miles
from Tel Aviv” va cum danh ti nay dong vai tro chi ngit cua cum dong tr “will host ICML
in 2010"
Đồ thị phụ th
ra cây củ pháp đây đủ thưởng rất khó khăn và có độ chính xác không cao, đồ thị phụ thuộc
đồ thị có hướng miêu tả sự phụ thuộc giữa các nút Do việc tạo
có thể tránh được việc tạo cây củ pháp bằng cach kết nỗi mỗi từ với các từ mà nỏ phụ
thuộc vào Vỉ dụ, đối với câu trên, đồ thị phụ thuộc của chúng được cho trong hình 2.2
Đồ thị này cho thấy đông từ “Jøs° được kết nổi theo các thực thể zên địa điểm
“Haiƒa” và thực thể tên hội nghị “ICML" Và đồ thị này cho phép tao được mỗi quan hệ
gần giữa chúng Ngược lại, đường đi giữa “/CME” và “Tel Aviv” di qua “Haifa” va
“Located”
Haifa located 53 miles from Tel Aviv will host ICML in 2010
Hình 2.2 Đồ thị phụ thuộc của ví dụ 2.4 2.3.2 Tình hình nghiên cứu ngoài nước vẻ bài toán RE
a) Phương pháp dựa trên đặc trưng
Phương pháp này biển đổi các dâu hiệu cho việc trích rút quan hệ giữa các thực thể
(chẳng hạn như: chuỗi từ, cây củ pháp hoặc đỏ thị phụ thuộc) thành tập các đặc trưng
Giả sử x là câu đầu vào, x, là tir 6 tai vi tri thứ ¿ và EZ), E; đoạn trong câu x tương ứng
với hai thực thể cân xác định mỗi quan hệ Giả sử mỗi thực thẻ chứa 1 từ Từ x, gắn với các
Trang 31tập đặc tg p; py Cac dic trrmg bao gêm từ x„ định dạng từ (orthographic) của x„ lớp khói niệm của +, Irong onlology, nhền của x; và từ loại của x,
Vi dụ 2.5 : Dưới đây là một ví dụ của phương pháp đựa trên đặc trưng,
<Location> Haifa </Lecation>, Located 53 miles from <Location> Tel Aviv
Location will host <Conferance> ICML</Conference in 2010
"Nếu xét đặc trưng của đấy tử, câu trên sẽ có đãy đặc trưng như sau:
Dặc trưng trnigram:
[[ Tứ hoat”, Iag="none"]]
Il Titloai “Verb”, flag “none”||
Dac mung bigram:
(host, ICML)", flag ="Gnone,2)"T]
rh, Noun)”, flag = “(none,2)"]]
|| Tit “host”, thé tir loai — Noun ||
Dac mung tigram
[[ Tit— “will, host, ICML)”, flag — “(none, none,2)"]]
[[ Tử leai
(Modifier, Verb, Noun)”, flag= “(none, none, 2)”]Ï Trong đó thể flag gắn liên với mỗi từ, có thể có 3 giá trị: *L” khi lừ đó là BU, “2” Khí tit dé là #2, “none” khi tử đó không phải lá #7 và E2
Dựa trên các mẫu nảy, hệ thông sẽ thực hiện tỉnh số đặc trưng lớn nhất của mỗi kiểu
quan hệ, Giá sử đo, là số giả trị có thể có của thuộc lính dit vad = YK, dp) là long giả trì theo các thuộc tính Ta thây số đặc trưng triararn 14 3d, đặc trưng bigzam là 3 # và
dang xét thánh hẳun hạt nhận Giải thuật SVM được sử dụng để phân lớp kiểu quan hệ (Ví
du, sống ở, làm việc cho, ) Như vậy, mỗi cặp ứng cử viên, sử dụng hàm hạt nhân K(Z,
-X¿ để đo mức độ tương đẳng 2 cầu trúc X và Ý" Sau đó, giải thuật phân lớp SVM xác
định auôi quan hệ giữa bai thực thể như sau
- Với mỗi mẫu huần luyện ¿ và mỏi quan hệ z, xác định trong s6 aie.
Trang 32- Giả sử mỗi dữ liệu huấn luyện có đang (x, Ej, Fễ, z2, ?-1 W, rong đó, X, tương
img vii (+, £1, £2) Cho một cặp mẫu mới X=(x, /;, Z;), mỗi quan hệ kiểu z được tính bằng:
fargmaxuv XỸ ¡uy KỢM, X),
trong đó œ„ được tính trong quá trình huân luyện hệ thông Chỉ tiết của phương pháp
nay được trinh Dây ở chuơng 3
Một số hàm hạt nhân đã được các tác giả sử đụng trên cấy phân tích cú pháp, hoặc
đỗ thị phụ thuộc, hoặc kết hợp gã cá
phan tích và đổ thị phụ thuộc để biểu điển sân Dựa
trên cách biểu điễn đỏ, thục hiện việc tính độ tương đồng aiữa các cầu |15, 16, 20, 81, 95,
98, 102] 'Irong các phương pháp biểu diễn trên, hàm hạt nhân trên đồ thị phụ thuộc hay được sử đựng nhật Phân đưới đây sẽ mô tả phương pháp đỏ
Giả sử 7 và 7" là hai cây phụ thuộc của hai mẫu Huấn luyện tương img aX @, #„ E¿j vàX'~@', Ej, E;) Hàm hạt nhân K/X, X được định nghĩa như sau
Giá sử dường di ngắn nhất kết nổi giữa các thực thể trong 7 lả ? và trong 7° là `,
Các nút trên đường đi ?' được gắn với một tap các thuộc tính ø„, ,„y Hai nút được coi là giống nhau nếu có nhiều thuộc tính chung Mức độ lương lự giữa hai nút được định nghũa qua hàm hạt nhãn như sau:
Ker { mà nếu P, Pa độ đài khác nhan
AT], Commonproperties(P,,,) trưởng hợp ngược lại 'Trong 46 Commonpraperties(P,, 7) đo số thuộc tính chưng giữa mút thứ & theo
đường P và P*
Zelenko và các công sự |102| sử dụng hàm hạt nhân dễ tỉnh rnức độ tương đồng giữa các câu được biểu diễn đưới dạng cây phân tích củ pháp và gọi phương pháp này là hàm hại nhân dang cây cú pháp Sau đó họ sử dụng giải thuật SVM để học và phân lớp kiến quan hệ giữa các thục
Culotta va Sorensen [20] mé rong phuong pháp hàm hạt nhân dạng cây cú pháp thành hàm hạt nhân đồ thị phu thuộc Đẫu tiên các câu đá được biểu điễn đưới dang cây
phụ thuộc, sau đỏ thực hiện đo mức độ tương đồng trên các cây phụ thuộc của mỗi cẩu
Cuỗi cùng, sử dựng SVM để phát hiện và phân lớp kiễu quan hệ giùa các thực
Zhao và Giishman [98] kết hợp phương pháp hàm hạt nhân dạng cây cú pháp và hàm hạt nhân đọng đỗ thị phụ thuộc ở trên để hiểu điễn và lính độ lương đồng giữa các câu SVM được sứ dụng trong hệ thẳng của họ để boe và phân lớp kiểu quan hệ giữa cáo câu
Trang 33Các phương phap 6 trén déu dua trén phan tich oi phap, nhung các hệ thẳng phân
tích củ pháp phần lớn có độ chính xác chưa cao, dẫn đến tốt hệ thông khi đự đoán Thay
, thuộc tính
của từ gốc, đặc điểm định dạng từ cho việc trích rút mỗi quan hệ giữa các thục thể Phương
vào đó, Giuliano và các công sự [45] đề xuất hưởng tiếp cận sử đụng từ loại,
pháp này sử dụng thuật loán học muáy SVM và được gọi là phương pháp hàm lạt rhân ngôn ngữ mức nông” Trong phương pháp này, hàm hạt nhân ngữ cảnh toàn cục và hàm
hạt nhản ngữ cảnh cục bộ được kết hợp với nhan nhằm tích hợp hai nguồn thông tin Hàm
Tại nhân ngữt cảnh Ioàn cục được lạo bởi ngĩt cảnh toàn cục chứa thông tin của loàn hộ câu Hâm hạt nhãn nạữ cảnh cục bộ được xác định trên nạĩt cảnh cục bộ xung quanh hai thực
thể ứng cứ viên Kết quả thử nghiêm của các tác giả trong trong [45] đà chứng minh rằng
phương phap của họ tốt hon các phửơng pháp trước đây Do hiện nay độ chính xác của các
hệ phân tích cú pháp tiếng Việt chưa cao, không sử đụng phân lich củ pháp trong Irich rúi
quan hệ giữa các thực thể, luận án sẽ đề xuất cải tiến phương pháp trong |45| trích rút mỗi quan hệ giữa các thực thể Phương pháp này sẽ được trình hảy cụ thê trong Chương 5
các lừ có thể chỉ muỗi quan hệ zụ Câu chứa cặp thực thổ (e,, 4) được gựi là có mỗi quan hệ (hoặc gân nhăn đương) khi thoả mẫn cóc rắng buộc như sau: Nếu chuỗi từ giữa ¢; va ¢ không đài hơn một ngưỡng nảo đỏ: trong cây củ pháp đường đi giữa e, và ø; không đi qưa
h để quan hệ, Cả ø, và ø không chú» đại từ (HỒ Các dữ Ì
nên này sẽ được biểu điển thánh dạng vectợ đặc trưng (từ loại, từ, số từ ) Sau dé đưa vào bộ huần luyện sử đụng phương pháp Naive Baye để tạo ra bộ phân loại
vửa được Iự động gắn
Thục hán piám sát
Phương pháp học có giảm sát thường đòi hối đữ liệu rất lớn, nên hiện nay nhiều tác
giả tập trung vào phương pháp học bán giảm sát [22, 47, 100]
Agiohicin và các cộng sự [9] xây đựng hệ thông trích rút mỗi quan hệ giữa các thực
thể sử dụng phương pháp học ban giam sat, agi la SNOWBALL Hé thing st: dung tập hạt
` Khái niệm hàm nhận được giới thiệu ở mục 3.2
Trang 3423
nhân (seed), tập chứa mỗi quan hệ giữa cặp thực thể rổ chức- địa điểm: có kích cỡ nbd, gan
nihần cho các đữ liệu chưa có nhấn Mỗi đữ liệu vừa gần nhấn này
hea va dang ngit enh
(trước, e1, giữa, #2, sau) va duye biéu ditn dang vecto die trumg, trong do mdi ti vung st
cặp thực thế mới dưa vào tập seed Va lap di lặp lại công việc này cho tới khi hội tụ
Chen và các công sự [22] đề xuất phương pháp bán giám sát, sử dụng giải thuật lan
truyén nhiin (label propagation) Họ biểu điển các mẫu (có nhữn và cluớa có nhữn) dưới dạng các mút, khoảng cảnh giữa các nút là trọng số các cạnh của dé thi Trên cơ sỡ dó, xây dựng hai ma trận Y và 7 Ma tran V có kích thước ø x ø, với ø lả số mẫu có nhãn và chưa
có nhãn, z là số nhãn cần xét Ma trận 7 có kích thước ø x ø, đo độ tương đẳng giữa các
xấu Thục hiện nhân hai ma trận này về lặp lại quá trình đó nhiều lần cha đền khả hội lụ
Kết thúc quả trình, trong ma trận ¥, các mẫu sẽ oó nhãn tương ứng với phần tử có giá tị
lớn nhật Như vậy, điểm nhân của phương pháp này là đo mức độ tương đồng giữa các
Hệ z, c„ cạ„ cạ; lần lượt lá ngữ cảnh trước, giữa và sau cấp thực thã Sau đó, sử dụng,
phương pháp Bagging Bootstrapping để luấn luyện hệ thông Ý tưởng của phương pháp
nay là: Giả sử có Z mẫu có nhãn và mẫu chưa gắn nhân Đầu tiên, nhân bản các mẫu cô thin J think 8 gói và huấn luyện 8 bộ phôu lớp sử dụng dữ liệu đã nhân bản 8 bộ phân lớp nảy được ap dụng trên dữ liệu chưa có nhãn 17 Sau khi đã gán nhãn cho tập dữ liệu U,
tệ thống thực hiện tính độ tin cậy để tim s câu có đô tin cây eao (đô tỉn cây này được tính bằng hàm cntropy) và dưa thêm vào đữ liệu huấn luyện Quá trình này được lặp lại cho dén khi Không tìm được dữ liệu nào thỏa mãn nữa
2.3.3 Tình hình nghiên cứu trang nước vẻ bài toản RE,
Đã có một số nghiền cứu về trích rúi thông tin cho tiếng Việt Tuy nhiên, phần lớn các nghiên cứu tập trung vào trích rất thực thé
'Theo luận án được biết chỉ có một nghiền cứu liên quan đến trích rứt quan hệ [85]
với mục dich xác định môi quan hệ giña các thưc thê trong câu hỏi của hệ thông hỏi đáp
Trang 35Dựa trên tập các vi dụ mẫu (gọi là hạt gidng), hé thing lap lai quá trình học để sinh rạ các mẫn và một tập nhiền hơn các hại giống cho quan hệ Các mẫu thô được xây dựng dựa trên
vẫn từ tập mẫu tỉnh chỉnh này và sử dụng mảy tìm kiếm Cioogle để tim
chửa các hạt giống mới Để xác định quan hệ được câu hỏi nhắm dấn, hệ thông lụa chọn mẩu phủ hợp nhất với câu hỏi Quan hệ của mẫu chính lã quan hệ mnà câu hỏi đang hỏi
TNgoài ra, các tác giả trong [69, 71] đá giải quyết vận đề nhập nhằng giữa các thực thế tức là giải quyết bài toàn trích rút mỗi quan hệ ở mức cao hơn, Vị dự, cỏ thể phát hiện
được tên thực thể là đường 7ø Quang 8u, nhưng ở Việt Nam có thể nằm ở đả Nội, hoặc
ở Sài (án Để giải quyết vẫn đề này, tác giá đã đề xuất phương pháp lặp cải thiện dần sử
dụng các luật kết hợp với nguồn trí thức Ontology chứa các thông tn về cặp thực thể img
cử viên, ví dụ như 7a Quang Bửu - Sài Gón Họ sử đụng các luật thực hiện phân hạng các
ứng cử viên đựa trên mỗi quan hệ ngí nghĩa gita chúng Ứng viên cá càng nhiễn các mỗi
quan hệ rhư thế cảng được phân hang cao, tức la, nêu một ứng viễn có nhiều mỗi quan hệ ngữ nghĩa với các thực thể đã được xác định trong toàn bộ văn bản, thì ứng viên đó được
xem là đímg thực thể đang xét đề cập đến Ngoài ra, họ còn sử đựng các luật tuan hệ đẳng
tham chiếu v tên dễ phân giải nhập nhằng cho các thục thể khác củng dồng tham chiếu
với thực thể vừa được phản giải nhập nhằng đồng tham chiễu Các thử nghiệm của họ cho
thay phương pháp này đạt kết quả khá tốt, nhưng vẫn tôn tại một số nhược điểm sau: Thit
nhất, ontology được xây đựng bởi một nhóm nhô các chuyên gia, trong đó cúc tính chất
của các thực thể đã được thiết lập cố định, sš không chứa đú các thông fĩn mỏ tả vẻ các
thực thể Điều này ảnh hưởng hiện quả của phân giải nhập nhằng Thứ hai, do mỗi tân
nhập nhằng, chỉ khưi thắc mỗi quan hệ đựa trên Ontology giữa ứng viên với các thực thể
đã được xác định, nên điều này đẫn đến tinh huồng: hoặc là thực thể có rnỗi quan hệ với
ứng viên xuật hiện trong văn bản, hoặc lả thực thể đó xuất hiện trong văn bản nhưng không,
tim thây mốt quan hệ rảo với ứng viên trong Ontology Trên thục tỄ các tử xuất hiện xung: quanh các thực thể cũng cỏ thể giúp ich cho việc phân giãi nhập nhằng,
Dễ giải quyết vân để này các lác giả đã đề xuất thêm phương pháp mới giải quyết
phân giải nhập những bằng cách kết hợp phương pháp thông kê với phương pháp phân
hạng dựa trên các luật Quả trinh phần giải nhập nhằng là lặp cải thiện đẫn, bao gỗm hai
giải đoạn Giai đoạn thứ nhất sử đụng các luật để thực hiện thu gọn các ứng viên nhận
Trang 36tạ 5
duoc tit trang wikipedia và thực hiện ánh xa nếu có thể Giai đoạn thứ hai áp dụng mô hình
phân hạng đựa trên thông kế để chọn ứng viên tốt nhất Đối với phương pháp thông
mỗi tên trong văn bân được trích rút dặc trưng bao gồm các tên củng xuất hiện trong văn
bản, các từ xuất hiện xung quanh tên đang xét, các từ xung quanh tên đồng tham chiều với
tên đăng xét và định danh của các thực thể Mỗi lên ứng viên trong trang wikipedia cing được trích rút đặc trưng bao gồm nhan để trang thực thễ, nhan để trang đổi hướng, nhân
thể loại, nhàn liên kết ra vào, nhãn của các liên kết vào Các đặc trưng của mỗi thao thể
được chuyên thành một lúi từ: Sau đó, thực hiện phân hạng bằng cách đo độ lương tự gia hai tii từ Sau mỗi bước lập, các tực thể được phân giải sẽ được bổ sung vào danh sách cáo thực thể đã được xác định, phục vụ cho việc phân giải nhập nhằng cho các trưởng hợp
còn lại
2.4 Một số phương pháp học bán giám sát khác
TNgoài cae phương pháp học bán giám sát sử đựng trong trích rủi thông tin da dé sập đến trong các phẩn 2.2 và 2.3, học bán giám sát còn được sử đụng trong các bài toán khác như gán nhãn từ loại, phân tích cựm từ
Clark và các cộng sự [36] đề xuất ra phương pháp học bán giám sát cho bài loan gan
nhhần từ loại Họ sứ dụng phương pháp đồng huân luyện (Co-Training) như sau : Bắt đầu từ
dữ liệu đã gán nhãn nhỏ, huẳn luyện hai bộ phân loại (nột bộ phân loại được tạo ra sử dụng mô tỉnh Markov, bd phan toai thit hai sử dụng mô hình cực đại hod Entropy) Tiến theo, sử dụng hai bộ phân loại này gắn nhãn cho đữ liệu chưa có nhãn Sau đó huấn luyện
bộ phân loại Markov sử dụng dữ liệu vừa gắn nhãn bỏi bộ phân loại cục đại hoá Entropy,
và ngược lại Tiên trình sẽ lặp đt lặp lại cho đến khi gắn nhãn hết cho dữ Hệu chua có nhãn
Sogaard và các cộng sự |83| dẻ xuất ra phương pháp học bán giám sát làng giéng gan
nhất cổ đọng cho bài toán gán nhãn từ loại Dây lã phương pháp kết hợp phương pháp tự
Tuấn luyện với phương phán sô đọng lập dữ liệu huôn luyện Việc cỗ đọng tập dữ liệu Tuấn luyện đuợc thực kiện như sau Gọi C là tập dữ liệu cô đọng của tập đữ liệu gỗo 41 đủ gân nhân Loại bó các đữ liệu có nhãn mà nhãn của nó có thé dy đoàn bối tập C (sit dung
Thuật toán láng giéng gần nhất) San đó thêm đữ liệu vừa duoc gan nhãn bằng thuật toán
láng giêng gần nhất sử dụng tập dữ liệu có nhãn gốc 4 voi dộ tín cậy >0.90 vào tập C, ta được tập cô đọng mới là C” Kết quả thử nghiềm minh chứng sự nổi trội so với thuật toán
tro chỉ dựa trên giêng gần nhải cô đọng có giám sắt
Trang 37Danme II và các công sự [38] nghiên cứu kỹ thuật ảnh xa các đầu vao dudi dang đề
thj sang đầu ra có cầu trúc dựa nên thuật toán học xấp xỉ Điểm chính của để xuất thuật học mới là xem quá trình học như một quá trình tối we hod tim kiếm với các cơ chế cập
nhật tham số, đảm bảo tính hội tụ Hai cơ chế cập nhật tham số được nghiên củu là : cập
xuất JESS-CM về thục chất là mêt phát triển của mô hình trưởng ngẫu nhiên có điền kiện
ban giảm sat (Semi-Supervised Conditional Random išeld-SSCM) chứa những mô hình xác suất liên hợp Các thử nghiệm của muô hình phân biệt được để xuất cho các bài toán nhận đạng thục thể có tên, gản nhãn và phân tích cú pháp vượt trội hơn so với các kết quả
nghiên cửu đã được công hồ,
2.5 Các phương pháp đánh giá kết quả trích rút
Kết quả hệ thông trích rút thông tín nói chưng và hệ thông Irích rút thực thể hoặc trích rủi
\q cách so sánh kết quá đầu ra cứa hệ
mỗi quan hệ các thực thể nói riêng được đánh giả bì
thông với kết quả, được chuyên gia gắn nhân thủ công Sau đây là hai phương pháp đánh
giá được sử đụng trong MUC, TREX, CƠNLL Để dễ hiểu phương pháp đảnh giá, chúng ta xem ví đụ dược trích từ văn bin vi dy eda MUC như sau:
'VÍ đụ 2.6 Ta có văn bản được gán nhãn bằng tay:
[like <Person>RobertcPeraon?, <Person>JJonh Rriggs.r </Person contacted
<Orgunization> Wonderfil Stockbrockers Ine </Organtzation® in <Location>
New Fark <‘Location> and instructed thent ta sell all his shares ia <Organization>
Acme</Organization>>
1 2.7 Gti sử san đây là kết qui đuợc gắn nhãn bởi hệ tổng
«<Location> Unlike</Location> Robert <Organisation>
Jonh Briggs Jr
</Organisation> contacted Wonderfid <Orgenization> Stockbrockers
</Organization> Inc <Date> in New York </Date’> und instructed then: (o sell all his
shaves in <Organizalion> Acme</Organization>
Trang 3827
Bảng 2.3: 8ảng do ránh nhầm của bệ thống vôi nhân ñược gắn bằng tay, kèm theo mé te lỗi hương tỉng
Cán nhãn băng tay [ Gần nhãn bãng hệ thông LÃI tương ứng
Unlike <Location> lig thing tim thấy thực thể, nhưng
Unlike cHLewation® thye 18 khang phai (thin) 4 không chối “hủ
<Person> Robert Tiệ thông không nhận đạng được
</Person>
<Person> <Organization> 1iệ thẳng phát hiện thục thể
John Briggs hr John Briggs Jr m
/Person> </Organizalion> gán nhấn sai
<Organizalion> <Organiizaliou> Hệ lhôỏng lim được thực thể, nhưng
Wonderful Stockbrockers sơi đường biên
Stockbrookers Ino — | </Organization> ong
</Organization>
<Location> <Date> 1iệ thẳng pán sai nhãn và sai
New York in New York đường biên
S2Localion> </Date> 5
2.5.1 Cách đánh giá dựa trên độ trùng khớp
TREX va CONDI stt dung phương pháp đánh giá đơn giản hơn MỤC Phương pháp này được gọi chung lả phương pháp đánh giá dua trên độ trùng khớp (Exact Match
Evaluation)
Phuong phap nay si dung ba dé do: dQ chitih xde P(Precisian), độ phủ RŒReeall), độ
đo trung bình F(F-Messure) D6 chinh xác xác định phẩn trăm các mẫu đứng được hệ
Thông tìm thây so với các mầu được hệ thông cho là đúng Độ phủ xác định phân trăm mẫu
đứng được hệ thông từm thấy so với thực tế, Độ do F là giá tị trung bình giữa độ phủ và độ chính xác Ba độ đo này được tỉnh toán theo các công thức sau
Số mẫu đuục hệ théng gin ding en
~ sé miu dugc hé thẳng cho là đồng,
$4 min dugc hg théng gan dang
2P-R
Ở ví dụ truớc, chúng ta có 5 thực (hễ được gần nhãn bằng tay đúng, 5 thực thể hệ thing cho la dimg, slung trong đó chỉ có một thục thể đúng (rùng khóp với gán nhãn thực thế chuẩn), Như vậy chủng ta được P 20%, 20% và F 20%
Trang 39(Type) va kha nang timn văn bản chính xác (Texl) Kiểu nhấn chính xác chỉ lính các thực thế được gân kiểu chính xác, không quan tâm tỏi dường biên, trừ trường hợp bị tring Kiều
‘van ban chinh xác (IexÐ chỉ tính đường biên của thực thể chính xác, không quan âm đến
thựơ thể, Đổi với cả Type và Tox, 3 độ đọ được dùng là: số câu trả lời hệ thông dự
đoán đúng sơ với thực tŠ (COR); số cần trả lời của hệ thông được cho là đúng (ACT) và số
đáp án đúng được gan nivin bing tay (POS)
Cuối cùng là độ đo trung bình F giữa đô chính xác (Precision) và độ phú (Recall) Trong MUC, d6 do trung bình F được tính thao tết cả các kiểu thực thể, chứ không tính riêng biệt cho từng kiểu thực thả Trong MUC, độ chính xác được tính bằng COR/ACT và
được phân tích, nhằm tìm giải pháp giải quyết bài toán trích rút thông tin trong van ban
tiếng Việt Các phân tích cho thấy rằng phương nháp học bán giâm sát là phương phap pho
hợp nhất để giải quy bài toàn trích rút thông lần tít văn bản tiếng Việt vỉ phương pháp này
chỉ cần một tập đỡ liệu được gán nhân bằng tay có số lượng không lớn (luận án sử dựng 50
văn bản đã gán nhãn cho bài toán trích rút thực thể và 250 câu đã gán rihãn cho bai toán trích rút quan hệ) Luận ản cũng đã phân tích một số phương pháp học bản giám sát đã được áp đụng hiệu quả cho bái toàn trích rút thực thé [58] va bai toán trích rút quan hệ [45.22,100] trong văn bản tiếng Anh Các phương pháp này có thể làm cơ sở cho việc cải
tiễn và áp đụng vào bái toán trích rút thực thê và quan hệ thực thể từ văn bản Hỗng Vì:
Tuận án.
Trang 40CHƯƠNG 3
CÁC PHƯƠNG PHÁP HỌC MÁY DÙNG TRONG LUẬN ÁN
Trong chương này, chúng tôi sẽ trình bảy chỉ tiết cáo phương pháp học mảy, dược sử dụng,
gồm mỏ hình trường ngẩn nhiên có điển kiện (Conditioal Random tield-CRE), mỗ hình
may vecta hd tro (Support Vector Machine-SVM), mé hinh phan phi Dirichlet ẩn (Latent
Dirichlet Allocation -LDA) va cic phuong pháp học bán giảm sát
3.1 Mô hình trường ngẫu nhiên có điều kiện
‘Niu trong phân 2.3 đã nói, bai toán trích rủt thực thể có thể cơi là gản nhãn cho dữ liệu
dang chuỗi Đ giải quyết bài toan này, phương pháp thành công nhất hiện nay là trường
ngẫu nhiên có điều kiện (Conditional Randorn Eicld -CRF) CRE [38, 63, 64, 94] được giới thiêu lần đầu vào năm 2001 bởi Lafferty va cdc đông nghiệp CRF là mỏ hỉnh đựa trên xác
suất cỏ điều kiện, tích hợp được các thuộc tỉnh đa đạng của chuỗi đữ liệu quan sát nhằm hỗ
trợ cho quá trình phân lớp CRI sử đựng đổ thị võ hướng, điền này cho phép CRI có thả đính nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái khi biết chuỗi quan sắt cho
trước, thay vì phân phôi trên mỗi trạng thải khi biết trạng thái trước đó và quan sắt hiện tại
Cho trước chuối quan sái, mô hình đỗ thị võ hướng CRE lại biến đối phân phôi xã
của chuỗi trạng thải thánh tích các hàm tiềm nãng tiên các clique Do đó, CREs không cản
chuẩn hóa với các phân phối xác snất trên từng trạng thái Chính vì cách mô hình hóa như
vậy, CRE có thê giải quyết được vẫn để “sai lệch nhãn” [65, 94] Phần này số trình bày và
định nghĩa CRE, vận đề ước lượng tham số cho các mô hình CRE và vẫn để sử đụng mô
hình nảy đã phân lớp hoặc gán nhãn cho chuỗi
3.1.1 Khái niệm mô hình trường ngẫu nhiên củ điều kiện CRF
Kí hiệu X là
ngẫu nhiên nhận giá tri là nhãn tương ứng Mỗi thành phần ÿ, của Y là một biến ngẫu nhiễn
nhận giả trị trong tập hữu hạn các trạng thái $ Trong bài toán trích rút thục thê, X có thể
u cần phải gắn nhãn và Ƒ là biển
ngấu nhiên nhận giá trị là chuỗi dữ
nhận giá trị là các câu Irong ngôn ngữ tự nhiên và mỗi thành phẩn Ä; của X sẽ tương ứng với một từ trong câu, F là một chuỗi ngẫu nhiên cảc kiểu thực thể tương ứng với các câu và