Luận Án tiến sĩ trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng việt

Lợi thế của các hệ thông học máy không giám sắt là không đòi hỏi dữ liệu huấn luyện, nhưng thường cho một hiệu năng trích rút không cao, không đáp ứng được các yêu cầu vẻ độ chính xác c

Trang 1

SAM CHANRATHANY

TRICH RUT THUC THE CO TEN VA QUAN HE

THUC THE TRONG VAN BAN TIENG VIET

LUAN AN TIEN SI CONG NGHE THONG TIN

Ha Nội - 2012

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRUONG DAI HOC BACH KHOA HA NOI

SAM CHANRATHANY

TRICH RUT THUC THE CO TEN VA QUAN HE

THU THE TRONG VAN BAN TIENG VIET

Chuyên ngành: Hệ thống Thông tin

LUAN AN TIEN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC

1 GS.TS Nguyễn Thanh Thủy

2 PGS.TS Lê Thanh Hương

HA NỘI - 2012

Trang 3

I.uận án được hoản thành tại trường Đại học Bách khoa Hà Nội Để hoàn thành

luận án nảy, tắc giả đã nhận được sự chỉ bảo tận tỉnh, củng những yêu cầu nghiêm

khắc của G8 T8 Nguyễn Thanh Thủy, PGS.TS Lê Thanh Hương Thầy, Cô đã

truyền đạt rất nhiều kiến thức quí báu cũng như những kinh nghiêm nghiên cứu

khoa học trong suốt thời gian tác giả làm nghiên cứu sinh Lời đầu Liên, Lác giả xin

bảy tỏ lòng kính trọng vả biết ơn sâu sắc tới Thầy và Cô

Tác giả xin chân thành gửi lời biết ơn đến: Ban lãnh đạo Viện Công nghệ

thông tin và Truyền thông, Bộ môn Hệ thống Thông tím, Viện Đảo tao Sau dai hoc,

'Irung tâm 'Tính toán Hiệu năng cao, thuộc trường Đại học Bách khoa Hà Nội đã

tạo điều kiện thuận lợi trong quá trình học tập, nghiền cứu và hoàn thành luận án

‘Tac giả cảm ơn các Thầy giáo, Cô giáo ở Hộ môn Hệ thống Thông tin- Viễn

Công nghệ Thông tin và Truyền thông, trường Dại học Bách khoa Hà Nội đã động

viên vá trao đổi kinh nghiệm để tác giá có thể hoàn thiện luận én

“Tác giả cảm ơn 18 Nguyễn Hữu Dức và các cán bộ các anh chị em ở Irung

tâm Tính toán IIiệu năng cao, đã tạo điều kiện, nhiệt tình giúp đỡ vả trao đổi học

hỏi trong quá trình làm luận án

Sự quan tâm, mong mỗi của mọi thành viễn trong gia đình là một trong động

cơ dễ tác giả nỗ lực học tập, nghiên cửu Luận án nảy như một món qua tinh than,

xin đáp lại những niềm quan tâm, mong mỏi đó

Cuối cùng, tác giả xin bày tỏ lòng biết ơn tới những người thân và bạn bè đã

ưu ái, piúp đỡ, đông viên, khích lê để tác giã hoàn thành luận án này

Trang 4

LOI CAM DOAN

Tôi xin cam đoan đây là công trình nghiên cửu của riêng tôi Các kết quả được viết

chung với các tác giả khác đều dược sự déng ý của dồng tác piả trước khi dưa vào

luận án Các kết quả trong luận án là trung thực và chưa từng được công bố trong

bắt kỳ công trình nào khác

Táo giả luận án

Sam Chanrathany

Trang 5

1.22 Phạm vinghiên cửu ¬— ÔỎ 6 1.3 Đồng góp chính của luận án - - - 7

1.4 Câu trúc của luận án chọn HH HH0 Ha gu 8

1.5 Các thuật ngữ được sử dụng trong luận ản nhu ren 8

CHƯƠNG 2 CÁC NGHIÊN CỨU LIEN QUAN .cccccccccssssesssescssnsessunsereeiensesne LO

2.1 Bài toàn trích rút thông tin sành HH1 1e 10 2.2 Bài toán trích rút thục thể - - woe 12 2.2.1 Ởác đặc trung duge si dung trong bai toan NER wee 1B 2.2.2 Tình hinh nghiên cửu ngoài nước về bái toán XE sứ dụng hoe may 14 23.3 Tình hình nghiên cửu trong nước về bài toán NER 17 2.3 Bài toán trích rút mỏi quan hệ giữa các thực thé (RE)

2.3.1 Các đặc trưng được sứ dụng trong bài toàn RỊ ìàccecceee 18

2.3.2 Tỉnh hỉnh nghiên cứu ngoài nước về bài toán RE - 19

2.3.3 Tình hình nghiên cửu trong nước về bài toán RE ccsoeenriec 23

Trang 6

Một số phương pháp học bán giảm sát kháo

Cúc phương pháp đánh giả kết quả trích rút

Cách đánh giá dựa trên độ trừng khớp TH HH Hước

Cách đánh giá của MUC

Mô hình trường ngẫu nhiên có điêu kiện

Khai riệm mô hình trường ngẫu nhiên có điều kiện CRE

Huan luyén CRF

Gan whan cho dit ligu dang chudi

Mô hình máy vectơ hỗ trợ "

Môi số đặc điểm tiếng Việt ảnh hưởng đến việc trích rút thực thé

'Trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện

Mô bình học bán giảm sát đựa trên kết hợp luật đảng tham chiều về tên

với CRE

Mồ hình học bán giảm sát sử dụng CRF theo dạng Hapging

Trich rút thực thể sử đụng phương pháp lan truyền nhấn

Phương pháp đo mức độ tương đồng giữa các từ

Trang 7

5.2 Tríchrút môi quan hệ dựa trên máy vectơ hỗ trợ SVM 8 5.21 Mô hình học có giám sát dụa trên phương pháp ngôn tre? mức nông TÔ 5.2.2 Mô hình học bản giám sát đựa trên phương pháp ngôn ngữ mức nông

theo kidu Bagging Bootstrapping

CHƯƠNG 6 KÉT LUẬN VÀ THƯỚNG PHÁT TRƯN 86

G1 Các kết quả dạt đượt àà uc cà nàn nen eceeeereveeu SỐ

6.11 Kết quả về thuật giải co co cọ nen cọ c8,

6.2 Hướng phát triển

TAI LIEU THAM KHẢO

CAC CONG TRINH KHOA HOC CUA TAC GIA

Trang 8

DANH MUC CHU VIET TAT

Antomalic Context Extraction

Begin Inside Outside Conditional Random Fields Computational Natural Language Leaming Expovlalion Maximnization

Global Context Keel Hidden Markov Model Information léxtraction Java Simple Relation ixtraction Maximum Fritropy Markov Model Noun Pluase

Local Context Kemel Latent Direchlet Alocattion Message Understanding Conference

Named Entity Regeonilion

Trang 9

SVM

Shallow Linguistic Kernel Support Vector Machine

Trang 10

Rang so sánh nhân của hệ thông so với nhần được gân bằng tay,

kèm: theo mô tả lỗi tương ứng, - 27

Nhóm luật nhận dạng thực thê (Nhóm luật 2 , - 4?

Kat quả thực nghiệm của hệ thông ER sử đựng phương pháp học bản giảm sát HH Hư khan 63

So sánh kết qnả lần lặp Thứ 9 của 3 phương pháp nói trên 63

So sánh kết quả trích rút thực thế ŒE.F cỏ giảm sắt với lan truyền nhãn 64

So sánh hệ thông R1 có giám sát các hàm nhân ngữ cảnh tổng hợp 82

So sánh kết quả hệ thẳng bán giám sát với hệ thông có giám sát 82

So sánh kết quả khi chưa chuẩn hoá và sau khi chuẩn hod mea ten 83

So sánh kết quả phương pháp so tring thuộc tính từ với LDA 83

So sanh 46 do F cña ba phương pháp lan truyền nhân sứ dụng so trùng thuộc tỉnh tử,

Trang 11

Tinh 1.1 Phạm vi nghiên cứu của luận án - - 6 Hình 2.1 Các thao tác chỉnh của bài toán trích rút thông tỉn LÏ

Hình 2.2 Dỗ thị phụ thuộc của ví dụ 2.4 - - - 19

Hình 3.1 Đỗ thị vô hướng mô tả CRF - 30

Hinh 3.2 Siêu phẳng phân chia tập mẫu huấn luyện

TTình 3.4 Hiễu điển trực quan của phương pháp Bootstrapping 48

Trang 12

CHƯƠNG 1

MỞ ĐẦU

1.1 Dộng cơ nghiên cứu của luận án

tiện nay, với sự phát triển của hemet và việc kết nổi băng (hơng rộng, khả năng tiếp cận

thơng qua máy tỉnh được kết nỗi Internet với khối lượng lớn các kho dữ liệu văn bản khấp

nơi trên thể giới la rất lớn 'Tuy nhiên, chính khối lượng dữ liệu quá lớn cĩ thể làm người

dùng bị “chìm ngập” trong thơng tin hoặc mốt quá nhiều thời gian để cĩ được thơng lim

mơng muơn Vấn đề này được quan tâm giới quyết trong các hệ thơng trịch rút thơng tin

(Information I:xtraclion — IE) theo miễn ứng dựng nhằm trích rút thơng tĩn tử các đữ liệu

phí cầu trúo hoặc bản cấu trúc, chuyển thành đữ liệu cĩ câu trúc Trên cơ số đĩ, ta cỏ (hŠ thực hiện các truy vẫn đa đạng và phức tạp hơn với việc tìm kiểm theo từ khĩa đơn thuần hiện cĩ, hoặc xây dụng các ứng dụng như khai phá dữ liêu, hỏi đáp, rạng ngữ ngiữa,

Van để trích rút thơng tin đang được quan tâm nghiên cứu nhiễu trên thể giới Mặc địi vậy,

các kết quả đạt được vẫn cịn hạn chế Các bài tốn được đặt ra trong trích rút thơng tin từ

dữ liệu văn bản là: trích rút thục thể cĩ tên, trích rút cáo thuộc tính của thực thể, trích rút

thơng tin vé thé gian và trích rúi thơng tím về mơi quan hệ giữa các thực thế Trong [hực

tế, các hệ thơng trích rút thơng tia thường được cài đặt cho một ứng dung cụ thế Các ứng,

dung khác nhau sẽ được giải quyết ở các khía cạnh và mức độ khác nhau Phần lớn các hệ

thẳng trieh rút thơng tín hiện ray chả trìch rút được các thơng tin theo một khuơn đựng nhật định, như thời gian (đd⁄mm/yy), mỡ vùng, mmä nước, v.v Cĩ rất nhiều dạng thực thể và thuộc tỉnh mà các hệ thơng IE chưa khai thác được

Quá trình trích rút thơng tin bao gồm các bước chính la: (1) Hiển xử

nhận đạng thực thể (3) phân tỉch đồng tham chiếu (4) trích rứt mỗi quan hệ giữa các thực thể và (5) xuất ra theo khuơn dạng định nghĩa trước (cĩ thể là cơ sở đữ liệu hoặc ontolog)

Tiên xử lý là bước nhân tách cân, phân tách từ, gản nhấn từ loại cho văn bản hộc tập

văn bản (2)

văn bản đâu vào Thực thể được quau tâm ở đây là những đổi tượng được tham chiêu qua

tên gọt như đên người, tên tễ chức, lên cịa diễm, hoặc các đổi tượng khác dược tham chiếu

theo tên riêng [21] Khái niệm thực thể cĩ thể mỏ rơng, kẻm theo cả thời gian và số lượng

Trang 13

Nhiệm vụ của công việc nhận dang thực thể là định vi và phân lớp cáo tử và cụm từ

Thuộc kiển đên người là ":Kiên” và thuộc kiểu đên tổ chúc là “trường ĐHRKHN” Trong câu

Trích rúi mỗi quan hệ giữa các thục thê có lên là việ

này lồn tại mit quan hé lam viện cho (ïên người — tên sổ chức) giữa thực tứ này,

Bai toán trích rút mỗi quan hệ giữa các thục thể khác vỏi bai toán tích rút thực thể ở chỗ trích rút thực thé Ia bai toan quan tâm đến các chuỗi tủ, tức là tim và phân lớp chuỗi fir hoặc, nói cách khác, gán nhăn cho các chuỗi từ, trong khi đó bài toán trích rút mỗt quan hệ giữa các thực thể lại Không gắn nhấn cho đấy từ, mã quan tôm đến xác định mỗi quan hệ giữa các thực thé

Trong hơn một thập niên qua đã có nhiều nghiên cứn vẻ trích rút thực thể [

38] và kích rút mỗi quan hệ giữa các thực thể [15, 16, 86, 101, 102] Phản lớn cäc nghiên

cứu được chia thành hai hưởng: đó là tiếp cân dựa trên học luật tủ công và tiếp cân học

máy Chẳng lưm, đối với bài toán Irich rút thực thể, đứ liệu đầu vào (văn bản thông thường hoặc hoặc văn bản trên trang web) được tách thành các từ hoặc cụm từ, sau đó dựa vào cáo dâu hiệu dc biệt

có thể được xây dựng một cách thủ công hoặo một cách tự động dựa trên cáo kỹ thuật học

ễ xác định cáo từ hay cụm tử lả thực thé Các dâu hiệu xác định thực thể

may ¥ dựng luật xá định giá trị thuộc lính của thực thể một cách thủ oông dụa

trên các đặc điểm của thực thể cần trích rút Ví đụ, một địa chí ở trong tiếng Việt thường,

chứa các xâu ký tự như piổ, đường, ngách, hẻm, Vì vây, các từ khóa này có thể sử dụng,

để xác định thông tin vẻ địa chỉ

Do ludt được xây dựng đựa trên việc quan sắt đữ liệu nân thưởng có độ chỉnh xác

cao Tưy nhiên, cách tiếp cận này không xử lý được các trường hợp chưa được nhắc đến

trong tập luật ITơn nữa, với các trường dữ liệu không có khuôn đạng nhật định như lĩnh

vực nghiên cứu thi cách tiếp cận này không khả thí Ở Việt Nam đã cỏ một số công ty xây

dưng hệ thống trích rút thông tin theo cách tiếp cận này Dữ liệu sau khi trích rút được hưu

trong CSDLL và giao điện người đừng Tà giao điện truy vẫn CSDT, thông thưởng,

Trong Khí đó, các kĩ thuật học máy thường sử dụng một tập các dữ liệu đã được gản nhãn cho trước để xây dựng nên một mỏ hình phue vụ cho mục đích của bài toán (học có

Trang 14

giảm sảU Đây là cách tiếp cận tự động, cho phép học những luật, xuất hiện trong đữ liệu

tuần tuyện, nhưng khó có thể phát hiện được bằng quan sát thủ công của con người Bạn dâu khi đữ liêu mẫu dùng dễ học còn it, cách tiếp cận này có thể cho kết quả không chính xác như cách tiếp cân dựa trên tập luật được xây dụng thủ công Tuy nhiên, khi đữ liệu học

nhiễn, độ chính xác của hệ thông sẽ lăng Ngoài ra, hệ thông còn cho phép xử lý được các

loại dữ liên không eó khuôn dạng nhất định

Một thách thức lớn trong thực tế áp dụng tiếp cận học máy là đời hỏi tập dữ liều

được gắn nhần (khi đồ tà nội học máy có giám sát) có kích cố cực lớn, phục vụ cho việc Tuần luyện mô hình trích rút Đã có được tập đữ liện huấn luyện lớn, chúng ta thưởng phải

at do

đâu tư nhiền thời gian và công sức Dây là điểm thật sư đáng lưu ý đối với tiéng

thiểu cáo trí thức chuyên sầu và các tập đữ liệu huấn luyện cờ lớn Bên cạnh tiển cận thủ

công và tiếp al đã nêu trên, những năm gân đây bắt đầu xuất hiện

m học máy gó

một số hệ thống sứ đụng cách tiếp cân học máy không giảm sát nhằm giải quyết bái toán

trích rút thực thể và quan hệ giữa các thực thể Lợi thế của các hệ thông học máy không

giám sắt là không đòi hỏi dữ liệu huấn luyện, nhưng thường cho một hiệu năng trích rút

không cao, không đáp ứng được các yêu cầu vẻ độ chính xác cần thiết

Những hạn chế của các cách Hiếp cận đã đuợc để cập ở trên gợi ý cho ta ý lưởng lựa

chọn một giải pháp mềm dẻo hơn cho bài toán trích rút thông tỉn đỏ là sử dụng phương pháp học máy bán giám sắt, chí đỏi hỏi một tập nhỏ dữ liệu huân Tuyện đế định hưởng cho quá trình trích rút, đẳng thời tân dụng các trí thúc chuyên sầu sẵn có để khai thắc dữ liệu bản huu luyện với các văn bản đầu vào chưa gán nhấn nhằm nông cao liệu năng trích ri

thực thể và các mỗi quan hệ giữa chủng cúa hệ thông

Đối với hướng tiếp cận học mày, nhiều kỹ thuật đã được áp dựng cho bài toán trích

rút thông tin như mô hình trường ngẫu nhiêu có điều kiện (Condiional Random Ficlds — CRF) |58, 63], máy vecto hé tro (Support Vector Machine SVM) |89, 92], mô hình markov fn (Ilidden Markov Model -IIMM) [62], mô hình markov enropy cực đại

(Maximum Entropy Markov Model- MEMM) [13], v.v Ban chat cia trich rit thse thé

1ả găn nhãn các tử, cụm tử trong văn bãn với loại thực thể tương ứng (như đên ngiedi, #8 16 chức) Vì vậy, có thể coi bài toán trích rút thực thé là bài toán phân lớp dữ liệu, tức là phân lớp mỗi từ thành kiểu thực thễ mà nó thuộc vào SVM là phương pháp phân lớp dữ liệu,

nên được coi là một giải pháp cho bai toan nay Van dé khó khăn là việc gản nhãn kiểu

thực thế cho một từ phụ thuộc vào nhãn của các từ xung quanh nó Ví đụ, từ "phá đriễn"

Trang 15

SVM là không giải quyết được vấn để phụ thuộc nhãn giữa các tử Vì vị

Tô hình khác có thể giải quyết được vẫn đã này, đó là mô hình CRE, CRE có uu điểm hơn phương pháp khác như SVM hay ITMM ở chỗ nó có thể giải quyết được vẫn để phụ

a cân đến một:

ci

thuộc giữa các từ Ngoài ra nó có ưu điểm hơn phương pháp MEMM ở chỗ có thể giải

được vẫn đề sai lệch nhãn CRL cho phép f2 tích hợp nhiều đặc trưng của bản thân tí, cũng

tửn các từ xung quanh của nó, đỗ làm cơ sở cho việc xây dựng mô hình nên tích hợp hơn cho bai toan nay SVM phù hợp với bài toán trích rút méi quan hé giữa các thực thể hơn do bài toán trích rút mỗi quan hệ giữa các thục thể không gán nhăn cho chuỗi tit ma chi quan

tim đến xác định môi quan hệ giữa các thục thể, cụ thể là xác định xem một câu có thuộc

méi quan hệ đang xót hay không Do SVM và CRF đêu là các phương pháp học có giảm

sit, Ia sẽ sử dụng các phương pháp này dưới dạng học bản giảm sát, kết hợp với kỹ thuật

+khác nhm kỹ thuật Boofstrapping', đo các tác giả trong [7] để xuất

Ở Việt Nam, các nghiền cửu xung quanh linh vực này còn it và chưa có nhiễu kết

quả thực tiễn Theo luận án được biết, hẳu hất các nghiên cứu về trích rút thông tim đều tập

trung vào trích rút thục thể và chỉ có một nghiền cứu liên quan đến trích rút quan hệ [88] với nục đích xác định mỗi quan hệ giữa các thục thể trong câu hỏi của hệ thông hỏi đáp

TMgoải ra, chủng ta chưa có một tập đữ liệu tiếng Việt đã gản nhãn nào được công bỗ phục

vụ cho bài toán trích rứt thông tin Như trên đã nói, việc xây dụng từ đầu một tập ngít liêu

đủ lớn cho phương pháp học có giám sắt phục vụ bài Loin ich nit thông tìn mt rất nhiều thời gian và công sức

"Trên cơ sở các vân để sòn tồn tại trong trích rút thông tin nói chưng và trích rút

thông tin cho liếng Việt nói riêng như đã trình bảy ở trên, luận ân muôn lập trung nghiên

cửu các vẫn đề sau:

-_ Nghiên cứu các phương pháp học bán giảm sắt để giải quyết vân để thiểu tận đít

Tiệu liễng Việt đã gán nhăn,

-_ Để xuất các phương pháp nhằm nâng cao độ chính xác của trích rút uực thế cho

Trang 16

12 Mục tiêu và phạm vi nghiên cứu của luận án

1.2.1 Mục tiêu nghiên cứu

'Tử động cơ nghiên cửu nêu tiên, luận an để xuất mở rộng một sö phương pháp học máy

bản giám sát cho bài toán trích rút thực thể có tên vả trích rút môi quan hệ giữa cáo thực

thể oó tên Đây là vẫn để cất lõi và đồng thời là mục tiêu nghiên cứu của luận án

Theo cáo tắc giả rong [61, 87, 99], hục bán giám sát có nhiều phuơng pháp khác nhau và cũng đã có một số phương pháp được sử dựng trong trích rút thông tin |18, 28, 58,

22, 47, 100] đầy, luận án để xuất sử dụng hai phương pháp là phương pháp

Boolsuapping và phương pháp lan truyền nhãn

Mỗi phương pháp trên đều có ưu điểm và nhược điểm nữhư đã được phân tích trong, Chương 2 và Chương 3 Trên cơ sở việc nghiên cứu các phương pháp nảy (em Chương 2

và Chương 3) và những giải pháp dã được công bố trên thế giới [7, 12, 22, 45, 58, 63, 96,

100], luận án đề xuất cách tiếp cân trong việc biểu điễn đữ liệu, các thuộc tính cho quá

trình trích rút thực thể và môi quan hệ gia các thục thể và phương pháp huấn luyện các hệ

thông đó

Định hưởng dén tinh kha thi trong nghiên cửa lý thuyết vả thử nghiệm đạt được kết

quả mong muốn, hận án fập trưng vào:

(œ) Nghiên cứu và phát triển phương pháp trích rút thục thể, dựa trần học bản giảm

sắt, kết hợp CRF với các luật tim đông tham chiếu về tên

(b) Kết hợp kỹ thuật Bagzing” [L2] với phương pháp nghiên cứu ở (a) cho bài toán trích rút thực thỄ có tên nhằm năng cao độ chính xác

(c) Nghiên cửu và phát triển phương pháp trích rất mỗi quan hệ giữa các thực thd, dựa trên học bán giám sát sử dụng kỹ thuật Hagging-Bootstrapping [7, 12

Trang 17

1.2.2 Phạm vinghiễn cứu

Laiận án lập trung vào việc trích rút thực thể và quan hệ giữa chúng từ văn bàn phi cầu trúc thuộc Tĩnh vực tim lắc Các tập đừ liêu thử nghiệm được thu thập từ các lờ báo điện tử trục

tuyến Hệ thông sẽ trích rút từ văn bản phi cảu trúc này các Thực thể : đên người, lên tổ

chức, tên địu điểm, chức vụ và từ đó, tìn mỗi quan hệ giữa các thực thễ như : lâm việc tại

(iên người-tên tẲ chức), sống ở (lên người-tân địa điểm), chức vụ (lên người-clufc vụ) Nhật

đã nớt ở lrên, hệ thông trích rút thông tin bao gdm năm bước chính là: tiền xử lý, trích rất

thực thể, phát hiện đồng tham chiếu, trích rút mỗi quan hệ giữa các thực thễ và xuất ra theo

khuén dang định nghĩa trước Do phần mềm tiên xử lý trong văn bản

tách tử, phân tích tử loại) đã dạt dược độ chính xác khá cao (> 93%),

lại các công cụ sẵn cỏ đỏ và nếu có lỗi thí sẽ sửa lại trực tiếp bằng tay

Hình 1.1.Phgm vi nghiên ciiu của luận ân

Luận án sẽ tập trung giải quyết các bước sau (xem Hình 1.1):

- _ Nhận đạng thục thể, tập trung vào các thuc thể đã liệt kê ở trên

- _ Nhận đạng mỗi quan hệ giữa cáo thực thể, tập trung vào quan hệ giữa các thực thể

nằm long cùng một cãu Vi lý đo đó, trong bước phân tich dong Tham chiếu luận

án chỉ tập trung vào tim các đồng tham chiểu về tên, nhằm phục vụ cho bài toán

tim thye thể có tên và coi rửnz là một phần lrong bước nhận dạng thực thổ Các

Trang 18

phát hiện đồng tham chiếu chung chung (phục vụ bước nhận dạng mốt quan hệ đã

nói ở trên) sẽ bỏ tua

- _ Kết xuất kết quả đưới dạng bằng dử liệu

1.3 Đồng góp chỉnh của luận án

Luận án đã đạt được một sô đóng góp mới về mặt khoa học như sau:

« _ Với bài toàn trích rủi thực thế

-_ ĐỂ xuất thuật giải kết hợp 11 luật đồng tham chiếu về tên với mẻ hình CRE

cho quá trình hoc bán giảm sát cho tiếng Việt 11 Luật đồng tham chiến vì

lên này dược áp đụng trơng việc phát hiện thêm thực thể đễ bổ sưng dữ liệu

huấn luyện Các đữ liệu này sẽ được tăng cường vào tập đỡ liệu huẫn luyện,

phục vụ quá trình huấn luyên hệ thẳng ở các vòng lập sau

-_ Để xuất thuật giải kết hợp sử đưng luật đẳng tham chiến về tên và CRT với

phương pháp Bagging [12] nhằm nâng cao đò chính xác của hệ thông và đồng

thời bổ sung thêm dữ liệu huần luyện mới

-_ Để xuất thuật giải lan truyền nhấn [96] cho bài toán trích rút thực thể sử đụng phương phân học bản giám sài Ba đồng gúp chính là: (ï) để xuất Tựa chợn các cum danh tử thành de cử viên cho việc nhận dạng thực thế; G1) đã xuẤt các

phương pháp đo độ trơng tự ngữ nghĩa giữa các từ; (n) đã xmất phương pháp

giảm ảnh hưởng của các nhăn có lấn suất xuất hiện lớn đến quả trình lan

truyền nhãn

« Với bài toán trích rút mỗi quan hệ giữa các thực thẻ:

-_ Để xuất thuật giải học có giám sát đựa trên phương pháp hàm hạt nhân mức nông

-_ ĐỂ xuấi thuật giải lích hợp học có giảm sát dựa lrần phương phúp hàm hạt nhân mức nông với phương phap Bagging Bootstrapping |7, 12| cho vi8e

huần luyện hệ thông học bán giám sát

~ Ap dung va cai tiến mật giải lan truyền nhãn cho bài toán trích rút mỗi quan

hệ giữa các thực thể sử đụng phương pháp học bản giám sắt ĐỀ xuất các phương pháp đo độ tương đồng giữa cảc câu phục vụ cho thuật toán này

Trang 19

những đóng góp chỉnh, câu trúc của luận án

Chương 2 giới thiệu tổng quan về mích rút thông tin, các nghiên cứu ở trong nước và ngoài nước về bài toán trích rút thực thể và trích rút mỗi quan hệ giữa các thực thé va cic

phương pháp đánh giá kết quả trích rút

Chương 3 giới thiệu các phương pháp học máy sử dựng Irong luận án bao gồm: CRT, SVM, LDA và một số plrương pháp học bán giám sát

Chương 4 trùnh bảy phương pháp học máy bản giảm sát cho bài toản trích rút thực

thể từ văn bản tiếng Việt Luận án để xuất ba phương pháp để giải quyết bài toán này là: (1)

tiếp cận sử đụng CRE kết hợp với các luật đông tham chiếu về (én; (ii) sử đụng phương, pháp CRF kết hợp với kỹ thuật Bagging-Bootstrapping; đi) sử dụng phương pháp lan

truyền nhấn Các thuộc tính được sử đụng trong quá trình huấn luyện cũng được trình bày

trong chương này

Chương 5 trình bảy cách tiếp cân và kết quả của luận án trong bải toán trích rút mỗi quan hệ giifa các thực thể Chương này mô tả kiến trúc hệ thống trích rất môi quan hệ giữa

các thực thể Luận án đưa ra giải pháp phủ hợp với văn bân tiếng Việt, dễ xuất các đặc

trưng mới phục vụ cho việc trích rit quan hệ thực thể Giải pháp học bản giám sát sử dụng,

phương pháp Hagging-bootstrpping [7, 12] và phương pháp ngân ngữ mủo nông oũng

được đưa ra Một kết quả khác của luận án là kỹ thuật lan truyền nhấn sử đụng độ lương,

đồng giữa các cầu, cũng được trình bày ở trong chương này

Chương ó tổng kết lại cáo kết quả đạt được của luận án và để xuất các hướng nghiên

cứu Irong tương lai có liên quan đến luận ân

1.5 Các thuật ngữ được sử dụng trong luận án

-_ Phân lửn thực thể hài toan trích rút thực thể có thỂ ơi là bài loán lm và phan

lớp các từ hoặc cụm từ cho trước thành các lớp như: rêu người, tên tổ chứe, Vì

vậy, trong luận án khi đề cập đến phân lớp thực thẻ có thể hiểu là trích rủt thực thé

- Phân lớp quan hệ bài toán trích rút môi quan hệ giữa các thực thể có thê coi là

bài toán tim và phân lớp các câu thành lớp quan hệ như sống ở, lảm việc cho VÌ

Trang 20

9

vậy, trong luân án khi đã cập đến phân lớp quan hệ có thể hiểu là trích rút mỗi

quan hệ giữa các thực thể

Bộ phân lớp hoặc mô hình phân lớp hoặc mồ hình trích rút clủ tới mỏ hình

hoặc hệ thông nhận được trong quá trình huân luyện

Tập dữ liệu huấn luyện: chỉ tới các dữ liệu đã gán nhãn

Bagging là phương pháp tạo thêm một số mẫu từ một mẫu ban đầu, sau dỏ sử dung các mẫu này để huấn luyện các mô hình phân lớp Sử dựng các mô hình phân lứp vừa học được đỗ phân lớp mẫu ruới nhằm để tìm mẫu tốt nhải, dựa trên việc tỉnh trung bình kết quả của cäc mô hinh phân lớp

Bootstrapping (Lự nâng): là phương pháp huấn luyện hệ thẳng cải tiền dần, hằng

cach hoc lap dip lại trên tập dữ liệu gân nhãn và chưa gắn nhấn

Trang 21

CHƯƠNG 2

CÁC NGHIÊN CỨU LIÊN QUAN

"Trong chương này, luận án sẽ trình bày các kiến thức cơ bản về trích rút thông tin và các

nghién ctm trang nước và ngoài nước về trích rút thông tin, bao gồm: các định nghĩa trích rút thông fin, trích rút thực thể, trích rút mỗi quan hệ grữa các thực thê, cáo phương pháp

đánh giá chal lượng hệ thông và các cách tiếp cận đã được để xuất nhằm giải quyết bai

toan trong cac tài liệu chuyên mởn trong nước và ngoài nude

2.1 Bải toán trích rút thông tin

Có nhiên định nghĩa về trích rút thông tin 'Trên cơ sở nghiên cứu các nghiên cứu liền quan

(14, 23, 24, 86], có thể định nghữa trích rủi thông tỉn như sau:

Định nghĩa 2.1: Trích rút thong tin (Inforrnatien Extraction - IE) là việc nhận biết các đoạn văn bản ứng với các lớp thực thể và xuôi quan hệ giữa các thực thể từ dữ liệu dạng

văn bản và chuyển chúng sang dạng biểu điển có cầu trúc (ví dụ, cơ sở đữ liệu)

‘Vide trích rút ra các Thông tin có cầu trúc từ dữ liệu phi câu trúc là một công việc rât

+hó khăn, thu hút được sự quan tâm của công đồng các nhà nghiên cứu trong hai thập ki

qua Hát nguồn từ cộng đồng các nhà xử lý ngôn ngữ tự nhiên, 1l: đã nhanh chóng được

quan tâm chú ý bởi những công đồng nghiên cửu khác nhau về học máy, truy vẫn thông

tin, cơ sở dũữ liệu, Web và phân tích văn bản Hai hội nghị quan trọng vả các nghiên cửu về

trích rút thang tin la: Message Understanding Conference (MUC) |25, 44, 46, 103, 104] va Automati¢ Content Extraction (ACE) [6, 75]

Có nhiều mức độ trích rút thông tin từ văn bản như tríchzút thực thể (Naincd Entity Recognition NEE), trích rút quan hệ giữa các thực thé (Relation Extraction - RE), phin

giải đồng tham chiếu (Co-Referenee Resolution) Các kĩ thuật được sử đụng trong trích

rút thông tin gồm có: phân đoạn, phân lớp, kết hợp và phân cụm

IE có nhiều ứng đụng rộng rãi và hữu ¡ch Trên thế giới, TE được ứng đụng kha nhiều

vào việc trích rút thông tin trên Internet Các ứng dụng thực tế hao gầm: lấy thông tin về

tên của ác công ty, tên người điều hành công Ly, theo đối thông tin vé cáo địch bệnh, theo đối các sự kiện khủng bổ IE cỏn được ứng dụng vào việc chăm sóc khách hàng, đỏ lả

việc tìm kiếm và trích rút ra các thông tin của khách hàng như họ tên, địa chỉ, email, số

điện thoại rồi hưu vào co sở đít liệu (CSDL) hay phục vụ các hệ thẳng quản lý thông tin cả

Trang 22

1]

nhân Gần đây II: đặc biệt được chú trọng trong linh vực y học Đã có khá nhiều nghiên

cửu được tiễn hành nhằm tng dung TF vio vide trích rút các thực thể trong y học nữ tên các profcin va gene

'Theo MUC [31, 44, 47, 103, 104], hệ thống trích rút thông tin có các thao tác chính

Như đi trình bảy ở trên, mục tiêu của luận ản là bài toán trích tất thực thể và trích

rút mỗi quan hệ giữa các thục thế Các bài toán đó sẽ được phân tích kỹ hơn ở phần sau

Phần 2.2 trinh bày khái niệm vẻ trích rút thực thể, các nghiên cứn liên quan về trích rút

thực thê và các đặc trưng hay được sử đựng trong teh ral thục thể Phần 2.3 trình bày khái

niệm vẻ trích rút môi quan hệ các thực thể, các nghiên cứu liên quan vẻ trích rút mỗi quan

hệ giữa các thực thể và các đặc trưng được sử dụng để giải quyết vấn đề này Phần 2.4

Trang 23

ở cụ tởn (Named Entity Regeoniion-NER) hoặc xõc định thực thể (Entity Identification),

lỏ viởc xõc đỉnh cõc tỉ, cụm tử trong văn bản đụng vai trú 1ỏ Thực Thể thuộc một lớp định nghĩa trước Khải niệm nỏy thường được nhắc đẻn trong cõc bỏi bảo tiếng Anh với tởn việt tắt la NER Vi vay sau nay huận õn gọi bai toõn trợch rỷt thuực thể lỏ bỏi toan NER

Cụ thờ coi trợch rỷt thục thể lỏ viờe thn kiểm vỏ phón lớp cõc từ (cụm Li) trong vin tón vỏo cõc nhỏm thực thể như sởn người (person), lởn địa ciềm (location), iởn (Ổ chức (organization), ngỏy thắng (date), đhời gian (time), 05 12 (percentage), điểm đệ (monetary)

[ian nay, trợch rỷt thực thể được mở rừng sang nhiởn lớn khõc như tởn protein, chủ đề bỏi

bảo, tởn tạp chỉ Hội thảo MUC-6 [44] đọ phần bỏi loỏn NER thõnh ba loại: trợch rỷt tởn cõc thực thể bao gồm: đến người, tởn 1ế chức, tởn đĩa điểm, nhận dang cac biểu thức thời

gian như “9-2-2000”, “09/02/2000”, ”10h:20”” vỏ trợch rỷt cõc tiểu thức số, nh “4594”,

“15m”, “25kg", Dưới đóy lỏ văn bản vợ dụ được trợch từ [8ụ], được gản nhọn theo 3 loại thục thở lỏ: Per (đờn người), Loe (/ởn địa điểm), Ong (lởn tổ chức)

Vợ dụ 2.1:

According la <Per>Rober Calahen<ŒPer>, preailerl dj <Org> Eastern’s

</Org> light attendants union, the past practice of <Org> Eustern’s</Org> parent, <LocÍ Houston </Loc>-based <Org> Texas Air Corp.</Org’>, has

involved ultimatims to unions to accept the carrier's terms

NER 1a bude co ban va quan trong tude khi giai quyờt cõc bỏi toỏn phức tạp hơn

Rử rỏng lỏ trước khi nhón dạng được cõo quan hệ giữa cõc thực thể ta phải xõc định được đóu lỏ cic thyc thể (ham gia vỏo mỗi quan hệ đụ Ban đóu, NER dược xem lỏ một thao tac

đơn giản trong IE Nhung hiện nay, NER cụ một vai trú quan trọng quyết định đến cõc bõi

toõn khõc cụ độ phức lạp cao hơn nhợt trey van thờng tin (Information Retrieval-IR) hay

Trang 24

2.3.1 Các đặc trưng được sử dụng trong hải toán NER

Sau đây là các đặc trưng hay được sử dựng trong bai todn NER:

Tử loại: mỗi từ dược gán một nhãn, xác định kiểu từ loại của từ dó trong cảu dựa trên sử dụng từ diễn các nhấn đã được định nghĩa sẵn Thông thường, từ diễn từ loại cỏ các nhân sau: Danh từ, Động từ, Tính từ, Mạo từ, Dại tứ, Giới từ, Phó từ, Trang từ, Liên từ

Dinh đạng từ liên quan đến đặc điểm cầu lạo của lừ, như là chữ viết hoa, là số

Case -_ Bất đầu bng chữ viếthoa

~ Toàn bộ các chữ trong từ là chữ viết hoa

- Bao gdm cite chữ viết hoa và chữ thường (VÌ

du, ProSys, eBay) Punctuation - — Kết thúc bằng đâu chấm, có đấu chấm bên

trong (vi đụ S†.L.B.M)

- Ban gồm cả chí cải, lần chữ số (Vi đụ:

W3C, ) Morphology -— TiểnHỗ hântố

- Từ kếtthúo bằng một cụm chữ chưng (ví đu Các từ kết fhúc băng chữ ish trong tiếng Anh 1a Spanish, Danish, )

Trang 25

- Danh sách chữ viết lát

Danh sách các thực thé - Tén td chic: government, airline

- _ Họ, tên đêm, tân

-_ Tên địa điểm: Lià Nội, Việt Nam

Danh sách từ gợi ý vé thue thé ~ Tử viết tắt chung cho một loại tổ chức (Inc.,.)

- Từ việt cùng vúi /ôn người như: Mĩ, Ms,

2.2.2 Tình hình nghiên cứu ngoài nước vẻ bài toán NER sử đụng học máy

Phân lớn các nghiên cứu về NER hiện nay đều sứ dụng các cách tiếp cận dựa trên học máy,

bao gằm học có giám sát, học không giám sát và học bán giảm sát Trong phần này, lận

ân sẽ giới thiệu và phân tích ưu nhược điểm của lừng cách tiếp cận

Học có giảm sắt

của học có giám sát như sau: Cho tập các đổi tượng và nhãn của chúng, xác

định qui luật gắn nhăn của dữ liệu Trên cơ sở đỏ, cho một đổi tượng mới, hệ thông có thể

gàn nhãn cho đối tượng này dựa trên qui luật gản nhãn vửa học được

Hiện nay, phần lớn các công trỉnh giải quyết bài trán trích rút thục thể thường sử

dụng các kỹ thuật học máy có giám sát như mô hình Markev ẩn T17, 62], cây quyết định,

mô hình Maximum entopy (13, 55|, máy veetơ hỗ trơ (SVM) |66, 92, mô hình trường,

ngẫu nhiên có điểu kiện CRE [11, 60, 63, B2]

Phương pháp học có giám ái cho kết quả chính xác, rứnng đôi hôi một lập dữ li

Truấn luyện được gản nhãn có kich cố lớn Hiệu quả trịch rút của hệ thống phụ thuộc nhiều

vào việc tập dữ liệu huấn luyện đủ lớn để bao quát được các hiện tương phúc lap trong

*hăn kế trên làm cho các tập đữ liệu huân luyện được gản nhăn đâm bảo chết lượng tương,

đổi khan hiểm Mặt khác, các kho đã liêu ca gán nhăn ngày cảng xmất hiện nhiều và

chưa được khái thác một cách tương xứng Thực tế này đời hỏi phải fim cách giảm yên cầu

Trang 26

lỗ

về qui mô tập đữ liệu huân luyện, đồng thời vẫn đám bảo hiện năng của hệ thông trích rút

¡ra bằng cách khái thắc tôi lượng dữ Hậu lớn chưa được gáu nhấn

Học không giảm sắt

Dé giải quyết vấn để gán nhãn bang tay, mệt số nhà nghiên cứu đã sử đụng phương

pháp học không giám sắt như [41, 97]

Tiếp cận chưng của mô hình học không giam sát là kỹ thuật phán cụm Ý tưởng chính của kỹ thuật này 14, cho một tập các đối tượng (không có nhãn), xác định gui luật tổ chức của cáo đối tượng đó đỗ nhóm các đổi lượng giông nhau lại thành cụm Trên cơ số

đó, cho một đói tượng mới, hệ thông có thể đưa đổi tượng này vào cụm có nhiều điểm

chưng nhất với nó

'Tiếp cận trích rút thực thể bằng việc phân cụm các đặc trưng tử dua tran mức độ

tương tự vỀ ngữ vith, có sử dụng cúc các thi nguyên lù vựng (vi dụ, Wordncl), các mẫu lừ

vựng, kết hợp với phương pháp học thống kê trên tập đữ liệu chưa gán nhãn có kích cỡ lên

Các hệ thông học máy khổng giảm sát không đời hỏi đữ liệu huấn luyện, nhưng khả

năng phát hiện thực thễ không cao và độ chính xác thấp

'Học bán giám sát

Như đã trình bày ở trên, phương pháp học có giám sắt cho ta kết quả trích rút có độ chính xác cao, nhưng đời hỏi tập dữ liệu huần luyện cỡ lớn, trong khi đó phương pháp học

không giám sát không đòi hỏi tập dữ liên đã gán nhãn, nhưng hiện quả trích rất lại rất thấp

Phương pháp họp bản giảm sal co thổ khắc phục được nhược điểm của hai phương pháp

trên, bằng cách huân luyện hệ thông với một tập đữ liệu huân luyện gân nhãn nhưng số

lượng nhỏ và sau dé hoc Lap đi lập lại, để cải thiên chât lượng hệ thống bằng cách đứa

thêm cáo dữ Tiệu, vừa được gắn nhấn nhận dược tử mô hình học úp đụng vào lập đữ luyện

thuần luyện và ding chính tập đữ liệu mới được gắn nhãn nay dé huấn luyện lại mỗ hình

Có thể kể đến một số nghiên cứu về trích rút thục thể sử đựng phương pháp học bán giảm

sắt như [18, 28, 58]

Brin [I8] sử đụng các đặc trưng tử vựng được biểu diễn dưới đạng biểu thức chính

quy để tạo ra danh sách các cặp tiện đềvà tên tác giả Hệ thông ban đầu sử dụng tập tên cơ

tân như {Isace, Asitnov, Tho Robot of D2awn} và một lập luật (vì dụ như biển thức chính

qui |A-Z|JA-Za-z.,&[°""].A-Za-z{) dé mô tà tiêu đẻ Trên cơ sở đó, hệ thông xây dung tap

mâu chứa các website phù hợp với tập luật đã xây dựng Cặp tiêu để va tên tác giả trưởng

Trang 27

được nhận dạng sử dụng các ràng buộc đơn giản như sự giảng nhau giữa ngữ cảnh trước, giữa và sau của cặp đăng xóL Vì dụ: Đoạn “The Robots of Dawn, by Issac Asimov Puperback?” cho phép hệ thông tìm được trong cùng mét website doan “The Anty, by Bernard WWorber (Paperbacl)”

Collin và Singer [28] sứ đựng phân tích từ loại cùng với lập đữ liệu để tìm các img viên mẫu thực thể Vi dụ, mẫu là danh từ riêng (được xác định dựa trên tử loai) đi cùng với cụm danh từ duéi dạng phần chủ thích (vi du, “Maury Cooper, a vice president at S&P”) Các ấu được đưa ra đưới đựng cặp {spclling,conlexU, rong dé spelling 1a danh li riéng,

context là các cụm danh tử ngữ cảnh của chúng Bát dầu hệ thông sử dụng Tập cơ sở chứa

cáo luật spalling ( ví du: luật 1: nếu spalling là “Aew Yor/©” thi cụm từ đang xét là đân địa

điêm, luật 2: nến spelling chứa “A#r.” thì cụm tử đang xét là zâ; ngưới; luật 3: nếu spelling

¡cả đếu là chữ viết hơa, thì cựn từ đang xét là sên sổ chức) dễ phát hiện củc ứng ct

Các ứng cử viên thỏa mãn luật spelling được phân lớp dựa trên luật Các ngữ cảnh

ên nhật được đưa vào tập luật context Tập luật oontext lại được sử dụng để tim các luật spcllng Tiếp tụe làm như váy, tập luật context vừa nhận được lai được sử đụng để tìm thêm luật spelling

Liao [58] sử đụng môi tập đữ liệu đã được gắn nñiần ban đầu có kích cỡ nhỏ I, để học

ra một mồ hình trích rút thực thế M sử dụng phương pháp CRF Mỏ hình này lúc đầu có độ

chính xác chưa cao, vi dữ liệu huấn luyện ban dầu chưa lớn, chưa bao ham nhiễu các đặc

trung ngôn ngữ (ngữ cảnh) phục vụ cho quả trình trích rút Dễ nâng cao độ chính xác của xuô hình M, cúc phương pháp học máy bản giảm sát tin các cách thức khác nhau để bố

sung tự động vào L những đỡ liệu huấn luyện mới Những đỡ liệu huân luyện mới này cân

cụng cap cho mnô hình những đặc trưng mới, đặc biệt là những đạo trưng với tần suất xuất

thấp, để làm tăng thêm hiểu biết của mô hình về các hiện tượng ngôn ngữ: Từ đó, cái thiên khá năng nhận điện thục thể của mô hình Dâ thực hiện việc này, Liao đã áp đựng mô tỉnh ban đầu M để gán nhân (trích rút thực thể) «ho một tập đữ liêu chưa gán nhấn cho trước Ú, sau đỏ sử đụng các thực thể T: trong U được nhân biết bởi M với độ tỉn cây thập, nhưng được nhân biết bởi các trí tước chuyên gia bên ngoài với một độ tin cây cao, dễ bố

sung vào lập dữ liêu huân huyện L ban đầu Ta gợi tập đứt liên L khi đã được bể sưng thèm

đữ Tiệu huận luyệu mới là 1" Với việc các thực thể E có độ lin cậy thấp trơng M được bỗ

sung vào tập đữ liệu huần luyện L„ mô hinh mới M? được học ra tử tập đữ liệu huần luyện.

Trang 28

12

mới L` sẽ tốt hơn mô hình ban đầu M Liao để xuất các trí thức để tìm các dữ liệu huấn

Tuyện mới, các trí thức bên ngoài được sử đụng Tà hai giả định ngôn ngữ sau đây:

1 Giả định xuất hiện nhiều lần: Những cụm tử (viết hơa) giỗng hệt nhau củng xuất

hiện trong một văn bản thường có kiểu thực thể giống nhau Chẳng hạn, trong một

“John”

van tì chinh, “Soha” co the xual tién nhieu lan vai cùng một lên

se Giả định ngữ cảnh Các thực thể như con người, tổ chức, địa điểm thường có các ngữ cảnh xung quanh giúp chúng ta nhễn biết được chúng một cách dễ dàng

Chẳng hạn, tên một lỗ chức thưởng được đi cũng bởi các hậu tô như: ñ

tên một người thường dược di cùng bởi các tiên tô như: Ä#-,CEØ,

'Trên cơ sở phương pháp học bán giám sát để xuất bởi Liao [58], luận án để xuất cách

mở rông các tri thức phụe vu việc tim các dữ liên huấn luyện mới bằng cách sử đụng tập

luật đồng tham chiếu về lên của tiếng ViệL Chỉ Hết của phương pháp này được đễ cập

trong Chương 4

3.2.3 Tình hình nghiên cứu trang nước về bài toắn NER

Đã có một số nghiên cửu về trích rút thự thể cho liễng Việt Tuy xiên, các nghiên cứu

này đều tập trung vào trích rúi thực thẻ, sử dụng, phương pháp học có giễm sát Tran và các công sự [S9] sử dụng mô tủnh mây vactơ hỗ trợ SVM cho việc phân lớp thực th3 Nguyen

và các cộng sự [76] sử dụng trường ngẫu nhiên có điều kiện CRF cho việc trích rút thực

thế, Các tác giả trong |3, 4, 68, 69, 70, 71, 72, 73] đã sử dụng phương pháp lặp cải thiện

dần bằng cách sử đụng các luật đồng tham chiến vì tên, omtology, các trí thức nhận được

từ trang wikipedia, kết hợp với mô hình thông kê để phân giải nhập nhằng giữa các lên, tức

lả ảnh xạ tên đúng với thực thể mả chủng tham chiếu Vi đụ, Philip cỏ thễ là giáo viên của trường đại học hoặc la cảnh sát viên

'Nhược điểm của các phương pháp trong [76, 89] chính ở chỗ chúng đổi hồi tap dtr

liệu huân luyện đã được gản nhãn có kích cỡ lớn, trong khi đó tiếng Việt chưa có một tập

lừ liệu như vậy Hơn nữa, việc xây dụng một tập dữ liệu như vậy cân rất nhiều thời gian

và công súc Vì vậy, để giải quyết vẫn đề này, luận án để xuất phương pháp học bán giám

sit, phù hợp với đặc điểm ngôn ngữ tiếng Việt Phương pháp này sẽ được nói chỉ tiết ở

Chương 4

Trang 29

2.3 Bài toán trích rút mối quan hệ giữa các thực thé (RE)

Định nghĩa 2.3: Trích rút mối quan hệ giữa các thực thể (Rclation Extraction - RE) là

việc xác định quan hệ giữa các cặp thục thể trong văn bản

Vi du, ching ta có quan hệ sống ở giữa hai Thực thê “ rên người” VÀ "tên địa điểm”,

quan hệ lọ hông giữa hai thục thể “⁄6n người” và “iên người” Bài toàn trích rút mỗi quan

hệ giữa các thực thể kháo với bài toán trích rút thực thả ở chỗ trích rút thực thé là bài toán quan lâm đến các đấy từ, tức là tì và phân lớp dãy lừ, lay nỏi cách khác, gân nhãn cho cae diy tir; trong khi đỏ bái toán tích rút môi quan hệ giữa các thục thể lại không gắn nhãn

cho diy tử, mà quan tầm đến xác định mối quan hệ giữa các thực thể Trong luận an tập

trung vào việc tìm mỗi quan hệ giữa cáo cặp thực thể nằm trong cùng một câu

2.3.1 Các đặc trưng được sử dụng trong bài toán RE

Các đặc trưng thưởng sử dụng để giải quyết bái toán RE bao gdm:

Từ: Các từ xung quanh hai thực thể, các từ nằm giữa hai thực thế có thể chứa các

qnan tệ giữa các thục thể Ví đụ, quan hệ “iz ziasatsz" giữa hai thực thé: tn cdng ty va tén dja điên sẽ dược xắc dịnh théng qua cum ti “located ø” năm giữa hai thực thể:

các thực thể đều tà danh từ, hoặc cụm danh từ †n chỉ sử đụng các danh từ, cụm danh

tử để nhận dạng thực thế, cỏn cáo động tử, cụm động từ được sử dụng như là các dâu hiệu

để tìm mỗi quan hệ giữa các thực thể

Ví dụ 2.3

<Location>The University of Helsinkt </Location> hosis <Conference> ICML

<iConference> this year

Trơng câu trên, mỗi quan hé “held in” giữa hai thực thể: tân hội nghị và tên địa điễm

được xác định qua dong ti “hosés”

Cây phân tích củ pháp: cây phân tích củ pháp cho phép nhóm các từ trong câu thành các kiểu cụm từ như: cụm đanh fừ, cụm đồng từ và cụm trạng tử Do đó, cây phân

tíơh củ pháp có vai tr quan trong hom từ loại khả nhận dang mdi quan hộ giữa các thựơ thể

Trang 30

19

Ví dụ 2.4:

<Location> Haifa </Location>, Located 53 miles from <Location> Tel Aviv

<Location> will host <Conference>ICML</Conference> in 2010

Dua trén khoang cach (so véi the thé ICML), cap thu thé “ Tel Aviv” va “ICML”

được xem là có moi quan hé “held in” manh hon cap thue thé “Haifa” va “ICML” Tuy nhiên, dựa trên cây củ pháp của câu trên, thực thể ICML sé gan thue the “Haifa” hon so

với thực thể “7e! Aviv”, béi vi “Haifa” 1a dau cia cum danh tit “Haifa, located 53 miles

from Tel Aviv” va cum danh ti nay dong vai tro chi ngit cua cum dong tr “will host ICML

in 2010"

Đồ thị phụ th

ra cây củ pháp đây đủ thưởng rất khó khăn và có độ chính xác không cao, đồ thị phụ thuộc

đồ thị có hướng miêu tả sự phụ thuộc giữa các nút Do việc tạo

có thể tránh được việc tạo cây củ pháp bằng cach kết nỗi mỗi từ với các từ mà nỏ phụ

thuộc vào Vỉ dụ, đối với câu trên, đồ thị phụ thuộc của chúng được cho trong hình 2.2

Đồ thị này cho thấy đông từ “Jøs° được kết nổi theo các thực thể zên địa điểm

“Haiƒa” và thực thể tên hội nghị “ICML" Và đồ thị này cho phép tao được mỗi quan hệ

gần giữa chúng Ngược lại, đường đi giữa “/CME” và “Tel Aviv” di qua “Haifa” va

“Located”

Haifa located 53 miles from Tel Aviv will host ICML in 2010

Hình 2.2 Đồ thị phụ thuộc của ví dụ 2.4 2.3.2 Tình hình nghiên cứu ngoài nước vẻ bài toán RE

a) Phương pháp dựa trên đặc trưng

Phương pháp này biển đổi các dâu hiệu cho việc trích rút quan hệ giữa các thực thể

(chẳng hạn như: chuỗi từ, cây củ pháp hoặc đỏ thị phụ thuộc) thành tập các đặc trưng

Giả sử x là câu đầu vào, x, là tir 6 tai vi tri thứ ¿ và EZ), E; đoạn trong câu x tương ứng

với hai thực thể cân xác định mỗi quan hệ Giả sử mỗi thực thẻ chứa 1 từ Từ x, gắn với các

Trang 31

tập đặc tg p; py Cac dic trrmg bao gêm từ x„ định dạng từ (orthographic) của x„ lớp khói niệm của +, Irong onlology, nhền của x; và từ loại của x,

Vi dụ 2.5 : Dưới đây là một ví dụ của phương pháp đựa trên đặc trưng,

<Location> Haifa </Lecation>, Located 53 miles from <Location> Tel Aviv

Location will host <Conferance> ICML</Conference in 2010

"Nếu xét đặc trưng của đấy tử, câu trên sẽ có đãy đặc trưng như sau:

Dặc trưng trnigram:

[[ Tứ hoat”, Iag="none"]]

Il Titloai “Verb”, flag “none”||

Dac mung bigram:

(host, ICML)", flag ="Gnone,2)"T]

rh, Noun)”, flag = “(none,2)"]]

|| Tit “host”, thé tir loai — Noun ||

Dac mung tigram

[[ Tit— “will, host, ICML)”, flag — “(none, none,2)"]]

[[ Tử leai

(Modifier, Verb, Noun)”, flag= “(none, none, 2)”]Ï Trong đó thể flag gắn liên với mỗi từ, có thể có 3 giá trị: *L” khi lừ đó là BU, “2” Khí tit dé là #2, “none” khi tử đó không phải lá #7 và E2

Dựa trên các mẫu nảy, hệ thông sẽ thực hiện tỉnh số đặc trưng lớn nhất của mỗi kiểu

quan hệ, Giá sử đo, là số giả trị có thể có của thuộc lính dit vad = YK, dp) là long giả trì theo các thuộc tính Ta thây số đặc trưng triararn 14 3d, đặc trưng bigzam là 3 # và

dang xét thánh hẳun hạt nhận Giải thuật SVM được sử dụng để phân lớp kiểu quan hệ (Ví

du, sống ở, làm việc cho, ) Như vậy, mỗi cặp ứng cử viên, sử dụng hàm hạt nhân K(Z,

-X¿ để đo mức độ tương đẳng 2 cầu trúc X và Ý" Sau đó, giải thuật phân lớp SVM xác

định auôi quan hệ giữa bai thực thể như sau

- Với mỗi mẫu huần luyện ¿ và mỏi quan hệ z, xác định trong s6 aie.

Trang 32

- Giả sử mỗi dữ liệu huấn luyện có đang (x, Ej, Fễ, z2, ?-1 W, rong đó, X, tương

img vii (+, £1, £2) Cho một cặp mẫu mới X=(x, /;, Z;), mỗi quan hệ kiểu z được tính bằng:

fargmaxuv XỸ ¡uy KỢM, X),

trong đó œ„ được tính trong quá trình huân luyện hệ thông Chỉ tiết của phương pháp

nay được trinh Dây ở chuơng 3

Một số hàm hạt nhân đã được các tác giả sử đụng trên cấy phân tích cú pháp, hoặc

đỗ thị phụ thuộc, hoặc kết hợp gã cá

phan tích và đổ thị phụ thuộc để biểu điển sân Dựa

trên cách biểu điễn đỏ, thục hiện việc tính độ tương đồng aiữa các cầu |15, 16, 20, 81, 95,

98, 102] 'Irong các phương pháp biểu diễn trên, hàm hạt nhân trên đồ thị phụ thuộc hay được sử đựng nhật Phân đưới đây sẽ mô tả phương pháp đỏ

Giả sử 7 và 7" là hai cây phụ thuộc của hai mẫu Huấn luyện tương img aX @, #„ E¿j vàX'~@', Ej, E;) Hàm hạt nhân K/X, X được định nghĩa như sau

Giá sử dường di ngắn nhất kết nổi giữa các thực thể trong 7 lả ? và trong 7° là `,

Các nút trên đường đi ?' được gắn với một tap các thuộc tính ø„, ,„y Hai nút được coi là giống nhau nếu có nhiều thuộc tính chung Mức độ lương lự giữa hai nút được định nghũa qua hàm hạt nhãn như sau:

Ker { mà nếu P, Pa độ đài khác nhan

AT], Commonproperties(P,,,) trưởng hợp ngược lại 'Trong 46 Commonpraperties(P,, 7) đo số thuộc tính chưng giữa mút thứ & theo

đường P và P*

Zelenko và các công sự |102| sử dụng hàm hạt nhân dễ tỉnh rnức độ tương đồng giữa các câu được biểu diễn đưới dạng cây phân tích củ pháp và gọi phương pháp này là hàm hại nhân dang cây cú pháp Sau đó họ sử dụng giải thuật SVM để học và phân lớp kiến quan hệ giữa các thục

Culotta va Sorensen [20] mé rong phuong pháp hàm hạt nhân dạng cây cú pháp thành hàm hạt nhân đồ thị phu thuộc Đẫu tiên các câu đá được biểu điễn đưới dang cây

phụ thuộc, sau đỏ thực hiện đo mức độ tương đồng trên các cây phụ thuộc của mỗi cẩu

Cuỗi cùng, sử dựng SVM để phát hiện và phân lớp kiễu quan hệ giùa các thực

Zhao và Giishman [98] kết hợp phương pháp hàm hạt nhân dạng cây cú pháp và hàm hạt nhân đọng đỗ thị phụ thuộc ở trên để hiểu điễn và lính độ lương đồng giữa các câu SVM được sứ dụng trong hệ thẳng của họ để boe và phân lớp kiểu quan hệ giữa cáo câu

Trang 33

Các phương phap 6 trén déu dua trén phan tich oi phap, nhung các hệ thẳng phân

tích củ pháp phần lớn có độ chính xác chưa cao, dẫn đến tốt hệ thông khi đự đoán Thay

, thuộc tính

của từ gốc, đặc điểm định dạng từ cho việc trích rút mỗi quan hệ giữa các thục thể Phương

vào đó, Giuliano và các công sự [45] đề xuất hưởng tiếp cận sử đụng từ loại,

pháp này sử dụng thuật loán học muáy SVM và được gọi là phương pháp hàm lạt rhân ngôn ngữ mức nông” Trong phương pháp này, hàm hạt nhân ngữ cảnh toàn cục và hàm

hạt nhản ngữ cảnh cục bộ được kết hợp với nhan nhằm tích hợp hai nguồn thông tin Hàm

Tại nhân ngữt cảnh Ioàn cục được lạo bởi ngĩt cảnh toàn cục chứa thông tin của loàn hộ câu Hâm hạt nhãn nạữ cảnh cục bộ được xác định trên nạĩt cảnh cục bộ xung quanh hai thực

thể ứng cứ viên Kết quả thử nghiêm của các tác giả trong trong [45] đà chứng minh rằng

phương phap của họ tốt hon các phửơng pháp trước đây Do hiện nay độ chính xác của các

hệ phân tích cú pháp tiếng Việt chưa cao, không sử đụng phân lich củ pháp trong Irich rúi

quan hệ giữa các thực thể, luận án sẽ đề xuất cải tiến phương pháp trong |45| trích rút mỗi quan hệ giữa các thực thể Phương pháp này sẽ được trình hảy cụ thê trong Chương 5

các lừ có thể chỉ muỗi quan hệ zụ Câu chứa cặp thực thổ (e,, 4) được gựi là có mỗi quan hệ (hoặc gân nhăn đương) khi thoả mẫn cóc rắng buộc như sau: Nếu chuỗi từ giữa ¢; va ¢ không đài hơn một ngưỡng nảo đỏ: trong cây củ pháp đường đi giữa e, và ø; không đi qưa

h để quan hệ, Cả ø, và ø không chú» đại từ (HỒ Các dữ Ì

nên này sẽ được biểu điển thánh dạng vectợ đặc trưng (từ loại, từ, số từ ) Sau dé đưa vào bộ huần luyện sử đụng phương pháp Naive Baye để tạo ra bộ phân loại

vửa được Iự động gắn

Thục hán piám sát

Phương pháp học có giảm sát thường đòi hối đữ liệu rất lớn, nên hiện nay nhiều tác

giả tập trung vào phương pháp học bán giảm sát [22, 47, 100]

Agiohicin và các cộng sự [9] xây đựng hệ thông trích rút mỗi quan hệ giữa các thực

thể sử dụng phương pháp học ban giam sat, agi la SNOWBALL Hé thing st: dung tập hạt

` Khái niệm hàm nhận được giới thiệu ở mục 3.2

Trang 34

23

nhân (seed), tập chứa mỗi quan hệ giữa cặp thực thể rổ chức- địa điểm: có kích cỡ nbd, gan

nihần cho các đữ liệu chưa có nhấn Mỗi đữ liệu vừa gần nhấn này

hea va dang ngit enh

(trước, e1, giữa, #2, sau) va duye biéu ditn dang vecto die trumg, trong do mdi ti vung st

cặp thực thế mới dưa vào tập seed Va lap di lặp lại công việc này cho tới khi hội tụ

Chen và các công sự [22] đề xuất phương pháp bán giám sát, sử dụng giải thuật lan

truyén nhiin (label propagation) Họ biểu điển các mẫu (có nhữn và cluớa có nhữn) dưới dạng các mút, khoảng cảnh giữa các nút là trọng số các cạnh của dé thi Trên cơ sỡ dó, xây dựng hai ma trận Y và 7 Ma tran V có kích thước ø x ø, với ø lả số mẫu có nhãn và chưa

có nhãn, z là số nhãn cần xét Ma trận 7 có kích thước ø x ø, đo độ tương đẳng giữa các

xấu Thục hiện nhân hai ma trận này về lặp lại quá trình đó nhiều lần cha đền khả hội lụ

Kết thúc quả trình, trong ma trận ¥, các mẫu sẽ oó nhãn tương ứng với phần tử có giá tị

lớn nhật Như vậy, điểm nhân của phương pháp này là đo mức độ tương đồng giữa các

Hệ z, c„ cạ„ cạ; lần lượt lá ngữ cảnh trước, giữa và sau cấp thực thã Sau đó, sử dụng,

phương pháp Bagging Bootstrapping để luấn luyện hệ thông Ý tưởng của phương pháp

nay là: Giả sử có Z mẫu có nhãn và mẫu chưa gắn nhân Đầu tiên, nhân bản các mẫu cô thin J think 8 gói và huấn luyện 8 bộ phôu lớp sử dụng dữ liệu đã nhân bản 8 bộ phân lớp nảy được ap dụng trên dữ liệu chưa có nhãn 17 Sau khi đã gán nhãn cho tập dữ liệu U,

tệ thống thực hiện tính độ tin cậy để tim s câu có đô tin cây eao (đô tỉn cây này được tính bằng hàm cntropy) và dưa thêm vào đữ liệu huấn luyện Quá trình này được lặp lại cho dén khi Không tìm được dữ liệu nào thỏa mãn nữa

2.3.3 Tình hình nghiên cứu trang nước vẻ bài toản RE,

Đã có một số nghiền cứu về trích rúi thông tin cho tiếng Việt Tuy nhiên, phần lớn các nghiên cứu tập trung vào trích rất thực thé

'Theo luận án được biết chỉ có một nghiền cứu liên quan đến trích rứt quan hệ [85]

với mục dich xác định môi quan hệ giña các thưc thê trong câu hỏi của hệ thông hỏi đáp

Trang 35

Dựa trên tập các vi dụ mẫu (gọi là hạt gidng), hé thing lap lai quá trình học để sinh rạ các mẫn và một tập nhiền hơn các hại giống cho quan hệ Các mẫu thô được xây dựng dựa trên

vẫn từ tập mẫu tỉnh chỉnh này và sử dụng mảy tìm kiếm Cioogle để tim

chửa các hạt giống mới Để xác định quan hệ được câu hỏi nhắm dấn, hệ thông lụa chọn mẩu phủ hợp nhất với câu hỏi Quan hệ của mẫu chính lã quan hệ mnà câu hỏi đang hỏi

TNgoài ra, các tác giả trong [69, 71] đá giải quyết vận đề nhập nhằng giữa các thực thế tức là giải quyết bài toàn trích rút mỗi quan hệ ở mức cao hơn, Vị dự, cỏ thể phát hiện

được tên thực thể là đường 7ø Quang 8u, nhưng ở Việt Nam có thể nằm ở đả Nội, hoặc

ở Sài (án Để giải quyết vẫn đề này, tác giá đã đề xuất phương pháp lặp cải thiện dần sử

dụng các luật kết hợp với nguồn trí thức Ontology chứa các thông tn về cặp thực thể img

cử viên, ví dụ như 7a Quang Bửu - Sài Gón Họ sử đụng các luật thực hiện phân hạng các

ứng cử viên đựa trên mỗi quan hệ ngí nghĩa gita chúng Ứng viên cá càng nhiễn các mỗi

quan hệ rhư thế cảng được phân hang cao, tức la, nêu một ứng viễn có nhiều mỗi quan hệ ngữ nghĩa với các thực thể đã được xác định trong toàn bộ văn bản, thì ứng viên đó được

xem là đímg thực thể đang xét đề cập đến Ngoài ra, họ còn sử đựng các luật tuan hệ đẳng

tham chiếu v tên dễ phân giải nhập nhằng cho các thục thể khác củng dồng tham chiếu

với thực thể vừa được phản giải nhập nhằng đồng tham chiễu Các thử nghiệm của họ cho

thay phương pháp này đạt kết quả khá tốt, nhưng vẫn tôn tại một số nhược điểm sau: Thit

nhất, ontology được xây đựng bởi một nhóm nhô các chuyên gia, trong đó cúc tính chất

của các thực thể đã được thiết lập cố định, sš không chứa đú các thông fĩn mỏ tả vẻ các

thực thể Điều này ảnh hưởng hiện quả của phân giải nhập nhằng Thứ hai, do mỗi tân

nhập nhằng, chỉ khưi thắc mỗi quan hệ đựa trên Ontology giữa ứng viên với các thực thể

đã được xác định, nên điều này đẫn đến tinh huồng: hoặc là thực thể có rnỗi quan hệ với

ứng viên xuật hiện trong văn bản, hoặc lả thực thể đó xuất hiện trong văn bản nhưng không,

tim thây mốt quan hệ rảo với ứng viên trong Ontology Trên thục tỄ các tử xuất hiện xung: quanh các thực thể cũng cỏ thể giúp ich cho việc phân giãi nhập nhằng,

Dễ giải quyết vân để này các lác giả đã đề xuất thêm phương pháp mới giải quyết

phân giải nhập những bằng cách kết hợp phương pháp thông kê với phương pháp phân

hạng dựa trên các luật Quả trinh phần giải nhập nhằng là lặp cải thiện đẫn, bao gỗm hai

giải đoạn Giai đoạn thứ nhất sử đụng các luật để thực hiện thu gọn các ứng viên nhận

Trang 36

tạ 5

duoc tit trang wikipedia và thực hiện ánh xa nếu có thể Giai đoạn thứ hai áp dụng mô hình

phân hạng đựa trên thông kế để chọn ứng viên tốt nhất Đối với phương pháp thông

mỗi tên trong văn bân được trích rút dặc trưng bao gồm các tên củng xuất hiện trong văn

bản, các từ xuất hiện xung quanh tên đang xét, các từ xung quanh tên đồng tham chiều với

tên đăng xét và định danh của các thực thể Mỗi lên ứng viên trong trang wikipedia cing được trích rút đặc trưng bao gồm nhan để trang thực thễ, nhan để trang đổi hướng, nhân

thể loại, nhàn liên kết ra vào, nhãn của các liên kết vào Các đặc trưng của mỗi thao thể

được chuyên thành một lúi từ: Sau đó, thực hiện phân hạng bằng cách đo độ lương tự gia hai tii từ Sau mỗi bước lập, các tực thể được phân giải sẽ được bổ sung vào danh sách cáo thực thể đã được xác định, phục vụ cho việc phân giải nhập nhằng cho các trưởng hợp

còn lại

2.4 Một số phương pháp học bán giám sát khác

TNgoài cae phương pháp học bán giám sát sử đựng trong trích rủi thông tin da dé sập đến trong các phẩn 2.2 và 2.3, học bán giám sát còn được sử đụng trong các bài toán khác như gán nhãn từ loại, phân tích cựm từ

Clark và các cộng sự [36] đề xuất ra phương pháp học bán giám sát cho bài loan gan

nhhần từ loại Họ sứ dụng phương pháp đồng huân luyện (Co-Training) như sau : Bắt đầu từ

dữ liệu đã gán nhãn nhỏ, huẳn luyện hai bộ phân loại (nột bộ phân loại được tạo ra sử dụng mô tỉnh Markov, bd phan toai thit hai sử dụng mô hình cực đại hod Entropy) Tiến theo, sử dụng hai bộ phân loại này gắn nhãn cho đữ liệu chưa có nhãn Sau đó huấn luyện

bộ phân loại Markov sử dụng dữ liệu vừa gắn nhãn bỏi bộ phân loại cục đại hoá Entropy,

và ngược lại Tiên trình sẽ lặp đt lặp lại cho đến khi gắn nhãn hết cho dữ Hệu chua có nhãn

Sogaard và các cộng sự |83| dẻ xuất ra phương pháp học bán giám sát làng giéng gan

nhất cổ đọng cho bài toán gán nhãn từ loại Dây lã phương pháp kết hợp phương pháp tự

Tuấn luyện với phương phán sô đọng lập dữ liệu huôn luyện Việc cỗ đọng tập dữ liệu Tuấn luyện đuợc thực kiện như sau Gọi C là tập dữ liệu cô đọng của tập đữ liệu gỗo 41 đủ gân nhân Loại bó các đữ liệu có nhãn mà nhãn của nó có thé dy đoàn bối tập C (sit dung

Thuật toán láng giéng gần nhất) San đó thêm đữ liệu vừa duoc gan nhãn bằng thuật toán

láng giêng gần nhất sử dụng tập dữ liệu có nhãn gốc 4 voi dộ tín cậy >0.90 vào tập C, ta được tập cô đọng mới là C” Kết quả thử nghiềm minh chứng sự nổi trội so với thuật toán

tro chỉ dựa trên giêng gần nhải cô đọng có giám sắt

Trang 37

Danme II và các công sự [38] nghiên cứu kỹ thuật ảnh xa các đầu vao dudi dang đề

thj sang đầu ra có cầu trúc dựa nên thuật toán học xấp xỉ Điểm chính của để xuất thuật học mới là xem quá trình học như một quá trình tối we hod tim kiếm với các cơ chế cập

nhật tham số, đảm bảo tính hội tụ Hai cơ chế cập nhật tham số được nghiên củu là : cập

xuất JESS-CM về thục chất là mêt phát triển của mô hình trưởng ngẫu nhiên có điền kiện

ban giảm sat (Semi-Supervised Conditional Random išeld-SSCM) chứa những mô hình xác suất liên hợp Các thử nghiệm của muô hình phân biệt được để xuất cho các bài toán nhận đạng thục thể có tên, gản nhãn và phân tích cú pháp vượt trội hơn so với các kết quả

nghiên cửu đã được công hồ,

2.5 Các phương pháp đánh giá kết quả trích rút

Kết quả hệ thông trích rút thông tín nói chưng và hệ thông Irích rút thực thể hoặc trích rủi

\q cách so sánh kết quá đầu ra cứa hệ

mỗi quan hệ các thực thể nói riêng được đánh giả bì

thông với kết quả, được chuyên gia gắn nhân thủ công Sau đây là hai phương pháp đánh

giá được sử đụng trong MUC, TREX, CƠNLL Để dễ hiểu phương pháp đảnh giá, chúng ta xem ví đụ dược trích từ văn bin vi dy eda MUC như sau:

'VÍ đụ 2.6 Ta có văn bản được gán nhãn bằng tay:

[like <Person>RobertcPeraon?, <Person>JJonh Rriggs.r </Person contacted

<Orgunization> Wonderfil Stockbrockers Ine </Organtzation® in <Location>

New Fark <‘Location> and instructed thent ta sell all his shares ia <Organization>

Acme</Organization>>

1 2.7 Gti sử san đây là kết qui đuợc gắn nhãn bởi hệ tổng

«<Location> Unlike</Location> Robert <Organisation>

Jonh Briggs Jr

</Organisation> contacted Wonderfid <Orgenization> Stockbrockers

</Organization> Inc <Date> in New York </Date’> und instructed then: (o sell all his

shaves in <Organizalion> Acme</Organization>

Trang 38

27

Bảng 2.3: 8ảng do ránh nhầm của bệ thống vôi nhân ñược gắn bằng tay, kèm theo mé te lỗi hương tỉng

Cán nhãn băng tay [ Gần nhãn bãng hệ thông LÃI tương ứng

Unlike <Location> lig thing tim thấy thực thể, nhưng

Unlike cHLewation® thye 18 khang phai (thin) 4 không chối “hủ

<Person> Robert Tiệ thông không nhận đạng được

</Person>

<Person> <Organization> 1iệ thẳng phát hiện thục thể

John Briggs hr John Briggs Jr m

/Person> </Organizalion> gán nhấn sai

<Organizalion> <Organiizaliou> Hệ lhôỏng lim được thực thể, nhưng

Wonderful Stockbrockers sơi đường biên

Stockbrookers Ino — | </Organization> ong

</Organization>

<Location> <Date> 1iệ thẳng pán sai nhãn và sai

New York in New York đường biên

S2Localion> </Date> 5

2.5.1 Cách đánh giá dựa trên độ trùng khớp

TREX va CONDI stt dung phương pháp đánh giá đơn giản hơn MỤC Phương pháp này được gọi chung lả phương pháp đánh giá dua trên độ trùng khớp (Exact Match

Evaluation)

Phuong phap nay si dung ba dé do: dQ chitih xde P(Precisian), độ phủ RŒReeall), độ

đo trung bình F(F-Messure) D6 chinh xác xác định phẩn trăm các mẫu đứng được hệ

Thông tìm thây so với các mầu được hệ thông cho là đúng Độ phủ xác định phân trăm mẫu

đứng được hệ thông từm thấy so với thực tế, Độ do F là giá tị trung bình giữa độ phủ và độ chính xác Ba độ đo này được tỉnh toán theo các công thức sau

Số mẫu đuục hệ théng gin ding en

~ sé miu dugc hé thẳng cho là đồng,

$4 min dugc hg théng gan dang

2P-R

Ở ví dụ truớc, chúng ta có 5 thực (hễ được gần nhãn bằng tay đúng, 5 thực thể hệ thing cho la dimg, slung trong đó chỉ có một thục thể đúng (rùng khóp với gán nhãn thực thế chuẩn), Như vậy chủng ta được P 20%, 20% và F 20%

Trang 39

(Type) va kha nang timn văn bản chính xác (Texl) Kiểu nhấn chính xác chỉ lính các thực thế được gân kiểu chính xác, không quan tâm tỏi dường biên, trừ trường hợp bị tring Kiều

‘van ban chinh xác (IexÐ chỉ tính đường biên của thực thể chính xác, không quan âm đến

thựơ thể, Đổi với cả Type và Tox, 3 độ đọ được dùng là: số câu trả lời hệ thông dự

đoán đúng sơ với thực tŠ (COR); số cần trả lời của hệ thông được cho là đúng (ACT) và số

đáp án đúng được gan nivin bing tay (POS)

Cuối cùng là độ đo trung bình F giữa đô chính xác (Precision) và độ phú (Recall) Trong MUC, d6 do trung bình F được tính thao tết cả các kiểu thực thể, chứ không tính riêng biệt cho từng kiểu thực thả Trong MUC, độ chính xác được tính bằng COR/ACT và

được phân tích, nhằm tìm giải pháp giải quyết bài toán trích rút thông tin trong van ban

tiếng Việt Các phân tích cho thấy rằng phương nháp học bán giâm sát là phương phap pho

hợp nhất để giải quy bài toàn trích rút thông lần tít văn bản tiếng Việt vỉ phương pháp này

chỉ cần một tập đỡ liệu được gán nhân bằng tay có số lượng không lớn (luận án sử dựng 50

văn bản đã gán nhãn cho bài toán trích rút thực thể và 250 câu đã gán rihãn cho bai toán trích rút quan hệ) Luận ản cũng đã phân tích một số phương pháp học bản giám sát đã được áp đụng hiệu quả cho bái toàn trích rút thực thé [58] va bai toán trích rút quan hệ [45.22,100] trong văn bản tiếng Anh Các phương pháp này có thể làm cơ sở cho việc cải

tiễn và áp đụng vào bái toán trích rút thực thê và quan hệ thực thể từ văn bản Hỗng Vì:

Tuận án.

Trang 40

CHƯƠNG 3

CÁC PHƯƠNG PHÁP HỌC MÁY DÙNG TRONG LUẬN ÁN

Trong chương này, chúng tôi sẽ trình bảy chỉ tiết cáo phương pháp học mảy, dược sử dụng,

gồm mỏ hình trường ngẩn nhiên có điển kiện (Conditioal Random tield-CRE), mỗ hình

may vecta hd tro (Support Vector Machine-SVM), mé hinh phan phi Dirichlet ẩn (Latent

Dirichlet Allocation -LDA) va cic phuong pháp học bán giảm sát

3.1 Mô hình trường ngẫu nhiên có điều kiện

‘Niu trong phân 2.3 đã nói, bai toán trích rủt thực thể có thể cơi là gản nhãn cho dữ liệu

dang chuỗi Đ giải quyết bài toan này, phương pháp thành công nhất hiện nay là trường

ngẫu nhiên có điều kiện (Conditional Randorn Eicld -CRF) CRE [38, 63, 64, 94] được giới thiêu lần đầu vào năm 2001 bởi Lafferty va cdc đông nghiệp CRF là mỏ hỉnh đựa trên xác

suất cỏ điều kiện, tích hợp được các thuộc tỉnh đa đạng của chuỗi đữ liệu quan sát nhằm hỗ

trợ cho quá trình phân lớp CRI sử đựng đổ thị võ hướng, điền này cho phép CRI có thả đính nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái khi biết chuỗi quan sắt cho

trước, thay vì phân phôi trên mỗi trạng thải khi biết trạng thái trước đó và quan sắt hiện tại

Cho trước chuối quan sái, mô hình đỗ thị võ hướng CRE lại biến đối phân phôi xã

của chuỗi trạng thải thánh tích các hàm tiềm nãng tiên các clique Do đó, CREs không cản

chuẩn hóa với các phân phối xác snất trên từng trạng thái Chính vì cách mô hình hóa như

vậy, CRE có thê giải quyết được vẫn để “sai lệch nhãn” [65, 94] Phần này số trình bày và

định nghĩa CRE, vận đề ước lượng tham số cho các mô hình CRE và vẫn để sử đụng mô

hình nảy đã phân lớp hoặc gán nhãn cho chuỗi

3.1.1 Khái niệm mô hình trường ngẫu nhiên củ điều kiện CRF

Kí hiệu X là

ngẫu nhiên nhận giá tri là nhãn tương ứng Mỗi thành phần ÿ, của Y là một biến ngẫu nhiễn

nhận giả trị trong tập hữu hạn các trạng thái $ Trong bài toán trích rút thục thê, X có thể

u cần phải gắn nhãn và Ƒ là biển

ngấu nhiên nhận giá trị là chuỗi dữ

nhận giá trị là các câu Irong ngôn ngữ tự nhiên và mỗi thành phẩn Ä; của X sẽ tương ứng với một từ trong câu, F là một chuỗi ngẫu nhiên cảc kiểu thực thể tương ứng với các câu và

Tiêu đề	Trích rút thực thể có tên và quan hệ thực thể trong văn bản tiếng việt
Tác giả	Sam Chanrathany
Người hướng dẫn	GS.TS. Nguyễn Thanh Thủy, PGS.TS. Lờ Thanh Hương
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Hệ thống Thông tin
Thể loại	Luận án tiến sĩ
Năm xuất bản	2012
Thành phố	Hà Nội

Định dạng
Số trang	121
Dung lượng	1,75 MB