trích rút mỗi quan hệ, để xuất phương pháp giải quyết bài toán trích rút thông tỉn cá nhân cũng như ứng dụng của bài toán này và phương pháp đánh giá kết quả Chương 3 trình bày một số p
Trang 11Š Ý nghĩa của luận văn
CHƯƠNG2: MÔ TẢ BÀI TOÁN VÀ HƯỚNG GIẢI QUYÉT
2.1 Khải quát về trích rat thông tin
2.1.2 Kiến trúc của hệ thống trích rút thông TÚ — 2.2 - Bài toán trích rút thông tín cả nhân
2.3 Phương pháp giải quyết bài toản trích rút thông tìn cá nhân
2.4 Ứng dụng của bài Loàn trích rút thông tín cá nhân
2.5 Phương pháp đánh giả kết quả
Trang 2Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
3.2.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể 36
Các dặc trưng được sử dụng trong trích rúi quan hẻ „u37
4.4 Các đặc trưng chủ quá trình hục máy
48.1 Một số tủy chọn trong bộ công cụ FlexCREs 58
Trang 35.2 Hướng phat trié
PHULUC 1: TAP DU LIEU
PHU LUC 2: MOT SO GIAO DIEN CHUONG TRINH
Trang 4Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
Tôi xin cøm doan, luận văn tết nghiệp Thaơ sỹ này là công trình nghiên cửu
của bản thân tôi đưới sự hướng dẫn của PGS T8, Lê Thanh Hương, Các kết quả
trong luận văn Lốt nghiệp là trung thực, không phải sao chép Loàn vấn của bắt kỳ
sông trình nào kháe Tôi xin chịu hoàn toàn trách nhiệm về nội đụng quyền luận văn nay
Trang 5
Tác giả xin chân thành gửi lên biết ơn đến Ban lãnh dạo Viện Công nghệ thông,
tin va Truyền thông, Viện Dào tạo Sau đại học và Bộ môn IIệ thống Thông tin,
thuộc trưởng Đại học Bách khoa Hà Nội đã tạo điều kiên thuận lợi trong quá Bình
học tập, nghiên cửa và hoàn thành luận văn
Với năng lực hạn chế của bãn thân cũng như những nguyên nhân chủ quan, khách quan, luận văn không Iránh những thiếu sói Tác giã rải mong được sự gớp ý
của quý thây cả, các bạn bè và đồng nghiệp đề luận văn được hoàn thiện hon
Cuối củng, tác giả muốn gởi lời cảm vô hạn tới gia định vá bạn bẻ, những, người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thục hiện luận
Trang 6Trích rút thông tin cá nhân từ văn bản tiếng Liệt
BANG TU VIET TAT
CRFs | Conditional Random Fields Em trường ngẫu nhiên có điều
HMM | Hidden Markov Model Mồ hình Markov an
IE _| Information Extraction Trích rút thông tin
RE Relation Extraction Trích rút quan hệ
SVM | Support Vector Machine May vécto hé tro
SDS _] Single-Document Sumarization | Tom tat don van ban
MDS | Multi-Document Summarization | Tóm tắt da văn bản
NP Noun Phrase Cụm danh từ
Trang 7Hình 2-4: Phân cấp các câu theo tác giá Sérgio Flipe 1
Hình 3-1: Đỗ thị có hướng mô tả mô bình HMM - - 37
Linh 3-2: Van dé “label bins” nnneriirereoeeaeoeoo.3Ô
Hình 4-1: Kiến trúc hệ thông trích rút thông tin cá nhãn 45
Trang 8Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
Một lượng lớn các tải liệu chứa các thông tia về cá nhân tiếp tực dược tạo ra
và xuất bản hàng ngày trên internet Các thông tin này luân chiếm một vị trí quan
trọng trong các máy tìm kiếm đữ liệu cũng như các trang web và thu hút sự quan
tâm của người dùng, các nhả nghiên cửu cũng như của các nhà phát triển dich va
web Nếu các thông tin này được trích rút tự động vả lưu trữ trong các co sở đữ liệu
có câu trúc thì chứng sẽ hỗ trợ lối cho các nghiên cửu về cơn người và các Tĩnh vực
liên quan như quảng cáo, nghiên cứu thị trường, thiết kế sản phẩm và đánh giá thói
quen người đùng
Ý thức được những lợi ich má các bài toán trích rút thông tin ca nhân, đồng,
thời phát triển cha ngôn ngữ tiếng Việt, tác giả đã chọn hướng nghiên cứu nhằm
giải quyết bài toán trích rút thông lim cá nhân từ văn bản Lễng Việt làm để tải luận
Trang 9© _ Nghiên cứu các phương pháp trích rút thông tin từ đó lựa chọn một phương
pháp phủ hợp với bải toản
© Xay dựng một hệ thống trích thông tin về cả nhân từ văn bản tiếng Việt
được lẫy từ trang web wikipedia (http://v1.wikipedia.org)
12.2 Phạm vi nghiên cứu
Luan van tập trung vảo việc trích rút thông tin của cả nhân từ văn bản phi câu
trúc tiếng Việt trên trang web http:/viwikipedia org, với giả định 01 văn bản chỉ
dé cập đến thông tin của một người Các văn bản nay sé được tiên xử lý trước khi
thực hiện trích rút thông tin Hệ thông sẽ trích rút từ văn bản phi cau trie nảy 04
thực thể: đên người, tên tổ chức, tên địa điểm ngày tháng và từ đó, tìm môi quan hệ
giữa thực thể người với các thực thể còn lại: ngây sinh (tên người-ngày tháng), nơi
sinh (fên người — địa điểm), công việc (lên người-tên tổ chức), sống ở (lên người-
tên địa điểm), quan hệ gia đình (tên người-tên người) Cuôi cùng, hệ thông trích sẽ đưa ra bảng dữ liệu gồm các mẫu thông tin về từng cả nhân được lưu trong cơ sở dữ
liệu
Ví dụ:
Lê Công linh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm, Quỳnh Lưu,
Nghệ -n, là một cẩu thủ bóng đá Uiệt Nam hiện đang thì đấu cho câu lạc bộ Sông Lam Nghé An
Sẽ được trích rút như sau:
1.Họ tên: Lê Công Vnnh
2 Ngày sinh: 10 thang 12 nam 1985
3 Nơi sinh: Quỳnh Lâm, Quỳnh Lưu, Nghệ -An
4 Công việc: Cầu thủ bóng đá, Câu lạc bộ Sông Lam Nghệ An
1.3 Nội dung nghiên cứu
Trong luân văn này, đề giải quyết bài toán trích rút thông tin cá nhân, tác giả nghiên cứu phương pháp trích rút thực thẻ sử dụng trường ngầu nhiên có điều kiện
Trang 10
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
1.4 Bố cục luận vẫn
Bề cục của luận văn gồm 5 chương vả phụ lục:
Chương 1 giới thiện về động cơ, mục tiêu và phạm vì nghiên cửa, những đồng góp chỉnh và câu trúc của luận văn
Chương 2 giới thiệu Lỗng quan về bài toán trích rút thông tím, bắt toán trích rút thông tin cá nhân và các bài toán liên quan là bài toán trích rút thực thể và bải toán trích rút mỗi quan hệ, để xuất phương pháp giải quyết bài toán trích rút thông tỉn cá nhân cũng như ứng dụng của bài toán này và phương pháp đánh giá kết quả
Chương 3 trình bày một số phương pháp trích rút thực thế và trích rút quan hệ
từ đó chọn ra phương pháp thích hợp ấp đựng cho bài toán trích rút thực thể từ văn
‘ban tiếng Việt Luận văn sử dụng phương pháp tiếp cận sử dụng CRT Trinh bảy
khai quát về biếu thức chính qui (Regularv Expression) và ứng dụng để trích rút
quan hệ giữa cáo thục thể,
Chương 4 trình bày thiết kế và xây đựng hệ thông trích rút thông tin cả nhân
từ trang web tiếng Việt wikipedia Trình bay các kết quả đạt cải đặt thử rhiệm và đánh giá
Chương 5 tông kết lại các kết quả dạt dược của luận văn và để xuất các hướng, xighiên cửu trong tương lai của luận văn
1.5 Ý nghĩa của luận văn
Với kết quả đã đạt được, luận văn đá mang lại một số kết quả nghiên cứu nhật định trong việc trích rủt thạc thẻ, trích rút quan hệ đặc biệt lá kết phương pháp CRF,
các luật đồng tham chiều vẻ tên và biểu thức chính qui đề giải quyết hải toán cụ thể
Trang 11
Đông thời, luận văn cũng xảy dựng một hệ thống trích rút thông tín cả nhân trên trang web wikipedia Ngudn thông tin được trích rút này có thể sử dụng cho các hệ thông thông tin khác như hệ thông hồi đáp về tiễn sử cá nhân
Trang 12
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
2.1 Khái quát về trích rút thông tin
2.1.1 Bài toán trích rút thông tin
Hiện nay, có rất nhiêu định nghĩa về trích rút thông tin, trên cơ sở nghiên cứu các nghiên cửu liên quan, có thể định nghĩa “Trích rút thông tin” (TE - Information Extraction) 14 qua trinh phat hign cac thie thé/tén, các mỗi quan hệ và các sự kiện
từ văn bản ban có cầu trúc, bán cầu trúc hay phi câu trúc; và chuyển ching sang
đang thể hiện có câu trúc (VD: cơ sở đữ liêu)
Việc trích rút ra các thông tin có câu trúc từ các nguồn đứ liệu không câu trúc
là một công việc nhiều khó khăn và đã thụ hút duợc sự quan tâm của nhiều các nhà nghiền cứu trong bai thập kí qua Bắt nguồn từ cộng đồng các nhà xử lý ngôn ngữ
tự nhiên, TE đã nhanh chẳng được quan tâm chủ ý bởi những công động khác nhau bao gồm học máy, truy van thông tin (Tnformation Retieval), cơ sở dữ liệu, web và phân tích văn bản
Trang 13
Hình 2-1: Ví dụ về trích rút thông tin
TE có nhiều ứng dụng rộng rãi vả hữu ích Trên thế giới IE được ứng dụng kha
nhiều vào việc trích chọn thông tin trên Internet Các ứng dụng thực tế ví dụ: Hỗ
trợ, tư vẫn mua hàng; chăm sóc khách hàng; tìm kiểm câu trả lời cho các hệ thống,
hỏi đáp; theo đối thông tin vẻ các dịch bệnh; theo đõi các sự kiện khủng bỏ, tham
gia vào hệ thông quản lỷ thông tin cả nhân Gần đây IE đặc biệt được chú trọng, trong lĩnh vực y học Đã cỏ khả nhiều nghiên cứu được tiền hành nhằm ứng dụng IE
vào việc trích rút các thực thẻ trong y học như tên các protein và gene
2.1.2 Kiến trúc của hệ thống trích rút thông tin -
MUC (Message Understanding Conferences ) [7] thi hé thong trich nit thong
tin có các thao tác chính như sau:
Trang 14
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
Kiến trúc của hệ thống trích rút là cơ sở đã xây đụng hệ thống trích rút thông tin cả nhân Do đó phan này sẽ giải thích cơ bân về kiến trúc của hệ thống trích rút thong tin
21.21 Tiểu xử lý dữ liệu
Văn bản đâu vào trước khi dén bude nhận dang thục thể phải được tiền xử lý,
'bao gồm các bước: Tách câu, tách từ, gán nhãn tử loại và phân cụm
21.22 Nhận dạng tực thể
Nhận đạng tên thực thé (Named Entity Recognition — NER) lA viée tim va
phân loại các thực thể rửa tên, địa danh, thời gian, tỔ chức có trong văn bản (xen thêm mục 2.3)
Trang 15
21.23 Giải quyết đồng tham chiếu
Giải quyết đồng tham chiếu (Coreferenee Resolution CO) là việc nhận dang
cáo đồng tham chiêu gia các thực thể bằng cách kết hop nhimg thông tin mô tã
nằm rãi rắc trên văn bản tới các thực thẻ mà nó tham chiêu Thao tae nay mang tinh chất hỗ trợ cho các thao tác khác Nó it bị ánh hướng bởi người dùng, loại văn bản, hay linh vue
Vida
Anh Nguyén Huy Tién là kiến trúc su: Hùng ngày, anit Tiễn đến cơ quan
trên đường Nguyễn 1u làm việc
Ổ đây từ
“Nguyễn Huy Tiên" “Tiến” là một tham chiếu đến thục thê người là “Nguyễn Thụ"
° đều cùng nỏi đến một đổi lượng là
guyễn Huy Tiên” và “Tiếu
tìm mỗi quan hệ phụ thuộc rÃi nhiều vào việp xảo định cde thuc thé trong câu cũng,
như độ phức tạp của mâu cảu (xem thêm mục 2.3.2)
2.2, Bai toán trích rút thông tin cá nhân
Đài toán trích rúi thông tim cá nhân (Persoral Iforrnalier BxlracHon) là việc
trích rút ra các thông tin quan tâm về cá nhân từ một nguồn dữ liệu bán cầu trúc hay không cấu trúc (vi dụ: văn bản, trang web ) và chuyên chủng sang dạng biểu diễn
có cầu trúc (ví đụ: cơ sở đữ liệu) Đài toán trích rút thông tìn cá nhân tuong ty ninr
Đài toán trích rút thông, tin về tiểu sử (Biograhphical Information Extraction) Trich zút thêng tin cá nhân là một bài toán hẹp của trích rút thông tin trong đó các thông tin can trich rút tập trưng vào một các cá nhân cụ thể
Trang 16
Trích rút thông tin cá nhân từ vin ban tiéng Viet
Lê Công Vinh
Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm,Quỳnh
Lưu, Nghệ An, là một câu thủ bóng đá Việt Nam hiện đang thi dau cho câu lạc
bộ Sông Lam Nghệ An và đội tuyên bóng đá quốc gia Việt Nam ở vị trí tiên
đạo Anh từng 3 lần nhận danh hiệu Quả bóng vàng Việt Nam vào các năm
2004, 2006, 2007 Em gai la Lé Khanh Chi
Nơi sinh Quynh Lam, Quynkeiru, Nebaitin
Quan hé gia dinh Em gai la Lé Khaaphchi Lam,
Công việc Thi dau cho cau lavas S m Nghệ An và đội
tuyển quốc gia VẾt Nam me i, Nghệ
thông tin tiêu sử (Biography) gia Viet
©_ Tâø giả Tuổi J BÍec [27] sử đụng biểu thad Aah gui và cáo hệ luật để
điển vào các mẫu thông tin về cá nhân
«Tác giả L Zhou [11] sử dụng mô hinh xác xuất Bayes (NB) dựa trên
các đặc trưng về từ vựng, ngữ cảnh, thực thể đẻ phân loại câu vào một
Trang 17
trong 10 loại cầu liên quan đến tiểu sử, vi dụ: thông tín số dịnh (ngày sinh, ngày mắt,.), danh tiếng, tính cách, giáo dục, công việc,
Đông tác gid N Garera va D Yarowsky [17] đã phát triển hệ thông cỏ
khả năng trích rút 7 trưởng thông tin cơ bản (ngày sinh, ngày mật, nơi
sinh, quốc dụng 6 kỹ thuật để khai thác các lớp thông từì khác nhau Các kĩ thuật
nảy bao gồm: ngữ cảnh bắt buée mét phan (partially Untethered
Contextual Patterns), dựa trên vị trí (position-based), các thuộc tính của
1, nghề nghiệp, giới tính và lồn giáo ) thông qua việc sử
các thực thể xảy ra đồng thời (Attributes of Co-cccuring lintiies), mô
tả sơ lược chủ để ngữ cảnh mở rộng (broad-context topical proles), tự sửa các thuộc lính (inLer-attribute oonclatier), giới hạn độ tuổi người với mục địch rút gon các số sai
Tác giả Fadi Biadsy [4] sử dụng phương pháp tiếp cận không giảm sat
và kỹ thuật tóm tất đa văn văn bản để tạo các văn bản tiểu sử Tác giả nay ap dụng xuô hình véc tơ hỗ trợ (SupporL veetor machine - SVM) dễ phân loại các cầu thành một trong 2 loại câu thuộc tiểu sử và câu không,
thuộc tiểu sử Dữ liệu được thu thập tir trang web Wikipedia
Tác giả Sérgio Tiipe [24] đề xuất mô hình trích rút các thông tin tiểu sử
bằng cách sử đụng các mô hình trường ngẫu nhiên có điển kiện (CRF),
xác xuất Bayes NB và mô hình máy véc tơ hỗ trợ (SVM) dé phân loại các câu trong văn bán tiểu sứ thành một trong 19 loại câu, thuộc ba cấp độ: cấp độ 0 (tiểu sử, không tiêu sử), cấp độ 1 (các điểm cá nhân không, thay doi, cde đặc diễm cả nhân có thể thay dỗi, các loại khác, đặc diém
về quan hệ cá nhân, các sự kiện cá nhân) và cấp độ 2 (ngày và nơi sinh, thông tin về bố rae, )
Trang 18
Trích rút thông tin cá nhân từ vin ban tiéng Viet
date and place of birth
education mutable personal occupation
Hinh 2-4: Phân cấp các câu theo tac gia Sérgio Flipe
Các tác giả N Garera và D Yarowsky [17] cho rằng các nghiên cứu vẻ bài
toán trích rút thông tin cá nhân cỏ thẻ được phan chia thanh hai dạng chính sau:
® Dạng 1: Xác định và trích rút các câu chứa thông tim cá nhân và xử lý
chúng như lả một hệ thống tóm tắt
© Dạng 2: Trích rút các thông ti chỉ tiết của của cả nhân (VD: Ngày sinh,
noi sinh, bé me )
Trong khuén khé ciia luan van, tac gia tap trung nghién citu vao hé thong trich
rút thông tin cả nhân Dạng 2 với mục đích trích rút ra các thông tin cụ thể của cả
nhân bao gồm: Tên người, ngảy sinh, ngày mắt, nơi sinh, quan hệ gia đình, thông, tìn về công việc (nghẻ nghiệp, làm việc cho tổ chức) Dữ liệu được thu thập từ trang
web tiếng Viét Wikipedia
2.3 Phương pháp giải quyết bài toán trích rút thông tin cá nhân
Để giải quyết bài toản trích rút thông tin cá nhân từ văn bản tiếng Việt áp dụng
trên trang web Wikipedia, tac gia de xuat phuong pháp như sau: trích rút các thực
Trang 19
thể từ văn bản sau dó trích rút quan hệ của thực thể người dễ cập chỉnh dén van ban với cáo thực thể khác đẻ tìm ra các thông tin chỉ tiết của thực thể ngưười này Như vậy, tác giả sẽ giải quyết hai bài roán chính sau:
«_ Tríchrút thực thể từ văn bản phí câu trúc
œ- Tríchrút quan hệ giữa các thực thể
Nội dìmg cụ thể của Hai bài toán này sẽ được Irình bày ở các phẩn liếp theo 2.3.1 Bai toàn trích rút thực thể
2311 Dink nghia bai todn
Trích rút thyc thé (Named Entity Recognition - NER) la viée tìm kiếm và
pụm (ừ trong văn bản vào các nhóm thực thể đã được xác định
phân lớp các từ,
trước nh: lên người, địa đánh, tổ chức, ngay thang, 19 lệ
Tội thảo MỤC |7| đã phân bài toán NER thành ba loại:
- Trích rút tên các thực thể bao gồm: tên người, tên 16 chức, tên địa diễm
- Nhận dạng các biểu thửc thời gian như “0-2-2000”, “09/02/2000”,
“10:20
- Trich rứt các biểu thứo số, như “594”, “7m”, “13&g”,
Ví đụ: Cho một đoạn văn bản:
Anh Nguyễn Quốc Hùng sinh ngày 05/07/1974iai Đà Nẵng Hôm nay , anh
Hing di thành phô Hỗ Chí Minh
Ching 1á tuyên đoạn văn bản trên được đánh dâu như sau:
Nguyễn Quốc liùng </per> simH ngày =time> 05/07/1974
</hime> tai <loc> Da Nang <loc> Hém nay , anh <per> ITimg </per> di <loc>
thành phé H6 Chi Minh </loc>
Bai toán trích rút thực thé 14 bai toán đơn giãn nhất trong số các bài toán trích
rút thông tin Tay nhiên, NER là bước cơ bản, quan ưọng rước khi tính đến việc
giải quyết các bài toán phức tạp hơn trong lĩnh vực này, Rõ ràng trước khi có thể xác định được các quan hệ giữa các thực thế ta phải xác định được đâu là các thực thé tham gia vào mối quan hệ do Lic dau NER duce coi là một thao tác đơn giân trong IE, nhưng ngảy nay no có một vai trỏ quan trọng quyết dinh dén các vấn dé khác có độ phức tạp cao hơn như như truy vẫn thông tin (Information Retrieval-IR) tay các hệ hỏi đáp (Question Answering Systems - QA)
Trang 20
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
Có nhiều phương pháp được dé xuất dễ giải quyết cho bải toán trích rút thực
thê được chia thành hai nhém: nhỏm các phương pháp dựa trên trí thức vả nhóm các
phương pháp đựa trên kỹ thuật học máy Có rât nhiều phương pháp học máy nhĩ
cae md hinh markev au (Hidden Markov Models - HMM), cée m6 hinh Markov cục đại hỏa Untropy (Maximum Entropy Markov Models- MEMM) va mô hình Conditional Random Field (CRF)
Trong, luận văn này, tác giả sẽ tập trung vào kỹ thuật học máy sử dụng trường,
Trgẫu nhiên có điển kiện
2.3.1.2 _Aô hình hóa bài toàn nhận biết các loại thực thế
Bãi loán nhận biết loại thực thể trơng văn bản là tìm câu trã lồi cho các cân
hỏi: ai2, bao gid?, ở đâu?, bao nhiêu Dây là một trường hợp cụ thê của bài toán
gán nhãn cho đứ liệu dang chuỗi, trong đỏ (trừ nhấn O — “khác”) thì mỗi một nhãn gồm một tiếp đầu ngữ B-(bät dâu một lên thực thé X) hoặc I-(bên trong một tên thực thể) kết hợp với tên nhăn Luận văn sẽ chỉ tập trưng trích rút bến loại thực thể
là: con người (nhãn Der), địa điểm (nhãn I.oc), thời gian (nhấn Từng) và lỗ chức
(nhãn Ong) Như vậy, chúng ta có tổng công 2*4 + 1 — 9 nhãn (B-per, I-per, B-loc, 1-lac, I3-org, I3-1 me, 1-Lime, I-org, O) trang bái toán gón nhãn của mình
Để gán nhãn thực thể cho các câu tiếng Việt, mỗi câu được coi là một chuối quan sát Mỗi phần từ của chuẫi quan sát tương từng với một từ tiếng Việt Bài toán trích rút thực thế trở thành bài toán gán nhấn unột trong bảy nhãn trên cho mỗi phẩn
tử trong dãy quan sát Ví dụ, dỗi với chuỗi “đẳng chi Nguyễn Văn Bình”, thông qua
tộ tách từ thu được “đồng cñỉí” là một từ, "Nguyễn Văn Bình" là một từ ([ đồng chí]
[Nguyễn Văn Bình]) Khi đó cách gần nhấn đúng cho chuỗi gồm 2 quan sắt này 3à: OB-PER
23.1.3 Métxé khe khan trong bai todn trick iit thực thể với tổng liệt
Đối với Tiếng Việt, có một số kho khăn chỉnh trong việc giải quyét bai toan
Trang 21'Trong tiếng, Việt, thường xây ra tình hudng nhập nhằng szửa các kiểu thực thể khác nhau (cùng mội tên nhưng có kiểu thực thể khác nhau trong các ngữ cảnh khác than),
Ví dụ “Nghệ An chơi tấn công củi mỡ, công hiển cho 2 vạn khin gid trên sân bữa tiệc bóng đá đẹp mắt với con mua ban thing’
- Ở dây “Nghệ An” là kiểu thực thẻ một tổ chức Tuy nhiên trong câu sau:
“Toc sinh Nghệ An có truyền thẳng kiến học”
- Thi “Nghé An” lai là 1 thực thế kiến địa điểm
Sự nhập nhằng, này xảy ra là do trong tiếng, Việt một số từ thường bị cất bỏ di nhưng người nghe, người dọc vẫn hiểu dược ý nghĩa dây đủ của câu Đi với vi dụ của la ở trên, câu đây đủ Lương ứng phải là
Ví dụ:
“Em đi dẫn trường mẫu giáo Hoa Mi"
Ở dây, “Họa Mất” là tên của một thực thẻ kiểu tổ chức, nhưng từ “họa mi” cũng xuất hiện trong từ điền tiếng Việt với ý nghĩa là tên của một loài chưn Sự xuất hiện này của từ “hoa mi” trong tử điển có thể làm cho máy bỏ qua không xét đến thực thể "ưởng mẫu giáo Họa MỸ” trong câu trên
2.3.2 Bài toán trích rút mỗi quan hệ
3321 Định nghĩa bài toán
Trích rút mối quan bệ (Rclation Extraction - RE) là việc xác định các môi quan hệ giữa các cặp thực thể trong văn bản
Ví dụ: Mỗi quan hệ giữa “tên người” và “tên tỗ chức” có thê là quan hệ “làm: việc tại”, mỗi quan hệ giữa “tên người" và “lên địa điểm” có thể là “sông ở”
Trang 22
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
Trích rút mối quan hệ tương dối khác sơ với trích rút thực thể Trong khi trích rút thực thẻ quan tâm đến 1 chuỗi các từ và được trình bảy như các nhãn thực thé thi trích rủt mỗi quan hệ nêu ra sự liên kết giữa các thực thể này với nhau
23.22 Trích rút mỗi quan hệ trong bài toán trích rút thông tin cá nhân
Mục đích của luận văm là trích rút ra các thông tín liên quan đến thực thể Lên người cần quan tầm gẻm: Tên, ngảy sinh, ngày mất, nơi sinh, quan hệ gia đình, công việc Mỗi văn bản tiếng Việt thụ thập từ trang web Wildipedia đến nỏi về một người nhất định và rong câu đầu tiên của văn bản dễu chứa thông lin về tên thực thể người quan tâm
Trong bài loan ray, bước đầu tiên của khi trích rút mỗi quan hệ giữa các thực
thể sẽ là trích rút thực thể tên người ma văn bản tập trưng đề cập đến Cáo bước tiếp theo sẽ là trích rút các thục thể cỏ mỗi quan hệ với thực thể tên người này Mỗi quan hệ ở đây được hiểu là “ngày sinh” (quan hệ giữa lên người và ngày tháng),
“ngày mắt” (quan hệ giữa tên người vả ngày tháng), “nơi sinh” (quan hệ giữa tên người và địa điểm), “quan hệ gia đình” (quan hệ giữa tên nguời và tên người),
“công việc” (quan hệ giữa tên người và tổ chức)
Sau khi văn bản được nhận đạng thục thẻ, tác giả sẽ sử đụng các luật, từ điển
và biểu thức chính qui để nhận ra mỗi quan hệ trên
2.4 Ứng dụng của bài toán trích rút thông tin cá nhân
Một hệ thông trích rút thông tin cá nhân tốt có thể được ứng đụng trong nhiều
tĩnh vực khác nhau Mội số trong các ứng dụng đó bao gồm:
« Hệ thống hỏi đáp: llệ thống hỏi đáp tự động lá hệ thống được xây dựng,
để thực hiện việc tự động tim kiếm chính xáo câu trả lời từ một tập lớn các tài liệu cho câu hỏi thay vi đưa ra danh sách các tải liệu (Silva, 2009 [26]
va Tsur et al., 2004 [27] }, 118 hỏi đáp có thể trả lời các câu hỏi được đưa ra bằng ngôn ngữ tự nhiên dựa trên nguồn trì thức
VD: Ưới câu hỏi: Pcle xinh năm nào? Sẽ nhận dược câu mũ lời là: Ngày 5
Trang 23« Hệ thống tám tất: Hệ thông tóm tắt sẽ đưa ra thông tin tóm tắt về tiếu sử
là rất lớn có khi lên tới hàng nghìn trang Web, Khi tích hợp hệ thống trích
rút thẳng tin cá nhân vào hệ thống tim kiếm thì với các từ khóa là người
cũng với cáo thuộc Lính như ngày sinh, công việc Thì hệ thống tìm k trả về kết quả sát với yêu cầu một cách nhanh chóng và chính xác
2.5 Phương pháp đánh giá kết quả
Hệ thông trích rút thực thế được đánh giá chất lượng thông qua ba độ đo: độ
chinh xac P (prevision), d6 bao phui R (recall) va độ do E (E-inessurc)
Độ chính xác Recall (R): là phán số thể hiện tỷ lê thông tìn được rút trích
đúng Bao nhiêu phần trắm thông tim được rút là đúng, Tỷ lệ giữa số lượng câu trả lời dáng tim thầy với tổng sở câu trả lời dúng có thể
Dé Lin cay Precision (P): là độ do hay phân số thể hiện khả răng tin cây của thông tín được trích xuất Tý lệ giữa tổng sỏ câu trả lời đúng tìm thay với tổng số câu trả lời tìm thấy
lảa độ đo nảy được tỉnh toán theo các công thức sau (mỗi kiểu thục thể ứng
với một bộ các đô đo này):
Trang 24Trích rút thông tin cá nhân từ văn bản tiếng Liệt
Correct Số trường hợp được gán đúng
Ineorreet Số trường hợp bị gán sai
Missing Số trường hợp bị thiêu
Vi dụ Giả sử hệ thông gan nhãn cụm tử “Hồ Chi Minh” la “B_PER I_PER O*, Ở mức độ nhãn, hệ thông gán đúng được 2 trong số 3 nhãn ví thẻ độ chính xác
sé la 2/3 Ở mức độ cụm từ, ta muốn cả cụm này được đánh dâu là tên người hay
chuỗi nhãn tương ứng phải lả °B_PER I_PER I_PER”, đỏ chỉnh xác khi xét ở mức
độ cum từ sẽ là 0/1 (thực tế cỏ một cụm tên thực thê nhưng hệ thông không đánh
dau đúng được cụm nảo)
Trong chương nảy, các thông tim khải quát vẻ trích rút thông tin đã được trình
bày củng với bài toán trích rút thông tin cá nhân Tác giả đã đưa ra phương pháp:
giải quyết bải toán trích rút thông tìn cá nhân đựa trên giải quyết hai bải toán là trích rút thực thể vả trích rút quan hẻ Trong các chương tiếp theo, tác giả sẽ trình bảy phương pháp giải quyết bài toán đầu tiên là bài toán trích rút thực thể
Trang 25
CHƯƠNG 3: TRÍCIT RỨT THỰC THẾ VÀ TRÍCH RỨT
QUAN HỆ
Có nhiều phương pháp tiếp cận khác nhau dẻ giải quyết bái toàn trích rút thực thé và trích rút mối quan hệ giữa các thực thể, chương này sẽ giới thiệu một số hướng tiếp cận như vậy cùng với những ưu nhược điểm của chúng từ đó lý giải tại sao hệ thống trích rút thông tim cá nhân trong văn bản tiếng Việt lại được xây đựng
diva trên phương pháp CRTs và biếu thức chính qui
3.1 Trích rút thực thể
3.1.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể
41.11 Cúch diếp cận thủ công
Nội dưng chính của hướng tiếp cận nảy lá sứ dụng các luật được tạo ra bởi cơn
người một cách thủ công Trên thể giới có nhiêu hệ thống áp đựng hướng tiếp cận
thủ công để giải quyết bài toán trích rút thực thế, Thông thường trong hệ thống sẽ
có rất nhiều luật
TTrên thục tế, các luật xây dựng đều chứa một số lượng lớn các ngoại lễ Thậm
chỉ ngay cá khi người thiết kế tìm cách giải quyết hết các ngoại lệ má họ nghĩ đến
thi vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thắng được đưa vào thực tế
Hơn nữa, việc xây dựng một hệ thống trích rút dựa trên các luật là rất tốn công sức Thông thường, để xây dựng một hệ thông luật như vậy đòi hỏi công sức vải tháng từ một lập trình viên với nhiều kinh nghiệm vẻ ngôn ngữ học Thời gian này còn lớn thơn khi chúng ta muốn chuyên sang lĩnh vực khác hay sang ngôn ngữ khác
Để giải quyết các hạn chế này cần phải xây đựng một hệ thông bằng cách nào
dó có thể “tự học” Điều nảy sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính khả chuyển cho hệ thống Các hệ thống học máy (được trình
‘bay dui day) ra doi dap ứng các yêu câu đó
Trang 26
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
41.12 Cúc mé hink Markov dn (HMM)
M6 hinh Markov an [5]]161[22] được giới thiệu vả nghiên cửu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay nỏ được ứng dụng nhiều trong nhận đựng tiếng nói, tin sitih học và xứ lý ngôn ngữ tự nhiên
Tổng quan về các mô hình HMM
HMM là mô lửnh máy trạng thái hữu han (probabilislic finile state machine) với các tham số biểu diễn xác suất chuyển trạng thải vả xác suất sinh đữ liện quan
sát tại mỗi trạng thái
Các trạng thai trong mé hinh HMM dược xem là bị ản di bên dưới dữ liệu quan sat sinh ra đo mô hình Quá trình sinh ra chuỗi đữ liệu quan sát trong HMM thông qua một loại các bước chuyên rạng thái, xuất phái từ ruột trong các Irạng thái bắt đầu và dừng lại ở một trạng thải kết thúc Tại mỗi trạng thái, một thành phần cúa
chuỗi quan sát được sinh ra trước khi chuyên sang trạng thái tiếp theo Trong bài
toán trích rút thực thể, ta có thẻ xem mỗi trang thải là tương Ứng với một trong các nhãn 13-per, B-loc, I-per vả đữ liệu quan sát lá các từ trong câu Mặc đủ các nhãn
nay không sinh ra các từ, nhưng mỗi nhãn được gán cho một từ bắt kì có thế xem
Thư là sinh ra từ này theo muội cách thức nào đó Vì thế, ta có thể tìm ra chuối cặc
trạng thái (chuỗi cáo nhần) mô tả tốt nhất cho chuối đữ liệu quan sát (chuỗi các từ)
bảng cách tỉnh xác suất của các chuối trạng thái và tìm xác suất lớn nhất:
Ở đây 5 là chuối trạng thái ấn, O là chuối đữ liêu quan sát đã biết Vì P(O) có thé tinh được một cách hiệu quả nhờ thuật toán [orwwrd-baokward [22], việc tim chuối 5* làm cực dại xác suất P(S|O) tương dương với việc tìm 8* lam cực dại P(S,0)
Trang 27
Ta có thể mô hình hỏa HMM dưới dạng một dỗ thị có hướng như sau
Hình 3-I: Đỗ thị có hướng mô tá mô hình HMM
Gi day, 5; là trạng thái tại thời điểm t=i trong chuỗi trạng thái 5, ©¡ lả đữ liệu
quan sát được tại thời điểm t—i trong chuỗi O Sử dụng tính chất Markev thứ nhất (trạng thái hiện tại chỉ phụ thuộc vào trạng thái ngay trước đỏ) và giá thiết đữ liệu quan sắt được tại thời điểm t chỉ phụ thuộc trạng thái tại †, ta cé thế tính xác suất
P(§,O] như sau:
?(,@)~ P(5)P(, | 5)[]JG, IS.) *P(,|5) a3
rộ Quả trình tìm ra chuỗi trạng thái tổi ưa mô tả tốt nhất chuỗi đử liệu quan sát cha trước có thể được thực hiện bởi một kĩ thuật lập trinh quy hoạch động sử dựng, thuat toan Viterbi
Giới hạn của các mô hình Markov an
Adrew McCallum [15] di dua ra hai vin dể mà các mô hình HMM truyền thống nói riêng và các mô hình sinh (generative models) ndi chung p&p phải khi gan xhhấn cho dữ liệu dạng chuỗi
Thủ nhất, để có thé tinh được xác suit P(S, ©) như trong công thức (3.1), thông thường ta phải liệt
ê hết cãc trường hợp có thể của chuỗi S và chuỗi O Nếu như các chuỗi 8 có thể Hệt kẽ dược vì số lượng các trạng thái là có hạn thí trong một
số ứng dung ta không thẻ nào liệt kê hắt được các chuối O vì dữ liệu quan sát là hết
sức phoạn phú và đa đạng Để giải quyết vấn dé nay, HMM phai đưa ra giả thiết
vẻ sự dộc lập giữa các dũ liêu quan sát, đó là dữ liêu quan sát dược tại thời điểm t
Trang 28
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
chỉ phụ thuộc trạng thải tại thời diễm đỏ Tuy vậy, với các bài toàn gan nahin cho dit liệu đạng chuỗi, ta nên đưa ra các phương thức biểu điễn các đữ liệu quan sát mềm déo hon như là biểu diễn đữ liệu quan sát đưởi dạng cac thuée tinh (features) không thụ thuộc lẫn nhau Ví dụ với bài Loán phần loại các câu hôi và câu Irả lời trong một danh sich TAQ, các thuộc tính oó thẻ là bản thân các từ hay độ dài của dang, s6
Van dé th hai ma cic mô hình sinh gặp phải khi áp dụng vào các bát toán
phan lớp đữ liệu dạng chuỗi đó là chúng sử đụng xác guất đảng thời đề mỗ hình hóa
cáo bài toán có tính điều kiến Với các bài toán này sẽ thích hợp hơn nễu ts ding
xuột mô hình điều kiện có thể tỉnh toán P (5|O) trực tiếp thay vì P (5, O) như trong,
công thức (3.1)
311.3 Mô hình Markow cực đại hỏa Enfropy (MEMM)
McCallum đã đưa ra muội mồ hình Markov mới - mô hình MEMM [H5]
(Maximum Entropy Markoy Model) nhu dap án cho những vấn dể của mô hình Markov truyền thống,
"Tổng quan về mô hình Markov cực đại hoa Entropy (EMM)
Mô hình MEMM thay thể cáo xác suất chuyển trạng thái và xác suất sinh quan sát trong HMM bởi một hảm xác suất duy nhất P (S|S¡¡, Q) - xav suat dé trang thai hiện tại là 5; với điểu kiện trạng thái trước đó là 5; và đữ liệu quan sát hiện tại là Ơ, Mô hình MEMM quan niệm rằng các quan sát đã được cho trước và chúng ta không cần quan tâm đến xác suất sinh ra chúng, điều duy nhất cần quan tầm là các xác suất chuyển trạng thải So sánh véi IIMM, 6 day quan sát hiện tại không chi
phụ Hưuộc vào trạng thái hiện tại mà côn có thể phụ thuộc vào trạng thái trước đó,
điều đó có nghĩa là quan sát hiện tại được gắn liên với quả trinh chuyền trạng thải
thay vi gắn liền với các trạng thái riêng lẻ như trang mô hình HMM truyền thẳng
Áp dụng tính chất Markov thứ nhất, xác suất P(§/O) có thể tính theo công thúc
Trang 29
POS|O) ~ PES, |O*T TPS 1S, 1.) (3.3)
rà
MEMM coi các đữ liệu quan sát là các điều kiện cho trước thay vì coi chúng,
như các thành phần được sinh ra bởi mô hình như trong HMM vì thê xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuối đữ liệu
Ở đây, 2, là các tham số cần duoc hudn luyện (uớc lượng), Z (O¿, S0 là thừa
chuyển trang thai 06 dạng hàm mũ như su:
số chân hoa dé tang xác suải chuyển Lừ trạng Hưái S,¡ sang tắt cã các trạng thái S, kể
đếu băng 1; f, (O;, S;) là hàm thuộc tính tại vị trí thử ¡ trong chuỗi dé liu quan sat
và trong chuối trạng thái Mỗi làm thuộc tính f, (O,,5) nhận hai tham số, một la dit
liệu quan sát biện tại ©, và một là trang thái hiện tại 8, MeCallum định nghĩa a—<b,
%>, ở đây b là thuộc tính nhị phan chi phụ thuộc vảo đữ liện quan sát hiện tại và 5¡
là trạng thái hiện tại
Dé gan nhan cho đữ liệu, MIMEM xác định chuối trạng thái S làm cực đại T{8|O) trong công thức (3.3).Việc xác định chuỗi 8 cũng được thực hiện bằng cách
áp dụng thuật toán Viterbi như trong HMM
'Vấn đề “hướng nhãn” (Jabel bias)
Trong một số trường hợp đặc biết, các mô hình MEMM và các mô hình định
nghia mél phan phối xác suất cho mỗi trạng thái có thể gặp phải vấn để “hướng,
nhãn” (Jabel bias) [8]ƒ28] Ta hãy xem xét một kịch bản chuyển trạng thái dơn giãn
sau:
Trang 30
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
Hình 3-2: Van dé “label bias”
Giả sử ta cần xác định chuỗi trạng thái khi xuất hiện chuỗi quan sát là “rob” Ở đây, chuỗi trạng thái đứng S là 0345" va ta mong đợi xác suất P (0345|rob) sẽ lớn
"hơn xác suất P(0125|rob)
dẫn đến xá suất P(0345|rob) nhỏ hơn xác suất P(0125lrob), Lức là cỉ
nổi trạng thái
S=0125 sẽ luôn được chọn dù chuỗi quan sát la ‘rib” hay ‘rob”
Léon Boltou (1991) đưa ra bai giải pháp cho vấn để này Giải pháp thứ nhất là gộp hai trạng thái 1, 3 và trì hoãn việc rẽ nhảnh cho đến khi gặp một quan sát xác dinh (cu thé & day la ‘i’ và “o') Đây chỉnh là trường hẹp đặc biệt của việc chuyến
mt automata da định sang rộL nutortsta đơn định, Nhưng vẫn để ở chỗ ngay cả khí
Trang 31
có thẻ thực hiện việc chuyên dỗi nảy thị cũng gặp phải sự bủng nỗ tổ hợp các trạng thái của automata Giải pháp thir hai ma Bottou đưa ra là chứng ta sẽ bắt đầu mô tình với một đồ thị đây đủ của các trạng thái và đề cho thủ tục huấn huyện tự quyết định một cầu trúc thích hợp cho mô hình.Tiếc rằng giải pháp này sẽ làm xuất tính dị
tỉnh có thứ tự của mô hình, một tính chất rất có ích cho cdo bai than trích chọn
suất của toàn bộ chuỗi trạng thái sẽ không phải được báo tên trong quả trình chuyên
trạng thái mà có thể bị thay đổi tại một bước chuyển tùy thuộc vào quan sát tại đó Trong ví dụ trên, xác suất chuyên tại 1 và 3 có thể có nhiều ảnh hưởng dối với việc
ta sé chon chuỗi trạng thái nào hơn xác suất chuyên trạng thái tai 0
3.12 Mô hình trường ngẫu nhiên có điều kiện
Bai loan trích rút thực thể có thể coi là gắn nhãn cho đữ liệu dạng chuỗi
Thương pháp thành công nhật hiện nay để giải quyết bai toan này là sử đụng các
trường điều kiện ngẫu nhiên (Conditional Random Field - CRF) CRF [1][14]f21] được giới thiệu lần dầu vào năm 2001 bởi Lafforty và các đồng nghiệp CRF là mô
tình đựa trên xác suất có điều kiện, tích hẹp được các thuộc tính đa đạng của chuỗi
đữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp CRF sử dụng đồ thị vô hướng, diéu nay cho phép CRE có thể dịnh nghĩa phân phối xác suất của toán bộ chuối trạng thải khi biết chuỗi quan sát cho trước, thay vì phan phổi trên mỗi trạng thái khi biết trạng thái trước đó và quan sát hiện tại Do do, CRFs khéng câu chuẩn hóa với các phân phối xác suất trên từng trạng thái Chỉnh vị cách mô hình hỏa nl vay, CRF có thể giải quyết được vân đẻ “sai lệch nhãn” (Label bias) [28] Phân này sẽ trình bày về dịnh nghĩa CRE, vẫn dễ ước lượng tham số cho các mô hình CRF và van để sử dụng mô hình này để phân lớp hoặc gan nh3n cho chuỗi
31.21 Khải niệm
Kí hiệu X là biến ngẫu nhiên nhận gia tri là chuỗi dữ liệu cần phải gán nhãn
và Y là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phân Ÿ, của Y là một
Trang 32
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
biển ngẫu nhiên nhận giả trị trong tập hữu hạn các trạng thải 8 Trong bải toán trích rút thục thể, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên và mỗi thành phân X; của X sẽ tương ứng với một từ trong câu 7 là một chuỗi nhãn trong img với các câu này Môi thành phân Y¡ của Y có miễn giá trị la tập tất cả các nhãn lên thực thế (tên người, tên địa đanh, .}
Cho một dễ thị võ hướng không có chủ trinh G=(“„E), ở dây L7 là tập các đính của đồ thị và Z là tập cáo cạnh vô hướng của để thị Các đỉnh biểu điễn các thành phân của biển ngẫu nhiên Ÿ sao cho tổn tại ảnh xạ mội-một giữa một đình vả ruột thành phân của Y, của Y Ta nỏi (|X) là một trưởng điều kiện ngẫu nhiên
(Conditional Random Field - CRF) với điển kiện X nêu các biến ngẫn nhiên Y, tuân theo tinh chất Markov d6i voi dé thi G:
PU,IX,¥,.,.@ # v) = P(¥,|X,¥,,w € N(v)) (3.5)
Ở đây, N{y) là tập tất cả các đỉnh kẻ với v Nhu vậy, một CRT là một trường xgẫu nhiên phụ thuộc toàn cục vào 3£ Trong các bài toán xứ lý dữ liệu dạng chuỗi,
Ở đơn gián chí là một chuỗi G=(={1,2, m}, ={0,i+1)})CMõ hình CRU tương
tìng trong trường hợp nay gọi là mồ hinh CRF chudi tuyén tinh)
Ki hiệu X=(1i„2, ,X„), YEŒI,Ÿ¿, „},) Mô hình đồ thị cho CRE có dạng:
Trang 33[6] cho các trường ngdu nhiên Markov, ta thừa số hóa được ø(|x) - xác suất của
chuỗi nhãn cho trước chuỗi đữ liệu quan sát - thành tích của cáo hâm tiêm năng nhì
toán gần nhãn đữ liệu dạng chuỗi, ta
công thức (3.6) sử dụng mô hình CRE có đỗ thị biểu diễn cầu trúc dạng dường thẳng như trong hình 3.1 Việc xây dựng mô hình xác suất và sử đụng nó dé
ế đi xây dựng một mô hình x:
ai bai
toan gan nhãn đữ liệu đang chuỗi sẽ được trình bày dưới đây
31.22 Tiàm điểm năng của các mô hình CIIrS
Bằng cách áp dụng nguyên lý cực dại hóa Entropy, Lafferty và cộng sự đã
xác định hàm tiểm năng của một CRE có đạng hàm mũ như sau
sual cia Lal ca ©:
Các thuộc tính nay được rúi ra từ tập đữ liệu và có giá trị cô định Vĩ dụ:
1 nếu x; = Billvày; = B — per
SY XD = fondu ngược lại
Trang 34
Trích rút thông tìn có nhân từ vẫn bản tiếng Việt
1 nếu +; ¡ = "Bill", x; = "Gate" va
tưỚI uYux,Ð) = Yi = B per, va y; = 1— per
0 nếu ngược lại
Thừa số chuẩn hóa Z(x) được tính như sau:
20) = Yep (So zn+ Mà) 3
Ay da, ft oid ) 1 veclor cdc thant 86 eiia md hinh,
41.23 Uc lượng tham sé cho mi hink CRF
Sau khi đã xác dịnh dược dạng của phân phối xác suất như trong công thức (3.8), để hoàn thành việc xây đựng phân phổi xác suất (36), chúng ta cân đi xác định một bộ tham số mô hình # “phủ hợp nhất” với tập đữ liệu huấn luyện (ước lượng tham số) Người ta thường tìm cách xảo định tham số # một cách xấp xi thông qua việc làm cực đại hóa độ đo likelihood giữa phân phải mồ bình và phân phối thực nghiệm
Giả sử đữ liệu huẳn huyện gầm một tập N cặp, mỗi cặp gồm một chuỗi quan sát và mội chuối trạng thái tương ứng, D {xy} GE 1,ÁO, Độ do Hkelihood của phan phối xác suất mô hình p(rlx, 8) đổi với tập dữ liệu huấn lưyện /2 là:
8,4, đâm bão những đữ liệu mà chúng ta quan sát được trang tập đữ liệu huấn
hưyện là có xác suất lớn nhất, Nói cách khác, các tham số lam cực đại hàm
likelihood sé twong, ung với phân phối xác suất mé hinh gan nhất với phân phối xác suất thực nghiệm trong tập dữ liệu huấn luyện Dễ đễ đảng hơn cho việc tính toán,
Trang 35
thay vi lim cue dai hoa ham likelihood, ta đi làm cực dại logarit ctia ham likelihood (thường được gọi tắt 14 log-likelihood)
10) = 3 B(x,y)loy p(y|x,6) (342)
.y
‘Vi ham logarit la ham đơn điệu tăng nên việc làm này không làm thay đổi giá trị của tham số Ø cần xác định Thay p(yfx,@) của mô hình CRE vào công thức (3.12), ta co:
i(@) = Yeen[y aes Sn] Yi iG) + logZG3) (8.13)
G day, Ay, Ans Ay) A 20), /o, , #ạ) là các vector tham số của mô hình, £
la vector cdc thuộc tính chuyển (101529500 02XÔ b1 0,0), và s là vector các thuộc tính trang thai (9 (9:%,3),520420,-.-5 Saeed)
Dén day, bai toan ude lượng tham số cho một mô hình CRE chuyến thành hai
loan tim cuc dai cho ham log-likelihood Ham log-likelihood cha mé hinh CRF là một hảm lốm và trơn trong toán bộ không gian của tham số 134n chat 18m ciia log- likelihood cho phép ta tim được giá trị cực đại toàn cụo Ø bằng cáo phương pháp khác nhau như các phương phép lặp (TS và GTS), cde phương pháp tôi ưu số (Conjugate Gradient, phương pháp Newton ) Theo đánh giá của Malouf (2002) 113], phương pháp được coi là hiêu quả nhất hiện nay trong việc trớc hương tham số cho các mô hình CREs là phương pháp tôi ưu số bậc hai L-BFGS (L.mmited ruermery BEGS) [3] L-BFGS cho phép giải quyết bài toán ước lượng tham số mà chỉ đòi hỏi xnột số lượng bộ nhớ giới hạn
31.24 Gắn nhãn cho dữ liệu dạng chuỗi
Sau quá trình ước lượng tham số dưa vào tập dữ liệu huận luyện được mỗ tä ở trên, ta dã hoàn thánh việc xây dựng phân phổi xác suất (3.6) để phục vụ cho bài toán trích rút thực thê nói riêng và bải toán gán nhân cho đữ liệu nói chung Dễ sử
ac sual may gan nhân cho một chudi quan sal mdi cho bude x, la
dung phan phd