1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt

70 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn trích rút thông tin cá nhân từ văn bản tiếng Việt
Tác giả Nguyễn Cao Cường
Người hướng dẫn PGS. Lê Thanh Hương
Trường học Đại học Bách khoa Hà Nội
Thể loại Luận văn thạc sỹ
Thành phố Hà Nội
Định dạng
Số trang 70
Dung lượng 1,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

trích rút mỗi quan hệ, để xuất phương pháp giải quyết bài toán trích rút thông tỉn cá nhân cũng như ứng dụng của bài toán này và phương pháp đánh giá kết quả Chương 3 trình bày một số p

Trang 1

1Š Ý nghĩa của luận văn

CHƯƠNG2: MÔ TẢ BÀI TOÁN VÀ HƯỚNG GIẢI QUYÉT

2.1 Khải quát về trích rat thông tin

2.1.2 Kiến trúc của hệ thống trích rút thông TÚ — 2.2 - Bài toán trích rút thông tín cả nhân

2.3 Phương pháp giải quyết bài toản trích rút thông tìn cá nhân

2.4 Ứng dụng của bài Loàn trích rút thông tín cá nhân

2.5 Phương pháp đánh giả kết quả

Trang 2

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

3.2.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể 36

Các dặc trưng được sử dụng trong trích rúi quan hẻ „u37

4.4 Các đặc trưng chủ quá trình hục máy

48.1 Một số tủy chọn trong bộ công cụ FlexCREs 58

Trang 3

5.2 Hướng phat trié

PHULUC 1: TAP DU LIEU

PHU LUC 2: MOT SO GIAO DIEN CHUONG TRINH

Trang 4

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

Tôi xin cøm doan, luận văn tết nghiệp Thaơ sỹ này là công trình nghiên cửu

của bản thân tôi đưới sự hướng dẫn của PGS T8, Lê Thanh Hương, Các kết quả

trong luận văn Lốt nghiệp là trung thực, không phải sao chép Loàn vấn của bắt kỳ

sông trình nào kháe Tôi xin chịu hoàn toàn trách nhiệm về nội đụng quyền luận văn nay

Trang 5

Tác giả xin chân thành gửi lên biết ơn đến Ban lãnh dạo Viện Công nghệ thông,

tin va Truyền thông, Viện Dào tạo Sau đại học và Bộ môn IIệ thống Thông tin,

thuộc trưởng Đại học Bách khoa Hà Nội đã tạo điều kiên thuận lợi trong quá Bình

học tập, nghiên cửa và hoàn thành luận văn

Với năng lực hạn chế của bãn thân cũng như những nguyên nhân chủ quan, khách quan, luận văn không Iránh những thiếu sói Tác giã rải mong được sự gớp ý

của quý thây cả, các bạn bè và đồng nghiệp đề luận văn được hoàn thiện hon

Cuối củng, tác giả muốn gởi lời cảm vô hạn tới gia định vá bạn bẻ, những, người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thục hiện luận

Trang 6

Trích rút thông tin cá nhân từ văn bản tiếng Liệt

BANG TU VIET TAT

CRFs | Conditional Random Fields Em trường ngẫu nhiên có điều

HMM | Hidden Markov Model Mồ hình Markov an

IE _| Information Extraction Trích rút thông tin

RE Relation Extraction Trích rút quan hệ

SVM | Support Vector Machine May vécto hé tro

SDS _] Single-Document Sumarization | Tom tat don van ban

MDS | Multi-Document Summarization | Tóm tắt da văn bản

NP Noun Phrase Cụm danh từ

Trang 7

Hình 2-4: Phân cấp các câu theo tác giá Sérgio Flipe 1

Hình 3-1: Đỗ thị có hướng mô tả mô bình HMM - - 37

Linh 3-2: Van dé “label bins” nnneriirereoeeaeoeoo.3Ô

Hình 4-1: Kiến trúc hệ thông trích rút thông tin cá nhãn 45

Trang 8

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

Một lượng lớn các tải liệu chứa các thông tia về cá nhân tiếp tực dược tạo ra

và xuất bản hàng ngày trên internet Các thông tin này luân chiếm một vị trí quan

trọng trong các máy tìm kiếm đữ liệu cũng như các trang web và thu hút sự quan

tâm của người dùng, các nhả nghiên cửu cũng như của các nhà phát triển dich va

web Nếu các thông tin này được trích rút tự động vả lưu trữ trong các co sở đữ liệu

có câu trúc thì chứng sẽ hỗ trợ lối cho các nghiên cửu về cơn người và các Tĩnh vực

liên quan như quảng cáo, nghiên cứu thị trường, thiết kế sản phẩm và đánh giá thói

quen người đùng

Ý thức được những lợi ich má các bài toán trích rút thông tin ca nhân, đồng,

thời phát triển cha ngôn ngữ tiếng Việt, tác giả đã chọn hướng nghiên cứu nhằm

giải quyết bài toán trích rút thông lim cá nhân từ văn bản Lễng Việt làm để tải luận

Trang 9

© _ Nghiên cứu các phương pháp trích rút thông tin từ đó lựa chọn một phương

pháp phủ hợp với bải toản

© Xay dựng một hệ thống trích thông tin về cả nhân từ văn bản tiếng Việt

được lẫy từ trang web wikipedia (http://v1.wikipedia.org)

12.2 Phạm vi nghiên cứu

Luan van tập trung vảo việc trích rút thông tin của cả nhân từ văn bản phi câu

trúc tiếng Việt trên trang web http:/viwikipedia org, với giả định 01 văn bản chỉ

dé cập đến thông tin của một người Các văn bản nay sé được tiên xử lý trước khi

thực hiện trích rút thông tin Hệ thông sẽ trích rút từ văn bản phi cau trie nảy 04

thực thể: đên người, tên tổ chức, tên địa điểm ngày tháng và từ đó, tìm môi quan hệ

giữa thực thể người với các thực thể còn lại: ngây sinh (tên người-ngày tháng), nơi

sinh (fên người — địa điểm), công việc (lên người-tên tổ chức), sống ở (lên người-

tên địa điểm), quan hệ gia đình (tên người-tên người) Cuôi cùng, hệ thông trích sẽ đưa ra bảng dữ liệu gồm các mẫu thông tin về từng cả nhân được lưu trong cơ sở dữ

liệu

Ví dụ:

Lê Công linh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm, Quỳnh Lưu,

Nghệ -n, là một cẩu thủ bóng đá Uiệt Nam hiện đang thì đấu cho câu lạc bộ Sông Lam Nghé An

Sẽ được trích rút như sau:

1.Họ tên: Lê Công Vnnh

2 Ngày sinh: 10 thang 12 nam 1985

3 Nơi sinh: Quỳnh Lâm, Quỳnh Lưu, Nghệ -An

4 Công việc: Cầu thủ bóng đá, Câu lạc bộ Sông Lam Nghệ An

1.3 Nội dung nghiên cứu

Trong luân văn này, đề giải quyết bài toán trích rút thông tin cá nhân, tác giả nghiên cứu phương pháp trích rút thực thẻ sử dụng trường ngầu nhiên có điều kiện

Trang 10

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

1.4 Bố cục luận vẫn

Bề cục của luận văn gồm 5 chương vả phụ lục:

Chương 1 giới thiện về động cơ, mục tiêu và phạm vì nghiên cửa, những đồng góp chỉnh và câu trúc của luận văn

Chương 2 giới thiệu Lỗng quan về bài toán trích rút thông tím, bắt toán trích rút thông tin cá nhân và các bài toán liên quan là bài toán trích rút thực thể và bải toán trích rút mỗi quan hệ, để xuất phương pháp giải quyết bài toán trích rút thông tỉn cá nhân cũng như ứng dụng của bài toán này và phương pháp đánh giá kết quả

Chương 3 trình bày một số phương pháp trích rút thực thế và trích rút quan hệ

từ đó chọn ra phương pháp thích hợp ấp đựng cho bài toán trích rút thực thể từ văn

‘ban tiếng Việt Luận văn sử dụng phương pháp tiếp cận sử dụng CRT Trinh bảy

khai quát về biếu thức chính qui (Regularv Expression) và ứng dụng để trích rút

quan hệ giữa cáo thục thể,

Chương 4 trình bày thiết kế và xây đựng hệ thông trích rút thông tin cả nhân

từ trang web tiếng Việt wikipedia Trình bay các kết quả đạt cải đặt thử rhiệm và đánh giá

Chương 5 tông kết lại các kết quả dạt dược của luận văn và để xuất các hướng, xighiên cửu trong tương lai của luận văn

1.5 Ý nghĩa của luận văn

Với kết quả đã đạt được, luận văn đá mang lại một số kết quả nghiên cứu nhật định trong việc trích rủt thạc thẻ, trích rút quan hệ đặc biệt lá kết phương pháp CRF,

các luật đồng tham chiều vẻ tên và biểu thức chính qui đề giải quyết hải toán cụ thể

Trang 11

Đông thời, luận văn cũng xảy dựng một hệ thống trích rút thông tín cả nhân trên trang web wikipedia Ngudn thông tin được trích rút này có thể sử dụng cho các hệ thông thông tin khác như hệ thông hồi đáp về tiễn sử cá nhân

Trang 12

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

2.1 Khái quát về trích rút thông tin

2.1.1 Bài toán trích rút thông tin

Hiện nay, có rất nhiêu định nghĩa về trích rút thông tin, trên cơ sở nghiên cứu các nghiên cửu liên quan, có thể định nghĩa “Trích rút thông tin” (TE - Information Extraction) 14 qua trinh phat hign cac thie thé/tén, các mỗi quan hệ và các sự kiện

từ văn bản ban có cầu trúc, bán cầu trúc hay phi câu trúc; và chuyển ching sang

đang thể hiện có câu trúc (VD: cơ sở đữ liêu)

Việc trích rút ra các thông tin có câu trúc từ các nguồn đứ liệu không câu trúc

là một công việc nhiều khó khăn và đã thụ hút duợc sự quan tâm của nhiều các nhà nghiền cứu trong bai thập kí qua Bắt nguồn từ cộng đồng các nhà xử lý ngôn ngữ

tự nhiên, TE đã nhanh chẳng được quan tâm chủ ý bởi những công động khác nhau bao gồm học máy, truy van thông tin (Tnformation Retieval), cơ sở dữ liệu, web và phân tích văn bản

Trang 13

Hình 2-1: Ví dụ về trích rút thông tin

TE có nhiều ứng dụng rộng rãi vả hữu ích Trên thế giới IE được ứng dụng kha

nhiều vào việc trích chọn thông tin trên Internet Các ứng dụng thực tế ví dụ: Hỗ

trợ, tư vẫn mua hàng; chăm sóc khách hàng; tìm kiểm câu trả lời cho các hệ thống,

hỏi đáp; theo đối thông tin vẻ các dịch bệnh; theo đõi các sự kiện khủng bỏ, tham

gia vào hệ thông quản lỷ thông tin cả nhân Gần đây IE đặc biệt được chú trọng, trong lĩnh vực y học Đã cỏ khả nhiều nghiên cứu được tiền hành nhằm ứng dụng IE

vào việc trích rút các thực thẻ trong y học như tên các protein và gene

2.1.2 Kiến trúc của hệ thống trích rút thông tin -

MUC (Message Understanding Conferences ) [7] thi hé thong trich nit thong

tin có các thao tác chính như sau:

Trang 14

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

Kiến trúc của hệ thống trích rút là cơ sở đã xây đụng hệ thống trích rút thông tin cả nhân Do đó phan này sẽ giải thích cơ bân về kiến trúc của hệ thống trích rút thong tin

21.21 Tiểu xử lý dữ liệu

Văn bản đâu vào trước khi dén bude nhận dang thục thể phải được tiền xử lý,

'bao gồm các bước: Tách câu, tách từ, gán nhãn tử loại và phân cụm

21.22 Nhận dạng tực thể

Nhận đạng tên thực thé (Named Entity Recognition — NER) lA viée tim va

phân loại các thực thể rửa tên, địa danh, thời gian, tỔ chức có trong văn bản (xen thêm mục 2.3)

Trang 15

21.23 Giải quyết đồng tham chiếu

Giải quyết đồng tham chiếu (Coreferenee Resolution CO) là việc nhận dang

cáo đồng tham chiêu gia các thực thể bằng cách kết hop nhimg thông tin mô tã

nằm rãi rắc trên văn bản tới các thực thẻ mà nó tham chiêu Thao tae nay mang tinh chất hỗ trợ cho các thao tác khác Nó it bị ánh hướng bởi người dùng, loại văn bản, hay linh vue

Vida

Anh Nguyén Huy Tién là kiến trúc su: Hùng ngày, anit Tiễn đến cơ quan

trên đường Nguyễn 1u làm việc

Ổ đây từ

“Nguyễn Huy Tiên" “Tiến” là một tham chiếu đến thục thê người là “Nguyễn Thụ"

° đều cùng nỏi đến một đổi lượng là

guyễn Huy Tiên” và “Tiếu

tìm mỗi quan hệ phụ thuộc rÃi nhiều vào việp xảo định cde thuc thé trong câu cũng,

như độ phức tạp của mâu cảu (xem thêm mục 2.3.2)

2.2, Bai toán trích rút thông tin cá nhân

Đài toán trích rúi thông tim cá nhân (Persoral Iforrnalier BxlracHon) là việc

trích rút ra các thông tin quan tâm về cá nhân từ một nguồn dữ liệu bán cầu trúc hay không cấu trúc (vi dụ: văn bản, trang web ) và chuyên chủng sang dạng biểu diễn

có cầu trúc (ví đụ: cơ sở đữ liệu) Đài toán trích rút thông tìn cá nhân tuong ty ninr

Đài toán trích rút thông, tin về tiểu sử (Biograhphical Information Extraction) Trich zút thêng tin cá nhân là một bài toán hẹp của trích rút thông tin trong đó các thông tin can trich rút tập trưng vào một các cá nhân cụ thể

Trang 16

Trích rút thông tin cá nhân từ vin ban tiéng Viet

Lê Công Vinh

Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm,Quỳnh

Lưu, Nghệ An, là một câu thủ bóng đá Việt Nam hiện đang thi dau cho câu lạc

bộ Sông Lam Nghệ An và đội tuyên bóng đá quốc gia Việt Nam ở vị trí tiên

đạo Anh từng 3 lần nhận danh hiệu Quả bóng vàng Việt Nam vào các năm

2004, 2006, 2007 Em gai la Lé Khanh Chi

Nơi sinh Quynh Lam, Quynkeiru, Nebaitin

Quan hé gia dinh Em gai la Lé Khaaphchi Lam,

Công việc Thi dau cho cau lavas S m Nghệ An và đội

tuyển quốc gia VẾt Nam me i, Nghệ

thông tin tiêu sử (Biography) gia Viet

©_ Tâø giả Tuổi J BÍec [27] sử đụng biểu thad Aah gui và cáo hệ luật để

điển vào các mẫu thông tin về cá nhân

«Tác giả L Zhou [11] sử dụng mô hinh xác xuất Bayes (NB) dựa trên

các đặc trưng về từ vựng, ngữ cảnh, thực thể đẻ phân loại câu vào một

Trang 17

trong 10 loại cầu liên quan đến tiểu sử, vi dụ: thông tín số dịnh (ngày sinh, ngày mắt,.), danh tiếng, tính cách, giáo dục, công việc,

Đông tác gid N Garera va D Yarowsky [17] đã phát triển hệ thông cỏ

khả năng trích rút 7 trưởng thông tin cơ bản (ngày sinh, ngày mật, nơi

sinh, quốc dụng 6 kỹ thuật để khai thác các lớp thông từì khác nhau Các kĩ thuật

nảy bao gồm: ngữ cảnh bắt buée mét phan (partially Untethered

Contextual Patterns), dựa trên vị trí (position-based), các thuộc tính của

1, nghề nghiệp, giới tính và lồn giáo ) thông qua việc sử

các thực thể xảy ra đồng thời (Attributes of Co-cccuring lintiies), mô

tả sơ lược chủ để ngữ cảnh mở rộng (broad-context topical proles), tự sửa các thuộc lính (inLer-attribute oonclatier), giới hạn độ tuổi người với mục địch rút gon các số sai

Tác giả Fadi Biadsy [4] sử dụng phương pháp tiếp cận không giảm sat

và kỹ thuật tóm tất đa văn văn bản để tạo các văn bản tiểu sử Tác giả nay ap dụng xuô hình véc tơ hỗ trợ (SupporL veetor machine - SVM) dễ phân loại các cầu thành một trong 2 loại câu thuộc tiểu sử và câu không,

thuộc tiểu sử Dữ liệu được thu thập tir trang web Wikipedia

Tác giả Sérgio Tiipe [24] đề xuất mô hình trích rút các thông tin tiểu sử

bằng cách sử đụng các mô hình trường ngẫu nhiên có điển kiện (CRF),

xác xuất Bayes NB và mô hình máy véc tơ hỗ trợ (SVM) dé phân loại các câu trong văn bán tiểu sứ thành một trong 19 loại câu, thuộc ba cấp độ: cấp độ 0 (tiểu sử, không tiêu sử), cấp độ 1 (các điểm cá nhân không, thay doi, cde đặc diễm cả nhân có thể thay dỗi, các loại khác, đặc diém

về quan hệ cá nhân, các sự kiện cá nhân) và cấp độ 2 (ngày và nơi sinh, thông tin về bố rae, )

Trang 18

Trích rút thông tin cá nhân từ vin ban tiéng Viet

date and place of birth

education mutable personal occupation

Hinh 2-4: Phân cấp các câu theo tac gia Sérgio Flipe

Các tác giả N Garera và D Yarowsky [17] cho rằng các nghiên cứu vẻ bài

toán trích rút thông tin cá nhân cỏ thẻ được phan chia thanh hai dạng chính sau:

® Dạng 1: Xác định và trích rút các câu chứa thông tim cá nhân và xử lý

chúng như lả một hệ thống tóm tắt

© Dạng 2: Trích rút các thông ti chỉ tiết của của cả nhân (VD: Ngày sinh,

noi sinh, bé me )

Trong khuén khé ciia luan van, tac gia tap trung nghién citu vao hé thong trich

rút thông tin cả nhân Dạng 2 với mục đích trích rút ra các thông tin cụ thể của cả

nhân bao gồm: Tên người, ngảy sinh, ngày mắt, nơi sinh, quan hệ gia đình, thông, tìn về công việc (nghẻ nghiệp, làm việc cho tổ chức) Dữ liệu được thu thập từ trang

web tiếng Viét Wikipedia

2.3 Phương pháp giải quyết bài toán trích rút thông tin cá nhân

Để giải quyết bài toản trích rút thông tin cá nhân từ văn bản tiếng Việt áp dụng

trên trang web Wikipedia, tac gia de xuat phuong pháp như sau: trích rút các thực

Trang 19

thể từ văn bản sau dó trích rút quan hệ của thực thể người dễ cập chỉnh dén van ban với cáo thực thể khác đẻ tìm ra các thông tin chỉ tiết của thực thể ngưười này Như vậy, tác giả sẽ giải quyết hai bài roán chính sau:

«_ Tríchrút thực thể từ văn bản phí câu trúc

œ- Tríchrút quan hệ giữa các thực thể

Nội dìmg cụ thể của Hai bài toán này sẽ được Irình bày ở các phẩn liếp theo 2.3.1 Bai toàn trích rút thực thể

2311 Dink nghia bai todn

Trích rút thyc thé (Named Entity Recognition - NER) la viée tìm kiếm và

pụm (ừ trong văn bản vào các nhóm thực thể đã được xác định

phân lớp các từ,

trước nh: lên người, địa đánh, tổ chức, ngay thang, 19 lệ

Tội thảo MỤC |7| đã phân bài toán NER thành ba loại:

- Trích rút tên các thực thể bao gồm: tên người, tên 16 chức, tên địa diễm

- Nhận dạng các biểu thửc thời gian như “0-2-2000”, “09/02/2000”,

“10:20

- Trich rứt các biểu thứo số, như “594”, “7m”, “13&g”,

Ví đụ: Cho một đoạn văn bản:

Anh Nguyễn Quốc Hùng sinh ngày 05/07/1974iai Đà Nẵng Hôm nay , anh

Hing di thành phô Hỗ Chí Minh

Ching 1á tuyên đoạn văn bản trên được đánh dâu như sau:

Nguyễn Quốc liùng </per> simH ngày =time> 05/07/1974

</hime> tai <loc> Da Nang <loc> Hém nay , anh <per> ITimg </per> di <loc>

thành phé H6 Chi Minh </loc>

Bai toán trích rút thực thé 14 bai toán đơn giãn nhất trong số các bài toán trích

rút thông tin Tay nhiên, NER là bước cơ bản, quan ưọng rước khi tính đến việc

giải quyết các bài toán phức tạp hơn trong lĩnh vực này, Rõ ràng trước khi có thể xác định được các quan hệ giữa các thực thế ta phải xác định được đâu là các thực thé tham gia vào mối quan hệ do Lic dau NER duce coi là một thao tác đơn giân trong IE, nhưng ngảy nay no có một vai trỏ quan trọng quyết dinh dén các vấn dé khác có độ phức tạp cao hơn như như truy vẫn thông tin (Information Retrieval-IR) tay các hệ hỏi đáp (Question Answering Systems - QA)

Trang 20

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

Có nhiều phương pháp được dé xuất dễ giải quyết cho bải toán trích rút thực

thê được chia thành hai nhém: nhỏm các phương pháp dựa trên trí thức vả nhóm các

phương pháp đựa trên kỹ thuật học máy Có rât nhiều phương pháp học máy nhĩ

cae md hinh markev au (Hidden Markov Models - HMM), cée m6 hinh Markov cục đại hỏa Untropy (Maximum Entropy Markov Models- MEMM) va mô hình Conditional Random Field (CRF)

Trong, luận văn này, tác giả sẽ tập trung vào kỹ thuật học máy sử dụng trường,

Trgẫu nhiên có điển kiện

2.3.1.2 _Aô hình hóa bài toàn nhận biết các loại thực thế

Bãi loán nhận biết loại thực thể trơng văn bản là tìm câu trã lồi cho các cân

hỏi: ai2, bao gid?, ở đâu?, bao nhiêu Dây là một trường hợp cụ thê của bài toán

gán nhãn cho đứ liệu dang chuỗi, trong đỏ (trừ nhấn O — “khác”) thì mỗi một nhãn gồm một tiếp đầu ngữ B-(bät dâu một lên thực thé X) hoặc I-(bên trong một tên thực thể) kết hợp với tên nhăn Luận văn sẽ chỉ tập trưng trích rút bến loại thực thể

là: con người (nhãn Der), địa điểm (nhãn I.oc), thời gian (nhấn Từng) và lỗ chức

(nhãn Ong) Như vậy, chúng ta có tổng công 2*4 + 1 — 9 nhãn (B-per, I-per, B-loc, 1-lac, I3-org, I3-1 me, 1-Lime, I-org, O) trang bái toán gón nhãn của mình

Để gán nhãn thực thể cho các câu tiếng Việt, mỗi câu được coi là một chuối quan sát Mỗi phần từ của chuẫi quan sát tương từng với một từ tiếng Việt Bài toán trích rút thực thế trở thành bài toán gán nhấn unột trong bảy nhãn trên cho mỗi phẩn

tử trong dãy quan sát Ví dụ, dỗi với chuỗi “đẳng chi Nguyễn Văn Bình”, thông qua

tộ tách từ thu được “đồng cñỉí” là một từ, "Nguyễn Văn Bình" là một từ ([ đồng chí]

[Nguyễn Văn Bình]) Khi đó cách gần nhấn đúng cho chuỗi gồm 2 quan sắt này 3à: OB-PER

23.1.3 Métxé khe khan trong bai todn trick iit thực thể với tổng liệt

Đối với Tiếng Việt, có một số kho khăn chỉnh trong việc giải quyét bai toan

Trang 21

'Trong tiếng, Việt, thường xây ra tình hudng nhập nhằng szửa các kiểu thực thể khác nhau (cùng mội tên nhưng có kiểu thực thể khác nhau trong các ngữ cảnh khác than),

Ví dụ “Nghệ An chơi tấn công củi mỡ, công hiển cho 2 vạn khin gid trên sân bữa tiệc bóng đá đẹp mắt với con mua ban thing’

- Ở dây “Nghệ An” là kiểu thực thẻ một tổ chức Tuy nhiên trong câu sau:

“Toc sinh Nghệ An có truyền thẳng kiến học”

- Thi “Nghé An” lai là 1 thực thế kiến địa điểm

Sự nhập nhằng, này xảy ra là do trong tiếng, Việt một số từ thường bị cất bỏ di nhưng người nghe, người dọc vẫn hiểu dược ý nghĩa dây đủ của câu Đi với vi dụ của la ở trên, câu đây đủ Lương ứng phải là

Ví dụ:

“Em đi dẫn trường mẫu giáo Hoa Mi"

Ở dây, “Họa Mất” là tên của một thực thẻ kiểu tổ chức, nhưng từ “họa mi” cũng xuất hiện trong từ điền tiếng Việt với ý nghĩa là tên của một loài chưn Sự xuất hiện này của từ “hoa mi” trong tử điển có thể làm cho máy bỏ qua không xét đến thực thể "ưởng mẫu giáo Họa MỸ” trong câu trên

2.3.2 Bài toán trích rút mỗi quan hệ

3321 Định nghĩa bài toán

Trích rút mối quan bệ (Rclation Extraction - RE) là việc xác định các môi quan hệ giữa các cặp thực thể trong văn bản

Ví dụ: Mỗi quan hệ giữa “tên người” và “tên tỗ chức” có thê là quan hệ “làm: việc tại”, mỗi quan hệ giữa “tên người" và “lên địa điểm” có thể là “sông ở”

Trang 22

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

Trích rút mối quan hệ tương dối khác sơ với trích rút thực thể Trong khi trích rút thực thẻ quan tâm đến 1 chuỗi các từ và được trình bảy như các nhãn thực thé thi trích rủt mỗi quan hệ nêu ra sự liên kết giữa các thực thể này với nhau

23.22 Trích rút mỗi quan hệ trong bài toán trích rút thông tin cá nhân

Mục đích của luận văm là trích rút ra các thông tín liên quan đến thực thể Lên người cần quan tầm gẻm: Tên, ngảy sinh, ngày mất, nơi sinh, quan hệ gia đình, công việc Mỗi văn bản tiếng Việt thụ thập từ trang web Wildipedia đến nỏi về một người nhất định và rong câu đầu tiên của văn bản dễu chứa thông lin về tên thực thể người quan tâm

Trong bài loan ray, bước đầu tiên của khi trích rút mỗi quan hệ giữa các thực

thể sẽ là trích rút thực thể tên người ma văn bản tập trưng đề cập đến Cáo bước tiếp theo sẽ là trích rút các thục thể cỏ mỗi quan hệ với thực thể tên người này Mỗi quan hệ ở đây được hiểu là “ngày sinh” (quan hệ giữa lên người và ngày tháng),

“ngày mắt” (quan hệ giữa tên người vả ngày tháng), “nơi sinh” (quan hệ giữa tên người và địa điểm), “quan hệ gia đình” (quan hệ giữa tên nguời và tên người),

“công việc” (quan hệ giữa tên người và tổ chức)

Sau khi văn bản được nhận đạng thục thẻ, tác giả sẽ sử đụng các luật, từ điển

và biểu thức chính qui để nhận ra mỗi quan hệ trên

2.4 Ứng dụng của bài toán trích rút thông tin cá nhân

Một hệ thông trích rút thông tin cá nhân tốt có thể được ứng đụng trong nhiều

tĩnh vực khác nhau Mội số trong các ứng dụng đó bao gồm:

« Hệ thống hỏi đáp: llệ thống hỏi đáp tự động lá hệ thống được xây dựng,

để thực hiện việc tự động tim kiếm chính xáo câu trả lời từ một tập lớn các tài liệu cho câu hỏi thay vi đưa ra danh sách các tải liệu (Silva, 2009 [26]

va Tsur et al., 2004 [27] }, 118 hỏi đáp có thể trả lời các câu hỏi được đưa ra bằng ngôn ngữ tự nhiên dựa trên nguồn trì thức

VD: Ưới câu hỏi: Pcle xinh năm nào? Sẽ nhận dược câu mũ lời là: Ngày 5

Trang 23

« Hệ thống tám tất: Hệ thông tóm tắt sẽ đưa ra thông tin tóm tắt về tiếu sử

là rất lớn có khi lên tới hàng nghìn trang Web, Khi tích hợp hệ thống trích

rút thẳng tin cá nhân vào hệ thống tim kiếm thì với các từ khóa là người

cũng với cáo thuộc Lính như ngày sinh, công việc Thì hệ thống tìm k trả về kết quả sát với yêu cầu một cách nhanh chóng và chính xác

2.5 Phương pháp đánh giá kết quả

Hệ thông trích rút thực thế được đánh giá chất lượng thông qua ba độ đo: độ

chinh xac P (prevision), d6 bao phui R (recall) va độ do E (E-inessurc)

Độ chính xác Recall (R): là phán số thể hiện tỷ lê thông tìn được rút trích

đúng Bao nhiêu phần trắm thông tim được rút là đúng, Tỷ lệ giữa số lượng câu trả lời dáng tim thầy với tổng sở câu trả lời dúng có thể

Dé Lin cay Precision (P): là độ do hay phân số thể hiện khả răng tin cây của thông tín được trích xuất Tý lệ giữa tổng sỏ câu trả lời đúng tìm thay với tổng số câu trả lời tìm thấy

lảa độ đo nảy được tỉnh toán theo các công thức sau (mỗi kiểu thục thể ứng

với một bộ các đô đo này):

Trang 24

Trích rút thông tin cá nhân từ văn bản tiếng Liệt

Correct Số trường hợp được gán đúng

Ineorreet Số trường hợp bị gán sai

Missing Số trường hợp bị thiêu

Vi dụ Giả sử hệ thông gan nhãn cụm tử “Hồ Chi Minh” la “B_PER I_PER O*, Ở mức độ nhãn, hệ thông gán đúng được 2 trong số 3 nhãn ví thẻ độ chính xác

sé la 2/3 Ở mức độ cụm từ, ta muốn cả cụm này được đánh dâu là tên người hay

chuỗi nhãn tương ứng phải lả °B_PER I_PER I_PER”, đỏ chỉnh xác khi xét ở mức

độ cum từ sẽ là 0/1 (thực tế cỏ một cụm tên thực thê nhưng hệ thông không đánh

dau đúng được cụm nảo)

Trong chương nảy, các thông tim khải quát vẻ trích rút thông tin đã được trình

bày củng với bài toán trích rút thông tin cá nhân Tác giả đã đưa ra phương pháp:

giải quyết bải toán trích rút thông tìn cá nhân đựa trên giải quyết hai bải toán là trích rút thực thể vả trích rút quan hẻ Trong các chương tiếp theo, tác giả sẽ trình bảy phương pháp giải quyết bài toán đầu tiên là bài toán trích rút thực thể

Trang 25

CHƯƠNG 3: TRÍCIT RỨT THỰC THẾ VÀ TRÍCH RỨT

QUAN HỆ

Có nhiều phương pháp tiếp cận khác nhau dẻ giải quyết bái toàn trích rút thực thé và trích rút mối quan hệ giữa các thực thể, chương này sẽ giới thiệu một số hướng tiếp cận như vậy cùng với những ưu nhược điểm của chúng từ đó lý giải tại sao hệ thống trích rút thông tim cá nhân trong văn bản tiếng Việt lại được xây đựng

diva trên phương pháp CRTs và biếu thức chính qui

3.1 Trích rút thực thể

3.1.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể

41.11 Cúch diếp cận thủ công

Nội dưng chính của hướng tiếp cận nảy lá sứ dụng các luật được tạo ra bởi cơn

người một cách thủ công Trên thể giới có nhiêu hệ thống áp đựng hướng tiếp cận

thủ công để giải quyết bài toán trích rút thực thế, Thông thường trong hệ thống sẽ

có rất nhiều luật

TTrên thục tế, các luật xây dựng đều chứa một số lượng lớn các ngoại lễ Thậm

chỉ ngay cá khi người thiết kế tìm cách giải quyết hết các ngoại lệ má họ nghĩ đến

thi vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thắng được đưa vào thực tế

Hơn nữa, việc xây dựng một hệ thống trích rút dựa trên các luật là rất tốn công sức Thông thường, để xây dựng một hệ thông luật như vậy đòi hỏi công sức vải tháng từ một lập trình viên với nhiều kinh nghiệm vẻ ngôn ngữ học Thời gian này còn lớn thơn khi chúng ta muốn chuyên sang lĩnh vực khác hay sang ngôn ngữ khác

Để giải quyết các hạn chế này cần phải xây đựng một hệ thông bằng cách nào

dó có thể “tự học” Điều nảy sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính khả chuyển cho hệ thống Các hệ thống học máy (được trình

‘bay dui day) ra doi dap ứng các yêu câu đó

Trang 26

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

41.12 Cúc mé hink Markov dn (HMM)

M6 hinh Markov an [5]]161[22] được giới thiệu vả nghiên cửu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay nỏ được ứng dụng nhiều trong nhận đựng tiếng nói, tin sitih học và xứ lý ngôn ngữ tự nhiên

Tổng quan về các mô hình HMM

HMM là mô lửnh máy trạng thái hữu han (probabilislic finile state machine) với các tham số biểu diễn xác suất chuyển trạng thải vả xác suất sinh đữ liện quan

sát tại mỗi trạng thái

Các trạng thai trong mé hinh HMM dược xem là bị ản di bên dưới dữ liệu quan sat sinh ra đo mô hình Quá trình sinh ra chuỗi đữ liệu quan sát trong HMM thông qua một loại các bước chuyên rạng thái, xuất phái từ ruột trong các Irạng thái bắt đầu và dừng lại ở một trạng thải kết thúc Tại mỗi trạng thái, một thành phần cúa

chuỗi quan sát được sinh ra trước khi chuyên sang trạng thái tiếp theo Trong bài

toán trích rút thực thể, ta có thẻ xem mỗi trang thải là tương Ứng với một trong các nhãn 13-per, B-loc, I-per vả đữ liệu quan sát lá các từ trong câu Mặc đủ các nhãn

nay không sinh ra các từ, nhưng mỗi nhãn được gán cho một từ bắt kì có thế xem

Thư là sinh ra từ này theo muội cách thức nào đó Vì thế, ta có thể tìm ra chuối cặc

trạng thái (chuỗi cáo nhần) mô tả tốt nhất cho chuối đữ liệu quan sát (chuỗi các từ)

bảng cách tỉnh xác suất của các chuối trạng thái và tìm xác suất lớn nhất:

Ở đây 5 là chuối trạng thái ấn, O là chuối đữ liêu quan sát đã biết Vì P(O) có thé tinh được một cách hiệu quả nhờ thuật toán [orwwrd-baokward [22], việc tim chuối 5* làm cực dại xác suất P(S|O) tương dương với việc tìm 8* lam cực dại P(S,0)

Trang 27

Ta có thể mô hình hỏa HMM dưới dạng một dỗ thị có hướng như sau

Hình 3-I: Đỗ thị có hướng mô tá mô hình HMM

Gi day, 5; là trạng thái tại thời điểm t=i trong chuỗi trạng thái 5, ©¡ lả đữ liệu

quan sát được tại thời điểm t—i trong chuỗi O Sử dụng tính chất Markev thứ nhất (trạng thái hiện tại chỉ phụ thuộc vào trạng thái ngay trước đỏ) và giá thiết đữ liệu quan sắt được tại thời điểm t chỉ phụ thuộc trạng thái tại †, ta cé thế tính xác suất

P(§,O] như sau:

?(,@)~ P(5)P(, | 5)[]JG, IS.) *P(,|5) a3

rộ Quả trình tìm ra chuỗi trạng thái tổi ưa mô tả tốt nhất chuỗi đử liệu quan sát cha trước có thể được thực hiện bởi một kĩ thuật lập trinh quy hoạch động sử dựng, thuat toan Viterbi

Giới hạn của các mô hình Markov an

Adrew McCallum [15] di dua ra hai vin dể mà các mô hình HMM truyền thống nói riêng và các mô hình sinh (generative models) ndi chung p&p phải khi gan xhhấn cho dữ liệu dạng chuỗi

Thủ nhất, để có thé tinh được xác suit P(S, ©) như trong công thức (3.1), thông thường ta phải liệt

ê hết cãc trường hợp có thể của chuỗi S và chuỗi O Nếu như các chuỗi 8 có thể Hệt kẽ dược vì số lượng các trạng thái là có hạn thí trong một

số ứng dung ta không thẻ nào liệt kê hắt được các chuối O vì dữ liệu quan sát là hết

sức phoạn phú và đa đạng Để giải quyết vấn dé nay, HMM phai đưa ra giả thiết

vẻ sự dộc lập giữa các dũ liêu quan sát, đó là dữ liêu quan sát dược tại thời điểm t

Trang 28

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

chỉ phụ thuộc trạng thải tại thời diễm đỏ Tuy vậy, với các bài toàn gan nahin cho dit liệu đạng chuỗi, ta nên đưa ra các phương thức biểu điễn các đữ liệu quan sát mềm déo hon như là biểu diễn đữ liệu quan sát đưởi dạng cac thuée tinh (features) không thụ thuộc lẫn nhau Ví dụ với bài Loán phần loại các câu hôi và câu Irả lời trong một danh sich TAQ, các thuộc tính oó thẻ là bản thân các từ hay độ dài của dang, s6

Van dé th hai ma cic mô hình sinh gặp phải khi áp dụng vào các bát toán

phan lớp đữ liệu dạng chuỗi đó là chúng sử đụng xác guất đảng thời đề mỗ hình hóa

cáo bài toán có tính điều kiến Với các bài toán này sẽ thích hợp hơn nễu ts ding

xuột mô hình điều kiện có thể tỉnh toán P (5|O) trực tiếp thay vì P (5, O) như trong,

công thức (3.1)

311.3 Mô hình Markow cực đại hỏa Enfropy (MEMM)

McCallum đã đưa ra muội mồ hình Markov mới - mô hình MEMM [H5]

(Maximum Entropy Markoy Model) nhu dap án cho những vấn dể của mô hình Markov truyền thống,

"Tổng quan về mô hình Markov cực đại hoa Entropy (EMM)

Mô hình MEMM thay thể cáo xác suất chuyển trạng thái và xác suất sinh quan sát trong HMM bởi một hảm xác suất duy nhất P (S|S¡¡, Q) - xav suat dé trang thai hiện tại là 5; với điểu kiện trạng thái trước đó là 5; và đữ liệu quan sát hiện tại là Ơ, Mô hình MEMM quan niệm rằng các quan sát đã được cho trước và chúng ta không cần quan tâm đến xác suất sinh ra chúng, điều duy nhất cần quan tầm là các xác suất chuyển trạng thải So sánh véi IIMM, 6 day quan sát hiện tại không chi

phụ Hưuộc vào trạng thái hiện tại mà côn có thể phụ thuộc vào trạng thái trước đó,

điều đó có nghĩa là quan sát hiện tại được gắn liên với quả trinh chuyền trạng thải

thay vi gắn liền với các trạng thái riêng lẻ như trang mô hình HMM truyền thẳng

Áp dụng tính chất Markov thứ nhất, xác suất P(§/O) có thể tính theo công thúc

Trang 29

POS|O) ~ PES, |O*T TPS 1S, 1.) (3.3)

MEMM coi các đữ liệu quan sát là các điều kiện cho trước thay vì coi chúng,

như các thành phần được sinh ra bởi mô hình như trong HMM vì thê xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuối đữ liệu

Ở đây, 2, là các tham số cần duoc hudn luyện (uớc lượng), Z (O¿, S0 là thừa

chuyển trang thai 06 dạng hàm mũ như su:

số chân hoa dé tang xác suải chuyển Lừ trạng Hưái S,¡ sang tắt cã các trạng thái S, kể

đếu băng 1; f, (O;, S;) là hàm thuộc tính tại vị trí thử ¡ trong chuỗi dé liu quan sat

và trong chuối trạng thái Mỗi làm thuộc tính f, (O,,5) nhận hai tham số, một la dit

liệu quan sát biện tại ©, và một là trang thái hiện tại 8, MeCallum định nghĩa a—<b,

%>, ở đây b là thuộc tính nhị phan chi phụ thuộc vảo đữ liện quan sát hiện tại và 5¡

là trạng thái hiện tại

Dé gan nhan cho đữ liệu, MIMEM xác định chuối trạng thái S làm cực đại T{8|O) trong công thức (3.3).Việc xác định chuỗi 8 cũng được thực hiện bằng cách

áp dụng thuật toán Viterbi như trong HMM

'Vấn đề “hướng nhãn” (Jabel bias)

Trong một số trường hợp đặc biết, các mô hình MEMM và các mô hình định

nghia mél phan phối xác suất cho mỗi trạng thái có thể gặp phải vấn để “hướng,

nhãn” (Jabel bias) [8]ƒ28] Ta hãy xem xét một kịch bản chuyển trạng thái dơn giãn

sau:

Trang 30

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

Hình 3-2: Van dé “label bias”

Giả sử ta cần xác định chuỗi trạng thái khi xuất hiện chuỗi quan sát là “rob” Ở đây, chuỗi trạng thái đứng S là 0345" va ta mong đợi xác suất P (0345|rob) sẽ lớn

"hơn xác suất P(0125|rob)

dẫn đến xá suất P(0345|rob) nhỏ hơn xác suất P(0125lrob), Lức là cỉ

nổi trạng thái

S=0125 sẽ luôn được chọn dù chuỗi quan sát la ‘rib” hay ‘rob”

Léon Boltou (1991) đưa ra bai giải pháp cho vấn để này Giải pháp thứ nhất là gộp hai trạng thái 1, 3 và trì hoãn việc rẽ nhảnh cho đến khi gặp một quan sát xác dinh (cu thé & day la ‘i’ và “o') Đây chỉnh là trường hẹp đặc biệt của việc chuyến

mt automata da định sang rộL nutortsta đơn định, Nhưng vẫn để ở chỗ ngay cả khí

Trang 31

có thẻ thực hiện việc chuyên dỗi nảy thị cũng gặp phải sự bủng nỗ tổ hợp các trạng thái của automata Giải pháp thir hai ma Bottou đưa ra là chứng ta sẽ bắt đầu mô tình với một đồ thị đây đủ của các trạng thái và đề cho thủ tục huấn huyện tự quyết định một cầu trúc thích hợp cho mô hình.Tiếc rằng giải pháp này sẽ làm xuất tính dị

tỉnh có thứ tự của mô hình, một tính chất rất có ích cho cdo bai than trích chọn

suất của toàn bộ chuỗi trạng thái sẽ không phải được báo tên trong quả trình chuyên

trạng thái mà có thể bị thay đổi tại một bước chuyển tùy thuộc vào quan sát tại đó Trong ví dụ trên, xác suất chuyên tại 1 và 3 có thể có nhiều ảnh hưởng dối với việc

ta sé chon chuỗi trạng thái nào hơn xác suất chuyên trạng thái tai 0

3.12 Mô hình trường ngẫu nhiên có điều kiện

Bai loan trích rút thực thể có thể coi là gắn nhãn cho đữ liệu dạng chuỗi

Thương pháp thành công nhật hiện nay để giải quyết bai toan này là sử đụng các

trường điều kiện ngẫu nhiên (Conditional Random Field - CRF) CRF [1][14]f21] được giới thiệu lần dầu vào năm 2001 bởi Lafforty và các đồng nghiệp CRF là mô

tình đựa trên xác suất có điều kiện, tích hẹp được các thuộc tính đa đạng của chuỗi

đữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp CRF sử dụng đồ thị vô hướng, diéu nay cho phép CRE có thể dịnh nghĩa phân phối xác suất của toán bộ chuối trạng thải khi biết chuỗi quan sát cho trước, thay vì phan phổi trên mỗi trạng thái khi biết trạng thái trước đó và quan sát hiện tại Do do, CRFs khéng câu chuẩn hóa với các phân phối xác suất trên từng trạng thái Chỉnh vị cách mô hình hỏa nl vay, CRF có thể giải quyết được vân đẻ “sai lệch nhãn” (Label bias) [28] Phân này sẽ trình bày về dịnh nghĩa CRE, vẫn dễ ước lượng tham số cho các mô hình CRF và van để sử dụng mô hình này để phân lớp hoặc gan nh3n cho chuỗi

31.21 Khải niệm

Kí hiệu X là biến ngẫu nhiên nhận gia tri là chuỗi dữ liệu cần phải gán nhãn

và Y là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phân Ÿ, của Y là một

Trang 32

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

biển ngẫu nhiên nhận giả trị trong tập hữu hạn các trạng thải 8 Trong bải toán trích rút thục thể, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên và mỗi thành phân X; của X sẽ tương ứng với một từ trong câu 7 là một chuỗi nhãn trong img với các câu này Môi thành phân Y¡ của Y có miễn giá trị la tập tất cả các nhãn lên thực thế (tên người, tên địa đanh, .}

Cho một dễ thị võ hướng không có chủ trinh G=(“„E), ở dây L7 là tập các đính của đồ thị và Z là tập cáo cạnh vô hướng của để thị Các đỉnh biểu điễn các thành phân của biển ngẫu nhiên Ÿ sao cho tổn tại ảnh xạ mội-một giữa một đình vả ruột thành phân của Y, của Y Ta nỏi (|X) là một trưởng điều kiện ngẫu nhiên

(Conditional Random Field - CRF) với điển kiện X nêu các biến ngẫn nhiên Y, tuân theo tinh chất Markov d6i voi dé thi G:

PU,IX,¥,.,.@ # v) = P(¥,|X,¥,,w € N(v)) (3.5)

Ở đây, N{y) là tập tất cả các đỉnh kẻ với v Nhu vậy, một CRT là một trường xgẫu nhiên phụ thuộc toàn cục vào 3£ Trong các bài toán xứ lý dữ liệu dạng chuỗi,

Ở đơn gián chí là một chuỗi G=(={1,2, m}, ={0,i+1)})CMõ hình CRU tương

tìng trong trường hợp nay gọi là mồ hinh CRF chudi tuyén tinh)

Ki hiệu X=(1i„2, ,X„), YEŒI,Ÿ¿, „},) Mô hình đồ thị cho CRE có dạng:

Trang 33

[6] cho các trường ngdu nhiên Markov, ta thừa số hóa được ø(|x) - xác suất của

chuỗi nhãn cho trước chuỗi đữ liệu quan sát - thành tích của cáo hâm tiêm năng nhì

toán gần nhãn đữ liệu dạng chuỗi, ta

công thức (3.6) sử dụng mô hình CRE có đỗ thị biểu diễn cầu trúc dạng dường thẳng như trong hình 3.1 Việc xây dựng mô hình xác suất và sử đụng nó dé

ế đi xây dựng một mô hình x:

ai bai

toan gan nhãn đữ liệu đang chuỗi sẽ được trình bày dưới đây

31.22 Tiàm điểm năng của các mô hình CIIrS

Bằng cách áp dụng nguyên lý cực dại hóa Entropy, Lafferty và cộng sự đã

xác định hàm tiểm năng của một CRE có đạng hàm mũ như sau

sual cia Lal ca ©:

Các thuộc tính nay được rúi ra từ tập đữ liệu và có giá trị cô định Vĩ dụ:

1 nếu x; = Billvày; = B — per

SY XD = fondu ngược lại

Trang 34

Trích rút thông tìn có nhân từ vẫn bản tiếng Việt

1 nếu +; ¡ = "Bill", x; = "Gate" va

tưỚI uYux,Ð) = Yi = B per, va y; = 1— per

0 nếu ngược lại

Thừa số chuẩn hóa Z(x) được tính như sau:

20) = Yep (So zn+ Mà) 3

Ay da, ft oid ) 1 veclor cdc thant 86 eiia md hinh,

41.23 Uc lượng tham sé cho mi hink CRF

Sau khi đã xác dịnh dược dạng của phân phối xác suất như trong công thức (3.8), để hoàn thành việc xây đựng phân phổi xác suất (36), chúng ta cân đi xác định một bộ tham số mô hình # “phủ hợp nhất” với tập đữ liệu huấn luyện (ước lượng tham số) Người ta thường tìm cách xảo định tham số # một cách xấp xi thông qua việc làm cực đại hóa độ đo likelihood giữa phân phải mồ bình và phân phối thực nghiệm

Giả sử đữ liệu huẳn huyện gầm một tập N cặp, mỗi cặp gồm một chuỗi quan sát và mội chuối trạng thái tương ứng, D {xy} GE 1,ÁO, Độ do Hkelihood của phan phối xác suất mô hình p(rlx, 8) đổi với tập dữ liệu huấn lưyện /2 là:

8,4, đâm bão những đữ liệu mà chúng ta quan sát được trang tập đữ liệu huấn

hưyện là có xác suất lớn nhất, Nói cách khác, các tham số lam cực đại hàm

likelihood sé twong, ung với phân phối xác suất mé hinh gan nhất với phân phối xác suất thực nghiệm trong tập dữ liệu huấn luyện Dễ đễ đảng hơn cho việc tính toán,

Trang 35

thay vi lim cue dai hoa ham likelihood, ta đi làm cực dại logarit ctia ham likelihood (thường được gọi tắt 14 log-likelihood)

10) = 3 B(x,y)loy p(y|x,6) (342)

.y

‘Vi ham logarit la ham đơn điệu tăng nên việc làm này không làm thay đổi giá trị của tham số Ø cần xác định Thay p(yfx,@) của mô hình CRE vào công thức (3.12), ta co:

i(@) = Yeen[y aes Sn] Yi iG) + logZG3) (8.13)

G day, Ay, Ans Ay) A 20), /o, , #ạ) là các vector tham số của mô hình, £

la vector cdc thuộc tính chuyển (101529500 02XÔ b1 0,0), và s là vector các thuộc tính trang thai (9 (9:%,3),520420,-.-5 Saeed)

Dén day, bai toan ude lượng tham số cho một mô hình CRE chuyến thành hai

loan tim cuc dai cho ham log-likelihood Ham log-likelihood cha mé hinh CRF là một hảm lốm và trơn trong toán bộ không gian của tham số 134n chat 18m ciia log- likelihood cho phép ta tim được giá trị cực đại toàn cụo Ø bằng cáo phương pháp khác nhau như các phương phép lặp (TS và GTS), cde phương pháp tôi ưu số (Conjugate Gradient, phương pháp Newton ) Theo đánh giá của Malouf (2002) 113], phương pháp được coi là hiêu quả nhất hiện nay trong việc trớc hương tham số cho các mô hình CREs là phương pháp tôi ưu số bậc hai L-BFGS (L.mmited ruermery BEGS) [3] L-BFGS cho phép giải quyết bài toán ước lượng tham số mà chỉ đòi hỏi xnột số lượng bộ nhớ giới hạn

31.24 Gắn nhãn cho dữ liệu dạng chuỗi

Sau quá trình ước lượng tham số dưa vào tập dữ liệu huận luyện được mỗ tä ở trên, ta dã hoàn thánh việc xây dựng phân phổi xác suất (3.6) để phục vụ cho bài toán trích rút thực thê nói riêng và bải toán gán nhân cho đữ liệu nói chung Dễ sử

ac sual may gan nhân cho một chudi quan sal mdi cho bude x, la

dung phan phd

Ngày đăng: 09/06/2025, 12:53

HÌNH ẢNH LIÊN QUAN

Hình  2-1:  Ví  dụ  về  trích  rút  thông  tin - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 2-1: Ví dụ về trích rút thông tin (Trang 13)
Hình  2-2:  Kiến  trúc  cúa  hệ  thống  trích  rứt  thông  tin  Mục  liêu  của  luận  văn  là  bài  toàn  trích  rúi  thực  thể  và  trích  rúi  mới  quan  hệ - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 2-2: Kiến trúc cúa hệ thống trích rứt thông tin Mục liêu của luận văn là bài toàn trích rúi thực thể và trích rúi mới quan hệ (Trang 14)
Hình  2-3:  Trích  rút  thông  tin  cá  nhai*tir vận Bán  đ§iểu  sử  phi  cấu  trúc - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 2-3: Trích rút thông tin cá nhai*tir vận Bán đ§iểu sử phi cấu trúc (Trang 16)
Bảng  2-1:  Các  giá  trị  đánh  giá  một  hệ  thông  trích  rút  thực  thể - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
ng 2-1: Các giá trị đánh giá một hệ thông trích rút thực thể (Trang 24)
Hình  3-I:  Đỗ  thị  có  hướng  mô  tá  mô  hình  HMM - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 3-I: Đỗ thị có hướng mô tá mô hình HMM (Trang 27)
Hình  3-2:  Van  dé  “label  bias” - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 3-2: Van dé “label bias” (Trang 30)
Hình  3-3:  Đồ  thị  vô  hướng  mô  tả  CREs - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 3-3: Đồ thị vô hướng mô tả CREs (Trang 32)
Hình  4-1:  Kiến  trúc  hệ  thống  trích  rút  thông  tin  ca  nhân - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 4-1: Kiến trúc hệ thống trích rút thông tin ca nhân (Trang 45)
Bảng  đưới  dây liệt  trội.  số  từ  diễn  củng  một  vài  phẩn  Lử  của  chúng, - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
ng đưới dây liệt trội. số từ diễn củng một vài phẩn Lử của chúng, (Trang 48)
Bảng  4-3:  Các  đặc  trưng  chính  tá - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
ng 4-3: Các đặc trưng chính tá (Trang 49)
Bảng  4-4:  Dặc  trưng  chính  quả  và  từ  loại - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
ng 4-4: Dặc trưng chính quả và từ loại (Trang 50)
Hình  4-3:  Quá  trình  hậu  xử  lý - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
nh 4-3: Quá trình hậu xử lý (Trang 51)
Bảng  4-6:  Các  tham  số  trong  quá  trình  huấn  luyện  nhận  dạng  thực  thể - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
ng 4-6: Các tham số trong quá trình huấn luyện nhận dạng thực thể (Trang 58)
Bảng  chú  thích  các  màu - Luận văn trích rút thông tin cá nhân từ văn bản tiếng việt
ng chú thích các màu (Trang 65)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm