Trích rút thông tin cá nhân từ văn bản tiếng việt

Chương 2 giới thiệu tổng quan về bài toán trích rút thông tin, bài toán trích rút thông tin cá nhân và các bài toán liên quan là bài toán trích rút thực thể và bài toán trích rút mối qua

Trang 1

Nguyễn Cao Cường 1 Luận văn Thạc sỹ

MỤC LỤC

LỜI CAM ĐOAN 4

LỜI CẢM ƠN 5

BẢNG TỪ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

DANH MỤC CÁC HÌNH 7

CHƯƠNG 1: MỞ ĐẦU 8

1.1 Lý do chọn đề tài 8

1.2 Mục đích và phạm vi 8

1.2.1 Mục đích nghiên cứu 8

1.2.2 Phạm vi nghiên cứu 9

1.3 Nội dung nghiên cứu 9

1.4 Bố cục luận văn 10

1.5 Ý nghĩa của luận văn 10

CHƯƠNG 2: MÔ TẢ BÀI TOÁN VÀ HƯỚNG GIẢI QUYẾT 12

2.1 Khái quát về trích rút thông tin 12

2.1.1 Bài toán trích rút thông tin 12

2.1.2 Kiến trúc của hệ thống trích rút thông tin 13

2.2 Bài toán trích rút thông tin cá nhân 15

2.3 Phương pháp giải quyết bài toán trích rút thông tin cá nhân 18

2.3.1 Bài toán trích rút thực thể 19

2.3.2 Bài toán trích rút mối quan hệ 21

2.4 Ứng dụng của bài toán trích rút thông tin cá nhân 22

2.5 Phương pháp đánh giá kết quả 23

CHƯƠNG 3: TRÍCH RÚT THỰC THỂ VÀ TRÍCH RÚT QUAN HỆ 25 3.1 Trích rút thực thể 25

3.1.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể 25

Trang 2

3.1.2 Mô hình trường ngẫu nhiên có điều kiện 31

3.2 TRÍCH RÚT QUAN HỆ 36

3.2.1 Một số hướng tiếp cận giải quyết bài toán trích rút thực thể 36

3.2.2 Các đặc trưng được sử dụng trong trích rút quan hệ 37

3.2.3 Biểu thức chính qui 37

3.2.4 Ứng dụng biểu thức chính qui để trích rút quan hệ 39

CHƯƠNG 4: THIẾT KẾ VÀ XÂY DỰNG CHƯƠNG TRÌNH 45

4.1 Kiến trúc của hệ thống 45

4.2 Tiền xử lý 46

4.3 Bộ trích rút thực thể dựa trên mô hình CRF 46

4.4 Các đặc trưng cho quá trình học máy 47

4.4.1 Đặc trưng ngữ cảnh 47

4.4.2 Đặc trưng từ điển 48

4.4.3 Đặc trưng chính tả 49

4.4.4 Đặc trưng chính quy và từ loại 50

4.5 Hậu xử lý 50

4.5.1 Xử lý đồng tham chiếu đến thực thể người 51

4.5.2 Chỉnh sửa nhãn 57

4.6 Trích rút quan hệ 57

4.7 Quản lý thông tin cá nhân 58

4.8 Cài đặt, thử nghiệm và đánh giá 58

4.8.1 Một số t y ch n trong bộ công cụ FlexCRFs 58

4.8.2 Kết quả trích rút thông tin 59

4.8.3 Nhận xét 60

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61

5.1 Các kết quả đạt được trong luận văn 61

5.1.1 Về lý thuyết 61

5.1.2 Về thực nghiệm 61

5.1.3 Nhận xét 61

Trang 3

5.2 Hướng phát triển 62

PHỤ LỤC 1: TẬP DỮ LIỆU 63

PHỤ LỤC 2: MỘT SỐ GIAO DIỆN CHƯƠNG TRÌNH 65

TÀI LIỆU THAM KHẢO 68

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan, luận văn tốt nghiệp Thạc sỹ này là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS TS Lê Thanh Hương Các kết quả trong luận văn tốt nghiệp là trung thực, không phải sao chép toàn văn của bất kỳ công trình nào khác Tôi xin chịu hoàn toàn trách nhiệm về nội dung quyển luận văn này

Tác giả

Nguyễn Cao Cường

Trang 5

LỜI CẢM ƠN

Luận văn được hoàn thành tại trường Đại h c Bách khoa Hà Nội Để hoàn thành luận văn này, tác giả đã nhận được sự chỉ bảo tận tình, c ng những yêu cầu nghiêm khắc của PGS TS Tiến sĩ Lê Thanh Hương, người đã truyền đạt rất nhiều kiến thức quí báu cũng như những kinh nghiệm nghiên cứu khoa h c trong suốt thời gian tác giả theo h c và nghiên cứu

Tác giả xin chân thành gửi lời biết ơn đến Ban lãnh đạo Viện Công nghệ thông tin và Truyền thông, Viện Đào tạo Sau đại h c và Bộ môn Hệ thống Thông tin, thuộc trường Đại h c Bách khoa Hà Nội đã tạo điều kiện thuận lợi trong quá trình

h c tập, nghiên cứu và hoàn thành luận văn

Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan, khách quan, luận văn không tránh những thiếu sót Tác giả rất mong được sự góp ý của quý thầy cô, các bạn bè và đồng nghiệp để luận văn được hoàn thiện hơn

Cuối c ng, tác giả muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện luận văn

Nguyễn Cao Cường

Trang 6

BẢNG TỪ VIẾT TẮT

CRFs Conditional Random Fields Các trường ngẫu nhiên có điều

kiện

MEMM Maximum Entropy Markov

Model

Mô hình Markov cực đại hóa entropy

IE Information Extraction Trích rút thông tin

SDS Single-Document Sumarization Tóm tắt đơn văn bản

MDS Multi-Document Summarization Tóm tắt đa văn bản

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2-1: Các giá trị đánh giá một hệ thống trích rút thực thể 24

Bảng 4-1: Mẫu ngữ cảnh về từ vựng: 47

Bảng 4-2: Các từ điển được sử dụng 48

Bảng 4-3: Các đặc trưng chính tả 49

Bảng 4-4: Đặc trưng chính qui và từ loại 50

Bảng 4-5: Định dạng tên thực thể 51

Bảng 4-6: Các tham số trong quá trình hu n luyện nhận dạng thực thể 58

Bảng 4-7: Đánh giá mức nhãn – Lần thực nghiệm cho kết quả tốt nh t 59

Bảng 4-8: Đánh giá mức cụm từ – Lần thực nghiệm cho kết quả tốt nh t 59

Bảng 4-9: Kết quả trích rút quan hệ 60

DANH MỤC CÁC HÌNH Hình 2-1: Ví dụ về trích rút thông tin 13

Hình 2-2: Kiến trúc của hệ thống trích rút thông tin 14

Hình 2-3: Trích rút thông tin cá nhân từ văn bản tiểu sử phi c u trúc 16

Hình 2-4: Phân c p các câu theo tác giả Sérgio Flipe 18

Hình 3-1: Đồ thị có hướng mô tả mô hình HMM 27

Hình 3-2: V n đề “label bias” 30

Hình 3-3: Đồ thị vô hướng mô tả CRFs 32

Hình 4-1: Kiến trúc hệ thống trích rút thông tin cá nhân 45

Hình 4-2: Trích rút thực thể sử dụng CRF 47

Hình 4-3: Quá trình hậu xử lý 51

Hình 4-4: Xử lý đồng tham chiếu 56

Trang 8

CHƯƠNG 1: MỞ ĐẦU

1.1 Lý do chọn đề tài

Hiện nay, sự b ng nổ của Internet và phát triển mạnh mẽ của công nghệ thông tin – truyền thông, khả năng tiếp cận thông qua máy tính được kết nối Internet với khối lượng lớn các kho dữ liệu văn bản khắp nơi trên thế giới là rất lớn Tuy nhiên, chính khối lượng dữ liệu quá lớn có thể làm người d ng bị “chìm ngập” trong thông tin hoặc mất quá nhiều thời gian để có được thông tin mong muốn Vấn đề này được quan tâm giải quyết trong các hệ thống trích rút thông tin theo miền ứng dụng cụ thể

Một lượng lớn các tài liệu chứa các thông tin về cá nhân tiếp tục được tạo ra

và xuất bản hàng ngày trên internet Các thông tin này luôn chiếm một vị trí quan

tr ng trong các máy tìm kiếm dữ liệu cũng như các trang web và thu hút sự quan tâm của người d ng, các nhà nghiên cứu cũng như của các nhà phát triển dịch vụ web Nếu các thông tin này được trích rút tự động và lưu trữ trong các cơ sở dữ liệu

có cấu trúc thì chúng sẽ hỗ trợ tốt cho các nghiên cứu về con người và các lĩnh vực liên quan như quảng cáo, nghiên cứu thị trường, thiết kế sản ph m và đánh giá thói quen người d ng

Ý thức được những lợi ích mà các bài toán trích rút thông tin cá nhân, đồng thời phát triển cho ngôn ngữ tiếng Việt, tác giả đã ch n hướng nghiên cứu nhằm giải quyết bài toán trích rút thông tin cá nhân từ văn bản tiếng Việt làm đề tài luận văn của mình

1.2 Mục đích và phạm vi

1.2.1 Mục đích nghiên cứu

Thông qua nghiên cứu đề tài “Trích rút thông tin cá nhân từ văn bản tiếng Việt”, tác giả mong muốn đạt một số kết quả:

Trang 9

 Nghiên cứu các phương pháp trích rút thông tin từ đó lựa ch n một phương pháp ph hợp với bài toán

 Xây dựng một hệ thống trích thông tin về cá nhân từ văn bản tiếng Việt được lấy từ trang web wikipedia (http://vi.wikipedia.org)

đưa ra bảng dữ liệu gồm các mẫu thông tin về từng cá nhân được lưu trong cơ sở dữ liệu

Ví dụ:

Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm, Quỳnh Lưu, Nghệ An, là một cầu thủ bóng đá Việt Nam hiện đang thi đấu cho câu lạc bộ Sông Lam Nghệ An

Sẽ được trích rút như sau:

1.H tên: Lê Công Vinh

2 Ngày sinh: 10 tháng 12 năm 1985

3 Nơi sinh: Quỳnh Lâm, Quỳnh Lưu, Nghệ An

4 Công việc: Cầu thủ bóng đá, Câu lạc bộ Sông Lam Nghệ An

1.3 Nội dung nghiên cứu

Trong luận văn này, để giải quyết bài toán trích rút thông tin cá nhân, tác giả nghiên cứu phương pháp trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện

Trang 10

Đồng thời nghiên cứu và áp dụng phương pháp trích rút mối quan hệ dựa trên các luật và biểu thức chính quy

Bên cạnh đó, tác giả cũng nghiên cứu về kiến trúc, mô hình hệ thống, phương pháp kỹ thuật để xây dựng hệ thống trích rút thông tin cá nhân được lấy từ trang web wikipedia

1.4 Bố cục luận văn

Bố cục của luận văn gồm 5 chương và phụ lục:

Chương 1 giới thiệu về động cơ, mục tiêu và phạm vi nghiên cứu, những đóng góp chính và cấu trúc của luận văn

Chương 2 giới thiệu tổng quan về bài toán trích rút thông tin, bài toán trích rút thông tin cá nhân và các bài toán liên quan là bài toán trích rút thực thể và bài toán trích rút mối quan hệ, đề xuất phương pháp giải quyết bài toán trích rút thông tin cá nhân cũng như ứng dụng của bài toán này và phương pháp đánh giá kết quả

Chương 3 trình bày một số phương pháp trích rút thực thể và trích rút quan hệ

từ đó ch n ra phương pháp thích hợp áp dụng cho bài toán trích rút thực thể từ văn bản tiếng Việt Luận văn sử dụng phương pháp tiếp cận sử dụng CRF Trình bày khái quát về biểu thức chính qui (Regulary Expression) và ứng dụng để trích rút quan hệ giữa các thực thể

Chương 4 trình bày thiết kế và xây dựng hệ thống trích rút thông tin cá nhân

từ trang web tiếng Việt wikipedia Trình bày các kết quả đạt cài đặt thử nghiệm và đánh giá

Chương 5 tổng kết lại các kết quả đạt được của luận văn và đề xuất các hướng nghiên cứu trong tương lai của luận văn

1.5 Ý nghĩa của luận văn

Với kết quả đã đạt được, luận văn đã mang lại một số kết quả nghiên cứu nhất định trong việc trích rút thực thể, trích rút quan hệ đặc biệt là kết phương pháp CRF, các luật đồng tham chiếu về tên và biểu thức chính qui để giải quyết bài toán cụ thể

Trang 11

Đồng thời, luận văn cũng xây dựng một hệ thống trích rút thông tin cá nhân

trên trang web wikipedia Nguồn thông tin được trích rút này có thể sử dụng cho

các hệ thống thông tin khác như hệ thống hỏi đáp về tiểu sử cá nhân

Trang 12

CHƯƠNG 2: MÔ TẢ BÀI TOÁN VÀ HƯỚNG GIẢI QUYẾT

2.1 Khái quát về trích rút thông tin

2.1.1 Bài toán trích rút thông tin

Hiện nay, có rất nhiều định nghĩa về trích rút thông tin, trên cơ sở nghiên cứu các nghiên cứu liên quan, có thể định nghĩa “Trích rút thông tin” (IE - Information Extraction) là quá trình phát hiện các thực thể/tên, các mối quan hệ và các sự kiện

từ văn bản bán có cấu trúc, bán cấu trúc hay phi cấu trúc; và chuyển chúng sang dạng thể hiện có cấu trúc (VD: cơ sở dữ liệu)

Việc trích rút ra các thông tin có cấu trúc từ các nguồn dữ liệu không cấu trúc

là một công việc nhiều khó khăn và đã thu hút được sự quan tâm của nhiều các nhà nghiên cứu trong hai thập kỉ qua Bắt nguồn từ cộng đồng các nhà xử lý ngôn ngữ

tự nhiên, IE đã nhanh chóng được quan tâm chú ý bởi những cộng động khác nhau bao gồm h c máy, truy vấn thông tin (Information Retrieval), cơ sở dữ liệu, web và phân tích văn bản

Có nhiều mức độ trích rút thông tin từ văn bản như: trích rút thực thể (Named Entity Recognition – NER), trích rút quan hệ giữa các thực thể (Relation Extraction

- RE), phân giải đồng tham chiếu (Co-Reference Resolution)…Các kĩ thuật được sử dụng trong trích rút thông tin gồm có: Phân đoạn, phân lớp, kết hợp và phân cụm Kết quả của một hệ thống trích ch n thông tin thường là các mẫu (template) chứa một số lượng xác định các trường (slots) đã được điền thông tin

Trang 13

Hình 2-1: Ví dụ về trích rút thông tin

IE có nhiều ứng dụng rộng rãi và hữu ích Trên thế giới IE được ứng dụng khá nhiều vào việc trích ch n thông tin trên Internet Các ứng dụng thực tế ví dụ: Hỗ trợ, tư vấn mua hàng; chăm sóc khách hàng; tìm kiếm câu trả lời cho các hệ thống hỏi đáp; theo dõi thông tin về các dịch bệnh; theo dõi các sự kiện khủng bố; tham gia vào hệ thống quản lý thông tin cá nhân….Gần đây IE đặc biệt được chú tr ng trong lĩnh vực y h c Đã có khá nhiều nghiên cứu được tiến hành nhằm ứng dụng IE vào việc trích rút các thực thể trong y h c như tên các protein và gene

2.1.2 Kiến trúc của hệ thống trích rút thông tin

MUC (Message Understanding Conferences ) [7] thì hệ thống trích rút thông tin có các thao tác chính như sau:

October 14, 2002, 4:00 a.m PT

For years, Microsoft Corporation CEO Bill Gates

railed against the economic philosophy of

open-source software with Orwellian fervor,

denouncing its communal licensing as a "cancer"

that stifled technological innovation

Today, Microsoft claims to "love" the

open-source concept, by which software

code is made public to encourage

improvement and development by

outside programmers Gates himself

says Microsoft will gladly disclose its

crown jewels the coveted code behind

the Windows operating system to select

customers

"We can be open source We love the

concept of shared source," said Bill

Veghte , a Microsoft VP "That's a

super-important shift for us in terms of code

access.“

Richard Stallman , founder of the

Free Software Foundation, countered

saying…

NAME TITLE ORGANIZATION

Bill Gates CEO Microsoft

Bill Veghte VP Microsoft

Richard Stallman founder Free Soft

IE

Trang 14

Hình 2-2: Kiến trúc của hệ thống trích rút thông tin

Mục tiêu của luận văn là bài toán trích rút thực thể và trích rút mối quan hệ giữa các thực thể Các bài toán đó sẽ được phân tích kỹ hơn ở Phần 2.3 và các chương sau

Kiến trúc của hệ thống trích rút là cơ sở để xây dựng hệ thống trích rút thông tin cá nhân Do đó phần này sẽ giải thích cơ bản về kiến trúc của hệ thống trích rút thông tin

2.1.2.1 Tiền xử lý dữ liệu

Văn bản đầu vào trước khi đến bước nhận dạng thực thể phải được tiền xử lý,

bao gồm các bước: Tách câu, tách từ, gán nhãn từ loại và phân cụm

2.1.2.2 Nhận dạng thực thể

Nhận dạng tên thực thể (Named Entity Recognition – NER) là việc tìm và phân loại các thực thể như tên, địa danh, thời gian, tổ chức… có trong văn bản (xem thêm mục 2.3)

Văn bản đầu vào

Tiền xử lý Trích rút thực thể

Giải quyết đồng tham chiếu

Trích rút quan hệ

Trang 15

2.1.2.3 Giải quyết đồng tham chiếu

Giải quyết đồng tham chiếu (Coreference Resolution – CO) là việc nhận dạng các đồng tham chiếu giữa các thực thể bằng cách kết hợp những thông tin mô tả nằm rải rác trên văn bản tới các thực thể mà nó tham chiếu Thao tác này mang tính chất hỗ trợ cho các thao tác khác Nó ít bị ảnh hưởng bởi người d ng, loại văn bản, hay lĩnh vực

Ví dụ :

Anh Nguyễn Huy Tiến là kiến trúc sư Hàng ngày, anh Tiến đến cơ quan trên đường Nguyễn Du làm việc

Ở đây từ “Nguyễn Huy Tiến” và “Tiến” đều c ng nói đến một đối tượng là

“Nguyễn Huy Tiến” “Tiến” là một tham chiếu đến thực thể người là “Nguyễn Huy Tiến”

2.1.2.4 Trích rút mối quan hệ

Dò tìm mối quan hệ (Relation detection) là quá trình tìm ra tất cả các mối quan

hệ giữa các thực thể trong câu bằng cách xây dựng tập luật để trích rút hoặc cũng có thể dựa trên một mô hình h c máy (như CRFs, HMM…) Kết quả của quá trình dò tìm mối quan hệ phụ thuộc rất nhiều vào việc xác định các thực thể trong câu cũng như độ phức tạp của mẫu câu (xem thêm mục 2.3.2)

2.2 Bài toán trích rút thông tin cá nhân

Bài toán trích rút thông tin cá nhân (Personal Information Extraction) là việc trích rút ra các thông tin quan tâm về cá nhân từ một nguồn dữ liệu bán cấu trúc hay không cấu trúc (ví dụ: văn bản, trang web…) và chuyển chúng sang dạng biểu diễn

có cấu trúc (ví dụ: cơ sở dữ liệu) Bài toán trích rút thông tin cá nhân tương tự như bài toán trích rút thông tin về tiểu sử (Biograhphical Information Extraction) Trích rút thông tin cá nhân là một bài toán hẹp của trích rút thông tin trong đó các thông tin cần trích rút tập trung vào một các cá nhân cụ thể

Trang 16

Em gái là Lê Khánh Chi Thi đấu cho câu lạc bộ Sông Lam Nghệ An và đội tuyển quốc gia Việt Nam

Hình 2-3: Trích rút thông tin cá nhân từ văn bản tiểu sử phi c u trúc

Hiện nay có khá nhiều công trình nghiên cứu liên quan đến bài toán trích rút thông tin cá nhân bao gồm:

 Tác giả J Cowie [9] sử dụng các câu truy vấn đầu vào để tạo ra các thông tin tiểu sử (Biography)

 Tác giả Turk J Elec [27] sử dụng biểu thức chính qui và các hệ luật để điền vào các mẫu thông tin về cá nhân

 Tác giả L Zhou [11] sử dụng mô hình xác xuất Bayes (NB) dựa trên các đặc trưng về từ vựng, ngữ cảnh, thực thể để phân loại câu vào một

Lê Công Vinh

Lê Công Vinh (sinh ngày 10 tháng 12 năm 1985) tại Quỳnh Lâm,Quỳnh Lưu, Nghệ An, là một cầu thủ bóng đá Việt Nam hiện đang thi đấu cho câu lạc

bộ Sông Lam Nghệ An và đội tuyển bóng đá quốc gia Việt Nam ở vị trí tiền đạo Anh từng 3 lần nhận danh hiệu Quả bóng vàng Việt Nam vào các năm

2004, 2006, 2007 Em gái là Lê Khánh Chi

Công Vinh

Ngà

y sinh Nơi sinh Ngh

ề nghiệp Côn

An Cầu thủ bóng đá Thi đấu cho câu lạc

bộ Sông Lam Nghệ

An và đội tuyển quốc gia Việt Nam

Trang 17

trong 10 loại câu liên quan đến tiểu sử, ví dụ: thông tin cố định (ngày sinh, ngày mất, ), danh tiếng, tính cách, giáo dục, công việc,…

 Đồng tác giả N Garera và D Yarowsky [17] đã phát triển hệ thống có khả năng trích rút 7 trường thông tin cơ bản (ngày sinh, ngày mất, nơi sinh, quốc tịch, nghề nghiệp, giới tính và tôn giáo ) thông qua việc sử dụng 6 kỹ thuật để khai thác các lớp thông tin khác nhau Các kĩ thuật này bao gồm: ngữ cảnh bắt buộc một phần (partially Untethered Contextual Patterns), dựa trên vị trí (position-based), các thuộc tính của các thực thể xảy ra đồng thời (Attributes of Co-occurring Entities), mô

tả sơ lược chủ đề ngữ cảnh mở rộng (broad-context topical proles), tự sửa các thuộc tính (inter-attribute correlations), giới hạn độ tuổi người với mục đích rút g n các số sai

 Tác giả Fadi Biadsy [4] sử dụng phương pháp tiếp cận không giám sát

và kỹ thuật tóm tắt đa văn văn bản để tạo các văn bản tiểu sử Tác giả này áp dụng mô hình véc tơ hỗ trợ (Support vector machine - SVM) để phân loại các câu thành một trong 2 loại câu thuộc tiểu sử và câu không thuộc tiểu sử Dữ liệu được thu thập từ trang web Wikipedia

 Tác giả Sérgio Flipe [24] đề xuất mô hình trích rút các thông tin tiểu sử bằng cách sử dụng các mô hình trường ngẫu nhiên có điều kiện (CRF), xác xuất Bayes NB và mô hình máy véc tơ hỗ trợ (SVM) để phân loại các câu trong văn bản tiểu sử thành một trong 19 loại câu, thuộc ba cấp độ: cấp độ 0 (tiểu sử, không tiểu sử), cấp độ 1 (các điểm cá nhân không thay đổi, các đặc điểm cá nhân có thể thay đổi, các loại khác, đặc điểm

về quan hệ cá nhân, các sự kiện cá nhân) và cấp độ 2 (ngày và nơi sinh, thông tin về bố mẹ,….)

Trang 18

Hình 2-4: Phân c p các câu theo tác giả Sérgio Flipe

Các tác giả N Garera và D Yarowsky [17] cho rằng các nghiên cứu về bài toán trích rút thông tin cá nhân có thể được phân chia thành hai dạng chính sau:

 Dạng 1: Xác định và trích rút các câu chứa thông tin cá nhân và xử lý

chúng như là một hệ thống tóm tắt

 Dạng 2: Trích rút các thông tin chi tiết của của cá nhân (VD: Ngày sinh,

nơi sinh, bố mẹ…)

Trong khuôn khổ của luận văn, tác giả tập trung nghiên cứu vào hệ thống trích

rút thông tin cá nhân Dạng 2 với mục đích trích rút ra các thông tin cụ thể của cá

nhân bao gồm: Tên người, ngày sinh, ngày mất, nơi sinh, quan hệ gia đình, thông tin về công việc (nghề nghiệp, làm việc cho tổ chức) Dữ liệu được thu thập từ trang web tiếng Việt Wikipedia

2.3 Phương pháp giải quyết bài toán trích rút thông tin cá nhân

Để giải quyết bài toán trích rút thông tin cá nhân từ văn bản tiếng Việt áp dụng trên trang web Wikipedia, tác giả đề xuất phương pháp như sau: trích rút các thực

Trang 19

thể từ văn bản sau đó trích rút quan hệ của thực thể người đề cập chính đến văn bản với các thực thể khác để tìm ra các thông tin chi tiết của thực thể người này Như vậy, tác giả sẽ giải quyết hai bài toán chính sau:

 Trích rút thực thể từ văn bản phi cấu trúc

 Trích rút quan hệ giữa các thực thể

Nội dung cụ thể của hai bài toán này sẽ được trình bày ở các phần tiếp theo

2.3.1 Bài toán trích rút thực thể

2.3.1.1 Định nghĩa bài toán

Trích rút thực thể (Named Entity Recognition - NER) là việc tìm kiếm và

phân lớp các từ, cụm từ trong văn bản vào các nhóm thực thể đã được xác định trước như: tên người, địa danh, tổ chức, ngày tháng, tỷ lệ…

Hội thảo MUC [7] đã phân bài toán NER thành ba loại:

- Trích rút tên các thực thể bao gồm: tên người, tên tổ chức, tên địa điểm

- Nhận dạng các biểu thức thời gian như “9-2-2000”, “09/02/2000”,

”10h:20’”,…

- Trích rút các biểu thức số, như “5%”, “1m”, “15kg”,…

Ví dụ: Cho một đoạn văn bản:

Anh Nguyễn Quốc Hùng sinh ngày 05/07/1974tại Đà Nẵng Hôm nay , anh Hùng đi thành phố Hồ Chí Minh

Chúng ta muốn đoạn văn bản trên được đánh dấu như sau:

Anh <per> Nguyễn Quốc Hùng </per> sinh ngày <time> 05/07/1974

</time> tại <loc> Đà Nẵng </loc> Hôm nay , anh <per> Hùng </per> đi <loc> thành phố Hồ Chí Minh </loc>

Bài toán trích rút thực thể là bài toán đơn giản nhất trong số các bài toán trích rút thông tin Tuy nhiên, NER là bước cơ bản, quan tr ng trước khi tính đến việc giải quyết các bài toán phức tạp hơn trong lĩnh vực này Rõ ràng trước khi có thể xác định được các quan hệ giữa các thực thể ta phải xác định được đâu là các thực thể tham gia vào mối quan hệ đó Lúc đầu NER được coi là một thao tác đơn giản trong IE, nhưng ngày nay nó có một vai trò quan tr ng quyết định đến các vấn đề khác có độ phức tạp cao hơn như như truy vấn thông tin (Information Retrieval-IR) hay các hệ hỏi đáp (Question Answering Systems - QA)

Trang 20

Có nhiều phương pháp được đề xuất để giải quyết cho bài toán trích rút thực thể được chia thành hai nhóm: nhóm các phương pháp dựa trên tri thức và nhóm các phương pháp dựa trên kỹ thuật h c máy Có rất nhiều phương pháp h c máy như các mô hình markov n (Hidden Markov Models - HMM), các mô hình Markov cực đại hóa Entropy (Maximum Entropy Markov Models- MEMM) và mô hình Conditional Random Field (CRF)

Trong luận văn này, tác giả sẽ tập trung vào kỹ thuật h c máy sử dụng trường ngẫu nhiên có điền kiện

2.3.1.2 Mô hình hóa bài toán nhận biết các loại thực thể

Bài toán nhận biết loại thực thể trong văn bản là tìm câu trả lời cho các câu hỏi: ai?, bao giờ?, ở đâu?, bao nhiêu? Đây là một trường hợp cụ thể của bài toán gán nhãn cho dữ liệu dạng chuỗi, trong đó (trừ nhãn O – “khác”) thì mỗi một nhãn gồm một tiếp đầu ngữ B-(bắt đầu một tên thực thể X) hoặc I-(bên trong một tên thực thể) kết hợp với tên nhãn Luận văn sẽ chỉ tập trung trích rút bốn loại thực thể là: con người (nhãn Per), địa điểm (nhãn Loc), thời gian (nhãn Time) và tổ chức (nhãn Org) Như vậy, chúng ta có tổng cộng 2*4 + 1 = 9 nhãn (B-per, I-per, B-loc, I-loc, B-org, B-Time, I-Time, I-org, O) trong bài toán gán nhãn của mình

Để gán nhãn thực thể cho các câu tiếng Việt, mỗi câu được coi là một chuỗi quan sát Mỗi phần tử của chuỗi quan sát tương ứng với một từ tiếng Việt Bài toán trích rút thực thể trở thành bài toán gán nhãn một trong bảy nhãn trên cho mỗi phần

tử trong dãy quan sát Ví dụ, đối với chuỗi “đồng chí Nguyễn Văn Bình”, thông qua

bộ tách từ thu được “đồng chí” là một từ, “Nguyễn Văn Bình” là một từ ([đồng chí] [Nguyễn Văn Bình]) Khi đó cách gán nhãn đúng cho chuỗi gồm 2 quan sát này là:

O B-PER

2.3.1.3 Một số khó khăn trong bài toán trích rút thực thể với tiếng Việt

Đối với Tiếng Việt, có một số khó khăn chính trong việc giải quyết bài toán trích rút thực thể như sau:

a Nhập nhằng

Trang 21

Trong tiếng Việt, thường xảy ra tình huống nhập nhằng giữa các kiểu thực thể khác nhau (c ng một tên nhưng có kiểu thực thể khác nhau trong các ngữ cảnh khác nhau)

Ví dụ: “Nghệ An chơi tấn công cởi mở, cống hiến cho 2 vạn khán giả trên

sân bữa tiệc bóng đá đẹp mắt với cơn mưa bàn thắng”

- Ở đây “Nghệ An” là kiểu thực thể một tổ chức Tuy nhiên trong câu sau:

“Học sinh Nghệ An có truyền thống hiếu học”

- Thì “Nghệ An” lại là 1 thực thể kiểu địa điểm

Sự nhập nhằng này xảy ra là do trong tiếng Việt một số từ thường bị cắt bỏ đi nhưng người nghe, người đ c vẫn hiểu được ý nghĩa đầy đủ của câu Đối với ví dụ của ta ở trên, câu đầy đủ tương ứng phải là:

“Học sinh ở Nghệ An vốn có truyền thống hiếu học”

b Nằm ngoài bảng từ vựng

Trong ngôn ngữ tiếng Anh hoặc tiếng Pháp, các thực thể thường được đặt tên bằng những từ nằm ngoài bảng từ vựng Tuy nhiên, trong ngôn ngữ tiếng Việt, các thực thể thường có tên nằm trong bảng từ vựng, làm cho việc nhận dạng thực thể có tên trở nên khó khăn hơn

Ví dụ:

“Em đi đến trường mẫu giáo Họa Mi”

Ở đây, “Họa Mi” là tên của một thực thể kiểu tổ chức, nhưng từ “h a mi”

cũng xuất hiện trong từ điển tiếng Việt với ý nghĩa là tên của một loài chim Sự xuất hiện này của từ “h a mi” trong từ điển có thể làm cho máy bỏ qua không xét đến

thực thể “trường mẫu giáo Họa Mi” trong câu trên

2.3.2 Bài toán trích rút mối quan hệ

2.3.2.1 Định nghĩa bài toán

Trích rút mối quan hệ (Relation Extraction - RE) là việc xác định các mối

quan hệ giữa các cặp thực thể trong văn bản

Ví dụ: Mối quan hệ giữa “tên người” và “tên tổ chức” có thể là quan hệ “làm

việc tại”, mối quan hệ giữa “tên người” và “tên địa điểm” có thể là “sống ở”…

Trang 22

Trích rút mối quan hệ tương đối khác so với trích rút thực thể Trong khi trích rút thực thể quan tâm đến 1 chuỗi các từ và được trình bày như các nhãn thực thể thì trích rút mối quan hệ nêu ra sự liên kết giữa các thực thể này với nhau

2.3.2.2 Trích rút mối quan hệ trong bài toán trích rút thông tin cá nhân

Mục đích của luận văn là trích rút ra các thông tin liên quan đến thực thể tên người cần quan tâm gồm: Tên, ngày sinh, ngày mất, nơi sinh, quan hệ gia đình, công việc Mỗi văn bản tiếng Việt thu thập từ trang web Wikipedia đều nói về một người nhất định và trong câu đầu tiên của văn bản đều chứa thông tin về tên thực thể người quan tâm

Trong bài toán này, bước đầu tiên của khi trích rút mối quan hệ giữa các thực thể sẽ là trích rút thực thể tên người mà văn bản tập trung đề cập đến Các bước tiếp theo sẽ là trích rút các thực thể có mối quan hệ với thực thể tên người này Mối quan hệ ở đây được hiểu là “ngày sinh” (quan hệ giữa tên người và ngày tháng),

“ngày mất” (quan hệ giữa tên người và ngày tháng), “nơi sinh” (quan hệ giữa tên người và địa điểm), “quan hệ gia đình” (quan hệ giữa tên người và tên người),

“công việc” (quan hệ giữa tên người và tổ chức)

Sau khi văn bản được nhận dạng thực thể, tác giả sẽ sử dụng các luật, từ điển

và biểu thức chính qui để nhận ra mối quan hệ trên

2.4 Ứng dụng của bài toán trích rút thông tin cá nhân

Một hệ thống trích rút thông tin cá nhân tốt có thể được ứng dụng trong nhiều lĩnh vực khác nhau Một số trong các ứng dụng đó bao gồm:

 Hệ thống hỏi đáp: Hệ thống hỏi đáp tự động là hệ thống được xây dựng

để thực hiện việc tự động tìm kiếm chính xác câu trả lời từ một tập lớn các tài liệu cho câu hỏi thay vì đưa ra danh sách các tài liệu (Silva, 2009 [26]

và Tsur et al., 2004 [27] ) Hệ hỏi đáp có thể trả lời các câu hỏi được đưa ra bằng ngôn ngữ tự nhiên dựa trên nguồn tri thức

VD: Với câu hỏi: Pele sinh năm nào? Sẽ nhận được câu trả lời là: Ngày 5 tháng 11 năm 1964

Trang 23

 Hệ thống tóm tắt: Hệ thống tóm tắt sẽ đưa ra thông tin tóm tắt về tiểu sử

của cá nhân từ một hoặc nhiều văn bản thay vì đưa ra danh sách các văn bản

 Hỗ trợ hệ thống tìm kiếm: Hệ thống tìm kiếm thông tin nhận đầu vào là các từ khóa và trả về tập tài liệu có chứa các từ khóa đó Số lượng kết quả trả về của các máy tìm kiếm (một loại hệ thống tìm kiếm thông tin) thường

là rất lớn có khi lên tới hàng nghìn trang Web Khi tích hợp hệ thống trích rút thông tin cá nhân vào hệ thống tìm kiếm thì với các từ khóa là người

c ng với các thuộc tính như ngày sinh, công việc Thì hệ thống tìm kiếm sẽ trả về kết quả sát với yêu cầu một cách nhanh chóng và chính xác

2.5 Phương pháp đánh giá kết quả

Hệ thống trích rút thực thể được đánh giá chất lượng thông qua ba độ đo: độ chính xác P (precision), độ bao phủ R (recall) và độ đo F (F-messure)

Độ chính xác Recall (R): là phân số thể hiện tỷ lệ thông tin được rút trích đúng Bao nhiêu phần trăm thông tin được rút là đúng Tỷ lệ giữa số lượng câu trả lời đúng tìm thấy với tổng số câu trả lời đúng có thể

Độ tin cậy Precision (P): là độ đo hay phân số thể hiện khả năng tin cậy của thông tin được trích xuất Tỷ lệ giữa tổng số câu trả lời đúng tìm thấy với tổng số câu trả lời tìm thấy

Ba độ đo này được tính toán theo các công thức sau (mỗi kiểu thực thể ứng với một bộ các độ đo này):

Trang 24

Ý nghĩa của các giá trị correct, incorrect, missing và spurious được định

nghĩa như sau:

Bảng 2-1: Các giá trị đánh giá một hệ thống trích rút thực thể

Incorrect Số trường hợp bị gán sai

Ví dụ: Giả sử hệ thống gán nhãn cụm từ “Hồ Chí Minh” là “B_PER I_PER

O” Ở mức độ nhãn, hệ thống gán đúng được 2 trong số 3 nhãn ví thế độ chính xác

sẽ là 2/3 Ở mức độ cụm từ, ta muốn cả cụm này được đánh dấu là tên người hay

chuỗi nhãn tương ứng phải là “B_PER I_PER I_PER”, độ chính xác khi xét ở mức

độ cụm từ sẽ là 0/1 (thực tế có một cụm tên thực thể nhưng hệ thống không đánh

dấu đúng được cụm nào)

Trong chương này, các thông tin khái quát về trích rút thông tin đã được trình

bày c ng với bài toán trích rút thông tin cá nhân Tác giả đã đưa ra phương pháp

giải quyết bài toán trích rút thông tin cá nhân dựa trên giải quyết hai bài toán là trích

rút thực thể và trích rút quan hệ Trong các chương tiếp theo, tác giả sẽ trình bày

phương pháp giải quyết bài toán đầu tiên là bài toán trích rút thực thể

Trang 25

CHƯƠNG 3: TRÍCH RÚT THỰC THỂ VÀ TRÍCH RÚT

QUAN HỆ

Có nhiều phương pháp tiếp cận khác nhau để giải quyết bài toán trích rút thực thể và trích rút mối quan hệ giữa các thực thể, chương này sẽ giới thiệu một số hướng tiếp cận như vậy c ng với những ưu nhược điểm của chúng từ đó lý giải tại sao hệ thống trích rút thông tin cá nhân trong văn bản tiếng Việt lại được xây dựng dựa trên phương pháp CRFs và biểu thức chính qui

có rất nhiều luật

Trên thực tế, các luật xây dựng đều chứa một số lượng lớn các ngoại lệ Thậm chí ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà h nghĩ đến thì vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực tế Hơn nữa, việc xây dựng một hệ thống trích rút dựa trên các luật là rất tốn công sức Thông thường, để xây dựng một hệ thống luật như vậy đòi hỏi công sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ h c Thời gian này còn lớn hơn khi chúng ta muốn chuyển sang lĩnh vực khác hay sang ngôn ngữ khác

Để giải quyết các hạn chế này cần phải xây dựng một hệ thống bằng cách nào

đó có thể “tự h c” Điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính khả chuyển cho hệ thống Các hệ thống h c máy (được trình bầy dưới đây) ra đời đáp ứng các yêu cầu đó

Trang 26

3.1.1.2 Các mô hình Markov n HMM

Mô hình Markov n [5][16][22] được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh h c và xử lý ngôn ngữ tự nhiên

Tổng quan về các mô hình HMM

HMM là mô hình máy trạng thái hữu hạn (probabilistic finite state machine) với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái

Các trạng thái trong mô hình HMM được xem là bị n đi bên dưới dữ liệu quan sát sinh ra do mô hình Quá trình sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng thái, xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyển sang trạng thái tiếp theo Trong bài toán trích rút thực thể, ta có thể xem mỗi trạng thái là tương ứng với một trong các nhãn B-per, B-loc, I-per và dữ liệu quan sát là các từ trong câu Mặc d các nhãn này không sinh ra các từ, nhưng mỗi nhãn được gán cho một từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó Vì thế, ta có thể tìm ra chuỗi các trạng thái (chuỗi các nhãn) mô tả tốt nhất cho chuỗi dữ liệu quan sát (chuỗi các từ) bằng cách tính xác suất của các chuỗi trạng thái và tìm xác suất lớn nhất:

Ở đây S là chuỗi trạng thái n, O là chuỗi dữ liệu quan sát đã biết Vì P(O) có thể tính được một cách hiệu quả nhờ thuật toán forward-backward [22], việc tìm chuỗi S* làm cực đại xác suất P(S|O) tương đương với việc tìm S* làm cực đại P(S,O)

Trang 27

Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau:

Ở đây, Si là trạng thái tại thời điểm t=i trong chuỗi trạng thái S, Oi là dữ liệu quan sát được tại thời điểm t=i trong chuỗi O Sử dụng tính chất Markov thứ nhất (trạng thái hiện tại chỉ phụ thuộc vào trạng thái ngay trước đó) và giả thiết dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc trạng thái tại t, ta có thể tính xác suất P(S,O) như sau:

S P S

O P S P O S P

2

1 1

1

1) ( | ) ( | ) * ( | ) (

) ,

Quá trình tìm ra chuỗi trạng thái tối ưu mô tả tốt nhất chuỗi dữ liệu quan sát cho trước có thể được thực hiện bởi một kĩ thuật lập trình quy hoạch động sử dụng thuật toán Viterbi

Giới hạn của các mô hình Markov ẩn

Adrew McCallum [15] đã đưa ra hai vấn đề mà các mô hình HMM truyền thống nói riêng và các mô hình sinh (generative models) nói chung gặp phải khi gán nhãn cho dữ liệu dạng chuỗi

Thứ nhất, để có thể tính được xác suất P(S, O) như trong công thức (3.1), thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi S và chuỗi O Nếu như các chuỗi S có thể liệt kê được vì số lượng các trạng thái là có hạn thì trong một

số ứng dụng ta không thể nào liệt kê hết được các chuỗi O vì dữ liệu quan sát là hết sức phogn phú và đa dạng Để giải quyết vấn đề này, HMM phải đưa ra giả thiết

về sự độc lập giữa các dữ liệu quan sát, đó là dữ liệu quan sát được tại thời điểm t

Hình 3-1: Đồ thị có hướng mô tả mô hình HMM

Trang 28

chỉ phụ thuộc trạng thái tại thời điểm đó Tuy vậy, với các bài toán gán nhãn cho dữ liệu dạng chuỗi, ta nên đưa ra các phương thức biểu diễn các dữ liệu quan sát mềm

d o hơn như là biểu diễn dữ liệu quan sát dưới dạng các thuộc tính (features) không phụ thuộc lẫn nhau Ví dụ với bài toán phân loại các câu hỏi và câu trả lời trong một danh sách FAQ, các thuộc tính có thể là bản thân các từ hay độ dài của dòng, số lượng các kí tự trắng, dòng hiện tại có viết l i đầu dòng hay không, số các kí tự không nằm trong bảng chữ cái, các thuộc tính về các chức năng ngữ pháp của chúng… Rõ ràng những thuộc tính này không nhất thiết phải độc lập với nhau Vấn đề thứ hai mà các mô hình sinh gặp phải khi áp dụng vào các bài toán phân lớp dữ liệu dạng chuỗi đó là chúng sử dụng xác suất đồng thời để mô hình hóa các bài toán có tính điều kiện.Với các bài toán này sẽ thích hợp hơn nếu ta d ng một mô hình điều kiện có thể tính toán P (S|O) trực tiếp thay vì P (S, O) như trong công thức (3.1)

3.1.1.3 Mô hình Markov cực đại hóa Entropy MEMM

McCallum đã đưa ra một mô hình Markov mới - mô hình MEMM [15] (Maximum Entropy Markov Model) như đáp án cho những vấn đề của mô hình Markov truyền thống

Tổng quan về mô hình Markov cực đại hóa Entropy (MEMM)

Mô hình MEMM thay thế các xác suất chuyển trạng thái và xác suất sinh quan sát trong HMM bởi một hàm xác suất duy nhất P (Si|Si-1, Oi) - xác suất để trạng thái hiện tại là Si với điều kiện trạng thái trước đó là Si-1 và dữ liệu quan sát hiện tại là

Oi Mô hình MEMM quan niệm rằng các quan sát đã được cho trước và chúng ta không cần quan tâm đến xác suất sinh ra chúng, điều duy nhất cần quan tâm là các xác suất chuyển trạng thái So sánh với HMM, ở đây quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện tại mà còn có thể phụ thuộc vào trạng thái trước đó, điều đó có nghĩa là quan sát hiện tại được gắn liền với quá trình chuyển trạng thái thay vì gắn liền với các trạng thái riêng l như trong mô hình HMM truyền thống

p dụng tính chất Markov thứ nhất, xác suất P(S|O) có thể tính theo công thức:

Trang 29

S P O

S P O S P

2

1 1

( )

|

MEMM coi các dữ liệu quan sát là các điều kiện cho trước thay vì coi chúng như các thành phần được sinh ra bởi mô hình như trong HMM vì thế xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát Các thuộc tính này không bị giới hạn bởi giả thiết về tính độc lập như trong HMM và giữ vai trò quan tr ng trong việc xác định trạng thái kế tiếp

Kí hiệu PSi-1(Si|Oi)=P(Si|Si-1,Oi) p dụng phương pháp cực đại hóa Entropy (sẽ được đề cập trong chương 4), McCallum xác định phân phối cho xác suất chuyển trạng thái có dạng hàm mũ như sau:

i i

i

S O Z O

S P

),(

1)

|(

1

Ở đây, a là các tham số cần được huấn luyện (ước lượng); Z (Oi, Si) là thừa

số ch n hóa để tổng xác suất chuyển từ trạng thái Si-1 sang tất cả các trạng thái Si kề đều bằng 1; fa (Oi, Si) là hàm thuộc tính tại vị trí thứ i trong chuỗi dữ liệu quan sát

và trong chuỗi trạng thái Mỗi hàm thuộc tính fa (Oi,Si) nhận hai tham số, một là dữ liệu quan sát hiện tại Oi và một là trạng thái hiện tại Si McCallum định nghĩa a=<b,

Si>, ở đây b là thuộc tính nhị phân chỉ phụ thuộc vào dữ liệu quan sát hiện tại và Si

là trạng thái hiện tại

Để gán nhãn cho dữ liệu, MEMM xác định chuỗi trạng thái S làm cực đại P(S|O) trong công thức (3.3).Việc xác định chuỗi S cũng được thực hiện bằng cách

áp dụng thuật toán Viterbi như trong HMM

V n đề “hướng nhãn” (label bias)

Trong một số trường hợp đặc biệt, các mô hình MEMM và các mô hình định nghĩa một phân phối xác suất cho mỗi trạng thái có thể gặp phải vấn đề “hướng nhãn” (label bias) [8][28] Ta hãy xem xét một kịch bản chuyển trạng thái đơn giản sau:

Trang 30

Hình 3-2: V n đề “label bias”

Giả sử ta cần xác định chuỗi trạng thái khi xuất hiện chuỗi quan sát là “rob” Ở đây, chuỗi trạng thái đúng S là „0345‟ và ta mong đợi xác suất P (0345|rob) sẽ lớn hơn xác suất P(0125|rob)

p dụng công thức (2.3), ta có:

P (0125|rob) =P (0)*P (1|0, r)*P (2|1, o)*P (5|2, b)

Vì tổng các xác suất chuyển từ một trạng thái sang các trạng thái kề với nó bằng 1 nên mặc d trạng thái 1 chưa bao giờ thấy quan sát „o‟ nhưng nó không có cách nào khác là chuyển sang trang thái 2, điều đó có nghĩa là P (2|1, x) =1 với x có thể là một quan sát bất kì Một cách tổng quát, các trạng thái có phân phối chuyển với entropy thấp (ít đường đi ra) có xu hướng ít chú ý hơn đến quan sát hiện tại Lại có P (5|2, b) =1, từ đó suy ra: P (0125|rob) = P(0)*P(1|0,r) Tương tự ta cũng có P (0345|rob)=P (0)*P (3|0,r) Nếu trong tập huấn luyện, từ „rib‟ xuất hiện thường xuyên hơn từ „rob‟ thì xác suất P(3|0,r) sẽ nhỏ hơn xác suất P(1|0,r), điều đó dẫn đến xác suất P(0345|rob) nhỏ hơn xác suất P(0125|rob), tức là chuỗi trạng thái S=0125 sẽ luôn được ch n d chuỗi quan sát là „rib‟ hay „rob‟

Léon Bottou (1991) đưa ra hai giải pháp cho vấn đề này.Giải pháp thứ nhất là gộp hai trạng thái 1, 3 và trì hoãn việc rẽ nhánh cho đến khi gặp một quan sát xác định (cụ thể ở đây là „i‟ và „o‟) Đây chính là trường hợp đặc biệt của việc chuyển một automata đa định sang một automata đơn định Nhưng vấn đề ở chỗ ngay cả khi

Trang 31

có thể thực hiện việc chuyển đổi này thì cũng gặp phải sự b ng nổ tổ hợp các trạng thái của automata Giải pháp thứ hai mà Bottou đưa ra là chúng ta sẽ bắt đầu mô hình với một đồ thị đầy đủ của các trạng thái và để cho thủ tục huấn luyện tự quyết định một cấu trúc thích hợp cho mô hình.Tiếc rằng giải pháp này sẽ làm mất tính đi tính có thứ tự của mô hình, một tính chất rất có ích cho các bài tóan trích ch n thông tin

Một giái pháp đúng đắn hơn cho vấn đề này là xem xét toàn bộ chuỗi trạng thái như một tổng thể và cho phép một số các bước chuyển trong chuỗi trạng thái này đóng vai trò quyết định với việc ch n chuỗi trạng thái Điều này có nghĩa là xác suất của toàn bộ chuỗi trạng thái sẽ không phải được bảo tồn trong quá trình chuyển trạng thái mà có thể bị thay đổi tại một bước chuyển t y thuộc vào quan sát tại đó Trong ví dụ trên, xác suất chuyển tại 1 và 3 có thể có nhiều ảnh hưởng đối với việc

ta sẽ ch n chuỗi trạng thái nào hơn xác suất chuyển trạng thái tại 0

3.1.2 Mô hình trường ngẫu nhiên có điều kiện

Bài toán trích rút thực thể có thể coi là gán nhãn cho dữ liệu dạng chuỗi Phương pháp thành công nhất hiện nay để giải quyết bài toán này là sử dụng các trường điều kiện ngẫu nhiên (Conditional Random Field - CRF) CRF [1][14][21] được giới thiệu lần đầu vào năm 2001 bởi Lafferty và các đồng nghiệp CRF là mô hình dựa trên xác suất có điều kiện, tích hợp được các thuộc tính đa dạng của chuỗi

dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp CRF sử dụng đồ thị vô hướng, điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái khi biết chuỗi quan sát cho trước, thay vì phân phối trên mỗi trạng thái khi biết trạng thái trước đó và quan sát hiện tại Do đó, CRFs không cần chu n hóa với các phân phối xác suất trên từng trạng thái Chính vì cách mô hình hóa như vậy, CRF có thể giải quyết được vấn đề “sai lệch nhãn” (Label bias) [28] Phần này sẽ trình bày về định nghĩa CRF, vấn đề ước lượng tham số cho các mô hình CRF và vấn đề sử dụng mô hình này để phân lớp hoặc gán nhãn cho chuỗi

3.1.2.1 Khái niệm

Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn

và Y là biến ngẫu nhiên tương ứng với chuỗi nhãn Mỗi thành phần Y i của Y là một

Trang 32

biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S Trong bài toán trích rút thực thể, X có thể nhận giá trị là các câu trong ngôn ngữ tự nhiên và mỗi thành phần X i của X sẽ tương ứng với một từ trong câu, Y là một chuỗi nhãn tương ứng

với các câu này Mỗi thành phần Yi của Y có miền giá trị là tập tất cả các nhãn tên thực thể (tên người, tên địa danh, )

Cho một đồ thị vô hướng không có chu trình G=(V,E), ở đây V là tập các đỉnh của đồ thị và E là tập các cạnh vô hướng của đồ thị Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một-một giữa một đỉnh và một thành phần của Y v của Y Ta nói (Y|X) là một trường điều kiện ngẫu nhiên (Conditional Random Field - CRF) với điều kiện X nếu các biến ngẫu nhiên Y v tuân

theo tính chất Markov đối với đồ thị G:

| ( | ) (3.5)

Ở đây, N(v) là tập tất cả các đỉnh kề với v Như vậy, một CRF là một trường

ngẫu nhiên phụ thuộc toàn cục vào X Trong các bài toán xử lý dữ liệu dạng chuỗi,

G đơn giản chỉ là một chuỗi G=(V={1,2,…m}, E={(i,i+1)})(Mô hình CRF tương

ứng trong trường hợp này g i là mô hình CRF chuỗi tuyến tính)

Kí hiệu X=(X1,X2,…,X n ), Y=(Y1,Y2, ,Y n) Mô hình đồ thị cho CRF có dạng:

Hình 3-3: Đồ thị vô hướng mô tả CRFs

G i C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G - đồ thị biểu diễn

cấu trúc của một CRF Vì G có dạng chuỗi nên đồ thị con đầy đủ thực ra chỉ là một đỉnh hoặc một cạnh của đồ thị G p dụng kết quả của tác giả Hammerley-Clifford

Trang 33

[6] cho các trường ngẫu nhiên Markov, ta thừa số hóa được p(y|x) - xác suất của

chuỗi nhãn cho trước chuỗi dữ liệu quan sát - thành tích của các hàm tiềm năng như sau:

| ∏ |

Trong đó Ψ A g i là hàm tiềm năng, nhận giá trị thực- dương Để giải các bài

toán gán nhãn dữ liệu dạng chuỗi, ta sẽ đi xây dựng một mô hình xác suất như trong công thức (3.6) sử dụng mô hình CRF có đồ thị biểu diễn cấu trúc dạng đường

th ng như trong hình 3.1 Việc xây dựng mô hình xác suất và sử dụng nó để giải bài toán gán nhãn dữ liệu dạng chuỗi sẽ được trình bày dưới đây

3.1.2.2 Hàm tiềm năng của các mô hình CRFs

Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty và cộng sự đã xác định hàm tiềm năng của một CRF có dạng hàm mũ như sau:

| (∑ | )

Ở đây f k là một thuộc tính của chuỗi dữ liệu quan sát và γ k là tr ng số chỉ

mức độ biểu đạt thông tin của thuộc tính f k

Trong mô hình CRF chuỗi tuyến tính, có hai loại thuộc tính là thuộc tính

chuyển (kí hiệu là t) và thuộc tính trạng thái (kí hiệu là s) tương ứng với mỗi đồ thị con đầy đủ A (là một đỉnh hoặc là một cạnh) của G Thay các hàm tiềm năng vào

công thức (3.6) và thêm vào đó một thừa số chu n hóa Z(x) để đảm bảo tổng xác

suất của tất cả các chuỗi nhãn tương ứng với một chuỗi dữ liệu quan sát cho trước bằng 1, ta được:

|

(∑ ∑ ∑ ∑ )

Ở đây, x, y là chuỗi dữ liệu quan sát và chuỗi trạng thái tương ứng; t k là

thuộc tính tương ứng với toàn bộ chuỗi quan sát và các trạng thái tại ví trí i-1, i trong chuỗi trạng thái; s k là thuộc tính của toàn bộ chuỗi quan sát và trạng thái tại ví

trí i trong chuỗi trạng thái

Các thuộc tính này được rút ra từ tập dữ liệu và có giá trị cố định Ví dụ: {

Trang 34

{

Thừa số chu n hóa Z(x) được tính như sau:

∑ (∑ ∑ ∑ ∑ )

θ(λ1,λ2, ,µ1,µ2…) là vector các tham số của mô hình

3.1.2.3 Ước lượng tham số cho mô hình CRF

Sau khi đã xác định được dạng của phân phối xác suất như trong công thức (3.8), để hoàn thành việc xây dựng phân phối xác suất (3.6), chúng ta cần đi xác

định một bộ tham số mô hình θ “ph hợp nhất” với tập dữ liệu huấn luyện (ước lượng tham số) Người ta thường tìm cách xác định tham số θ một cách xấp xỉ

thông qua việc làm cực đại hóa độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm

Giả sử dữ liệu huấn luyện gồm một tập N cặp, mỗi cặp gồm một chuỗi quan

sát và một chuỗi trạng thái tương ứng, D={(x (i)

,y (i) )} (i =1,N) Độ đo likelihood của

phân phối xác suất mô hình p(y|x, θ) đối với tập dữ liệu huấn luyện D là:

∏ | ̃

Trong đó, ̃ là phân phối xác suất thực nghiệm đồng thời của x,y trong

tập dữ liệu huấn luyện

Nguyên lý cực đại likelihood: các tham số tốt nhất của mô hình là các tham số làm cực đại hàm likelihood

đảm bảo những dữ liệu mà chúng ta quan sát được trong tập dữ liệu huấn luyện là có xác suất lớn nhất Nói cách khác, các tham số làm cực đại hàm likelihood sẽ tương ứng với phân phối xác suất mô hình gần nhất với phân phối xác suất thực nghiệm trong tập dữ liệu huấn luyện Để dễ dàng hơn cho việc tính toán,

Trang 35

thay vì làm cực đại hóa hàm likelihood, ta đi làm cực đại logarit của hàm likelihood (thường được g i tắt là log-likelihood):

∑ ̃ |

Vì hàm logarit là hàm đơn điệu tăng nên việc làm này không làm thay đổi giá

trị của tham số θ cần xác định Thay p(y|x,θ) của mô hình CRF vào công thức

Ở đây, λ(λ1, λ2,…, λ n ) và µ(µ1, µ2,…, µm) là các vector tham số của mô hình, t

là vector các thuộc tính chuyển (t1 (y i-1 ,y i ,x,i),t2(y i-1 ,y i ,x,i),…, t n (y i-1 ,y i ,x,i)), và s là

vector các thuộc tính trạng thái (s1(y i ,x,i),s2(y i ,x,i),…, s m (y i ,x,i))

Đến đây, bài toán ước lượng tham số cho một mô hình CRF chuyển thành bài toán tìm cực đại cho hàm log-likelihood Hàm log-likelihood cho mô hình CRF là một hàm lõm và trơn trong toàn bộ không gian của tham số Bản chất lõm của log-

likelihood cho phép ta tìm được giá trị cực đại toàn cục θ bằng các phương pháp

khác nhau như các phương pháp lặp (IIS và GIS), các phương pháp tối ưu số (Conjugate Gradient, phương pháp Newton…) Theo đánh giá của Malouf (2002) [13], phương pháp được coi là hiệu quả nhất hiện nay trong việc ước lượng tham số cho các mô hình CRFs là phương pháp tối ưu số bậc hai L-BFGS (Limited memory BFGS) [3] L-BFGS cho phép giải quyết bài toán ước lượng tham số mà chỉ đòi hỏi một số lượng bộ nhớ giới hạn

3.1.2.4 Gán nhãn cho dữ liệu dạng chuỗi

Sau quá trình ước lượng tham số dựa vào tập dữ liệu huấn luyện được mô tả ở trên, ta đã hoàn thành việc xây dựng phân phối xác suất (3.6) để phục vụ cho bài toán trích rút thực thể nói riêng và bài toán gán nhãn cho dữ liệu nói chung Để sử

dụng phân phối xác suất này gán nhãn cho một chuỗi quan sát mới cho trước x, ta cần tìm ra chuỗi nhãn có xác suất lớn nhất y* ứng với chuỗi quan sát x theo phân

phối xác suất vừa được xây dựng:

Định dạng
Số trang	70
Dung lượng	3,08 MB