1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng hệ thống trích hút thông tin

235 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 235
Dung lượng 26,07 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

xây dựng hệ thống giải đáp thắc mắc tự động thông qua chất google talk và webbased trường đại học hà nội xây dựng hệ thống giải đáp thắc mắc tự động thông qua chất google talk và webbased trường đại học hà nội xây dựng hệ thống giải đáp thắc mắc tự động thông qua chất google talk và webbased trường đại học hà nội

Trang 1

B ộ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀ NỘI

BÁO CÁO TỎNG KÉT

ĐÈ TÀI K H O A H Ọ C V À CÔNG N G H Ệ CẤP c ơ SỞ

XÂY DựNG HỆ THỐNG TRÍCH RÚT THÔNG TIN

Chủ nhiệm đề tài: PGS.TS Lê Thanh Hương

H a n o i U n iv e r s it y H à N ô i , 11/2012

lllillillifllllllijiillllilll!

0 0 0 0 7 4 2 0 0

Trang 2

THƯ V IỆ N Đ Ạ I H Ọ C H À NỘI

HANOI UNIVERSITY L IBRARY

7-ỶCỈỌỮ

Hà Nội, 11/2012

Trang 3

2 N guyễn Xuân Hoài Đại Học Hà Nội Khoa

học máy tính

Trợ lý nghiên cứu, thiết

kế hệ thống và lập chương trình máy tính

3 N guyễn Thị Hiền

Học Viện Kỳ Thuật Quân Sự, Khoa học máy tính

Trợ lý nghiên cứu lập trình viên

Trang 4

MỤC LỤC

D A N H M Ụ C B Ả N G 5

D A N H M Ụ C C H Ủ V I Ế T T Ắ T 6

I M Ớ Đ Ầ U 7

1 T one, q u a n tình h ìn h n g h iê n c ử u 7

2 T h ờ i gian th ự c h iệ n c ủ a đê t à i 7

3 T ín h cấp th iế t c ủ a đề t à i 7

4 M ụ c tiêu đ ề t à i 8

5 C ách tiếp c ậ n 8

6 P h ư ơ n g p h á p n g h iê n c ứ u 8

7 Đoi tư ợ n g v à p h ạ m vi n g h iê n c ứ u 9

II TÒM T Ắ T NỘI DUNG VÀ KẾT Q U A NGHIÊN c ử u 10

C h ư ơ n g 1 N g h iê n c ứ u bài toán trích rú t th ô n g tin và đề x u ấ t cách tiêp cận 10 1.1 Đ ặ t v ấ n đ ề 10

1.2 G iải q u y ế t bài toán tríc h r ú t thự c t h e 11

1.2.1 Đ ặ t v ấn đ ề 11

1.2.2 M ộ t số đặc đ iểm tiế n g V iệt c ó ản h h ư ở n g đ ế n v iệ c n h ận d ạ n g th ự c t h ể 12

1.2.3 T r íc h rú t thự c th e tro n g v ă n b ả n tiế n g V i ệ t 14

1.3 G iải q u y ế t bài to án trích rú t m ối q u a n hệ g iữ a c ác th ự c t h ê 19

1.3.1 Đ ặ t v ấ n đ ề 19

1.3.2 C á c m ối q u a n hệ g iữ a các th ự c th ê tro n g tiế n g V i ệ t 20

l 3.3 T r íc h rú t m ố i q u a n hệ g iữ a các th ự c t h ể 22

C h ư ơ n g 2 X â y d ự n g ứ n g d ụ n g v à th ử n g h i ệ m 24

2.1 T ríc h rú t th ự c t h ể 24

2.1.1 Q u á trìn h h u ấ n l u y ệ n 24

2.1.2 Quá trình nhận dạn g 27

2.1.3 Đ á n h g iá h ệ th ố n g tríc h rú t th ự c t h ể 27

2.2 Trích rút quan hệ giữa các thực th ể 29

2.2.1 G á n n h ã n d ừ liệu h u ấ n l u y ệ n 30

2.2.2 Q u á trìn h h u ấ n l u y ệ n 32

2.2.3 Quá trình nhận dạn g 35

2 2 4 Đ á n h g iá hệ th ô n g tríc h rút q u a n hệ g iữ a c á c th ự c t h ê 36

III S Ả N P H Ẩ M 1 38

1 C h u y ê n đề 1: B áo c á o tố n g qu an - “ N g h i ê n cứ u , tổ n g h ợ p các kỹ th u ậ t tríc h rú t th ô n g tin trên th ế g iớ i” 38

2 C h u y ê n đ ề 2: “ N g h iê n c ứ u và đề x u ấ t cách tiếp cậ n tríc h rú t th ự c th ể tro n g v ăn b ả n tiế n g V iệ t” 38

Trang 5

3 C h u y ê n đề 3: “N g h iê n cứ u và đề x u ấ t c ách tiếp cận trích rút m ố i q u an

h ệ g iữ a các th ự c th ê tro n g v ăn b ản tiế n g V iệ t” 39

4 C h u y ê n đê 4: “ T h iế t kế, cài đặt h ệ th ô n g trích rút th ự c th ê tro n g v ăn bản tiế n g V iệ t” 39

5 C h u y ê n đề 5: “ T h iế t kê, cài đ ặt hệ th o n g tríc h rút m ô i q u a n hệ g iữ a các th ự c thê tro n g v ă n bản tiế n g V i ệ t ” 40

3 Tài liệu kỹ t h u ậ t v 40

4 k ế t q u ả đ ào tạ o củ a đ ề t à i 40

IV KÉT LUẬN VẢ KIÉN N G H Ị 41

T À I L IỆ U T H A M K H Ả O 43

Trang 6

D A N H M Ụ C B Ả N G •

B ảne 1 Các luật đồng tham chiếu 13

B an s 2 Luật nhóm 2 .17

Bảng 3 C ác đặc trưng sử d ụ n e trong nhận d ạn e quan hệ giữa các thực thê .22

B a n s 4 C ác mẫu ngừ cảnh về từ v ự ng .25

Bảna 5 C ác mầu ngừ cảnh thể hiện đặc điểm của từ 25

Bảng 6 C ác mẫu ngữ cảnh d ạn e biểu thức chính quy 26

Bảng 7 C ác mẫu ngừ cảnh d ạ n s từ đ i ể n 26

Bảng 8 Các tham số trong quá trình huấn luyện 27

Bảng 9 - Két quả thực nghiệm của hệ thống học bán giám sát 28

Bảng 10 - Kết quả trích rút đối của p h ư ơn e pháp học có siám sát sứ dụng CRFs 29

Bảng 11 - Kết quả trích rút của p h ư ơ n g pháp học có giám sát sử dụng kNN .29

Bảng 12 - Ket quả mối quan hệ Live in ( P e r - L o c ) 36

Bảng 13 - Ket quả m ối quan hệ W ork for (Per- Org) .36

Bảng 14 - Ket quả m ối quan hệ Position (Per- Pos) 37

B ảng 15 - So sánh hộ thốna Giuliano và các cộng sự (2007) với hệ thống cài đặt 37

Trang 7

DANH MỤC CHU VIÉT TẮT

Trang 8

I M Ỏ Đ Ầ U

1 Tòng quan tình hình nghiên cứu

Miện nay, với sự phát triển của Internet và việc kết nối băne thông rộng, khả năng tiếp cận với khối lượng lớn các thông tin ở khắp các nơi trên thế giới là rất lớn, chỉ cần có một máy tính được kết nối Internet Tuy nhiên đôi khi chính vì khối lượng thỏne tin quá lớn có thể làm người d ù n s bị "chìm n eập ” trona thông tin, hoặc mất quá nhiều thời gian để có dược thôna tin mà mình mong muốn, v ầ n

đề này dược giải quyết bởi các hệ thống trích rút thông tin (Information Extraction IE) theo miền ứng dụna dua vào các cơ sở dữ liệu (CSDL) cho phép người dùng

dề dàng khai thác thông tin

Vấn đề trích rút thông tin hiện đans được quan tâm nehiên cứu nhiều trên thế giới Mặc dù vậy, việc giải quyết các vấn đề này vẫn còn nhiêu hạn chê Các bài toán dược dặt ra trong trích rút thône tin là : trích rút tên thực thể ; trích rút các thuộc tính của thực thể ; trích rút thông tin về thời eian ; và trích rút thông tin về mối quan hệ giữa các thực thể Các hệ thống trích rút thôns tin thường dược cài đặt cho một ứng dụng cụ thể Các ứna dụng khác nhau sẽ dược giải quyết ở các khía cạnh và mức dộ khác nhau Phần lớn các hệ thống trích rút thông tin hiện nay chỉ có thể trích rút được các thông tin (heo một khuôn dạng nhất định như thời aian (dd/mm/yyyy), mã vùng, mã nước, v.v Có rất nhiều d ạ n s thực thể và thuộc tính m à các hệ thống IE chưa khai thác được Ngoài ra các hệ thống này cũng chưa quan tâm nhiều đến việc thu thập thông tin một cách tự động thông qua phương pháp học máy

Ở Việt Nam, các nghiên cứu xoay quanh lĩnh vực này còn ít và chưa có nhiều kết quả thực tiễn Vì vậy, chúng tôi muôn nghiên cửu sâu hơn vê lĩnh vực này, nhằm tìm ra những kết quả và phương pháp giải quyết tốt hơn Việc thực hiện

dề tài còn tạo tiền đề cho các triển khai ứng dụng thực tế sau này, nhằm đem lại lợi ích về khoa học và kinh tế cho xã hội

2 T h ò i gian thực hiện của đề tài

Từ tháng 10 năm 2011 đến tháng 10 năm 2012

3 T í n h cấ p thiết c ủ a đề tài

Ngày nay, việc sử dụng Internet đế tìm kiếm, khai thác thông tin ngày càng phổ biến do Internet là một nguồn tài nguyên sẵn có, dồi dào thông tin và tri thức của toàn xã hội Một trong nhừne nhu cầu khai thác Internet là thu thập thông tin

về một lĩnh vực nhất định, ví dụ như thu thập thông tin về những nhà khoa học người Việt trên thế giới, hay thu thập thông tin về các trường đại học ở Việt Nam Các thôna tin này rất hữu ích cho các nhà tuyển d ụ n s trong việc tuyến nhân viên ; cho các trường đại học hoặc các nhà khoa học trong việc hợp tác nghiên cứu ; cho

Trang 9

các côrm ty trong việc tìm kiếm dối tác hay để phục vụ công việc kinh doanh, v.v Một aiải pháp thường được nghĩ đến là sử dụna các côrm cụ tìm kiếm như Google, Altavista, v.v Tuy nhiên, người sử dụng vẫn phải chọn lọc m ột cách thủ công từ

nh ừ na kết quả tìm kiếm này để lấy được những trang web phù hựp với mục đích của mình Hơn nữa, còn rất nhiều các trane web liên quan đến vấn đề người dùng quan tâm nhưng không được đưa ra do từ khóa tìm kiếm người sử dụng nhập vào chưa dủ để bao phủ hết tất cả các khả năng có thể

Vì vậy, việc xây dựng các công cụ hỗ trợ việc thu thập và trích rút thône tin từ Internet là một nhu cầu bức thiết Các thông tin đó sẽ dược tự đ ộ n s phân tích

và đưa vào một CSD L, cho phép người dùng có thể dễ dàna khai thác thông tin Việc xây dựng CSD L nàv ưu việt ở chỗ nó không chỉ tập trung dừ liệu về một neuồn m à còn linh hoạt trona việc tra cứu thôna tin Với cơ sở dừ liệu, người d ù n s không chỉ tìm kiểm theo cách đơn giản là so khớp từ khóa như cơ chế làm việc hiện tại của các máy tìm kiếm mà còn có thể tra cứu được thône tin theo nhiều kiểu khác nhau, chẳng hạn như tìm thông tin trong các khoảng thời gian nhất định

4 M ụ c tiêu đ ề tài

M ục tiêu của đề tài là nghiên cứu các kỹ thuật trích rút thông tin và xây dựng thử nghiệm một hệ thống trích rút thông tin tiếng Việt về các nhà khoa học người Việt trên thế giới

5 C á c h tiếp cận

• K hảo sát các cách tiếp cận trong trích rút thông tin để hiểu được các phương pháp đã được dùng trên thế giới

• N ghiên cứu đặc điếm của ngôn ngữ tiếng Việt

• Phân tích chọn phư ơne pháp trích rút thông tin hiệu quả và phù hợp với tiếng Việt Đề xuất các giải pháp để tăng tính hiệu quả của hệ thống trích rút thông tin tiếng Việt

• Trên cơ sở các giải pháp đề xuất, cài đặt các hệ thống thử nghiệm

• Đánh RÌá các hệ thốns; cài đặt dựa trên tập ngừ liệu mẫu

6 Phương pháp nghiên cứu

- Với việc khảo sát các cách tiếp cận trong trích rút thông tin, chúng tôi sẽ nehiên cứu cách cách tiếp cận liên quan trên thế giới, tập trung vào các kỳ thuật hiện đại, các neòn ngữ thông d ụ n s trên thế giới (như tiếna Anh), tiếng Việt

- Với việc nghiên cứu đặc điểm của ngôn ngừ tiếng Việt, chúng tôi sẽ nghiên cứu các tài liệu về rmôn ngừ tiếne Việt như tài liệu về từ Vựn2 na ừ pháp, naữ nghĩa; khảo sát các cấu trúc và văn phone trong các tài liệu tiếng Việt hiện đại như báo

Trang 10

chí bài báo khoa học v.v nhằm sử dụn g các tri thức đó vào việc xây dựng hệ thống trích rút thông tin.

- Đẻ chọn phươne, pháp trích rút thông tin hiệu quả và phù h ọ p với tiếng Việt, trước tiên chúng tôi tiến hành phân tích ưu nhược điểm của các phư ơng pháp đã có trên thế giới Trên cơ sở đặc diểm của ngôn ngữ tiếng Việt, chúng tôi sẽ đề xuất một số phương pháp trích rút thông tin phù họp với tiếng Việt C h ún g tôi sẽ tiến hành cài đặt thử nghiệm các phư ơng pháp đề xuất, so sánh đánh giá với các kết quả đã có trên thế giới

7 Đối tuọng và phạm vi nghiên cứu

I lệ thống trích rút thông tin từ văn bản tiếng Việt cần có khả nâng trích rút thông tin về các nhà khoa học người V iệt từ các trane w eb tiếng Việt như VnExpress dantri Wikipedia tiếng Việt Các thông tin này sẽ được đưa vào một

cơ sở dừ liệu quan hệ thuận tiện cho việc khai thác

Phần tiếp theo của báo cáo trình bày các kết quả đạt được của dề tài và cuối cùng, phần III sẽ đưa ra các kết luận và h ư ớ n g phát triển của đề tài trong tương lai

Trang 11

Với cách tiếp cận thứ nhất, luật được xây dựng dựa trên việc quan sát qui luật của dừ liệu như các dừ liệu dạng ngày tháng (xx/xx/xxxx, xx-xx-xxxx, .) hoặc số điện thoại D o luật được xây dựna, dựa trên việc quan sát dữ liệu nên thường có độ chính xác cao T uy nhiên, cách tiếp cận này không xử lý được các trường hợp chưa được nhắc đến trong tập luật Hơn nữa, với các trường dừ liệu không có khuôn dạne, nhất định như lĩnh vực nghiên cứu thì cách tiếp cận này không khả thi Ở Việt Nam dã có một số công ty xây dựng hệ thống trích rút thông tin theo cách tiếp cận này D ữ liệu sau khi trích rút dược lưu trong CSDL và giao diện người d ù ne là giao diện truy vấn C SD L thông thườna.

Cách tiếp cận thứ hai xây dựng tập luật một cách tự động dựa trên việc học

từ tập dữ liệu mẫu Ban đầu khi dừ liệu mẫu dùng để học còn ít, cách tiểp cận này

có thể cho kết quả không chính xác như cách tiếp cận dựa trên tập luật được xây dựng thủ công Tuy nhiên khi dừ liệu học nhiều thì độ chính xác của hệ thống sẽ tăng Ngoài ra, hệ thong còn cho phép xử lý được các loại dừ liệu không có khuôn dạng nhất định

Hiện nay, phần lớn các nghiên cứu về trích rút thông tin sử dụng phương pháp học máy nhằm xây dựng tập luật m ột cách tự động do khả năng của nó có thể

xử lý được nhiều kiểu trường dữ liệu khác nhau và khả năng dáp ứng với các dừ liệu mới chưa được nhắc đến trong tập luật

Đẻ trích rút thône tin về các nhà khoa học naười Việt từ các trang web đã thu thập, trước tiên hệ thống thực hiện việc trích rút thực the (named entity recognition) từ các văn bản, và tiếp theo là trích rút mối quan hệ giữa các thực thể (relation extraction) trong văn bản Trích rút thực thể là quá trình tìm trong văn bản thông tin cho các trườnẹ dữ liệu định trước (còn gọi là thực thể) như tên neười, tên tổ chức, thời gian, tiền tệ, v.v Trích rút mối quan hệ giữa các thực thể

là việc xác định mối quan hệ giữa các thực thể trong văn bản Ví dụ, câu "O n e Kiên làm việc ở trườne Đ H B K H N ” có hai thực the Person "K iên” và Organization

“trưcma Đ H B K H N " Câu này tồn tại m ột quan hệ Person - Organization giữa thực thể Person “K iên” và thực thể Organization “trường Đ H B K H N ”

Trang 12

ĩ 2 G iải quyết bài toán trích rút thục thê

1.2.1 Dặt vấn đề

I rone đề tài này, chúng tôi tập trung nghiên cứu các vân đê mở trong trích rút tự động Với bài toán trích rút thôno tin vê các nhà khoa học người Việt, chúng tôi tập trung trích rút các trường dữ liệu không có khuôn dạng nhât định, không thê

sử dụng các luật được xây dựng một cách thủ công dựa trên việc quan sát quy luật của dừ liệu dể trích rút Đ ó là các trư ờ n s chỉ người (person), cơ quan (organization), địa điểm (location), lĩnh vực nghiên cứu (research) Nhiệm vụ của việc trích rút này là gán cho mỗi từ tro n s chuồi văn bản đầu vào một nhãn phù hợp như person, organization, location, research và other (từ không thuộc các loại trên) Vì vậy, bài toán trích rút thực thể có thể coi là bài toán gán nhãn cho dừ liệu dạng chuỗi Để trích rút được các trườne dữ liệu này, chủng tôi sử dụna phương pháp học máy dê trích rút

Trên thế giới, phần lớn các nghiên cứu về học máy trong trích rút thực thế

sử dụng phưưna, pháp học có giám sát (Bikel và các cộng sự, 1999 ; Borthwick, 1999; McCalIum and Li, 2003) Phưưng pháp này tuy có thể đem lại dộ chính xác cao nhưng nó đòi hỏi bộ dữ liệu lớn đã được gán nhãn thực thế Việc xây dựng bộ

dừ liệu này đòi hỏi nhiều công sức Hiện nay ở Việt Nam chưa có bộ dừ liệu nào

đủ lớn dế phục vụ cho bài toán này

Đe giải quyết vấn đề này, chúng tôi sử dụng phương pháp học bán giám sát Phương pháp này luyện mô hình trcn tập dừ liệu nhỏ đã được gán nhãn ban đẩu, gán nhãn tự dộng trên tập dừ liệu khác chưa gán nhãn Quá trình này được thực hiện lặp đi lặp lại nhằm tạo ra m ô hình cải tiến trên cơ sở việc gán nhãn trong mô hình trước (thêm vào bộ dừ liệu gốc đã được gán nhãn) Trong hệ thống của chúng tôi, phương pháp học bán giám sát được sử dụng để nhận dạng thực thể trong văn bản tiếng Việt

Như trên đã nói, bài toán trích rút thực thể có thể coi là gán nhãn cho dừ liệu dạng chuỗi Trong các phương pháp học máy, phương pháp thành công nhất hiện nay sử dụng các trường điều kiện ngẫu nhiên (Conditional Random Field - CRF) CR F là mô hình dựa trên xác suất có điều kiện, tích họp được các thuộc tính

đa dạng của chuỗi dữ liệu quan sát nhằm hỗ trợ cho quá trình phân lớp Chính vì vậy, CRF rất thích hợp cho bài tóan trích rút thực thể CRF sử dụng đồ thị vô hướng, điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái khi biết chuỗi quan sát cho trước, thay vì phân phổi trên mỗi trạng thái khi b k i trạng thái trước đó và quan sát hiện tại Cho trước chuỗi quan sát, mô hình đồ thị vô hư ớne CRF lại biến đổi phân phối xác suất của chuồi trạng thái thành tích các hàm tiềm năng trên các clique Do đó, CRFs không cần chuẩn hóa với các phân phổi xác suất trên từne trạne thái Chính vì cách mô hình hóa như vậy, CRF có thế giải quyết được vấn đề “sai lệch nhãn" Mô hình CRF phục vụ cho việc sinh tự động luật trích rút thông tin từ tập dừ liệu mẫu được giới thiệu chi

tiết ở háo cáo chuyên đề 2 «N ghiên cửu và đề xu ấ t cách tiếp cận trích rút thực thê tro ng văn bản tiếng Việt » (phần 2.1).

Trang 13

Chúng tôi kết hợp mô hình Conditional Random Fields (CRFs) với các kỹ thuật xác định đồng tham chiếu và xử lý nhập nhàng tên Phương pháp học bán giám sát này kế thừa ý tưởng của Liao và Veeramachaneni (2009) và m ở rộng nó bằng cách sử d ụ n s kỹ thuật xác định đồng tham chiếu tên riêng Khởi đầu bang việc luyện mô hình sử dụng một tập dừ liệu nhỏ dã được gán nhãn, mô hình trích rút các thực thể có tên với độ tin cậy cao Sau đó hệ thống tìm các thực thể có tên với độ tin cậy thấp bang cách sử dụng tập luật đồng tham chiếu tên Các thực thè

có tên với độ tin cậy thấp này dược dưa trở lại tập dừ liệu huấn luyện đê học các đặc trưng mới P h ư ơ n e pháp học bán eiám sát của I.iao và Veeramachaneni (2009)

được siứi thiệu chi tiết ở báo cáo chuyên đề 2 «Nghiên cíni và để xu ấ t cách tiếp cận trích rút thực thẻ trong vãn ban tiêng Việt » (phân 2.2).

Hên cạnh việc học luật tự động, chúng tôi c ũ n s bô sung một cách thủ công vào tập các luật phát hiện thực thể dựa trên việc quan sát qui luật của dừ liệu, nhàm tạo ra dừ liệu huấn luyện m ới từ các dữ liệu chưa được gán nhãn

Sau đây chúng tôi sẽ giới thiệu m ột số đặc điểm tiếng Việt có ảnh hưỏng đến việc nhận dạng thực thể, n hằm tạo ra các heuristics cho phép phát hiện các thực the mới và giải quyết nhập nhàng thực thể

1.2.2 M ột số đặc điểm tiếng V iệt có ảnh hưởng đến việc nhận dạng thục thể

Dinh d a n s í hire thê tiêng Viêt

Thông tin về người (Person), tô chức (Organization), nơi chon (Location)

có định dạng nhất định Các dạng đó là:

1 Tên người: [Tiền tốJ+[HọJ+[ĐệmJ+7’ể/7

2 Tên của tổ chức: [Tiền tố]+[Loại hình]+[Loại hình kinh doanh]+ T ê n +

[Nơi chốn]

3. Tên của nơi chốn: [Tiền t ố ] + T ê n

Trong các mẫu trên, tên có thể viết tắt Các từ viết tắt này có thể đặt trong ngoặc tròn hoặc không

Dựa trên các định dạng trên, các tác giả N guyễn Thanh Hiên và Cao Hoàng Trụ (2008) đã đề xuất tập luật nhằm xác định các đoạn văn bản đồng tham chiểu

về tên (named-coreference) trona văn bản tiếng Việt (xem bảng 1) Các luật này cũna được áp dụng trong hệ thống của chúng tôi như các heuristics nhằm xác định thực thể với độ tin cậy thấp có được nhận dạng là thực thể hay không

Trang 14

Bảng L C á c luật đồng tham chiếu '

L u â t Nội d u n g

1 1 lai tên giống nhau

2 Một tên là một phần của tên còn lại; ví dụ: " N auvễn Chí M ai" và "M ai"

5 Một tên là bí danh của tên khác; ví dụ ■■ Sài G òn" v à “TP I lồ Chí M in h ”

4 Một tên là viết tắt của tên khác; ví d ụ :’T P 11CM" và "Thành Phố I ỉồ Chí Minh"

5 k chữ đầu và m chữ cuối của hai tên giống nhau, với điều kiện k + m là sô chữ của N->: ví dụ: " C ô n g ty cổ phần Đại A n ” và “C ô ng ty Đại A n "

6 Neoại trừ phần tiền tổ, tất cả các c h ữ của N 2 đều xuất hiện trons N | hoặc là viết tất của phần tiền tố của N i; ví dụ: " C ông ty T N H H A pave Việt N am ",

“Cty A pave Việt N a m ” , ■' C ông ty Pave" đều là tên của một công ty

7 Một tên là phần cuối của tên còn lại; ví dụ: " N guyễn Chí Mai"' và "Chí Mai"

8 Phần cuối của một tên là viết tắt kí tự đầu của các chữ trona phần cuối của tên kia, phần còn lại của hai tên giống nhau; ví dụ: với '■ Bộ G iáo dục và Đào T ạ o ” và 'B ộ G D & Đ T " thì " G D & Đ T " là viết tắt kí tự đầu của "G iáo due và Đào ta o ”

9 k chữ cuối của hai tên a iổ n e nhau, phần đầu của N 2 là viết tắt phân dâu của N| với điều kiện N2 có k+1 chữ; ví dụ: “ C ô n g ty H P V N " và "C ty HP VN”

10 Các chữ viết tắt của N 2 đều là viết tắt của các cụm từ trong Ni và các chữ còn lại trong N 2 đều xuất hiện trong N i; ví dụ:“C ô n g ty T N H H H ew lett Packard Viẹt N a m ’V ’Cty HP V N 'V 'H P V N ’V’H P V iệt N a m ” và “ C ông ty

HP Việt N a m ” đều là tên của cùng m ột thực thể

11 Hai tên xuất hiện liên tiếp trong v ăn bản theo dạng N 1(N 2), với điều kiện

N 2 chỉ có một chữ và thực thể tư ơng ứne; thuộc lớp thực thể; ví dụ: “ Phòng Thương Mại và C ông nghiệp Việt N am (V C C I)” , hoặc “Liên Đ o àn B óng

Đá Việt N am (V F F )” , hoặc “T ổn g cộng ty Cao su V N (G eruco)”

Đ ăc điểm của tên riên g tro n g tiếng Viêt

Trong tiếng Việt, có m ột số trư ờng hợp gây nên nhập nh ằn a thự c thể Các trường họp đó được m ô tả dưới đây

+ T rirò ìig h ọ p 1 M ột tên riêno hoặc m ột thực thể là m ột phần của thực thể khác Cụ thể hơn là, m ột thực thể có thể là phần giữa hoặc phần cuối của m ột thực

1 Trong bảna, 1, Nị là từ/cụm từ chỉ thực thể, N 2 là cụm từ đ ang xét x e m có phải là đồriR tham chiếu của Ni hay không

Trang 15

thố khác Trong trường hợp này cần gán nhãn cho thực thể phủ phần văn bản lớn

hơn Ví dụ đoạn ' T h u viện Tạ Q u a n g B ử u ” là tên của một cơ quan/tô chức (Organization) Trong đoạn đó, " T ạ Q u a n g B ử u " lại là tên của m ột nhà khoa học nổi tiếng của Việt Nam Trong trư ờ n g hợp này, hệ thống cần gán nhãn " T h u viện

Tạ Q u a n g B ử u " là Organization, kh ô n a gán nhãn "Tạ Q u a n g B ử u là Person.

+ T r ư ờ n g h ọ p 2: Việc nhận d ạn e tên thực thể phụ thuộc vào n e ừ cảnh của

nó Ví dụ:

(a) Hôm nay, công ty F P T dã tổ chức liên hoan cho các thành viên

(b) Hôm nay, chúna tôi sẽ tô chức liên hoan ở công ty FPT

Trong câu đầu tiên, “công ty F P T " là m ột tổ chức (O raanization), tro n a khi

nỏ lại là nơi chon (Location) trong câu thứ hai

Các trườna hợp nói trên sẽ được xét đến tại bước hậu x ử lý của quá trình nhận dạng thực thể (xem phần 1.2.3)

1.2.3 T ríc h rút thực thể trong văn bản tiếng V iệt

Việc nhận dạng thực thè sử dụng p h ư ơ n g pháp học m áy CR F dược thực hiện thông qua hai giai đoạn: (i) huấn luyện hệ thống nhàm xây d ự n g tập luật trích rút thực thể ; và (ii) nhận d ạ n s thực thể sử d ụng tập luật trích rút Quá trình huấn luyện sử dụng m ột bộ dừ liệu nhỏ đã gán nhãn các thực thô Person (họ tên), Research (lĩnh vực nghiên cứu), O rganization (trường/ cơ quan), và Location (nơi chốn) Sau bước huấn luyện, hệ th ố n g được sử d ụng để nhận dạng thực thể trong các dữ liệu chưa gán nhãn T ro n e quá trình này, hệ thống tính toán độ tin cậy của việc nhận dạne các thực thế n hằm tìm các thự c thể có độ tin cậy cao D ựa trcn các thực thể có độ tin cậy cao, các hcuristics về đồng tham chiếu tên, các luật giải quyết vấn đề nhập nhàng trong gán nhãn thự c thể (xem phần 1.2.3), và m ột sổ luật đặc biệt khác, hệ thống phát hiện thêm các thực thể liên quan Các thực thể này được gán giá trị độ tin cậy thấp

Q uá trình huấn luyện sử dụng sử d ụ n g thuật toán học bán giám sát, kế thừa thuật toán của Liao và V eeram achaneni (2009) Khởi đầu bằng việc luyện m ô hình

từ tập dữ liệu eán nhãn nhỏ L, hệ thố n g sinh d ừ liệu huấn luyện mới từ tập dừ liệu chưa dược gán nhãn Sau khi gán nhãn được các thực thể sử d ụng m ô hình sau bước huấn luyện, các thực thể có đ ộ tin cậy thấp được nhận dạng dựa trên các heuristics giới thiệu trong bảng 2 H ệ thống được luyện lại trên tập dừ liệu mới sau khi các thực thể có độ tin cậy thấp được gán nhãn Q uá trình này lặp lại đến khi hệ thống không thể cải thiện hơn được nữa T huật toán học bán giám sát được trình bày trong Hình 1

Ở bước 1, hệ thống trước tiên đi qua bộ tách từ và s á n nhãn từ loại để xác định từ và nhãn từ loại của chúng Sau đó hệ thống tính aiá trị cho các đặc trư na

sư dụng trong m ô hình CRF Các đặc trư n ? được sử dụng là:

- T ừ hiện lại, hai từ liền trước và hai từ liền sau của từ nàv

Trang 16

- Định dạng của từ hiện tại hai từ liền trước và hai từ liền sau của từnày

Cho:

L - tập dừ liệu nhỏ dã được gán nhãn

u - tập dữ liệu chưa gán nhãn

Lặp lại k lần:

Bước I : Luyện mô hình C k trên tập dừ liệu L

Bước 2: Trích rút dữ liệu mới D dựa trên Ck

- Gán nhãn thực thể trong tập dừ liệu u và tính độ tin cậy của các thực thể

- Tìm các thực thể có độ tin cậy cao và dùng nó để tìm các đoạn đồng tham chiếu để sán nhãn các thực thể có độ tin cậy thấp

- Gán nhãn các thực thể dựa trên các luật mà hệ thống không phát hiện được từ mô hình luyện

- Trích rút các thực thể lựa chọn

- Sắp xếp lại các thực thế được trích rút trong dừ liệu trích rút

- Thêm dừ liệu vừa trích rút vào tập dừ liệu mẫu D

B ư ớc 3: Thêm D vào L

Hình 1 Thuật toán học hán giám sát

- Nhãn từ loại (POS) của từ hiện tại và hai từ liền trước và hai từ liềnsau của từ này

- T h ô n a tin về ngữ nghĩa của từ hiện tại, hai từ liền trước và hai từ liềnsau của từ này (họ, tên, đệm, .)

Ớ bước 2, văn bản chưa được gán nhãn sẽ được đưa qua bước tiền xử lý và phân tích đặc trưng tươrm tự ở bư ớc 1 Sau đó, văn bản này được gán nhãn sử

d ụna mô hình Ck đã học được ở bước 1 Ket thúc quá trình gán nhãn, hệ thống tiến hành tính độ tin cậy cho các doạn thực thể ở trong văn bản này Chúng tôi sử dụne thuật toán đề xuất bởi Culotta và McCallum (2004) để tính độ tin cậy của các thực thể Thuật toán này tính tổng xác suất của tất cả các đường đi qua các từ được Rán n h ã n t h ự c th ể

Tiếp đến, những thực thể (Person Research Location, Organization) được trích rút bởi mô hình Ck cũ có độ tin cậy cao ( > T l ) (những thực thể có độ tin cậy cao này được xem như là đúng) sẽ được kết hợp với 11 luật đồng tham chiêu được miêu tả ở Bảng 1 để tạo ra các m ẫu tìm kiếm Ví dụ nếu mô hình Ck cũ phát hiện được đoạn văn bản “N euyễn V ăn M inh" là một thực thể Person với độ tin cậy cao, thì kết hợp với n h ừ n s luật đồns; tham chiếu, chúng tôi sẽ thu được nhừna mẫu

Trang 17

tìm kiếm như "M inh" "Nguyễn" "Văn M inh" Mỗi mẫu tìm kiếm được gán với kiêu của thực thể sinh ra mẫu này Cụ the trong trường hợp ở trên, các mẫu tìm kiếm '"Minh", "N g u y ễn " được gán với kiểu thực thể là Person vì thực thể sinh ra nhữniì mẫu này là "N guyễn Văn Minh" có kiểu là Person Sử dụng những mẫu tìm kiếm này chúng tôi tiến hành tìm kiếm trong văn han đang xét N hững đoạn văn bán dược tìm thấy có độ tin cậy thấp ( < T2) hoặc không dược mô hình cũ đoán nhận sẽ được chúng tôi sử dụne để làm dừ liệu mới đưa vào kho dừ liệu huấn luyện cũ Nhãn của những dừ liệu mới này chính là nhãn của mẫu tìm kiếm dã tìm

ra chúng Chúng tôi gọi heuristics này là luật nhóm 1

Một vấn đề đặt ra là với nhữnu đoạn văn bản được tìm thấy có độ tin cậy thấp có thê xảy ra trường họp nhập nhằng giữa các nhãn thực thê Chúng tôi sẽ giải quyết sự nhập nhằng dựa trcn hai phép hậu xử lý như sau:

+ H ậu xu lý 1: một thực thể là m ột phần của thực thể khác

Trong trường họp này, cụm NP nhỏ nhất chứa nhãn thực thể với dộ tin cậy cao được kiểm tra xem phần đầu của nó có là tiền tố của Person, Organization hoặc Location hay không Neu diineu cụm NP dó được gán nhãn lại theo tiền tố Phirơng pháp này cho phép chúng ta tìm thấy thực thể có cấu trúc phức tạp trong văn bản tiếng Việt

Ví dụ:

Hôm nay anh T o à n T h ắ n g đi Sài Gòn

Hôm nay C ô n g ty T o à n T h ắ n g sẽ mở cửa

Đoạn "Toàn Thắng” trone câu đầu có nhãn thực thể là Person với độ tin cậy

cao Khi tìm thấy thực thể tương ứng có độ tin cậy thấp dựa trên luật đồng tham

chiếu, hệ thong thấy " Toàn Thang’' tronR câu thứ 2 không được eán nhãn hoặc gán sai Trên thực tế, “C ông ty Toàn Thắng" là tên tổ chức Dựa trên từ đầu tiên của

cụm này (là tiền tố của Organization), cụm này được Rán nhãn là Organization.+ H ậ u x ử lý 2: Neu 1 đoạn văn bản được gán nhãn là Organization mà có trạng từ chỉ nơi chốn (trong, cạnh ), đoạn này dược gán lại là Location

V í dụ:

Hôm nay, C ô n g T y F P T đã tổ chức liên hoan cho các thành viên

Hôm nay, chúng tôi sẽ tô chức liên hoan ở C ô n g Ty FPT

Công ty FPT được gán nhàn là Organization trong câu thứ nhất, và Location trong câu thứ 2

N hững cải tiến của chủna tôi so với Liao và Veeramachaneni (2009) là

ch ú n s tôi sử dụng thông tin về ngừ cảnh của thực thể, được giới hạn bởi các cụm

NP chứa thực thể đó, từ đó xác định được nhãn thực thể chính xác hơn Ngoài ra,các luật đồng tham chiếu mà chúng tôi đưa vào làm cho lượng mẫu tìm kiếmphone phú hơn đồng thời phù hợp với những đặc điêm của tiếng Việt hơn

Trang 18

Bên cạnh các heuristics trên, chúng tôi còn dùng các luật phát hiện thực thế khác có xác suất cao trons, tiếng Việt Các luật này được gọi là luật nhóm 2.

• Nếu cụm từ đang xét nằm trong từ điển về tên người Việt Nam địađiểm, cơ quan tổ chức, cụm từ đó dược gán nhãn dựa trên từ điên tirơnaứng

• Nêu từ ngay trước NP là một từ thuộc vào một trong hai từ điên Từđiển động từ chí địa điểm ( đến, đi, tới, ) và từ điển trạng từ chỉ địadanh ( tại, ở, gần, ) thì NP đó là dược gán là Location

• Ngay sau NP là các dấu chấm câu như và n g a y sau các dâuchấm câu này là một chuồi có dạn®

[số từ] [từ thuộc một trong 4 từ điển Person, Research, Location Organization I

thì gán NP này là Person, Research Location, Organization tương ứng

Gán các từ viết hoa là loại từ thuộc một trong 4 từ điển qui định

+ Từ liệt kê là các từ như : như, eồm, gồm có

Ví dụ:

Các nước tiên tiến như Mỹ, Nhật, Pháp đều quan tâm đến vấn đề này

Mỹ, Nhật, Pháp là Location (do có từ “nước” thuộc từ điển Location) Tập luật nhóm 2 được liệt kê trong Bảng 2

Bảng 2 Luật nhóm 2

Luật Định nghĩa

1 Nếu NP có tiền tố thuộc vào một trone bốn loại Person, Research, Location,

Organization thì sán kiểu thực thể tương ứng với tiền tố của chúne

2 Nếu cụm từ đane xét nằm trong từ điển về tên người Việt Nam, lĩnh vực

nshiên cứu, địa điểm, cơ quan tổ chức, cụm từ đó được gán nhãn dựa trên

từ điển tươna, ứns

Các luật sau xử lý các NP thỏa mãn 2 điều kiện sau:

Trang 19

+ Không có tiền tố thuôc vào môt trong bốn loai Person, Research, Location, Organization

+ rất cả các ký tự đâu của từ này viêt hoa

3 Neu sau NP có 1 chuồi các từ dưới dạng sau:

[ trợ từ] [từ định nghiã][số từ] [từ thuộc một trong 4 từ điển 1

(a) Andrew Grove là một giám đốc công ty

(b) Hỗ Chí Minh là con đường huyền thoại

Trong ví dụ trên Andrew Grove là Person, còn I lô Chí Minh là dịa điếm

4 Đứng trước NP là 1 từ thuộc một trong hai loại: động từ đi kèm với từ chỉ

nơi chốn (đến, đi, .) hoặc một trạng từ chỉ nơi chối (tại, ở, .), NP sẽ được gán nhãn là Location

5 Nếu NP đứne trước một chuỗi có dạng:

[dấu câu j [số từ ] [ từ thuộc một trona 4 từ điển]

trong đó

[các từ định nghĩa] là: (

Khi đó NP được gán nhăn theo từ thuộc 1 trong 4 từ điển

Ví dụ:

Vinamilk, công ty sữa lớn nhất Việt Nam, được thành lập năm 1976

Trong ví dụ này Vinamilk là Organization

6 Nếu NP đứng trước một chuỗi có dạng:

1 từ chỉ số lượng] [từ thuộc một trong 4 từ điển] [một từ nào đó bổ sung ý nghĩa cho từ thuộc một trong 4 từ điển Person, Research, Location, Organization] [dấu hai chấm hoặc các từ chỉ liệt kê]

trong đó

- [các tù' liệt kê] là: như gồm, gồm có,

- [từ bô suns ý nghĩa] thường là tính từ

Khi đó NP và tất cả các từ theo sau NP này được sán nhãn theo từ thuộc 1

Trang 20

tron a 4 từ điên

Ví dụ:

Các nước tiên tiến như : Mỹ Nhật, Pháp .đều quan tâm đến vấn đề này

Mỹ Nhật Pháp là Location (do cỏ từ "nước" thuộc từ diên Location)

Ngoài ra để cân bằng giữa sổ mẫu luyện dưcmg và số mẫu luyện âm các thực thể được mô hình cũ gán nhãn là o với độ tin cậy cao mà khôna nằm trong những thực thể đã được trích rút ở trên cũng sẽ được sử dụna như những mẫu âm

để thêm vào dừ liệu huấn luyện

Với những dữ liệu mới dược thêm vào kho dừ liệu huấn luyện, chúne tôi cũna thêm vào kho dừ liệu huấn luyện những lân cận của các đoạn dữ liệu mới này Lý do là các đặc trưng cho mỗi đoạn văn bản sử dụng trong thuật toán bao gồm cả những đặc điểm của các lân cận của nó Cụ thể là, với mỗi đoạn văn bản được thêm vào kho dữ liệu huấn luyện ở trên, các từ lân cận với nó hoặc có độ tin cậy cao từ mô hình cũ hoặc thuộc một trong các đoạn văn bản được trích rút để thêm vào kho dữ liệu huấn luyện cũng sẽ dược dưa vào kho dừ liệu huấn luyện

Lý do khiến chúne tôi sử dụne hai ngưỡng độ tin cậy cao ( T I ) và độ tin cậy thấp (T2) là để đảm bảo chỉ những tri thức mà mô hình cũ khôns có mới dược dưa vào dữ liệu huấn luyện (những tri thức mà mô hình cũ khôna, có thể hiện ở việc

mô hình cũ không đoán nhận dược thực thể đó hoặc đoán nhận nhưng với dộ tin cậy thấp) Những thực thể có độ tin cậy nằm trong khoảng T2 đến T I được coi là nhập nhằng và không được sử dụng làm mẫu tìm kiếm cũng như không dược đưa vào dừ liệu huấn luyện

Kết quả thử nghiệm cho thuật toán trích rút thực thể được giới thiệu trong phần 2.1

1.3 Giải quyết bài toán trích rút mối quan hệ giữa các thực thế

1.3.1 Đăt vấn đề

Mục đích của bài toán trích rút mối quan hệ giữa các thực thể là nhằm phát hiện quan hệ giữa các thực thể trong văn bản Ví dụ, câu “Ông Kiên làm việc tại trường Đ H B K H N " chứa quan hệ Person - Organization (Per Org) giữa thực thể Person “K iên'’ và thực the Organization “ trườim ĐHBKHN"

Các nghiên cứu gần đây về trích rút quan hệ giữa các thực thê thường sử dụiiR phương pháp học máy thống kê như Hidden Markov Models, Conditional Random Fields, Maximum Entropy Models, Support Vector Machines

Banko và Etzioni (2008) tạo ra hệ thống O-CRF (Open CRF) cho trích rút quan hệ m à không dùng tới bất kỳ thông tin về quan hệ nào từ phía nsười dùng

Hệ thống tự học bàng cách áp dụng các tri thức độc lập quan hệ vào Penn

Trang 21

Trcebank và chọn ra các mẫu được gán nhãn quan hệ I lệ thống này sinh ra 8 mẫu

từ vựne-ngữ pháp cho các quan hệ giữa các cặp thực thê Ví dụ càu

''<Einstein> received< the Nobel Prize> in 1921" phù hợp với mẫu từ vựng-neữ pháp El-verb-E2, do đó có một quan hệ giữa <Einstein> và <the N obel Prize>

Các đặc trưng sư dụng trong 0 -C R F là thẻ từ loại, từ, và sự kết nối các đặc trưng giữa 6 từ bên trái và 6 từ bên phải của từ hiện tại 0 -C R F chỉ sử dụng các từ thuộc

về các lớp dons (ví dụ các giới từ), không sử dụng danh từ và dộng từ

Chúng tôi kế thừa ý tưởng của Banko và Etzioni (2008) bằng cách sử dụng xâu giữa hai thực thể như một dấu hiệu nhận biết quan hệ và coi bài toán nhận biết quan hệ như bài toán gán nhãn tuần tự sử dụng CRF Mô hình First-Order Markov Model dược dùng như giả thiết về độc lập trạng thái

Hệ thống trích rút quan hệ giữa các thực thể nhận đầu vào là tập các tài liệu tiếna Việt đã được gán nhãn thực thể gồm các trường chỉ người (person), cơ quan (organization), địa điểm (location), lĩnh vực nghiên cứu (research) Các quan hệ cần trích rút là giữa người và cơ quan (Per Ore), người và dịa điếm ( P e r O r g ) , người và lĩnh vưc nghiên cứu (Per Res) Trong phạm vi nghiên cứu này, chi các quan hệ trona một câu được xem xét

Trong các phương pháp học máy dược nhắc đến ở trên (như Hidden Markov Models Conditional Random Fields Maximum Entropy Models, Support Vector Machines) thì SVM là phù hựp nhất vì SVM nham giải quyết bài toán phân lớp mà hài toán trích rút mối quan hệ là bài toán phân lớp một câu nào đó có thuộc kiểu quan hệ cho trước hay không, mà không cần quan tâm đến từ nào thuộc mối quan hệ (tức là khôns phải bài toán gán nhãn cho chuồi từ) Mô hình SVM phục

vụ cho việc sinh tự độne luật trích rút thông tin từ tập dữ liệu mẫu được giới thiệu

chi tiêt ở chuyên đê 3 «Nghiên cún và đê xuât cách tiêp cận trích rút m ôi quan hệ giữa các thực thê trong văn bản tiêng Việt ».

Trước tiên chúne ta sẽ xét đến đặc diểm của các quan hệ giữa các thực thể trong câu tiếng Việt

1.3.2 Các mối quan hệ giữa các thực thể trong tiếng Việt

Các mối quan hệ giữa các thực thể trong câu tiếng Việt có thể được diễn tả theo nhiều cách Trong phần lớn trường họp, các ký tự, từ, hoặc đoạn có thể gợi ý các quan hệ này Các trường hợp này được mô tả dưới đây

T r u ò n g h ọ p 1: Đ ộng từ chính trong câu xá c định quan hệ

Trang 22

"Ô ne Nguvễn Tất Dẳc" và "Trường Đại học Bách khoa Hà Nội

Ví dụ :

Ô n g Nguyễn C ả n h L ư ơ ng ( E l) hiện giữ chức vu phó hiệu t r u ỏ n g (E2) Trường Đại học Bách khoa Hà Nội

Động ngừ ”giữ chức vụ" xác định quan hệ Per Pos giữa hai thực thể " ô n g

N suyễn Canh Lưcmg" và "phó hiệu trư ở n g ”

T rirò ìig h ọ p 2: H ai thực thê được phân cách bơi dâu phây, hai chắm, dấu gạch ngang.

Mầu: E l < , I : I - > E2 E3 <phần còn lại của câu>

T r u ò n g h ọ p 3: H ai thực thê liên kê

Mau: HI E2 < phần còn lại của câu >

Ví dụ :

T h ủ tiróng ( E l ) N guyễn T ấ n D ũng (E2) đã đến thăm hỏi và trao huân chương lao động hạng nhì cho cán bộ nhân viên ban quản lý cụm phà

Trone ví dụ này, thực thể Position “Thủ tướng” và thực thể Person

"Nguyễn Tấn D ũ n g ” kề nhau Hai thực thể liên kết bởi quan hệ Per Pos

Giữa hai llụrc thể Position “Bộ trưởne '■ và Person “Nguyễn Thiện N hân”

có quan hệ PerJPos Các thực thể nàv phân cách bằng thực thể thứ 3 Organization

“Bộ Giáo dục và Đào tạo”

Các kết luận dưới đây được rút ra từ các trườna hợp trên:

Trang 23

• Các từ và cụm từ gần hai thực thè đặc biệt là các từ/cụm từ giữa chúna là các yếu tố quan trọng trong việc tìm quan hệ giữa 2 thực thể.

• Khi nhận dạng quan hệ eiữa 2 thực thê trong câu thông tin về các thực thế khác trong câu cũng dốns vai trò quan trọng

1.3.3 T rích rút mối quan hệ giũa các thực thê

Việc trích rút mối quan hệ giữa các thực thê sử dụng phương pháp học máy SVM được thực hiện thôna qua hai aiai đoạn: (i) huấn luyện hệ thống nhằm xây dựng tập luật trích rút mối quan hệ giữa các thực thể; và (ii) nhận dạng mối quan

hệ siừa các thực thể sử dụna tập luật trích rút Quá trình huấn luyện sử dụng một

bộ dừ liệu đã sán nhãn các mối quan hệ 2Ìữa người và cơ quan (Per^Ora) người

và địa điểm (Per Ore), người và lĩnh vưc nghiên cứu (Per Res) Quá trình huấn luyện tiến hành phân tích đặc trưng của mỗi văn bản đầu vào, sau đó đưa vào modul phân loại SVM để tiến hành học mô hình của dừ liệu

1.3.3.1 Phân tích đặc t r ư n g

Trên cơ sở dặc điểm các mối quan hệ giữa các thực thể trona câu tiếng Việt giới thiệu trong phần 1.3.2, chúng tôi dề xuất các đặc trưng sử dụng trong hệ thông nhạn dạng quan hệ giữa các thực thể như trong Bảng 3

bản thân từ từ ở trong câu làm việc, sống ở

Kiểu thực thể Kiểu thực thể thuộc quan hộ Organization (công ty p h á t triển nông

thôn), Location (Hà Nội).

OutR Entity kiểu thực thể trone cùng câu Person ( Ó n g Lê T h a n h M in h ) ,

với quan hệ đang xét và Organization (công ty p h á t triền nông

không thuộc quan hệ thôn), Location (Hà Nội).

Vị trí của các chỉ số của thực thể trone câu Ông Lê Thanh Minh (El ) giám đổc (E2)

Để xét mối quan hệ giữa 2 thực thể, hệ thống học ngừ cảnh toàn cục (Global) và ngữ cảnh cục bộ (Local) của câu Ngữ cảnh toàn cục của câu là sự tổna hợp của 3 thành phần: Trước - giữa, giữa và giữa - sau Mỗi thành phần sẽ cho ta 1 vector thể hiện đặc trưna của khung cảnh đó Ngữ cảnh cục bộ xét ngữ cảnh bên trái và bên phải của thực the Vector đặc trư ns của mỗi câu là tôn2 của quá trình xét ngữ cảnh toàn cục và ngừ cảnh cục bộ của câu

Trang 24

1.3.3.2 Q u á trình huấn luyện S V M

Ta biết rằng, hàm phân lớp tuyến tính có ranh giới phân lớp là 1 siêu phẳng,

vì vậy nó chỉ phân tách dược 2 lớp Vậy, ta xét hàm tuyến tính phân tách Rn thành

2 nửa khône gian Nửa không gian R+ = được phân vào lớp y = +1, nửa không eian còn lại R = được phân vào lớp y = -1

Với tập mầu học D = i= l N với Xj là vector đặc trưng, yi= +/- 1 tìm eiá trịcủa w và b sao cho:

< w mới Xi> - B mới = < w cũ, Xi> - B cũ + <Xj, Xị>

Sau quá trình huấn luyện hệ thống sẽ tạo ra các model - mô hình dược sửdụng trona quá trình nhận dạne Tương ứne với mỗi kiểu quan hệ được học hệ thống sẽ tạo ra một mô hình để áp dụng cho quá trình nhận dạne

Trang 25

C h u ô n g 2 X ây dựng ứng dụng và th ử nghiệm

2.1 T rích rút thực thể

N hư đã trình bày ở trên, chủng tôi sử dụng phương pháp học máy dựa trên

mô hình CRF dể trích rút thực thể Do tập dừ liệu huấn luyện bằng tiếng Việt cho miền úna dụng của dề tài nhỏ chúng tôi sử dụng phương pháp học bán giám sát

để liên tục cập nhật bộ dừ liệu huấn luyện trong quá trình học Các đặc trưng dược

sử đụna trong thuật toán học bán giám sát là :

- Từ hiện tại hai từ liền trước và hai từ liền sau của từ này

- Định dạng của từ hiện tại, hai từ liền trước và hai từ liên sau của từ này

- Nhãn từ loại (POS) của từ hiện tại và hai từ liền trước và hai từ liền sau của từ này

- Thông tin về n sừ nahĩa của từ hiện tại hai từ liền trước và hai từ liên sau của từ này (họ tên đệm, .)

Hệ thống nhận biết loại thực thể cho tiếng Việt được xây dựng trên nền CÔIIS cụ m ã nguồn mở FlexCRFs, được phát triển bởi các tác giả Phan và Nguyễn (2004) FlexCRFs là một CRF Framework cho các bài toán sán nhãn dừ liệu dừ liệu dạng chuồi như POS taeger Noun Phrase Chunking

2.1.1 Quá trình huấn luyện

Đầu vào của quá trình nàv là các tài liệu dã được gán nhãn thực thê Sau dây là một ví dụ của tài liệu luyện :

Tốt nghiệp <org>Đại học Lausanne</org> (Thụy Sĩ) ngành <res>Quàn trị kinh doanh</res>, lấy bằng Tiến sĩ <res>tin học quản lý</res>, chuyên ngành <res>Hệ thống thông tin</res> và <res>Cơ sở dừ liệu</res> cũng ở Thụy Sĩ, - những kiến thức và kinh n&hiệm tích lũy trong thời gian du học

và làm việc ở nước ngoài ấy đã được PGS-TS <per>Đồng Thị Bích Thủy</per> m ans về nước với niềm ấp ủ ứng dụng một cách phù hợp và hiệu quả các phươna pháp xây dựng <res> Hệ thống thông tin</res> và

<res>Cơ sở dữ liệu</res>

Tập ngữ liệu sau khi đã được gán nhãn sẽ được đưa vào quá trình huấn luyện Bước đầu tiên trons quá trình huấn luyện là lựa chọn thuộc tính Đây là nhiệm vụ quan trọng nhất, giữ vai trò quyết định chất lượng của một hệ thông nhận biết loại thực thể Các thuộc tính được lựa chọn càng tinh tế thì độ chính xác của hệ thống càne tăns Ngoài ra, do việc eán nhãn từ loại (POS) của các hệ thống trong tiếng Việt có độ chính xác không phải là 100% nên cũna có ảnh hưởng đen kết quả của hệ thong

Các thuộc tính tại vị trí i trone chuỗi dừ liệu quan sát gồm hai phần, một là

th ô n g tin I1£Ữ c ả n h tai v ị trí i củ a c h u ỗ i dừ liệ u quan sát, m ộ t là phần th ô n g tin v ề

nhãn thực thể tươne ứng Công việc lựa chọn các thuộc tính thực chất là chọn ra các mẫu vị từ ngữ cảnh (context predicate template), các mẫu này thể hiện những

Trang 26

các thông tin đáng quan tâm tại một vị trí bất kì trone chuồi dữ liệu quan sát Ap

dụ ru các mẫu neĩr cảnh này tại môt vị trí trong chuỗi dữ liệu quan sát cho ta các

th ô re tin ngữ cảnh tại vị trí đó Mồi thông tin ngữ cảnh tại i khi kết hợp với thông tin I hãn tươns ứng tại vị trí đó sẽ cho ta một thuộc tính của chuỗi dừ liệu quan sát tại i

Một số mẫu vị từ ngữ cảnh được sử dụng trong đề tài như sau:

> Mau ngữ cảnh về từ vựng

Báng 4 Các mầu ngữ cảnh về từ vựnu

\v:0,w: 1 Dữ liệu quan sát dược tại vị trí hiện tại và

ngay sau vị trí hiện tại

Ví d u : Áp dụng mẫu ngữ cảnh trên tại vị trí 1 trong chuỗi "3000 USD" ta đưẹc ngữ cảnh \v:0:USD Giả sử trong dừ liệu huấn luyện, từ USD trong chuồi dữ liệt trên được gán nhãn In Currency, kết hợp với ngữ cảnh ta có the rút ra dược mộ: thuộc tính của chuỗi dừ liệu quan sát là

gk= 1 nếu từ hiện tại là ‘U SD ' và nhãn là In Cuưency

0 nếu ngược lại

> Mầu ngũ' cảnh thể hiện đặc điếm của từ

Bảng 5 Các mẫu ngữ cảnh thê hiện dặc diêm của từ

initial_cap Từ viết hoa chừ cái dầu tiên (có khả năng là

thực thể)

a l l c a p Từ gồm tòan các chữ cái viết hoa (có khả năne

là ORG, ví dụ: EƯ, WTO )contain_percent sign Từ chứa kí tự % (có kha năng là thực thể PCT)

f ir s to b s r v Từ đầu tiên của câu (thông tin về viết hoa

không có ý nghĩa)

uncaped word Từ viết thường (có khả năna không phải là thực

thể)

v a l i d n u m b e r Từ hiện tại là một số họp lệ, ví dụ: 123; 12.4mark Dấu câu như các dấu chấm, phẩy hai chấm

Trang 27

4 digit number Nhiều khả năng là năm, ví dụ: năm 2005

POS Dặc trưng thể từ loại: danh từ riêng có khả năng

là Per, L o c

> Mâu ngữ cánh dạng biêu thức chínlt quy

Bảng 6 Các mẫu ngữ cảnh dạng biểu thức chính quy

Bảng 7 Các mẫu ngữ cảnh dạng từ điển

last name Hoa, Lan, T h ă n g

Verb Sẽ, đã, phát biểu, noi

Time marker Sáng, trưa, chiều, tốiLoc noun Thị trấn, tính, h u y ệ n , thủ đô, đảo,

O r g n o u n Công ty, tổ chức, t ổ n g côns ty

Per noun ô n e , b à a n h c h ị ,

Trang 28

Sau khi đã xác định 2Ìá trị cho các thuộc tính, hệ thống sử dụne chương trình FlexCRFs đế huấn luyện mô hình Kốt quá của quá trình huấn luyện này là

mô hình của hệ thong dược lưu trong file m odel.txt chứa các tham sô ứng với từng

đặc trưng đã học được từ các file dừ liệu

2.1.2 Quá trình nhận dạng

Mô hình sau khi dã huấn luyện sẽ được sử dụng để nhận dạng Đầu vào của quá trình nhận dạng là file văn bản chưa được gán nhãn thực thể Hệ thống sẽ tiến hành xác định giá trị cho các thuộc tính đê xuất Sau đó hệ thông tiên hành nhận dạng thực thể dựa trên mô hình CRFs đã học

Các' tham sô huân luvên và đánh giá

Một số tùy chọn trong FlexCRF cho quá trình huấn luyện được đưa ra trong Bảng 8

Bảng 8 Các tham số trong, quá trinh huấn luyện

init lamda val 1.0 Giá trị khởi tạo cho các tham số trong mô hình

num iterations 55 Số bước lặp huấn luyện

f rare threshold 1 Chỉ có các thuộc tính có tần sổ xuất hiện lớn hơn giá

trị này thì mới dược tích hợp vào mô hình CRF

cp r a re th re s h o lđ 1

Chỉ có các mẫu vị từ ngữ cảnh có tần số xuất hiện lớn hon giá trị này mới được tích hợp vào mô hình CRF

e p s l o g l i k e l i h o o d 0.01

FlexCRF sử dụng phương pháp L-BFGs đế ước lượng tham số mô hình Giá trị này cho ta điều kiện dừng của vòng lặp huấn luyện, nếu như |log-

likelihood(t)-log-likelihood(t-l)|<0.01 thì dừng quá trình huấn luyện Ở đây t và t-1 là bước lặp thứ t và t-1

2.1.3 Đánh giá hệ thông trích rút thực thê

Để đánh giá hệ thống, đề tài sử dụng 50 văn bản đã được gán nhãn làm tập

dừ liệu huấn luyện ban đầu và 800 văn bản chưa gán nhãn để khai thác thêm dừ liệu huấn luyện Mồi văn bản có khoảng 750 âm tiết và được thu thập thủ công từ các trang web tiếng Việt thuộc nhiều lĩnh vực khác nhau như thể thao, khoa học, giáo dục, kinh t ế

Kịch bản thử nghiệm như sau: 800 văn bản chưa gán nhãn sẽ dược chia làm

8 phần, mỗi phần có 100 văn bản 50 văn bản đã được gán nhãn sẽ được sử dụng

dể học ra một mô hình ban đầu sử dụne phương pháp CRFs đã được mô tả ở trên

Trang 29

Sau dó hệ thống tiến hành 8 lần lặp Ở mỗi lần lặp 1 trong số 8 phần văn bản chưa sán nhãn trên kết hợp với mô hình đã học được ở bước lặp trước được sử dụng đế khai thác thêm dữ liệu huấn luyện Khi dã có dừ liệu huấn luyện mới, hệ thốne, lại học ra một mô hình mới tương ứng và tiếp tục lần lặp tiếp theo với mô hình mới này và một phần khác trong sổ 8 phần văn bản chưa dược gán nhãn ở trên.

Các hệ thống nhận biết loại thực thể được đánh giá chất lượn 11 thône qua

ba độ đo: độ chính xác (precision), độ bao phủ (recall) và độ đo F (F-messure)

Như đã trình bầy ở trên, hệ thống sẽ trải qua 8 lần lặp để Iiâns cao dần độ hiệu năna trích rút Ở mỗi lần lặp này, mô hình đầu ra sẽ được hệ thống đánh giá

sư tlụne ba độ đo trên Bảng dưới đây liệt kê kết quả thực nghiệm của hệ thống trải qua 8 lần lặp (dòng 0 của bảng là giá trị của các độ do đối với mô hình ban đâu được huấn luyện bans 50 văn bản đã gán nhãn):

Báng 9 - Ket qua thục nghiệm của hệ thống học bán giám sát

hệ thống học máy có giám sát sử dụng CRFs được thực hiện bởi (Neuyen và Cao, 2008) (tập dừ liệu sử dụng trong (Nauyen và Cao, 2008) là 50 bài báo thuộc lĩnh

Trang 30

vực kinh doanh - khoảng 1 173 câu) vì đây là hệ thốrm gần gũi nhất với hệ thống

đề xuất trong đề tài này Mặc dù hai cách tiếp cận là khác nhau và tập dừ liệu thử nahiệm cũne là khác nhau, nhưng các kết quả so sánh cũng cho ta một cái nhìn tốnii quát hơn về hiệu năng của hệ thống đề xuất bởi đề tài so với các cách tiếp cận tương tự khác

Bảng 10 - Ket quả trích rút đối của phương pháp học có giám sát sử dụng

Chương trình mất trung bình 1 phút để gán nhãn thực thè từ đâu vào đã được gán nhãn thực thể như đã trình hày ở trên

Đe so sánh CRF với các phương pháp học máy khác, chúne tôi đã cài đặt thêm phương pháp kNN dê trích rút thực thê và sử dụng cùng bộ dừ liệu với phương pháp CRF bán giám sát của chúna tôi Ket quả cho trone bảng 6 dưới đây

2.2 T rích rút quan hệ giữa các thực thê

Hệ thống trích rút quan hệ eiữa các thực thê nhận đầu vào là tập các tài liệu tiếng Việt đã được gán nhãn thực thể gồm các trường chỉ người (person), cơ quan (organization), địa điêm (location), lĩnh vực nghiên cứu (research) Các quan hệ

Trang 31

cần trích rút là aiừa người và cơ quan (Per Org), người và địa điếm (Per Org), người và lĩnh vưc nghiên cứu (Per Res) Trong phạm vi nghiên cứu này chi các quan hệ trong một câu được xem xét.

I lệ thống của chúng tôi giải quyết vấn đề trích rút quan hệ dựa trên ý tưởng của Giuliano và các cộng sự (2007) Culotta và các cộng sự (2006) và Banko và Etzioni (2008) Tức là clìúna tôi coi vấn đề trích rút mối quan hệ là vấn đề xác định nhãn cho câu cần trích rút mối quan hệ bằng phươns pháp SVM

Tuy nhiên, chúna tôi có bô sung thêm các đặc trưna trone quá trình học và dự đoán quan hệ trong câu Đó là các đặc trưng về:

> Gán nhãn dừ liệu huấn luyện

> I ỉuấn luyện mô hình

> Nhận dạng mối quan hệ

2.2.1 Gán nhãn dũ’ liệu huấn luyện

Với mồi câu troníì văn bản tìm các cặp thực thể phù hợp tương ứng với loại quan hệ dang được xét Ví dụ: Với quan hệ Live in (Per - Loc) - thể hiện mối quan hệ về nơi ở hiện nay, hệ thống xét mối quan hệ giữa những thực thể có nhãn Per và nhãn Loc và bỏ qua các thực thể có nhãn khác Dạng câu dược gán quan hệ:

Label Id Bodv

Trong đó,

- Label = tương ứng với câu có quan hệ hay không có quan hệ

Id: số thứ tự của câu trong văn bản đã gán nhãn thực thể và số thứ tự củacâu trong văn bản để huấn luyện

- Body:

tokenid&&token&&lemma&&POS&&entity_type&&entity label

o Tokenid: thứ tự của từ trong câu

o Token: từ khóa Các khoảng trắng sẽ được thay thế bằng ký tự

Ví dụ: Nguyễn_Văn_Nam B ách_K hoa_H à_N ội

o Lemma: từ sau khi được chuyển về dạng chừ thườna

o POS: thể từ loại của từ

o Entity type: nhãn của thực thể, tương ứne với 7 loại nhãn đã được kể trên

í A

o Entity label:

T

Trang 32

■ A: đánh dấu vị trí xuất hiện của thực thê thứ nhât.

■ T: đánh dấu vị trí xuất hiện của thực thế thứ hai

'r Trường hợp cơ bán: (trong câu có 2 thực thê )

<per> [Trần Bạch Đằnơ] </per> [là] [lác già] [của] [quyên] [tiêu thuyết] [viết] [về] [m ột] [nhân vật] [tình báo] [bí ân] [trong] [lịch sir] [Chiên tranh] <loc> [Việt Nam ] </loc>.

- 0 2-1

0& & Trần Bạch_Đ ằng& & Trần Bạch _ Dãn g& & N p & & PER & & A

1 & & là&& là & & v& & 0&& o 2&&íác_gia&& tảc_già&&N& & 0& & o

3&&Cùa&&CÙŨ&&E&&0&&o 4& & quyển& & quyển& & N & & 0& & 0 5& & tiếu thuyết & & tiểu_tìmyết& & N& & 0 & & o

6& & viết& &viết& & v & & 0 & &o 7& & về& & về& & E& & 0 & & o

8& & một&&một&& AM á 0& & o

9& & nhân_vật& & nhân vật (&&N& & 0 & & o

10& & tình_bảo& & tìnìĩ_báo& & N& & 0 & á o

llổc& b í_ân& & b í_ẩn& & A & & 0 & & o

ì 2 && trong& & trongổc&E&&Ũ& & o

13&&lịch sử& &lịch sừ& & N & & 0 & & o

14& & Ch iến Jranh& & C hiến_tranh& & N& & 0 & & o

15& & ViệtJNam&& Việt_N am & & Np& & LO C& & T

16&&.& & & & & & O & & O

> T rư ờ ng hợp khác: (trong câu có nhiều hơn 2 thực thể)

<date> [Năm ] [1946] </date> , <per> [Trần Bạch Đằng] </per> [đã] [được] [giao] [phụ trách] <org> [tờ] [Chống Xám Lăng] </org> [cùa] <org> [Thành ủy] [Sài Gòn] </org>

o Ví dụ trên tồn tại 2 mối quan hệ là quan hệ Birth (Per - Date) chỉ

mối quan hệ về ngày tháng năm sinh và quan hệ Work for (Per - Ore) chỉ mối quan hệ về nơi công tác

- Quan hệ Birth được chuyển đổi tương tự với ví dụ của trường hợp gán nhãn quan hệ cơ bản với cặp thực thể tươns ứng trong câu là Trần Bạch Dane và năm 1946

0&&Năm 1946&&Năm_'i 946& & N p& & DA TE& & T

1 & & & & & & & & 0 & & 0

2&&Trần_Bạch_Đằna&&Trần Bạch Đ ằne& & N p& & PER & & A

3 & & đ ã & & đ ã & & R & & 0 & & 0

4 & & đ ư ợ c & & đ ư ợ c & & v & & 0 & & 0

5 & & g iao & & g ia o & & V & & 0 & & 06& &phụ_trách&&phụ t r á c h & & v & & 0 & & 07&&tờ_Chốna Xâm_Lăng&&tờ_Chốne Xâm_Lăno&&Np&&

Trang 33

0 R G & & 0 8& & cù a& & cù a& & E & & 0 & & 09&&Thành ủy_Sài_Gòn&&Thành ủy_Sài_Gòn&&Np&&ORG

& & ( ) 10& & & & & & & &0&&0

- Quan hệ Work for được học 2 lần tương ứng với 2 cặp thực thể trong câu Cặp thực thể thứ 1: Trần Bạch Đằng và tờ Chống Xâm lăng và cặp thực thể thứ 2: Trần Bạch Đằng và Thành ủy Sài Gòn

I 3-10&&Năm_ 1946& & N ăm _ 1946& & N p& & D A T E & & 0

1& & & & & & & &0&&0

2&&Trần Bạch_Đằng&&Trần Bạch Dằne&&Np&&PHR&&A

3 & & đ ã & & đ ã & & R & & 0 & & 0

4 & & đ ư ợ c & & đ ư ợ c & & v & & 0 & & 0 5& & g iao & & g ia o & & V & & 0 & & 0 6&&phụ_trách&&phụ tr á c h & & v & & 0 & & 0 7&&tờ_Chống_Xâm_Lăng&&tờ_Chống_Xâm Lăna& &N p&&

O R G & & T 8 & & cù a& & củ a & & E & & 0 & & 09&&Thành ủy_Sài Gòn& & Thành ủy_Sài_Gòn&&Np&&ORG

&&0 10& & & & & & & &0& & 0

0&&Năm_ 1946& & Năm _ 1946& & N p& & D A T E & & 0

1 &&.&&.&&.&&O&&O2&& Trần_Bạch_Đằne& & Trần Bạch Đ ằng& & N p& & PFR& & A

3 & & đ ã & & đ ã & & R & & 0 & & 0

4 & & đ ư ợ c & & đ ư ợ c & & v & & 0 & & 0

5 & & g iao & & g ia o & & V & & 0 & & 0 6&&phụ trách&&phụ t r á c h & & v & & 0 & & 0 7& & tờ_Chổng_Xâm _Lăng& & tờ_Chống_Xâm _Lăng& & Np& &

O R G & & T 8& & củ a& & củ a & & E & & 0 & & 09& & Thành_ủy_Sài_Gòn& & Thành_ủy_Sài_Gòn& & Np& &O RG

& & 0 10& & & & & & & &0 & & 0

2.2.2 Quá trình huấn luyện

Tập ngữ liệu sau khi đã dược gán nhãn sẽ được đưa vào quá trình huấnluyện

Văn bản đầu vào đã eán nhãn các mối quan hệ như đã trình bày ở trên, thông qua tiền xử lý phân tách câu và từ thì ta sẽ thực hiện phân tích đặc trưng

Phân tích đặc trưng cho tập dữ liệu huấn luyện là nhiệm vụ quan trọng nhất, aiừ vai trò quyết định chất lượng của một hệ thống Các thuộc tính dược lựa chọn càng tinh tế thì độ chính xác của hệ thống càng tăng Các đặc trưng sử dụng

Trang 34

trong hộ thống này dược aiới thiệu trong Bảna 3 Đe xét mối quan hệ giữa 2 thực thế hộ thốne học ngữ cảnh toàn cục (Global) và ngừ cảnh cục bộ (Local) của câu.

"• Ngừ cảnh toàn cục (Global):

N aừ cảnh toàn cục của câu là sự to ns hợp của 3 thành phần: Trước -

giữa, aiừa và giữa - sau Mồi thành phần sẽ cho ta 1 vector 0 thể hiện đặc

trưng của khung cảnh đỏ

9g(R) = (0jg(R): 9g(R),9Ọs<R))

Thành phần của mỗi vector gồm có:

- Tần suất xuất hiện của từ

- Thể từ loại của từ

ỉ oại thực thể, gồm 7 nhãn thực thể đã được thể hiện trong bảng ở trên

Từ điển từ Tương ứng với mỗi loại quan hệ sẽ có 1 từ điển chứa các

đ ộ n s từ thườna xuất hiện để thể hiện về mối quan hệ đó Ví dụ: từ điển dành cho mối quan hệ Work for gồm các từ: làm việc, làm việc ở công tác tại

Trong quá trình xét ngừ cảnh toàn cục, hệ thông sử dụno n-gram = 3 đê xét các tổ hợp từ có thể có trong ngừ cảnh Ví dụ: "tôi đi học” sẽ có các n-gram = {tôi, tôi đi tôi đi học}

Ví dụ xét ngữ cảnh toàn cục:

Xét mối quan hệ work for trone câu:

<date> [Năm ] [1946] </date> , <per> [Trần Bạch Đằng] </per> [đã] [được] [giao] [phụ trách] <org> [tờ] [C hong Xâm Lăng] </org> [của]

<org> [Thành ủy] [Sài G òn] </org>

Cặp thực thể dược xét: Per: Trần Bạch Đằnu và Org: từ Chống Xâm Lăng

•S 0 ig(R) được tạo như sau:

o Từng từ dược xét sẽ được lưu gia trị là bản thân từ đó vào

1 mảng, đồng thời 1 số 1 dược đưa vào ớig (R)-

o Thể từ loại của từ được xét sẽ được lưu vào 1 mảne và đưa thêm 1 aiá trị 1 vào ỡtg(R 1 Với trường hợp từ ghép thì thể lừ loại thì thể từ loại được lưu sẽ là Pos 1 - Pos 2

o Thể từ loại của các từ đans xét dược lưu vào trong 1 mảne, thêm 1 eiá trị 1 vào ớ rG(R) Với trườna hợp từ ohép thì thể từ loại thì thể từ loại được lưu sẽ là Entity 1 — Entity 2

Trang 35

o Các entity iron s câu đang xét sẽ được học các đặc trưngJ <z> o • • • c ?

về chính tả như: chữ hoa chừ thườne, chừ la tinh, chừ số

o Các từ sẽ được so sánh với 1 từ điển Từ điển này chứa các từ được đánh giá là hay xuất hiện trong câu thế hiện

vê mối quan hệ đang được xét

s ớ |Ci(R )= {1.1.1 ỉ thể hiện các tiêu chí vừa được kể ở trên.

Giữa:

[đã] [được] [giao] [phụ trách]

s Các từ được xét: đã đã - được, dã - được - giao, được, được -

giao, được - eiao - phụ trách, eiao siao - phụ trách, phụ trách

s Xây dựng tương tự với vector ớ|-(j(R) ở trên hệ thống sẽ tạo ra 1

vector 0(,(R) = {1 1 1 }

Giữa - sau:

[đã] [được] [giao] [phụ trách] <org> [tờ] [Chống X âm Lăng] </org>

[của] <org> [Thành ủy] [Sài Gòn] </org>

s Các từ được xét: dã đã - dược - giao, được, dược - giao, được -

giao - phụ trách, ^iao eiao - phụ trách

•S Xây dựna tương tự với vector 0 | G(R) và ớ(j(R) ở trên hệ thống sẽ

tạo ra 1 vector ỚGS(R) - {1, 1 1 }

- ớg(R) = (ớ ig(R), 0g(R), Ogs(R) )

Ghcp 3 vector ở trên sẽ tạo ra vector Ớ(J (R) Vector đặc trưng sẽ là sự

chuẩn hóa của vector 0G (R) Gọi số thành phần của vector 0(i (R) là N

vector đặc trưng của ngữ cảnh toàn cục:

ớ,o ( R ) = { l / V w , 1/VÃL.}

'> Ngữ cảnh cục bộ (Local):

N gữ cảnh cục bộ xét ngữ cảnh bên trái và bên phải của thực thể Mồi

câu được xét gồm có 2 thực thể đã được đánh dấu vị trí bởi A và T Mỗi

neữ cảnh xung quanh 1 thực thể tạo ra 1 vector 0 Vector đặc trưng của ngừ

cảnh cục bộ chính là tổng hợp của 2 vector đặc trưng của thực thể thứ nhất

và thực thể thứ hai

eL (R) = (Gĩ{R),eR(R))

Ngữ cảnh cục bộ của thực thể xét các đặc trưng sau:

- Đặc trưng về bản thân từ dược xét

Lemma: từ khóa ở dạne chữ thường

- Pos: thê từ loại

- Orthographic: các đặc trưng về chính tả như: chữ hoa, chữ thường, số,

ký tự la m ã

Trong quá trình xét neừ cảnh cục bộ tôn tại 1 cửa sô n-n tương ứng

với số từ được xét xune quanh của thực thể Ví dụ: cửa sổ 2-2 sẽ tưcme ứng

với việc xét 2 từ nằm bên phải và 2 từ nằm bên trái của thực thể

Ví dụ:

Trang 36

Xét mối quan hệ work for trong càu:

<date> [N ăm ] [1946] </date> , <per> [Trần Bạch Đẳng] </per> [đỡ] [được] [giao] [phụ trách] <org> [tờ] [Chổng Xâm Lăng] </org> [của]

<org> [Thành ủy] [Sài Gòn] </org>

Cặp thực thể được xét: Per: Trần Bạch Đằng và Org: tờ Chống Xâm Lăng Cửa sổ xét là 2-2

Với thực the Per: Trần Bạch Đằng

Từ nằm bên trái: [Năm ] [1946]

Từ nằm bên phải: [đã] [được]

Với thực thể Org: tờ Chống Xâm Lăng

Từ năm bên trái: [giao] [phụ trách]

Từ nằm bên phải: [của] [Tlĩành ủy]

Lần lượt từng từ sẽ được xét các đặc trưng về chính tả như: chữ viêt hoa chừ viết thường, chữ số T ư ơ n g ứng với 1 đặc trưng 1 số 1 sẽ được dưa thêm vào

trong vector 0\ (R) hoặc ớp (R) (tùy thuộc trường hợp đang xét đến nằm ở bên trái

hay bên phải của thực thể)

0, (R) = {1, 1 ,1 } và ớp (R) = {1 1 1 }

Sổ lượne phần tử trona vector tương ứng với số đặc trưng của các từ đượcxét

Vector 0\ (R) sẽ được xây dựng theo công thức: ớ] (R) = (Ớ|(R) ỡr(R)).

Vector dặc trưng ngữ cảnh cục bộ ớ'[ (R) là sự chuẩn hóa của vector ớ| (R) Gọi M là số phần tử của vector ớ| (R)

0 \ (R) = {1/VÃÍ, 1 a/m }

> Vector đặc trưng:

Vector đặc trưne của mỗi câu là tổng của quá trình xét ngừ cảnh toàn cục

và neừ cảnh cục bộ của câu

0(R) = (OtgỊR), 0g(R\ Gg^R), GtỊR), 6r(R) )

= { Ỉ N N , 1/VN l/VAT 1N M , 1/VM 1/VM}

Sau khi tiến hành phân tích đặc trưng, hệ thống tiến hành quá trình huấn luyện thông qua modul phân loại SVM để sinh ra các modul phân loại ứng với các mối quan hệ cần xác định

2.2.3 Quá trình nhận dạng

Văn bản đầu vào là văn bản đã được gán nhãn thực thể

Đầu tiên văn bản được chuyển đổi sane dạng ìabel/id/body sau đó văn bản

sẽ được phân tích đặc trưng như đã mô tả ở phàn trên, và cuối cùng văn bản sẽ nhận dạng mối quan hệ dựa trên mô hình SVM đã huấn luyện được ở phần trên Lưu ý ràng, dạna cửa sổ ngữ cảnh n-n cũng được xét tươne ứ n s như trong quá trình huấn luyện

Trang 37

2.2.4 Đánh giá hệ thông trích rút quan hệ giũa các thực thê

Dừ liệu thử nghiệm hệ thông là các câu có chứa cặp thực thê mà có thẻ có

mối quan hệ với nhau Tất cả có 500 câu tiếng Việt, số mối quan hệ Live in= 100

Position=100 Work_for=100 Tập ngừ liệu này được lấy từ trang web

Vncxpress.net dantri.com Chúng được gán nhãn cụ thể về từng loại thực thê

từnti môi quan hệ

I lệ thống thử nghiệm theo phương pháp "5-fold cross validation" Theo phươiis pháp này, dừ liệu thực nghiệm được chia thành 5 phân băna nhau (Tức

mỗi phần 20 câu cho từne loại quan hệ), lần Iir.ợt lấy 4 phần để huân luyện và 1

phần còn lại để kiểm tra, kết quả sau 5 lần thực nghiệm được ehi lại và đánh giá

tổnsi thể

Mồi quan hệ dược thực hiện thử nghiệm với các cửa số ngữ cảnh khác nhau

bao gồm: 2 bèn trái 2 bên phải từ đang xét (2-2) 4 từ bên trái 4 từ bên phải từ

dane xét(4-4), 6 từ bên trái 6 từ bên phải(6-6) 8 từ bên trái 8 từ bên phải(8-8)

Chương trình mất trung bình 8 giây để gán nhãn mối quan hệ giữa các thực thê từ

đầu vào đã được gán nhãn thực thể, chạy trên máy có cấu hinh CPU Intel Core 2

duo 2.2GHz, Ram 2G Ket quả cụ thể như sau :

Trang 38

C ử a sô ( 11 trái,n phải) p R F

Mối quan hệ Position khi cửa số càng lớn thì độ đo F càng thâp

Mối quan hệ Work for cửa số 2-2 có độ đo F lớn nhất ( nêu bỏ cửa số 1-1 có thể thấy rằne cửa số càng tăng thì độ do p càng giảm, và độ đo F cũng giảm trừ dộ đo F của cửa sô 6-6)

Mối quan hệ Live in cửa sổ 2-2 lớn nhất

Ta thấy trong tiếne Việt, cửa số càna lớn không có nghĩa độ chính xác càng cao I1Ó phụ thuộc vào kiểu của mối quan hệ, và hình dạng của câu (Tiêne Anh trước dây SVMs người ta hay dùng cửa số 1-1)

Chúng ta so sánh hệ thống với hệ thốne của Giuliano và các cộng sự (2007) thực hiện trẽn các mối quan hệ live in work for ki 11: _ _

đê quá trình xét ngữ cảnh toàn cục và m ở rộ n s cửa sô của quá trình xét ngừ cảnh cục hộ đã thể hiện được tính tối U I I của nó đối với sự trích rút quan hệ của tiếne Việt Tuy hệ thốn? vẫn còn 1 số niiược điểm nhưng với độ chính xác đã đạt được, chúna tôi có thể tin rằng đây là một hướne phát triển tốt cho việc trích rút môi quan hệ trona văn bản tiếna Việt

Trang 39

Kết quả nehiên cứu khoa học của đề tài được thể hiện thông qua 5 chuycn đê + I CSDI về các thôns tin cần trích rút + 1 bộ phần mềm + 1 tài liệu kỹ thuật vê chươna trình.

Bộ phần mềm được xây dựng phù hợp với các dừ liệu dạne văn bản lấy từ các trang \veb tiếng Việt như trang web cá nhân và các trang web tin tức tiêng Việt

nhu vnexpress.net dantri.com Wikipedia.

1 C huyên đề 1: Báo cáo tổng quan - “ Nghiên cứu, tong họp các kỹ thuật trích rút thông tin trên the giói”

Tiến hành nehiên cứu tống quan các phương pháp, kỹ thuật dã được nghiên cứu,

áp dụng trong nước và trên thế giới để xây dựng các hệ thống trích rút thông tin tự động

Kết q u ả đã đ ạ t đirọc:

Chuyên đề về nội dung nghiên cứu trên

- Tập hợp các kiến thức nền tảng và các hướng nghiên cứu về trích rút thông tin lự động từ các sách tham khảo, các hài báo khoa học mới nhất vê trích rút thông tin

■ Các phương pháp đánh giá độ chính xác của hệ thong trích rút thông tin

■ Phân tích, đánh giá các phương pháp giải quyết bài toán (học

có giám sát và học bán giám sát) nhằm tìm giải pháp giải quyết bài toán trích rút thông tin trons văn bản tiếng ViệtChuyên đề giúp cho những người mới nghiên cứu về trích rút thông tin tự động nắm được những kiến thức cơ bản và cái nhìn toàn cảnh về thực trạns 2Ìải quyết bài toán này trong nước và trên thế giới, dồng thời có sự lựa chọn tốt hơn các kỹ thuật áp dụne cho bài toán tóm tắt văn bản liếng Việt

2 Chuyên đề 2: “ Nghiên cứu và đề xuất cách tiếp cận trích rút thực thể trong văn bản tiếng Việt”

Tiến hành nghiên cứu cách tiếp cận trích rút thực thể phù họp cho tiếng Việt Nghiên cứu các đặc điểm của tiếng Việt có liên quan đến bài toán trích rút Trên

cơ sở đỏ đề xuất cách giải quyêt cho bài toán trích rút thực thể cho văn bản tiếng Việt

III S Ả N P H Ả M

Trang 40

Kct quá đã đạt đuọc:

- Chuyên đề về các nội dung nghiên cứu đê cập trên,

rập chuyên đề giới thiệu về:

o Phươne pháp học máy Conditional Random Fields (CRFs) sử dụng trong bài toán trích rút thực thể

o Các đặc điểm tiếng Việt có ảnh hưởng đến việc trích rút thực thể, nham tạo ra các heuristics cho phép phát hiện các thực thể mới và giải quyết nhập nhằne thực thể

o Đe xuất các đặc trưne được sử dụna trong bài toán trích rút

o Đe xuất thuật toán học máy sử dụng trong trích rút thực thế

hệ giữa các thực thể cho văn bản tiếng Việt

Kết q u ả đã đ ạ t được:

Chuyên đề về các nội dung nghiên cứu đề cập trên

Tập chuyên đề giới thiệu về:

o PhươnR pháp học máy Support Vector Machine (SVM) sử dụng trong bài toán trích rút mối quan hệ giữa các thực thể

o Các đặc điểm tiếng Việt có ảnh hưởng đến việc trích rút mối quan hệ giữa các thực thể, nhằm tạo ra các heuristics cho phép phát hiện các mối quan hệ giữa các thực thể chưa được phát hiện

o Đe xuất các đặc trưne được sử dụng trong bài toán trích rút

o Đe xuất thuật toán học máy sử dụng trong trích rút mối quan hệ giữa các thực thể

Ngày đăng: 20/06/2019, 23:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w