Trích rút thực thể từ các văn bản tiếng việt trên internet (tt)

tiến hành nghiên cứu vả xây dựng hệ thống tự động trích rút thực thẻ tên từ các văn bản tiếng Việt trên Internet.. Phát biểu bài toán trích rút thực thể tên Theo Baumgarter, hệ thông tr

Trang 1

1 HQC VIEN CONG NGHE BUU CHINH VIEN THONG

PT

HOÀNG THỊ VÂN ANH

TRÍCH RÚT THỰC THẺ TÊN TỪ CÁC VĂN BẢN

TIENG VIET TREN INTERNET

LUẬN VĂN THẠC SĨ KỸ THUẬT

HÀ NỘI - 2012

Trang 2

1 ân văn được hoàn thành tại

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIEN THONG

Người hướng dẫn khoa học: 'TS Nguyễn Phương Thấi

châm luận vẫn thae s

tại nghệ Him chú

Văn lúc: - gÌh gây (hẳng

Viễn thông,

C6 thé tim hiền luận văn tại

~ Thư viện của Hục viện Công nghệ Bưu chính Viễn (hông,

Trang 3

26

với đặc thủ riêng của bài toán trích rút thực thẻ tên tiếng,

Việt Hệ thông đã hoạt động và trích rút các thực thể tên từ

các văn bản Hỗng Việt

Quả trình xây dựng hệ thông còn gặp một số khó

khăn như Thuật toán DIPRE chỉ thưởng áp dụng cho các

bài toán trích rút cặp quan hệ Vì vậy, khi trích rút thực thể

đơn sẽ gặp kho chon lọc được Pattern mẫu trong quả trinh

xây dựng Patlem và sinh PaHem mới Mặt khác, thục thể

tên có nhiều cách biểu diễn khác nhau nên rất khó để tùm

ra mỗi liên hệ khi xây dựng mẫu hoặc có thể xây ra nhập

nhằng

Trong tương lai, tôi sẽ tiếp tục nghiên cứu về trích

rút thông tin và phát triển hệ thông, bổ sung chức nắng tìm

kiêm, nhậu diện thực thể tên ở những trường hợp đặc biệt

và nâng cao chất lượng trích rút Tôi đự định sé tim hiển

sâu hơn về kỹ thuật xây dựng Pattem để có những Pattem

hợp lý hơn Ngoài ra, tôi sẽ tiến hành phân tích thêm về

xâu ký tự đứng trước Pattern để hạn chế nhập nhằng và

trích rút dược thực thể tên ở một số dang dặc biệt

MỞ ĐẦU

Thông tỉu tiên các trang web thường thể hiện dưới dạng ngôn ngữ tự nhiên và dược dink dang theo HTML

Tian chế của HTML là thiểu khả năng diễn đạt ngữ nghĩa

về các đổi lượng xuất hiện trong trang web nêu phần lớn

nội dung thông tin trên các trang web chí phủ hợp cho

người đọc hiểu Hầu hết các công cụ tim kiểm tài liệu trên web được coi là lim kiếm hiệu quả cũng chủ yến Lm kiếm

được trên bê nỗi của web

Đề khai thức hiệu quả nguồn thông tin trên các trang web, chúng ta cẩn nghiên cứu các ứng, dụng tự động,

xử lý văn bản Trước hết, chứng ta cần xây đựng hệ thống

tự dông trích rút các thực thể, các khái niệm xuất hiện dựa vảo một nguồn trí thức về các thực thể và các khải niệm

phố biển trong thê giới thục Từ đó, chúng †a có thể xây

dụng các hệ thông khai thác dữ liệu đẻ khai phả các lớp ti thức nhằm hiểu đây đủ ngũ nghĩa của văn bản Tiếng Việt

có nhiêu cách viết, cách thể hiện nội đụng nêu quá trinh trích rút thông thì tử các văn bản tiếng, Việt gặp nhiễu khó khăn hơn trong các văn bản tiếng Anh Trong luận văn, tôi

Trang 4

tiến hành nghiên cứu vả xây dựng hệ thống tự động trích

rút thực thẻ tên từ các văn bản tiếng Việt trên Internet

1.1 Bài toán trích rút thực thể tên

1.1.1 Phát biểu bài toán trích rút thực thể tên

Theo Baumgarter, hệ thông trích rút thông tin là

một hệ thống phần mềm tự động và liên tục trích rút dữ

liệu các trang web có nội dung thay doi va phân phối dữ

liệu trích rút vào cơ sở dữ liêu hoặc các ứng dụng khác

Hình 1.1 Mô hình hệ thống trích rút thông tin trền web

Hệ thống trích rút thông tin thường đưa ra kết quả

lả các mẫu (template) chửa một số lượng xác định các

trường (slots) đã được điền thông tin Bài toán trích rút

KẾT LUẬN

Luận văn đã hệ thông hóa một số lý thuyết vẻ trích

chọn thông tin, trình bảy, phân tích, đánh giá các phương

pháp đó Sau đây là một số nét chính mà luận văn đã tập trung giải quyết

Chương I trình bảy và nêu ỷ nghĩa của bai toan

trích rút thực thẻ tên Trong chương I, phân đặc điểm tiếng

Việt được đề có thể làm căn cứ cho quá trình tìm kiểm vả

trích rút thực thẻ tên Ngoài ra, chương I còn trình bảy một

số hướng tiếp cận đề giải quyết bải toản trên lả: Giải thuật

DIPRE, phương pháp Snowball, phương pháp KnowItAll

Sau đỏ, luận văn phần tích ưu nhược điểm của từng phương pháp đề đẻ xuất một phương pháp có hiệu quả hơn trong trích rút thực thẻ tên Ở đây, luận văn sử dụng giải

thuật DIPRE kết hop Snowball dé xay dựng hệ thống trích rút thực thể tên

Chương II đưa ra mô hình khái quát, mô hình chỉ

tiết, ý tưởng và cách giải quyết bài toán trích rút thực thể

tên từ các văn bản tiếng Việt

Chương TII xây dựng hệ thông thử nghiệm dựa theo

ý tưởng của thuật toán DIPRE vả có cải tiên de phủ hợp

Trang 5

24

Bảng 3.4 Bảng kết quả thực nghiệm

File | correct] incorrect [Missing Spurious) Pre | Ree | F

name

1019.seg | 5 0 1 1 [83,33 |83,33 83,33,

[53.seg 20 1 0 0 |9524|95.2495,24

P3254seg| 6 1 1 0 _ [85,71 [75,0080,00

Trung bình | 81.90 |77,80179,71

100,00 50,00 0,00

Hình 3.5 Giá trị ba d6 do Precision, Recall,

a:

‘-measure

Ket qua cho thay, hé thong trich nit thue thé tén hoat déng

rất tốt ở những văn bản viết đúng, đầy đủ các tiên tổ va

quy tắc trình bảy của thực thẻ tên

5

thực thể tên trong các văn bản tiếng Việt con gap nhieu

khó khăn hơn so với bải toán trong các văn bản tiếng Anh

vì một số nguyên nhân như: Thiếu dữ liệu huân luyén va các ngôn tải nguyên có thể tra cửu như WordNet trong

tiếng Anh, tôn tại rất nhiều vấn để nhập nhằng lam cho

việc trích rút gặp nhiều khó khăn

1.1.2 Ý nghĩa của bài toán trích rút thực thể tên

~ Hỗ trợ xây dựng Sementic Web

- Xây dựng các máy tìm kiểm hướng thực thể

~ Hồ trợ hệ thông tự đông tóm tắt văn bản

1.2 Đặc điểm tiếng Việt

Phân lớn vốn từ vựng của tiếng Việt lả các từ đa âm tiết Củng một sự vật, hiện tượng, một hoạt động hay một đặc trưng có thê được biểu thị bởi nhiều từ ngữ khác nhau gây khó khăn khi xây dựng hệ thông trích rút thực thẻ tên

Thực tế đã có rất nhiều nghiên cửu và hệ thông xử li, phân

đoạn từ Trong hé thong trích rút xây dựng ở phần demo,

hệ thống sẽ sử dụng các văn bản đã được chạy qua hệ thông phân đoạn từ nên hệ thông bỏ qua bước phân đoạn

từ

1.3 Một số nghiên cứu liên quan

Trang 6

1.3.1 Giải thuật Dual Iterative Pattern Relation

Expansion (DIPRE)

Giai thuat DIPRE (Dual Iterative Pattern Relation

Expansion) dùng để trích rút mẫu quan hệ ngữ nghĩa

“author — book” voi tap dit liéu ban dau khang 5 vi du cho

méi quan hệ nảy Hệ thông DIPRE mở rộng tap ban dau

thành một danh sách khoảng 15.000 cuén sách

Tom tắt giải thuật DIPRE như sau:

Dau vào: Tập các quan hệ mâu S={A; , B.}

Ví dụ: trong trường hợp trên, tập quan hệ mâu là S

= {<author, , book;} Tap nay duoc goi là tập hạt giống

Dau ra: Tập các quan hệ R trích chọn được

Xử lý:

~ Tập quan hệ đích R được khởi tao tir tap hat giéng

(seed) S Ky hiéu tap seed ban dau la <A, B>

~ Tìm tất cả các câu có chứa đủ các thành phan của

tập seed ban đầu

- Dua vảo tập câu đã tìm được, tiễn hành tìm các

mẫu quan hệ giữa các thanh phân của seed ban dau Mau

quan hệ được biểu diễn dưới dạng sau:

[order, author, book, prefix, suffix, middle]

Hình 3.] Giao điện hệ thông

Hệ thống có 3 Module:

~ Module Trích rút: dùng đẻ trích rút thực thẻ tên

tir bai bao da chọn Kết quả sau khi trích rút hiển thị trong

phan KET QUA

~ Module Huấn luyện: lấy kết quả trích rút từ bải bao va làm giảu cơ sở đữ liệu để phục vụ cho quả trinh

trích rút thực thể tên từ các bài bảo khác

~- Module Thống kê: Thỏng kê số thực thẻ tên theo

nhóm đã chọn trích rút được

3.3 Đánh giá kết quả của hệ thống

Hệ thống đã thực hiện thực nghiệm nhiều lân với nhiều văn bản khác nhau

Hệ thống đã thực hiện thực nghiệm nhiều lần với

nhiều văn bản khác nhau được kết quả như bảng 3.4

Trang 7

22

CHƯƠNG III: THỰC NGHIEM

3.1 Môi trường và đữ liệu thực nghiệm

3.1.1 Phần cứng

3.1.2 Phần mém

3.1.3 Dữ liệu thực nghiệm

Dữ liệu thục nghiệm lả các bái bao tir Internet đã

qua bộ liền xử lý phân đoạn lừ

3.1.4 Thiết kề cơ sở dữ liệe

* Bảng tbiPattern: Chứa dữ liệu là tiền tô

nhóm thực thể tên tương ứng cần trích rút

* Bảng thìNotPattern: Chứa dữ liệu là các mẫu

phạm quy và tên nhóm thực thể tên lương ứng,

* Bang tblOccurrences: chứa dữ liệu là các tiến tố,

thục thể tên vả tên nhóm thực thê tên tương ứng

3.2 Giới thiệu hệ thống trích rút tự động thực thể

tên từ các văn bản tiếng Việt trên Internet

Hệ thống được thiết kế bằng ngôn ngữ lập trình C#

trên nên tảng Net Framework cia Microsoft Visual Studio

2008 và sử dựng dữ liệu hưu trữ trong phần mềm quán trị

dữ liệu SQT, Server 2005

Hệ thông có giao diện như sau:

7

'Từ những mâu chưa được gán nhãn, ta thu được

mét tap seed <A’, B’> mdi; thém seed mới này vào tập seed cho quan hd

- Quay lạt bước 2 dễ tìm ra những hạt giống và mẫu

mới

* Thuật toán GenOnePattern(O) sinh một Pattern

1) Điều kiện order và middie của tất cả sự xuất hiện

(occurrences) phải giống nhau

Nếu điều kiện trên không thỏa mãn thì không thể sinh

va due pattern khop voi lat ca occurrences

Dặt outpattern.arder va outpattern middle twong ung với order va middie

2) Tim doan prefix giéng nhau dải nhất của các #15

Dat outpattern.urlprefix — prefie

3) Đặt ounpatern.prefx là xâu giống nhau đài nhật của cdc prefixs tinh tir cudi (suffix) của cáo tiễn tố

(prefixs)

4) Dặt outpattern suffix 1a x4u piéng nhau dai nhật của

các suffix tính từ đầu (preƒx) của các hậu tổ (suffixs)

đó

Kết quả thu duoc mét pattern

Trang 8

* Thuật toán GenPatterns(() sink tap Patteras

'thuật toán cho GenPatferns(C) dựa vào thuật toán

GenOnePattem() ở trên

1) Nhém tâI cả sự xuất hiện ø2 (occurrences) trong,

O theo order và naddfe thành nhóm Ôy ,

2) Với mỗi Ở,, p & GenOnePattern( @,) Nêu p

thoả mãn điều kiện về độ "riêng biệt” thì nhận p đưa ra ngoài Nếu không,

- Néu tit 08 0 trong ©, 6 chung wri thi bd 0,

- Ngược lại: Tách các ø trong O, thank nhimg

nhóm con dựa vào đặc diễm øris của chúng qua

p.uriprefic Lap Iai bước 2

13.2 Phuong phap Snowball

Snowball la hệ thống trích rút mỗi quan hệ “⁄ố

chức — địa điểm" mà tập mẫu và tập seed mdi duge sinh ra

được đánh giá chất lượng trong quá trình xử lý,

“settee se [SH ameertseere) ~,

` LÍ cưeEmnlataov ] 2”

Hinh 1.3 Kiến trite của hệ thống Snowball

thitc chinh quy CandidateRegularExpression nén cin phải

cắt tỉa và chuẩn hóa để thu được tên chính xác

Cách viết của tiếng Việt trong các văn bản tiếng, Việt tran Internet rit da dạng và phong phú Vị vậy, đôi khi thông tin viết trong các văn bản tiếng Việt trên Internet không thật sự theo chuẩn — chuẩn ngữ pháp, chuân chữ hoa chữ thường khiến cho việc việc cắt tia gặp nhiều

khó khăn Tuy nhiên, các văn bản tiếng Việt đưa vào hệ

thống là các văn bản đã qua khâu tách từ và viết chuẩn chữ

hoa chữ thường, Vì vậy, đây là mặt thuận lợi để kiếm tra xem xâu con của xâu kỳ vọng, CandidetoString có phải là

xâu thực thể lên cần trích rút hay không

2.4 Tổng kết chương

Chương 2 đã trình bày toàn bộ ý tưởng và các thuật

toán dễ giải quyết bài Loán trích rút thực thể tên Tan dung

ưu điểm của các văn bản đã qua khâu phân đoạn từ, việc

xây dựng hệ thống trieh rút thực thể tên đỡ phức tap hơn rất nhiều Hệ thông trích rút thục thể tên sẽ tập trung vào khâu nhận biết thục thể qua cáo tiên tổ và tiến hành trích

rút,

Trang 9

20

3: Kiếm tra ký tự đầu tiên của xâu ký tự được

Tước

*kỳ vọng là thực thể tên có phải là chữ hoa hay không,

Bước 3: Kiểm tra xâu kỷ tự tìm dược co trang với

các xâu kỷ tự trong báng tb[NotPattern hay không

Bước 4: Kiểm tra xâu ký tự so khớp từm dược đã có

trùng với kết quả ở các bước lắp trước huy không,

Bước 5: Tách xâu ký tự so khớp tim kiếm được thành

hai xâu con (PreffxPattem, tên thực thế) và kiểm tra sự

xuât hiện của Pattern nay

Buse 6: Lay từng tên thực thẻ thu được so khớp với

toàn bộ văn bản để tìm ra các PrefixPaHam mới

Lg théng ci tim kiếm, trích rút thực thể tên liên tục

cho đến khi số lượng PrefsxPatternn bằng O hoặc số lượng,

xâu ký tự so khớp từ được sau bước 5 của vòng lập từm

sự xuất hiện bị loại nhiều

OutPutL: Các thực thể lên có trong văn bản

2.3 Quy tắt tách tên thực thể từ xâu kỳ vọng

CandidateString

au CandidateSiring la xâu được “kỳ vọng" là cỗ

chứa tên thực thế thuộc nhóm thực thể tên cân trích rút

Bạn đầu nó chỉ là một xâu bắt kỳ được đoán nhận bởi biểu:

9

* Hệ thong Snowbail bao gém ede bide sau:

Bước 1: Hoc bán tự động để trích rút mẫu

Snowball bắt dẫu thực hiện voi tap seed ban dầu mô tá về một mỗi quan hé va mét tap van bản (tập huần luyện)

Các mâu san khi tìm thây sẽ được đổi chiếu lại với kho đữ liệu ban đầu để kiểm tra xem chủng có từm ra được

các bộ đữ liệu seed mới <A’, B’> nao khang Seed mới

Bi

@ whin md} trong c

”, B’> đã nằm trong danh sách seed

trường hợp sau

- Positive: </

- Nepative: chỉ cỏ đúng một trong hai (A' hoặc BY)

xuất hiện trong danh sách sccd

- Unknown: cả A’, B’ đêu không xuất hiện trong

danh sách seed Tập Unknown dược xem là tập các secd mới cho vỏng lặp sau

Snowball sé tinh độ chính xác của từng mẫu dua

trên số Posilive và Negative của nó va chon ta top No mau

có điểm số cac nhất

Bước 2: Tim các seed mới cho vòng lặp tiếp theo Với mỗi mẫu trong danh sách top X được chọn sẽ

là các cặp trong tập seed mới được đưa vào vòng lắp mới

Trang 10

Hệ thống sẽ chọn ra được m cặp được đánh giả tốt

nhật đừng làm seed cho quá trình rút mẫu kế tiếp

TH thống tiếp tục quay lại bước muội Quá trình trên

lập cho dễn khi hệ thống không tìm được cặp mới hoặc lặp

Theo số lần mã ta xác định trước

1.3.3 Phương pháp Knowitdll

Phương pháp KnowItAll tiến hành trích rút ra

những sự vật, khái niệm và các mẫu quan hệ từ các trang,

web KnowItAll được mở rộng từ một ontolosy và dựa

vào một tập các luật để từ đỏ trích rút ra các kiật cho mỗi

lớp và các quan hệ wong ontology [4]

Đầu vào của KnowTtAll là một tấp các láp thực thé

được trích xuất, kết quả là một danh sách các thực thể

dược trích xuất từ các trang web Các mẫu sử dụng dã

được gán rhău bằng tay, những mẫu này được xây dựng

dựa vào việc tách cụm danh tử (Noun Phrase chưnker)

1.4 Tầng kết chương

Phương pháp KnowIAll sử dụng các kĩ thuật xử lý

ngôn ngữ (phân tích củ pháp, tách cựn danh bừ) nên khó

áp dụng cho tài liệu tiếng Việt vì đối với ngôn ngữ tiếng

Việt, các kĩ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học

Quả trình trên được lặp lại nhiêu lần cho đến khi

không sinh ra được pattern mới hoặc độ chỉnh xác của cao

thục thể rút trích được thấp

2.2 Biểu diễn xâu tiền tổ PreBxString của tên thực

thế và thuat toan sinh PrefixPattern

2.2.1 Biéu dién PrefixString

Ảnh xạ ngược mỗi thực thể vào tập đữ liệu i2 thu

được tập cáo PrefixString được biêu điên như sau:

< 1%”, SC?>

¿ Xâu nội ding cia Prefix String (xâu tiễn 16)

ÁN: Tên thực thể

C: Count Số lần §lä “tên tổ của

Mỗi Prcbxtrimg có “độ ưu tiên” khác nhau trong

việc lựa chọn tham gia smh paltern Độ ưu tiên đó dựa

theo sô lượng thực thẻ nhận nó lắm Liên tô

3.2.2 Thuật toán sinh PrefixPattern

Input: Tap PrefixPattern mau, van ban dã phân doan

tir

Bước 1: Tẩy timg PrefixPatlem mau trong IbÏPatteru

dem so khớp với văn bản dễ tìm ra xảu ký tự có chứa

PrelixPatlơm và xâu kỷ Lự được kỳ vợng là tên thục thể

Tiêu đề	Trích Rút Thực Thể Tên Từ Các Văn Bản Tiếng Việt Trên Internet
Tác giả	Hoàng Thị Vân Anh
Người hướng dẫn	TS. Nguyễn Phương Thái
Trường học	Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành	Kỹ Thuật
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2012
Thành phố	Hà Nội

Định dạng
Số trang	14
Dung lượng	351,19 KB