tiến hành nghiên cứu vả xây dựng hệ thống tự động trích rút thực thẻ tên từ các văn bản tiếng Việt trên Internet.. Phát biểu bài toán trích rút thực thể tên Theo Baumgarter, hệ thông tr
Trang 11 HQC VIEN CONG NGHE BUU CHINH VIEN THONG
PT
HOÀNG THỊ VÂN ANH
TRÍCH RÚT THỰC THẺ TÊN TỪ CÁC VĂN BẢN
TIENG VIET TREN INTERNET
LUẬN VĂN THẠC SĨ KỸ THUẬT
HÀ NỘI - 2012
Trang 2
1 ân văn được hoàn thành tại
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIEN THONG
Người hướng dẫn khoa học: 'TS Nguyễn Phương Thấi
châm luận vẫn thae s
tại nghệ Him chú
Văn lúc: - gÌh gây (hẳng
Viễn thông,
C6 thé tim hiền luận văn tại
~ Thư viện của Hục viện Công nghệ Bưu chính Viễn (hông,
Trang 3
26
với đặc thủ riêng của bài toán trích rút thực thẻ tên tiếng,
Việt Hệ thông đã hoạt động và trích rút các thực thể tên từ
các văn bản Hỗng Việt
Quả trình xây dựng hệ thông còn gặp một số khó
khăn như Thuật toán DIPRE chỉ thưởng áp dụng cho các
bài toán trích rút cặp quan hệ Vì vậy, khi trích rút thực thể
đơn sẽ gặp kho chon lọc được Pattern mẫu trong quả trinh
xây dựng Patlem và sinh PaHem mới Mặt khác, thục thể
tên có nhiều cách biểu diễn khác nhau nên rất khó để tùm
ra mỗi liên hệ khi xây dựng mẫu hoặc có thể xây ra nhập
nhằng
Trong tương lai, tôi sẽ tiếp tục nghiên cứu về trích
rút thông tin và phát triển hệ thông, bổ sung chức nắng tìm
kiêm, nhậu diện thực thể tên ở những trường hợp đặc biệt
và nâng cao chất lượng trích rút Tôi đự định sé tim hiển
sâu hơn về kỹ thuật xây dựng Pattem để có những Pattem
hợp lý hơn Ngoài ra, tôi sẽ tiến hành phân tích thêm về
xâu ký tự đứng trước Pattern để hạn chế nhập nhằng và
trích rút dược thực thể tên ở một số dang dặc biệt
MỞ ĐẦU
Thông tỉu tiên các trang web thường thể hiện dưới dạng ngôn ngữ tự nhiên và dược dink dang theo HTML
Tian chế của HTML là thiểu khả năng diễn đạt ngữ nghĩa
về các đổi lượng xuất hiện trong trang web nêu phần lớn
nội dung thông tin trên các trang web chí phủ hợp cho
người đọc hiểu Hầu hết các công cụ tim kiểm tài liệu trên web được coi là lim kiếm hiệu quả cũng chủ yến Lm kiếm
được trên bê nỗi của web
Đề khai thức hiệu quả nguồn thông tin trên các trang web, chúng ta cẩn nghiên cứu các ứng, dụng tự động,
xử lý văn bản Trước hết, chứng ta cần xây đựng hệ thống
tự dông trích rút các thực thể, các khái niệm xuất hiện dựa vảo một nguồn trí thức về các thực thể và các khải niệm
phố biển trong thê giới thục Từ đó, chúng †a có thể xây
dụng các hệ thông khai thác dữ liệu đẻ khai phả các lớp ti thức nhằm hiểu đây đủ ngũ nghĩa của văn bản Tiếng Việt
có nhiêu cách viết, cách thể hiện nội đụng nêu quá trinh trích rút thông thì tử các văn bản tiếng, Việt gặp nhiễu khó khăn hơn trong các văn bản tiếng Anh Trong luận văn, tôi
Trang 4tiến hành nghiên cứu vả xây dựng hệ thống tự động trích
rút thực thẻ tên từ các văn bản tiếng Việt trên Internet
1.1 Bài toán trích rút thực thể tên
1.1.1 Phát biểu bài toán trích rút thực thể tên
Theo Baumgarter, hệ thông trích rút thông tin là
một hệ thống phần mềm tự động và liên tục trích rút dữ
liệu các trang web có nội dung thay doi va phân phối dữ
liệu trích rút vào cơ sở dữ liêu hoặc các ứng dụng khác
Hình 1.1 Mô hình hệ thống trích rút thông tin trền web
Hệ thống trích rút thông tin thường đưa ra kết quả
lả các mẫu (template) chửa một số lượng xác định các
trường (slots) đã được điền thông tin Bài toán trích rút
KẾT LUẬN
Luận văn đã hệ thông hóa một số lý thuyết vẻ trích
chọn thông tin, trình bảy, phân tích, đánh giá các phương
pháp đó Sau đây là một số nét chính mà luận văn đã tập trung giải quyết
Chương I trình bảy và nêu ỷ nghĩa của bai toan
trích rút thực thẻ tên Trong chương I, phân đặc điểm tiếng
Việt được đề có thể làm căn cứ cho quá trình tìm kiểm vả
trích rút thực thẻ tên Ngoài ra, chương I còn trình bảy một
số hướng tiếp cận đề giải quyết bải toản trên lả: Giải thuật
DIPRE, phương pháp Snowball, phương pháp KnowItAll
Sau đỏ, luận văn phần tích ưu nhược điểm của từng phương pháp đề đẻ xuất một phương pháp có hiệu quả hơn trong trích rút thực thẻ tên Ở đây, luận văn sử dụng giải
thuật DIPRE kết hop Snowball dé xay dựng hệ thống trích rút thực thể tên
Chương II đưa ra mô hình khái quát, mô hình chỉ
tiết, ý tưởng và cách giải quyết bài toán trích rút thực thể
tên từ các văn bản tiếng Việt
Chương TII xây dựng hệ thông thử nghiệm dựa theo
ý tưởng của thuật toán DIPRE vả có cải tiên de phủ hợp
Trang 524
Bảng 3.4 Bảng kết quả thực nghiệm
File | correct] incorrect [Missing Spurious) Pre | Ree | F
name
1019.seg | 5 0 1 1 [83,33 |83,33 83,33,
[53.seg 20 1 0 0 |9524|95.2495,24
P3254seg| 6 1 1 0 _ [85,71 [75,0080,00
Trung bình | 81.90 |77,80179,71
100,00 50,00 0,00
Hình 3.5 Giá trị ba d6 do Precision, Recall,
a:
‘-measure
Ket qua cho thay, hé thong trich nit thue thé tén hoat déng
rất tốt ở những văn bản viết đúng, đầy đủ các tiên tổ va
quy tắc trình bảy của thực thẻ tên
5
thực thể tên trong các văn bản tiếng Việt con gap nhieu
khó khăn hơn so với bải toán trong các văn bản tiếng Anh
vì một số nguyên nhân như: Thiếu dữ liệu huân luyén va các ngôn tải nguyên có thể tra cửu như WordNet trong
tiếng Anh, tôn tại rất nhiều vấn để nhập nhằng lam cho
việc trích rút gặp nhiều khó khăn
1.1.2 Ý nghĩa của bài toán trích rút thực thể tên
~ Hỗ trợ xây dựng Sementic Web
- Xây dựng các máy tìm kiểm hướng thực thể
~ Hồ trợ hệ thông tự đông tóm tắt văn bản
1.2 Đặc điểm tiếng Việt
Phân lớn vốn từ vựng của tiếng Việt lả các từ đa âm tiết Củng một sự vật, hiện tượng, một hoạt động hay một đặc trưng có thê được biểu thị bởi nhiều từ ngữ khác nhau gây khó khăn khi xây dựng hệ thông trích rút thực thẻ tên
Thực tế đã có rất nhiều nghiên cửu và hệ thông xử li, phân
đoạn từ Trong hé thong trích rút xây dựng ở phần demo,
hệ thống sẽ sử dụng các văn bản đã được chạy qua hệ thông phân đoạn từ nên hệ thông bỏ qua bước phân đoạn
từ
1.3 Một số nghiên cứu liên quan
Trang 61.3.1 Giải thuật Dual Iterative Pattern Relation
Expansion (DIPRE)
Giai thuat DIPRE (Dual Iterative Pattern Relation
Expansion) dùng để trích rút mẫu quan hệ ngữ nghĩa
“author — book” voi tap dit liéu ban dau khang 5 vi du cho
méi quan hệ nảy Hệ thông DIPRE mở rộng tap ban dau
thành một danh sách khoảng 15.000 cuén sách
Tom tắt giải thuật DIPRE như sau:
Dau vào: Tập các quan hệ mâu S={A; , B.}
Ví dụ: trong trường hợp trên, tập quan hệ mâu là S
= {<author, , book;} Tap nay duoc goi là tập hạt giống
Dau ra: Tập các quan hệ R trích chọn được
Xử lý:
~ Tập quan hệ đích R được khởi tao tir tap hat giéng
(seed) S Ky hiéu tap seed ban dau la <A, B>
~ Tìm tất cả các câu có chứa đủ các thành phan của
tập seed ban đầu
- Dua vảo tập câu đã tìm được, tiễn hành tìm các
mẫu quan hệ giữa các thanh phân của seed ban dau Mau
quan hệ được biểu diễn dưới dạng sau:
[order, author, book, prefix, suffix, middle]
Hình 3.] Giao điện hệ thông
Hệ thống có 3 Module:
~ Module Trích rút: dùng đẻ trích rút thực thẻ tên
tir bai bao da chọn Kết quả sau khi trích rút hiển thị trong
phan KET QUA
~ Module Huấn luyện: lấy kết quả trích rút từ bải bao va làm giảu cơ sở đữ liệu để phục vụ cho quả trinh
trích rút thực thể tên từ các bài bảo khác
~- Module Thống kê: Thỏng kê số thực thẻ tên theo
nhóm đã chọn trích rút được
3.3 Đánh giá kết quả của hệ thống
Hệ thống đã thực hiện thực nghiệm nhiều lân với nhiều văn bản khác nhau
Hệ thống đã thực hiện thực nghiệm nhiều lần với
nhiều văn bản khác nhau được kết quả như bảng 3.4
Trang 722
CHƯƠNG III: THỰC NGHIEM
3.1 Môi trường và đữ liệu thực nghiệm
3.1.1 Phần cứng
3.1.2 Phần mém
3.1.3 Dữ liệu thực nghiệm
Dữ liệu thục nghiệm lả các bái bao tir Internet đã
qua bộ liền xử lý phân đoạn lừ
3.1.4 Thiết kề cơ sở dữ liệe
* Bảng tbiPattern: Chứa dữ liệu là tiền tô
nhóm thực thể tên tương ứng cần trích rút
* Bảng thìNotPattern: Chứa dữ liệu là các mẫu
phạm quy và tên nhóm thực thể tên lương ứng,
* Bang tblOccurrences: chứa dữ liệu là các tiến tố,
thục thể tên vả tên nhóm thực thê tên tương ứng
3.2 Giới thiệu hệ thống trích rút tự động thực thể
tên từ các văn bản tiếng Việt trên Internet
Hệ thống được thiết kế bằng ngôn ngữ lập trình C#
trên nên tảng Net Framework cia Microsoft Visual Studio
2008 và sử dựng dữ liệu hưu trữ trong phần mềm quán trị
dữ liệu SQT, Server 2005
Hệ thông có giao diện như sau:
7
'Từ những mâu chưa được gán nhãn, ta thu được
mét tap seed <A’, B’> mdi; thém seed mới này vào tập seed cho quan hd
- Quay lạt bước 2 dễ tìm ra những hạt giống và mẫu
mới
* Thuật toán GenOnePattern(O) sinh một Pattern
1) Điều kiện order và middie của tất cả sự xuất hiện
(occurrences) phải giống nhau
Nếu điều kiện trên không thỏa mãn thì không thể sinh
va due pattern khop voi lat ca occurrences
Dặt outpattern.arder va outpattern middle twong ung với order va middie
2) Tim doan prefix giéng nhau dải nhất của các #15
Dat outpattern.urlprefix — prefie
3) Đặt ounpatern.prefx là xâu giống nhau đài nhật của cdc prefixs tinh tir cudi (suffix) của cáo tiễn tố
(prefixs)
4) Dặt outpattern suffix 1a x4u piéng nhau dai nhật của
các suffix tính từ đầu (preƒx) của các hậu tổ (suffixs)
đó
Kết quả thu duoc mét pattern
Trang 8* Thuật toán GenPatterns(() sink tap Patteras
'thuật toán cho GenPatferns(C) dựa vào thuật toán
GenOnePattem() ở trên
1) Nhém tâI cả sự xuất hiện ø2 (occurrences) trong,
O theo order và naddfe thành nhóm Ôy ,
2) Với mỗi Ở,, p & GenOnePattern( @,) Nêu p
thoả mãn điều kiện về độ "riêng biệt” thì nhận p đưa ra ngoài Nếu không,
- Néu tit 08 0 trong ©, 6 chung wri thi bd 0,
- Ngược lại: Tách các ø trong O, thank nhimg
nhóm con dựa vào đặc diễm øris của chúng qua
p.uriprefic Lap Iai bước 2
13.2 Phuong phap Snowball
Snowball la hệ thống trích rút mỗi quan hệ “⁄ố
chức — địa điểm" mà tập mẫu và tập seed mdi duge sinh ra
được đánh giá chất lượng trong quá trình xử lý,
“settee se [SH ameertseere) ~,
` LÍ cưeEmnlataov ] 2”
Hinh 1.3 Kiến trite của hệ thống Snowball
thitc chinh quy CandidateRegularExpression nén cin phải
cắt tỉa và chuẩn hóa để thu được tên chính xác
Cách viết của tiếng Việt trong các văn bản tiếng, Việt tran Internet rit da dạng và phong phú Vị vậy, đôi khi thông tin viết trong các văn bản tiếng Việt trên Internet không thật sự theo chuẩn — chuẩn ngữ pháp, chuân chữ hoa chữ thường khiến cho việc việc cắt tia gặp nhiều
khó khăn Tuy nhiên, các văn bản tiếng Việt đưa vào hệ
thống là các văn bản đã qua khâu tách từ và viết chuẩn chữ
hoa chữ thường, Vì vậy, đây là mặt thuận lợi để kiếm tra xem xâu con của xâu kỳ vọng, CandidetoString có phải là
xâu thực thể lên cần trích rút hay không
2.4 Tổng kết chương
Chương 2 đã trình bày toàn bộ ý tưởng và các thuật
toán dễ giải quyết bài Loán trích rút thực thể tên Tan dung
ưu điểm của các văn bản đã qua khâu phân đoạn từ, việc
xây dựng hệ thống trieh rút thực thể tên đỡ phức tap hơn rất nhiều Hệ thông trích rút thục thể tên sẽ tập trung vào khâu nhận biết thục thể qua cáo tiên tổ và tiến hành trích
rút,
Trang 920
3: Kiếm tra ký tự đầu tiên của xâu ký tự được
Tước
*kỳ vọng là thực thể tên có phải là chữ hoa hay không,
Bước 3: Kiểm tra xâu kỷ tự tìm dược co trang với
các xâu kỷ tự trong báng tb[NotPattern hay không
Bước 4: Kiểm tra xâu ký tự so khớp từm dược đã có
trùng với kết quả ở các bước lắp trước huy không,
Bước 5: Tách xâu ký tự so khớp tim kiếm được thành
hai xâu con (PreffxPattem, tên thực thế) và kiểm tra sự
xuât hiện của Pattern nay
Buse 6: Lay từng tên thực thẻ thu được so khớp với
toàn bộ văn bản để tìm ra các PrefixPaHam mới
Lg théng ci tim kiếm, trích rút thực thể tên liên tục
cho đến khi số lượng PrefsxPatternn bằng O hoặc số lượng,
xâu ký tự so khớp từ được sau bước 5 của vòng lập từm
sự xuất hiện bị loại nhiều
OutPutL: Các thực thể lên có trong văn bản
2.3 Quy tắt tách tên thực thể từ xâu kỳ vọng
CandidateString
au CandidateSiring la xâu được “kỳ vọng" là cỗ
chứa tên thực thế thuộc nhóm thực thể tên cân trích rút
Bạn đầu nó chỉ là một xâu bắt kỳ được đoán nhận bởi biểu:
9
* Hệ thong Snowbail bao gém ede bide sau:
Bước 1: Hoc bán tự động để trích rút mẫu
Snowball bắt dẫu thực hiện voi tap seed ban dầu mô tá về một mỗi quan hé va mét tap van bản (tập huần luyện)
Các mâu san khi tìm thây sẽ được đổi chiếu lại với kho đữ liệu ban đầu để kiểm tra xem chủng có từm ra được
các bộ đữ liệu seed mới <A’, B’> nao khang Seed mới
Bi
@ whin md} trong c
”, B’> đã nằm trong danh sách seed
trường hợp sau
- Positive: </
- Nepative: chỉ cỏ đúng một trong hai (A' hoặc BY)
xuất hiện trong danh sách sccd
- Unknown: cả A’, B’ đêu không xuất hiện trong
danh sách seed Tập Unknown dược xem là tập các secd mới cho vỏng lặp sau
Snowball sé tinh độ chính xác của từng mẫu dua
trên số Posilive và Negative của nó va chon ta top No mau
có điểm số cac nhất
Bước 2: Tim các seed mới cho vòng lặp tiếp theo Với mỗi mẫu trong danh sách top X được chọn sẽ
là các cặp trong tập seed mới được đưa vào vòng lắp mới
Trang 10Hệ thống sẽ chọn ra được m cặp được đánh giả tốt
nhật đừng làm seed cho quá trình rút mẫu kế tiếp
TH thống tiếp tục quay lại bước muội Quá trình trên
lập cho dễn khi hệ thống không tìm được cặp mới hoặc lặp
Theo số lần mã ta xác định trước
1.3.3 Phương pháp Knowitdll
Phương pháp KnowItAll tiến hành trích rút ra
những sự vật, khái niệm và các mẫu quan hệ từ các trang,
web KnowItAll được mở rộng từ một ontolosy và dựa
vào một tập các luật để từ đỏ trích rút ra các kiật cho mỗi
lớp và các quan hệ wong ontology [4]
Đầu vào của KnowTtAll là một tấp các láp thực thé
được trích xuất, kết quả là một danh sách các thực thể
dược trích xuất từ các trang web Các mẫu sử dụng dã
được gán rhău bằng tay, những mẫu này được xây dựng
dựa vào việc tách cụm danh tử (Noun Phrase chưnker)
1.4 Tầng kết chương
Phương pháp KnowIAll sử dụng các kĩ thuật xử lý
ngôn ngữ (phân tích củ pháp, tách cựn danh bừ) nên khó
áp dụng cho tài liệu tiếng Việt vì đối với ngôn ngữ tiếng
Việt, các kĩ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học
Quả trình trên được lặp lại nhiêu lần cho đến khi
không sinh ra được pattern mới hoặc độ chỉnh xác của cao
thục thể rút trích được thấp
2.2 Biểu diễn xâu tiền tổ PreBxString của tên thực
thế và thuat toan sinh PrefixPattern
2.2.1 Biéu dién PrefixString
Ảnh xạ ngược mỗi thực thể vào tập đữ liệu i2 thu
được tập cáo PrefixString được biêu điên như sau:
< 1%”, SC?>
¿ Xâu nội ding cia Prefix String (xâu tiễn 16)
ÁN: Tên thực thể
C: Count Số lần §lä “tên tổ của
Mỗi Prcbxtrimg có “độ ưu tiên” khác nhau trong
việc lựa chọn tham gia smh paltern Độ ưu tiên đó dựa
theo sô lượng thực thẻ nhận nó lắm Liên tô
3.2.2 Thuật toán sinh PrefixPattern
Input: Tap PrefixPattern mau, van ban dã phân doan
tir
Bước 1: Tẩy timg PrefixPatlem mau trong IbÏPatteru
dem so khớp với văn bản dễ tìm ra xảu ký tự có chứa
PrelixPatlơm và xâu kỷ Lự được kỳ vợng là tên thục thể