Trích rủi thực thể trong văn bản tiếng Việt 4.3 Đảnh giá kết quá hệ thông trích rút thông tin...à co 4.3 Đánh giá kết quả hệ thông hỏi đáp 4.4 Các khó khắn.... Trích rủi thực thể trong v
Trang 1Trích rủi thực thể trong văn bản tiếng Việt
MỤC LỤC
LỒI CAM DOÀN .cceccoeioe
LỠI CẢMƠN, ccioeiriee TH HH go eeenireoreoo
1.2 Mục đích nghiền cứu ceeieerrerrsrierererereure TÔ
1.4 Bề cục luận vẫm ch ecerrrrrrrrrreeecee.LT
CHUONG I TONG QUAN VE TRICH RÚT THỰC THẺ 13
2.1.1 Bài toàn trích rút thông HHn ì cà sseeeesrreoe L3
3.1.3 Các phương pháp trích rút thông tin - - 15 2.1.4 Thành phân hệ thông trích rút thông tin ocnieorerorree 18
h
Trang 2Trích rủi thực thể trong văn bản tiếng Việt
2.1.5 Các ừng đụng liên quan
2.2 Trích rút thực thể trong văn bản tiếng Việt - - 29
2.2.1 Bai toàn trích nitt thare thé
2.3 Ứng dụng trích rút thực thể vào bài toán hỏi đáp - 36
2.3.1 Bài toán hồi đáp eeieiereriiiirirerirreoeeee 3Ô 3.3.2 Hướng tiếp cận cho bài toán hồi đáp cà nrieireerree 38
CHƯƠNGTT BÀI TOÁN TRÍCH RÚT THONG TIN BAT BONG SAN 39
3.1 Bài toán trích rút thông tin bất động sản - 3o
3.1.1 Mô tả bài toán ằieniseirriiiirirerirroeeeee.3Ð
3.2 Ứng dựng trích rút thông tin vào bài toán hỏi đáp thông tin bất động sẵn 49
4 THỰC NGIUIỆM VÀ DÀNH GIÁ 0022052222 ccceecerrrrrxee 35
Trang 3Trích rủi thực thể trong văn bản tiếng Việt
4.3 Đảnh giá kết quá hệ thông trích rút thông tin à co
4.3 Đánh giá kết quả hệ thông hỏi đáp
4.4 Các khó khắn co
CHƯƠNG V TỐNG KT
5.1 Các kết quá đạt được
5.2 Hướng nghiên củư tiếp theo
TÀI LIỆU THAM KHẢO
Trang 4Trích rủi thực thể trong văn bản tiếng Việt
LOI CAM DOAN
Tôi xin cam đoan Luận Văn la cdng trinh nghién eta oda bam than ti didi sự hưởng din cua PGS L8 Lê Thanh Hương, Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bắt kỹ công trình nào khác Tôi xin chịu
hoàn toàn trách nhiệm về nội đung quyền luận văn này:
“Tác giả
Dặng Thị Phương
Trang 5Trích rủi thực thể trong văn bản tiếng Việt
LỜI CẢM GON
Để hoàn thành luận văn nảy, tác giả đã nhận được sự hướng dẫn lận tình cũng, như những yêu cầu nghiêm khắc của PGS.TS Lẻ Thanh Hương, người đã truyền dạt rất nhiều kiển thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận
văn này Tác giâ xin gửi lời cảm ơn chân thành tới cô
Xin gửi lời cảm ơn chân thành tới tắt cả các thầy cô Viện Công nghệ Thông tin,
Tan lãnh đạo Viện Công nghệ Thông tin, Viện đảo tạo Sau đại học và Bộ môn Hệ
thông Thông tin thuộc trưởng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo diễu kiện thuận lợi trong quả trình nghiên cửu và hoàn thánh luận văn
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và
khách quan, luận văn không tránh khói những thiểu sót Tác giá rất mong được sự góp
ý của quy thay cô, các bạn bẻ và đồng nghiệp để luận văn được hoàn thiện hơn
Tác giả
Đăng Thị Phương
Trang 6Trích rủi thực thể trong văn bản tiếng Việt
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TÁT
CRF Conditional Random Field
GATE General Architecture for Text Engineering
MUG Message Understanding Conference
NLP Natural Language Processing
Trang 7Trích rủi thực thể trong văn bản tiếng Việt
Bang 4: Môi trưởng cải dat
a
Trang 8Trích rủi thực thể trong văn bản tiếng Việt
DANH MỤC HÌNH VẼ
Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16
1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 9Trích rủi thực thể trong văn bản tiếng Việt
CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 10Trích rủi thực thể trong văn bản tiếng Việt
1.2 Mục đích nghiên cứu
Thông qua để tài “Trích rất thực thể trong vấn bản liếng Việt, tác giả mong uốn dạt được một số mục dịch như sau:
- Tim hiéu téng quan vẻ trích rút thông tín nói chung và cụ thể là trích rút thực
thể trong tiếng Việt
- Xv dựng hệ thông trích rút thông tin cơ bản về bat động sản từ bản tin trên các trang web khác nhau Hệ thống này với mục đích có thể trích rút nhanh chóng các thông tin bất động sẵn trên thị trường phục vụ nhu cảu tìm kiểm
thông tin của người dùng
-_ Dựa trên các kết quả được tích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhụ cầu tim kiểm thông tin bất động sẵn
1.3 Nội dung nghiên cứu
Luận văn nay sẽ tập trung vảo việc trích rút thực thẻ từ van ban bán và phi cầu
trúc thuộc lĩnh vực bất động sản trên môi trường Web Cáo tập đữ liệu thử nghiệm được Thu thập lừ các Irang web giao bản bất đông sẵn phổ biến hiện nay
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp
trích rút dựa trên luật, từ điển va trích rút dựa trên học máy Tùy từng đối lượng trích
rút cụ thể sẽ có phương pháp riêng cho phủ hợp để thu được kết quá tốt nhất Đã có rất
nhiéu kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác
cao, cũng như các công cụ hỗ trợ quả trình trích rút, nên hệ thống này dược xây đựng
dựa trên một số các kết quả và công cụ đó
10
Trang 11Trích rủi thực thể trong văn bản tiếng Việt
1.4 Bồ cục luận văn
Bồ cục luận văn cụ thẻ như sau:
Chuwong I: Tong quan
Chương này giới thiêu tổng quan ly do chọn để tài, mục tiêu, bố cục, nội đmp và
ý nghữ của luận vẫn
Chương H: Tổng quan về trích rút thông tin
Trong trương này, tác giả giới thiệu tổng quan vẻ cơ sở lý thuyết trích rút thông
tin, trích rút thực thế: các phương pháp tiếp cận, kiến trúc hệ thông và nghiên cứu ứng
dụng thực lễ
Chương 1T: Bài toán trích rủứ thực thể trong văn bản tẳng Việt
Chương này giới thiệu bài toán trích rút thông tin bắt động sản, mô hinh xây đựng
hệ thống, các phương pháp áp dung
Chương TU: Thực nghiệm và đánh giá
Mô tả hệ thông thực nghiệm, đánh giá kết quá thực nghiệm, kho khăn hạn chế của
ứng đụng,
Chương + Tỗng kết
Tổng kết một số kết quả đạt được và định hướng phát triển luận văn trong tương
i
Trang 12Trích rủi thực thể trong văn bản tiếng Việt
1.5 Ý nghĩ của luận văn
Sau đây là một số kết quả đạt được trong luận var
-_ Luận văn đã tập trung tỉm hiểu về trích rút thông tin và trích rút thực thể
trong văn bản tiếng, Việt, các phương pháp và kiên trúc chúng của hệ thẳng,
- Ấp dụng bài toán Iích rút thực thể vào lĩnh vực bất động sẵn để trích rút các thông tin cơ bàn từ các bản tin bán cầu trúc và phi câu trúc trên web, phục vụ nhu cầu tìm kiểm của người dùng
ây dựng mỏ hình hồi đáp thân thiện với người dùng dễ phục vụ việc tìm
kiểm thông tin của người dùng
Với những kết quả đã dạt dược, luận văn dã mang lại một số kết quả nghiên cứu nhất định, đồng thời mỡ ra hướng nghiên cửa cho nhiều lĩnh vực khác
Trang 13Trích rủi thực thể trong văn bản tiếng Việt
CHƯƠNG H: TÔNG QUAN VẺ TRÍCH RÚT THỰC THẺ
Trong chương này, luận văn sẽ trinh bảy lý thuyết về trích rút thông tín, trích rút thực thẻ, áp dụng trích rút thực thể vào bài toán hỏi dáp, kiến trúc hệ thống, các hưởng, tiếp cận và ứng đụng thực tế
2.1 Tổng quan về trích rút thông tin
2.1.1 Bài toán trích rút thông tin
Đứng tước mội kho đữ liệu má thông tin quan lầm nằm rỗi rác trên các vẫn bồn,
bài toán đặt ra là làm thé náo đề lấy được hết các thông tím quan tâm xmột cách nhanh: nhật, phủ hợp nhất phục vụ nhú cầu người dùng? Đây chính là lý do chính cho bài toàn trích rút thông tin ra dời nhằm trích rút ra các thông tin cỏ cầu trúc từ các nguồn dữ liệu khác nhau Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu toản bộ nội dung
của văn bản, nhưng, phải có khả năng phân tích văn bản và rìm kiếm các thông tin liên
quan má hệ thống mong muốn được từm thấy
Việc trích rút thông tim là việc khó khăn va thu hol sự quan tầm đồng đão của
công déng các nhà nghiên cửu trong suốt hơn hai thập kỉ vừa qua Đầu tiên là sự quan
âm của cộng đồng các nhà xử lý ngôn ngữ tự nhiên, sau đó la đồng đáo các nhà nghiên cửu về truy vẫn thông lin, cơ sở dữ liệu, phân tích văn bàn, Hai hội nghị quan trợng đổi với các nghiên cứu về trích rút thông tin là: Automatic Content Extraction (ACE)
va Messpe Understanding Conference (MUC)
Tài Loám trích rút thông lim dược Ap dung trong whiéu Tinh vue nhằm trích rút dữ
liệu từ nhiên nguồn khác nhau, cé thể là từ thư viện các tải liệu, các mẫu tin trên web,
từ email, Dữ liệu chủ yêu ở dang ban câu trúc hoặc không cầu Irúc và thường được lấy từ các trang web trên internet, qua các kỹ thuật phân tích, khai thác đữ liệu đẻ trích
13
Trang 14Trích rủi thực thể trong văn bản tiếng Việt
rút các mẫu thông tin hữu ich Ví dụ với việc cầu trúc lại thông tia từ †in quảng cáo, tin
‘ban hang trên internet có thê giúp hỗ trợ tư vần, định hướng người dùng Khi mua sim
Việc trích rút và câu trúc lại các mẫu tin tìm người, từm việc sẽ giúp cho quá trình phân
tích thông tin nghệ nghiệp, xu hưởng công việc hỗ trợ cho người tim việc cũng như nhà
tuyển đụng
2.1.2 Khái niệm trích rút thông tin
Tiện nay có rất nhiéu định nghĩa khác nhan về trích rút thông tin Sau đây là các
định nghữa được ding phé bién trén internet liên quan dễn trích rút thông tin:
- _ Theo những chuyên gia về trích rút thêng tin của GATE [16] thì những hệ
thông Irích rút thông tăm sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng dược định nghĩa trước Các thông tin có thể
là sự kiện, các thực thế hay các mồi quan hệ
- Theo Bikvil(1999) [12]: Trích rút thông tin là việc xác dịnh và trích rút các
đối tượng, sự kiện hay môi quan hệ trong một văn bản ngôn ngữ tự nhiền và chuyển đổi nó thành đổi Lượng có cầu trúc,
- Theo tién si Alexander Yates [1] ở trường dại hoc Washington thi trich nit thông tin là quá tinh truy vẫn những thêng tin câu trúc từ những văn bản
không cầu trủc Như vậy có thế hiểu trích rút thang tin là quá trình phát hiện các thông tin có câu
trúc từ văn có cầu trúc, bán câu lúc hay phí cầu trúc sau đó lưu trữ đưới đạng đũ liệu
có cầu trúc (ví dụ: cơ sở dữ liệu, file xml, file toxt od dinh dang, .) Trích rút thông tin
là một kỹ thuật, lĩnh vực nghiên cửu có liên quan đến truy vẫn thông từ, kbai thác dữ
liệu, cũng như xữ lý ngôn ngữ tự nhiền
Các nghiên cứu hiện nay liên quan đắn trích rút thông tin văn bản tập trưng vào:
14
Trang 15Trích rủi thực thể trong văn bản tiếng Việt
~_ Trích rút thực thể có tên (Named Hntity Recognition); vige trich nit ra cdc
thực thể có tên tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một dịa danh, nơi chón
- ‘rich rit quan hệ (Relationshrp Lixtraction): cân xác định môi quan hệ giữa các thực thế đã nhận biết từ tài liệu
2.1.3 Các phương pháp trích rút thông tin
Để giải quyết bài toán trích rút thông tin, có rất nhiên hướng xử lý nhưng có thể
chia thành hai phương, pháp chính |5,8| là dựa vào trị thức và dựa vào học máy
a lưỡng tiếp cận đựa trên trị thức
C6 rất nhiều hệ thống trích rút trên thể giới dược xảy dung dựa trên hướng tiếp
cain nay, vi du [8]: AutoSlog(Riloff, 1993), Crystal (Soderland, 1995), 1AS/
chính lá một thành phần cúa hệ thống 1H và được gọi là “kuowlegde engieer “ [5[
Die điểm của việc xây dựng hệ thống theo hướng tiếp cận này là hệ thống luật được xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng của lừng người trong từng lĩnh vực, các mẫu hay các luật được tạo ra và được kiểm duyệt một cách kỹ lưỡng,
có quy mô bởi các “imowlegde engineer” Với các hệ thống xây đựng theo hướng này,
Để xây dựng một hệ thống có hiệu suất cao thường những quy tắc luôn được
kiểm định nhiều lần được sửa lặp đi lặp lại để tôi tra hệ thống Có thể mô hình hóa
việc xây dụng này theo hình sau
15
Trang 16Trich riit thee thé trong van ban tiéng Viet
Hình 1 Mô hình xây dựng IE theo hưởng tiếp cận dựa trên trí thức
Với cách tiếp cận nảy thì hệ thông hoạt động theo một chu trình Để xây dựng
một hệ thông hoạt động tốt đòi hỏi luôn luôn có sự tương tác giữa người viết luật và hệ
thông củng với kho tải liệu huần luyện và tập luật luôn luôn được cập nhật đề cho hệ thong có thể hoạt động tốt nhất
b Hướng tiếp cận dựa trên mô hình học máy
Với hệ thống IE được xảy dựng theo hướng tiếp cận dựa trên tri thức thì chủ
trinh kiểm tra và sửa lỗi gặp rất nhiều khỏ khăn và phụ thuộc vào nhiều yếu tổ như:
loại ngôn ngữ, thời gian và khả năng viết luật
Để khắc phục giới hạn trên, phải xây dựng một mô hình bằng cách nảo đỏ có thẻ
tự học được Với mô hình này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn
ngữ vả làm tăng tính linh hoạt cho hệ thông Phương pháp nảy chủ yêu dựa vao học
may théng kê Có rất nhiều phương phap hoc may nhu mé hinh Markov an (Hidden
16
Trang 17Trich riit thee thé trong van ban tiéng Viet
Markov Models-HMM), cac m6 hinh Markov cuc dai hoa Entropy (Maximum Markov Models — MEMM), m6 hinh cae truong ngau nhién cé dieu kién ( Conditional Random
Fields — CRF), phuong phap may vector hé tro ( Support Vector Machine SVM)
Các đặc điểm phải kẻ đền của việc xây dựng hệ thông IE theo hướng học máy là không cân một người nào đó hiểu biết về việc viết luật như thể nào Điều cần thiết ở day lả một người nào đó biết được mien ứng dung vả hiểu được những thông tin cần
trích rút Khi dữ liệu huấn luyện được chú thích, thuật toán huân luyện chạy vả sinh ra
những thông tin học được hay còn gọi là model đề phục vụ cho quả trình trích chọn tự
động sau này Các thuật học sẽ dựa trên dữ liệu đẻ tự học và thu được một model, dựa
trên model nảy nó sẽ trích chọn các thông tin trên dữ liệu mới Mô hình với hưởng tiếp,
cận nảy được mô tả như sau:
Hình 2 Mô hình xây dựng IE theo học máy:
Với hệ thống IE xây dựng hưởng nảy phải tập trung vảo việc tạo ra dữ liệu huấn
luyện Khi đó thông qua việc quy định thuật toản học, hệ thông có thể tự học mà không
cần sự can thiệp của bắt kỳ chuyên gia nào Tuy vậy việc xây dựng và lưu trữ tập dữ
liệu huần luyện rất khó và chỉ phỉ cao vì đề hệ thông cỏ thẻ thực hiện tót thì yêu câu tập
Trang 18Trích rủi thực thể trong văn bản tiếng Việt
tuân luyện phải nhiều, Khi thêm hoặc xóa các thuộc tỉnh trích rút thì càn phải thay dối trên toàn tập huận luyện Vì thể đó cũng là hệ quả đẫn đến việc khó sửa đồi
Nhe vay trước khi xây dựng một hệ thông trích rút, tủy vao công việc và những,
điều kiện đã có, ta có thế xây đựng hệ thẳng theo hướng các mô hình học máy hoặc
theo hướng tiếp cận dựa trí thức
Sau đây là một sơ sánh giữa hai phương, pháp [5]:
" - Các trường trích rút có quy luật "- Có thê áp dụng với các trường trích
"_ Cần tập luật, từ diễn, kỹ năng viết rút không có quy luật
luật, có trí thức vẻ lĩnh vực trích rút "Cần bộ DI huấn luyện được gán
= Không cân bệ DL huấn luyện nhãn
"Không xử lý dược các trưởng hợp " Khi bộ DL huản luyện cỏ kích
= Khi lập luật phủ hết các trường hợp độ chính xác cao
thì hệ thông có độ chính xác cao
Bảng 1 Bảng so sánh trích rút theo buat và học máy
2.1.4 Thanh phan hé thông trích rúi thông tin
Mặc dù hệ thống trích rút thông tin được xây dụng với nhiễu phương pháp khác xrhau ấp đụng cho ec bai Loan khác nhau, hưng đến có các thành phần chính giống,
nhau Theo MUC-? [10,17{ hệ thông trích rút thông tin cô các thành phần chỉnh như sau:
18
Trang 19Trích rủi thực thể trong văn bản tiếng Việt
1Iệ thông trích rút thông tin
'Xây dịng mẫu phan từ
Xây đựng mẫu quan hệ
Đa rả mẫu kịch ban )
Tĩnh 3 Các thao tác chính của hệ thống trích rút
Qua rnô hình trên có thể thấy, hệ thông trích rút bao gồm các khói cơ bản: tiền xử
lý, trích rút thực thể, giái quyết đồng tham chiếu, xây dựng mẫu phần tử, xây dựng mẫu
quan hệ, đưa ra mẫu kịch bản Tùy thuộc vào lừng ngôn ngữ, lừng bài toán cụ thể mà
có thẻ thêm hoặc bớt một vải khỏi trếtL
a Tiền xử lý
Quả trình tiền xử lý gồm nhiều thao thác, sau đây là một số thao tác cụ thể, Với xỗi hệ thống có thể bao gồm toàn bộ hoặc một số thao tác sau [S]:
-_ Nhận biết định dạng van bin, Voi mot vin ban dẫu vào nói chúng, hệ thống,
phái nhận biết định dạng tai liệu 1a gi: file word, file dang html,
19
Trang 20Trích rủi thực thể trong văn bản tiếng Việt
-_ Tiách cô: Một văn bản dâu vào qua module nảy sẽ được tách thành các câu
Có thể đựa vào các đâu hiệu kết thúc câu để tách, ví đu như dâu “.”, đầu “?”,
dau “!”
- Tach tie: M&i cau lai duge tach thanh cdc th Voi cac ngén nef! nhu tiéng
Anh, tiếng Pháp việc tách từ đơn giản đựa vào khoáng kí tự trắng Ví dụ
với một chuối dầu vào là “ công nghệ thông tin “, khi quy dịnh khoảng trắng,
là đề phân tách các rh, thì qua medule này chuỗi câu trên sẽ được tách thành
4 từ như sau |công, nghệ, thing, tin]
-_ Phân đoạn i: Với một số ngôn ngữ như tiếng Trung hay tiếng Nhật, không,
có ranh giới rõ ràng phân tách giữa các từ, nên việc tách từ khá phức tạp, vì vậy phải có module phân đoạn từ đẻ tách dược rõ rằng và chính xác các từ
~ Gin nhãn từ loại: Các từ sau khả được phân tích hình thải sẽ được gản nhãn
từ loại dựa vào từ điền từ Mỗi Lừ sẽ được gần một nhãn về từ loại băng cách
sử đụng từ điển nhãn dược dịnh nghĩa sẵn Thông thường nhất sẽ có các
nhãn sau: N(đanh từ), V(động từ), Adj(tính từ), Pre(giới tủ),
Vĩ dụ: Với đầu vào là câu đã được lách [hành các từ:
Steve/Job/introduces/the/ Iphone/6/
Sau khi gan whan sé cb dang
Steve —N /Job —N /introduces - V/the - N/ Ipkione- N/6-.N/
b, Trich rut thuc thé ( Named Entity Recognition — NER)
TRay còn gọi là nhận đạng thực thể có tên ( NER) Module này thực biện nhận dang va trích rút các lớp thực thể nhưr tên người (PER), địa điểm(LOC), ngày(DATE), Việc nhận dạng thực thể có thể có độ chỉnh xác lên tới 97% với
20
Trang 21Trích rủi thực thể trong văn bản tiếng Việt
¡ quyết đẳng tham chiều ( Co reference — CO)
Một đối tượng có thế xuất hiện trong một van bản với nhiều tên khác nhau Vì bài toán đặt ra là cần xác định chỉnh xác các trưởng họp củng tham chiếu tới một
đối tượng Nhận đạng đêng tham chiều giữa các thực thế bằng cách kết hợp những,
Camuy và Inava là lại động xe nỗi biếng của Toyota
d Xây dựng mẫu phần từ (Template Element— TE)
Xây dựng các mẫu thông tín mô tả lới thực thể đã được trích rúi Modulc này
dược xây dựng dựa trên quá trình trích rút thực thể và giải quyết dồng tham chiếu, từ
đó sẽ đưa ra một khuôn mẫu thông tin chưng cho các thực thẻ Vẻ cơ bản đỏ cũng như
các bản ghỉ trong cơ sở đữ liệu
© Xây dựng mẫu quan hệ ( Templcte Relation - 'TR)
Trang 22Trích rủi thực thể trong văn bản tiếng Việt
Module nay thực hiện tìm và trích rút ra quan hệ giữa các thực thể,
‡ Dưa ra mẫu kịch ban ( Scenario Template - ST)
ST la nguyên mẫu định dạng đầu ra của hệ thống IE Chúng ràng buộc các thục thể TE với nhau trong sự kiện hay môi quan hệ Điều chỉnh các kết quả TE và TR cho phủ hợp với các kịch bắn sự việc cụ thé Đây là môi rửiệm vụ khó của TE
Sau đây là một ví đụ cụ thê về quá trình trích rút thông tin từ một đoạn tỉn:
The shiny red ANH: Trích rút ra cac thuc thé: “rocket”,
rockeli was fired on “Tuesday”, “Dr ead”, “We Build Rockets”
TR: Quan hệ giữa các thực the: “Dr Head"
làm việc cho “We Build Rockets”
ST: Sự kiện phòng tên lúa
Tĩnh 4 Ví dụ trích rút thông tín then quy trình
Với mỗi module trang quá trình trích rút lại cỏ khó khăn riêng và độ chính xác
cũng khác nhau tủy thuộc vào miễn dữ liệu, ngồn ngữ Sau đây là một số thông kê
trung bình về độ chính xác tối đa của mỗi module theo J IL Wang [10] thực hiện vào
im 2008
¬ 3
Trang 23Trích rủi thực thể trong văn bản tiếng Việt
Module Độ chính xác tôi đa
Trịch rút thêng tin được ứng dụng rộng rãi vào nhiều lĩnh vực từ kinh tế tới chính
trị, lừ khoa học tới đời sống xã hội, Các ứng dụng thực tế như trích rúi thông tin về việc làm, giả cá sản phẩm, dịch bệnh, thời tiết, thông tia người diểu hành các tập doán
doanh nghiệp,
1E được áp dụng nhiễu trong quá trình tim kiểm thông thì phục vụ việc tối ưu kết quả tìm kiểm Ví dụ với hệ thống hỗ trợ việc làm, khi người đùng có như cầu tìm kiếm
một công việc đùng Goolge Search thir rang céng cu Google Search Engine không
thật sự hiểu va dap ing được các yêu cầu tìm kiếm của người dùng Những thông tin người dùng thực sự quan tâm như: các cổng ty nảo có tuyển dụng chức danh hay một aghé nghiệp nào đó, thông tin về các công 1y cần tuyển dụng, liên hệ với ai, chế độ chính sách của mỗi công ty như thể nảo, những, thông tin phản hổi, ý kiến nhận xét từ các nhân viên đã và dang lam tại các công ly ra sao TÁL cả những thông tim như vậy cân thiết phải dược trích rút, tổng hợp va tu van cho người dùng một cách 6 hé thing lay trong lĩnh vực du lịch, vi dụ, một người dùng muốn tìm kiểm thông tín về các nhà Trảng gên đường Nguyễn Du ở Hã nội, kết quả tí kiếm sẽ cho ra rất nhiều nhà hàng,
trên đường Nguyễn Du ở Hà nội, Sài Gòn, Đà Nẵng, Do hé thdng tim theo các từ
23
Trang 24Trich riit thee thé trong van ban tiéng Viet
khóa trong đó 6 2 tir khoa “Nha hang”, “Nguyén Du” De cai thién ket qua chúng ta
tích hợp thêm hệ thống trích rút moi quan hệ vào hẻ thống tìm kiểm để loại bỏ đi kết
quả không mong muốn Trong trường hợp nảy, thông tin về nhà hàng trên đường Nguyễn Du ở Sai Gon, Da Nang sẽ không được hiển thị trên kết quả tìm kiếm Do đỏ kết quả tìm kiếm sẽ chính xác hơn
~ Đường Nguyễn Du ở Hà Nội
Hình 5 Ứng dụng IE trong tìm kiếm thông tin
TE là công cụ hỗ trợ của Web ngữ nghĩa Web ngữ nghữa là các trang, Web có thể
biểu diễn dữ liệu có khả năng kết hợp, phân lớp và khả năng suy diễn trên dữ liệu đó
Sự thành công của các Web ngữ nghĩa phụ thuộc vào khả năng của các ontology cũng
như sự phát triển của các trang Web được chú giải bởi các siêu dữ liệu tuân theo các ontology nảy Trong khi những lợi ích mả Web ngữ nghĩa đem lại rất lớn thì việc xây
dựng các ontology một cách thủ công lả hét sức khỏ khăn Vi lý do nảy, các công cụ
trích rút thông tin tự động từ các trang Web đề “làm đây” các ontology như hê thông
nhận biết các loại thực thẻ là hết sức cần thiết
24
Trang 25Trich riit thee thé trong van ban tiéng Viet
TE ứng dụng vảo các hệ thông hỏi đáp QA (Question Answering) tur déng dura vao
kết quả trả về của máy tìm kiểm, IE hỗ trợ hệ thống trả lời câu hỏi tự động Trong hệ
thong hỏi đáp tự động, việc sử dụng hệ thống trích rút mối quan hệ giữa các thực thể dong vai trò quan trọng Hệ thông hỏi đáp có thê biết tên của một người và đưa ra các
thông tin liên quan đền người đỏ (địa chỉ, chức vụ, cơ quan lảm việc ), hệ thông hỏi
đáp có thể cho biết các thông tìm về các địa danh du lịch và đưa ra các thông tin liên quan ve dia danh đó như các bãi biển, khu nghỉ dưỡng Xem xét một ví dụ dưới đây:
Ví dụ người dùng cản hỏi “Ai lả người sáng lập Facebook? ”, kết quả trả vẻ từ các
search engine rất nhiều và hệ thông phải tìm cách trích ra câu trả lời mả người dùng
mong chở, do la “Mark Zuckerberg” Khi người dùng gửi một câu hỏi đến hệ thống
có dạng như: “Quảng Ninh có những đảo nào? * Hệ thông sẽ phân tích câu hỏi và đưa
ra thực thẻ “Quảng Ninh”, mỗi quan hệ “có đảo” giữa một địa điểm và một hay nhiều bãi biển nảo đó Dựa trên những thông tin nảy hệ thống sẽ trích rút tất cả mỗi quan hệ
“có đảo” có liên quan đền thực thẻ địa điểm "Quảng Ninh” trong tập các văn bản lưu trữ trong hệ thông Câu trả lời mả hệ thông đưa ra cho người đủng chính là tên các hòn
dao cỏ trong mỗi quan hệ “cỏ_ đảo” đã được trích rút ở trên
~ Bao Quan Lan
= Dao Tuan Chau
25
Trang 26Trích rủi thực thể trong văn bản tiếng Việt
Hình 6 Ứng dung TE trong hệ thống hỏi đáp
TE1mg dụng trong các hệ thông hỗ trợ, tư vẫn mua hàng dưới dạng hệ gợi ý Vi
dụ khi người dùng cần tua một món hàng, những thông tín mà người dùng quan tâm
đến như: thẳng tín sản phẩm (giá cả từ cáo cửa hàng, chất hượng sản phẩm, thông tin phân hổi tù người dùng), thông tin nhà cưng cập (chế độ hậu mãi, chất lượng địch vụ, ), thông tia các sân phẩm cùng loại, Người dùng phải tốn nhiều thời gian dé tim kiếm và tự động trích xuất, tổng hợp thông tin theo kiểu của rninh đề có thể quyết định
cho việc mưa hàng
1? dùng cho việo trích rút thông tin từ các bài bảo khoa học như tên táo giá, tiều
đẻ từ mục “header của bài bảo” cũng như những thông tin tir muc “reference” ting
dụng xây dung các hệ thẳng tổ chức chỉ mục, tìm kiếm bai bảo khoa họe Một hệ thông
tim kiểm bài bao khoa học được đùng rộng rãi đó là Citeseer tại hình sau:
Trang 27Trích rút thực thé trong văn bản tiếng Liệt
Quốc Phỏng Hoa Kỳ khởi sướng và hỗ trợ tải chính MUC được dau tu và khuyên
khích nghiên cửu phát triển các phương pháp mới cho trích xuất thông tin Để đánh giá kết quả của thông tin được trích xuất, các chuyên gia đã đưa ra độ đo dựa vào các độ
đo được sử dụng trong lĩnh vực truy vân thông tin (IR) dé là độ chính xác
“Preeision”(P) và đô phủ “Reeall'(R) [9,11]
27
Trang 28Trích rủi thực thể trong văn bản tiếng Việt
Độ chính xác Precision (P): la dé do thẻ biện khả năng tin cậy của thong tin được trích xuất Dược tính là tỷ lệ giữa tổng số câu trả lời đúng tìm thấy với tổng số câu trả lời tìm thấy
Dé phủ Reoall (R): Thể hiện tỷ lệ thông tin được rút trích đúng Bao nhiêu phân
tp: Số kết quả đúng được tìm thấy
tr: Số kết quả đúng không due tim thay
fp: 86 két qué tim thdy khéng đúng
P va R thude khodng [0,1], ket qua t6t nbat 1a 1 P và R có liên quan và ảnh
thưởng lần nhau Khi so sánh, đánh giá một hệ thông hay một phương pháp nên so sánh
và đánh giá dựa trên cả D và IR Theo Line Bikvil, việc so sánh, xem xét cả hai thông số cùng lúc không phải đơn giản, và dễ dáng, Vì thế người ta đã thu cách kết hợp hai độ
đo này và đề xuất một độ đo mới, đó là F-Measure (F),
(Ø8 + 1)PR
#P+R
Thông số 8 xác định mức đồ tương quan giaa độ chính xác R (Recall) va 46 tin
cậy P (Precision), Cac chuyên gia về trích rút thông tin thường sử dụng [ = 1 để đánh
28
Trang 29Trích rủi thực thể trong văn bản tiếng Việt
giá độ do E, Khi đó P và R dược pán trọng số bằng nhau, hiệu năng, của hệ thông dược đánh giá thông qua các giá trị khác nhau của độ chính xác P và độ phủ E, từ đó chúng,
†a có thể so sánh một cách dễ dàng
2xx (P+R) V6i B = 1 thi F-Mearsure: # —
2.2 Trích rút thực thé trong van bản tiếng Việt
hận dạng thực thể têu là một nhiệm vụ cơ bên của hệ thống trích rút thông lún,
đồng thời cũng là thành phân cết lõi của hệ thẳng xử lý ngôn ngữ tự nhiên Nhan dang
thục thể đã được quan tâm và nghiền cứu từ rất lầu Năm 1996, tại hội thảo MỤC lân thử 6 dã định nghữa nhận dạng thực thẻ có tên là xác dịnh và trích rút thực thẻ
Việc nhận dạng những đổi tượng có tên tương đối đơn giản tuy nhiên vẫn tẳn tại rất nhiều nhập nhằng làm cho việc nhận biết các loại thực thẻ trở nên khó khăn Ví dụ
“Hỗ Chí Minh” có lúc được sử dụng như tên người nhưng có lúc được sử đụng như tên
địa đanh, Đặc biệt trong Tiếng Việt thì các nhập nhằng đó lại nhiều hơn đo sự phúc tạp của ngữ pháp ( cụm động từ, cụm danh từ, .) cũng như không có nguồn từ điển đây đủ để tra cứu
Trang 30Trích rủi thực thể trong văn bản tiếng Việt
Ta tìm hiểu một ví dụ: "Hổ Chỉ Minh là một nhà cách mạng, người sảng lap Dang Céng san Việt Nam, một trong những nguời đặt nền móng và lãnh đạo công cuộc dấu tranh giảnh độc lập, toàn vẹn lãnh thé cho Vist Nam trong thể kỹ 20, một
chiến sỹ cộng sản quốc lễ,”
Với ví dụ trên, sau quá trình nhận đạng thực thế, ta mong truôn đánh đầu được
aby sau: “<PER>Hé Chi Minh<(PER> la mét nhà cách mạng, người sáng 14p<ORG> Dang Céng sản Liệt Nam</OIRG>, một trong những người đặt nên móng
và lãnh dạo công cuộc dẤu tranh giành dộc lập, toàn vẹn lãnh thô cho <[LQC>Uiậệt
Nam<tLOC= trong thế ký 20, một chiễn sỹ cộng sẵn quée te”
Với ví dụ trên, trong hệ thông nhận biết thực thế tiếng Việt, quá trình gản nhãn
cho dữ liệu sẽ gặp khỏ khăn cho cạm từ “Đáng Cộng sản Việt Nam”, đây lả tên của một tổ chức nhưng không phải chữ cái nào cũng viết hoa
Có rất nhiều những nghiên cứu về NER tong những năm gản dây mà phân lớn hưởng đến là giải quyết nhập nhằng của các đổi tượng Tiểm năng cúa việc xảy dựng,
xnột hệ thống nhận dạng thực thể có tên rong ngôn ngữ? một cách chỉnh xác là nhằm hỗ trợ các hệ thông khác trong xứ lý ngôn ngữ tự nhiên như
-_ Hệ thẳng tìm kiếm trên Internet
~_ Tóm tắt văn bên, bài bảo bằng cách trước khi dọc bài báo, người đọc có thể lướt
qua đanh sách người, địa điểm, hay tổ chức được đề cập đến trong nội dung của
Trang 31Trich riit thee thé trong van ban tiéng Viet
Hình 8 Kiến trúc hệ thống NER
Bước 1: Tách câu
Với văn bản đầu vào sẽ được tách thành các câu Thông thường với tiếng Việt
hoặc tiếng Anh sẽ dựa vào các kỉ tự kết thúc câu như:
31
„ *?° Tuy nhiên trong,
Trang 32Trich riit thee thé trong van ban tiéng Viet
một số trường hop thi nguyén tic nay khéng ding, vi dụ như sự xuất hiện của dau “.” trong thông tin só
~ Đâu vào: Một đoạn van ban
- Đầu ra: Danh sách các câu
~ Đâu vào: Đoạn văn bản, câu văn bản
~_ Đầu ra: Danh sách Token
Bước 3: Gắn nhãn từ loại
Được sử dụng sau khi tách từ trong câu Mỗi từ sẽ được gán một nhãn về từ loại
bằng cách sử dụng từ điển nhãn được định nghĩa sẵn Trong tiếng Việt, thông thường nhất sẽ có các nhãn sau: đanh từ(N), động từ(V) tính từ(A), đại từ(P), số từ (M), định
từ (D), phụ từ (R), giới từ (E), cảm tù(O), Cụ thể hơn ta có một số phần loại như
trong danh từ lại cỏ các loại: danh từ riêng (Np), danh từ chỉ loại (Ne), danh từ vị tri
(ND,
Vi du:
“Ta có câu sau : Anh Nam đang choi dan Piano
Sau khi gán nhãn từ loại : Anh/N Nam/N đang/R chơi/V đàn/Ne Piano/N
Pe Le