1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn trích rút thực thể trong văn bản tiếng việt

64 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Trích rút thực thể trong văn bản tiếng Việt
Tác giả Đặng Thị Phương
Người hướng dẫn PGS.TS. Lê Thanh Hương
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Thành phố Hà Nội
Định dạng
Số trang 64
Dung lượng 1,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trích rủi thực thể trong văn bản tiếng Việt 4.3 Đảnh giá kết quá hệ thông trích rút thông tin...à co 4.3 Đánh giá kết quả hệ thông hỏi đáp 4.4 Các khó khắn.... Trích rủi thực thể trong v

Trang 1

Trích rủi thực thể trong văn bản tiếng Việt

MỤC LỤC

LỒI CAM DOÀN .cceccoeioe

LỠI CẢMƠN, ccioeiriee TH HH go eeenireoreoo

1.2 Mục đích nghiền cứu ceeieerrerrsrierererereure TÔ

1.4 Bề cục luận vẫm ch ecerrrrrrrrrreeecee.LT

CHUONG I TONG QUAN VE TRICH RÚT THỰC THẺ 13

2.1.1 Bài toàn trích rút thông HHn ì cà sseeeesrreoe L3

3.1.3 Các phương pháp trích rút thông tin - - 15 2.1.4 Thành phân hệ thông trích rút thông tin ocnieorerorree 18

h

Trang 2

Trích rủi thực thể trong văn bản tiếng Việt

2.1.5 Các ừng đụng liên quan

2.2 Trích rút thực thể trong văn bản tiếng Việt - - 29

2.2.1 Bai toàn trích nitt thare thé

2.3 Ứng dụng trích rút thực thể vào bài toán hỏi đáp - 36

2.3.1 Bài toán hồi đáp eeieiereriiiirirerirreoeeee 3Ô 3.3.2 Hướng tiếp cận cho bài toán hồi đáp cà nrieireerree 38

CHƯƠNGTT BÀI TOÁN TRÍCH RÚT THONG TIN BAT BONG SAN 39

3.1 Bài toán trích rút thông tin bất động sản - 3o

3.1.1 Mô tả bài toán ằieniseirriiiirirerirroeeeee.3Ð

3.2 Ứng dựng trích rút thông tin vào bài toán hỏi đáp thông tin bất động sẵn 49

4 THỰC NGIUIỆM VÀ DÀNH GIÁ 0022052222 ccceecerrrrrxee 35

Trang 3

Trích rủi thực thể trong văn bản tiếng Việt

4.3 Đảnh giá kết quá hệ thông trích rút thông tin à co

4.3 Đánh giá kết quả hệ thông hỏi đáp

4.4 Các khó khắn co

CHƯƠNG V TỐNG KT

5.1 Các kết quá đạt được

5.2 Hướng nghiên củư tiếp theo

TÀI LIỆU THAM KHẢO

Trang 4

Trích rủi thực thể trong văn bản tiếng Việt

LOI CAM DOAN

Tôi xin cam đoan Luận Văn la cdng trinh nghién eta oda bam than ti didi sự hưởng din cua PGS L8 Lê Thanh Hương, Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bắt kỹ công trình nào khác Tôi xin chịu

hoàn toàn trách nhiệm về nội đung quyền luận văn này:

“Tác giả

Dặng Thị Phương

Trang 5

Trích rủi thực thể trong văn bản tiếng Việt

LỜI CẢM GON

Để hoàn thành luận văn nảy, tác giả đã nhận được sự hướng dẫn lận tình cũng, như những yêu cầu nghiêm khắc của PGS.TS Lẻ Thanh Hương, người đã truyền dạt rất nhiều kiển thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận

văn này Tác giâ xin gửi lời cảm ơn chân thành tới cô

Xin gửi lời cảm ơn chân thành tới tắt cả các thầy cô Viện Công nghệ Thông tin,

Tan lãnh đạo Viện Công nghệ Thông tin, Viện đảo tạo Sau đại học và Bộ môn Hệ

thông Thông tin thuộc trưởng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo diễu kiện thuận lợi trong quả trình nghiên cửu và hoàn thánh luận văn

Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và

khách quan, luận văn không tránh khói những thiểu sót Tác giá rất mong được sự góp

ý của quy thay cô, các bạn bẻ và đồng nghiệp để luận văn được hoàn thiện hơn

Tác giả

Đăng Thị Phương

Trang 6

Trích rủi thực thể trong văn bản tiếng Việt

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TÁT

CRF Conditional Random Field

GATE General Architecture for Text Engineering

MUG Message Understanding Conference

NLP Natural Language Processing

Trang 7

Trích rủi thực thể trong văn bản tiếng Việt

Bang 4: Môi trưởng cải dat

a

Trang 8

Trích rủi thực thể trong văn bản tiếng Việt

DANH MỤC HÌNH VẼ

Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16

1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL THình 3 Các thao tác chính của hệ thắng trích Túi 19

Hình 4 Ví dụ trích rút thông tin theo quy trình

Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó

Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27

Hình 8 Kiến trúc hè thống NER

Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,

Hình 12 Mé hinh trich rat LOC str dung NER Stanford

Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll

Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42

Trang 9

Trích rủi thực thể trong văn bản tiếng Việt

CHUONG I: LONG QUAN

1.1 Lý du chụn đề tài

ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng

siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,

cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,

có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,

'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có

Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn

ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,

Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau

có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có

câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội

khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,

muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục

vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,

Trang 10

Trích rủi thực thể trong văn bản tiếng Việt

1.2 Mục đích nghiên cứu

Thông qua để tài “Trích rất thực thể trong vấn bản liếng Việt, tác giả mong uốn dạt được một số mục dịch như sau:

- Tim hiéu téng quan vẻ trích rút thông tín nói chung và cụ thể là trích rút thực

thể trong tiếng Việt

- Xv dựng hệ thông trích rút thông tin cơ bản về bat động sản từ bản tin trên các trang web khác nhau Hệ thống này với mục đích có thể trích rút nhanh chóng các thông tin bất động sẵn trên thị trường phục vụ nhu cảu tìm kiểm

thông tin của người dùng

-_ Dựa trên các kết quả được tích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhụ cầu tim kiểm thông tin bất động sẵn

1.3 Nội dung nghiên cứu

Luận văn nay sẽ tập trung vảo việc trích rút thực thẻ từ van ban bán và phi cầu

trúc thuộc lĩnh vực bất động sản trên môi trường Web Cáo tập đữ liệu thử nghiệm được Thu thập lừ các Irang web giao bản bất đông sẵn phổ biến hiện nay

Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp

trích rút dựa trên luật, từ điển va trích rút dựa trên học máy Tùy từng đối lượng trích

rút cụ thể sẽ có phương pháp riêng cho phủ hợp để thu được kết quá tốt nhất Đã có rất

nhiéu kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác

cao, cũng như các công cụ hỗ trợ quả trình trích rút, nên hệ thống này dược xây đựng

dựa trên một số các kết quả và công cụ đó

10

Trang 11

Trích rủi thực thể trong văn bản tiếng Việt

1.4 Bồ cục luận văn

Bồ cục luận văn cụ thẻ như sau:

Chuwong I: Tong quan

Chương này giới thiêu tổng quan ly do chọn để tài, mục tiêu, bố cục, nội đmp và

ý nghữ của luận vẫn

Chương H: Tổng quan về trích rút thông tin

Trong trương này, tác giả giới thiệu tổng quan vẻ cơ sở lý thuyết trích rút thông

tin, trích rút thực thế: các phương pháp tiếp cận, kiến trúc hệ thông và nghiên cứu ứng

dụng thực lễ

Chương 1T: Bài toán trích rủứ thực thể trong văn bản tẳng Việt

Chương này giới thiệu bài toán trích rút thông tin bắt động sản, mô hinh xây đựng

hệ thống, các phương pháp áp dung

Chương TU: Thực nghiệm và đánh giá

Mô tả hệ thông thực nghiệm, đánh giá kết quá thực nghiệm, kho khăn hạn chế của

ứng đụng,

Chương + Tỗng kết

Tổng kết một số kết quả đạt được và định hướng phát triển luận văn trong tương

i

Trang 12

Trích rủi thực thể trong văn bản tiếng Việt

1.5 Ý nghĩ của luận văn

Sau đây là một số kết quả đạt được trong luận var

-_ Luận văn đã tập trung tỉm hiểu về trích rút thông tin và trích rút thực thể

trong văn bản tiếng, Việt, các phương pháp và kiên trúc chúng của hệ thẳng,

- Ấp dụng bài toán Iích rút thực thể vào lĩnh vực bất động sẵn để trích rút các thông tin cơ bàn từ các bản tin bán cầu trúc và phi câu trúc trên web, phục vụ nhu cầu tìm kiểm của người dùng

ây dựng mỏ hình hồi đáp thân thiện với người dùng dễ phục vụ việc tìm

kiểm thông tin của người dùng

Với những kết quả đã dạt dược, luận văn dã mang lại một số kết quả nghiên cứu nhất định, đồng thời mỡ ra hướng nghiên cửa cho nhiều lĩnh vực khác

Trang 13

Trích rủi thực thể trong văn bản tiếng Việt

CHƯƠNG H: TÔNG QUAN VẺ TRÍCH RÚT THỰC THẺ

Trong chương này, luận văn sẽ trinh bảy lý thuyết về trích rút thông tín, trích rút thực thẻ, áp dụng trích rút thực thể vào bài toán hỏi dáp, kiến trúc hệ thống, các hưởng, tiếp cận và ứng đụng thực tế

2.1 Tổng quan về trích rút thông tin

2.1.1 Bài toán trích rút thông tin

Đứng tước mội kho đữ liệu má thông tin quan lầm nằm rỗi rác trên các vẫn bồn,

bài toán đặt ra là làm thé náo đề lấy được hết các thông tím quan tâm xmột cách nhanh: nhật, phủ hợp nhất phục vụ nhú cầu người dùng? Đây chính là lý do chính cho bài toàn trích rút thông tin ra dời nhằm trích rút ra các thông tin cỏ cầu trúc từ các nguồn dữ liệu khác nhau Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu toản bộ nội dung

của văn bản, nhưng, phải có khả năng phân tích văn bản và rìm kiếm các thông tin liên

quan má hệ thống mong muốn được từm thấy

Việc trích rút thông tim là việc khó khăn va thu hol sự quan tầm đồng đão của

công déng các nhà nghiên cửu trong suốt hơn hai thập kỉ vừa qua Đầu tiên là sự quan

âm của cộng đồng các nhà xử lý ngôn ngữ tự nhiên, sau đó la đồng đáo các nhà nghiên cửu về truy vẫn thông lin, cơ sở dữ liệu, phân tích văn bàn, Hai hội nghị quan trợng đổi với các nghiên cứu về trích rút thông tin là: Automatic Content Extraction (ACE)

va Messpe Understanding Conference (MUC)

Tài Loám trích rút thông lim dược Ap dung trong whiéu Tinh vue nhằm trích rút dữ

liệu từ nhiên nguồn khác nhau, cé thể là từ thư viện các tải liệu, các mẫu tin trên web,

từ email, Dữ liệu chủ yêu ở dang ban câu trúc hoặc không cầu Irúc và thường được lấy từ các trang web trên internet, qua các kỹ thuật phân tích, khai thác đữ liệu đẻ trích

13

Trang 14

Trích rủi thực thể trong văn bản tiếng Việt

rút các mẫu thông tin hữu ich Ví dụ với việc cầu trúc lại thông tia từ †in quảng cáo, tin

‘ban hang trên internet có thê giúp hỗ trợ tư vần, định hướng người dùng Khi mua sim

Việc trích rút và câu trúc lại các mẫu tin tìm người, từm việc sẽ giúp cho quá trình phân

tích thông tin nghệ nghiệp, xu hưởng công việc hỗ trợ cho người tim việc cũng như nhà

tuyển đụng

2.1.2 Khái niệm trích rút thông tin

Tiện nay có rất nhiéu định nghĩa khác nhan về trích rút thông tin Sau đây là các

định nghữa được ding phé bién trén internet liên quan dễn trích rút thông tin:

- _ Theo những chuyên gia về trích rút thêng tin của GATE [16] thì những hệ

thông Irích rút thông tăm sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng dược định nghĩa trước Các thông tin có thể

là sự kiện, các thực thế hay các mồi quan hệ

- Theo Bikvil(1999) [12]: Trích rút thông tin là việc xác dịnh và trích rút các

đối tượng, sự kiện hay môi quan hệ trong một văn bản ngôn ngữ tự nhiền và chuyển đổi nó thành đổi Lượng có cầu trúc,

- Theo tién si Alexander Yates [1] ở trường dại hoc Washington thi trich nit thông tin là quá tinh truy vẫn những thêng tin câu trúc từ những văn bản

không cầu trủc Như vậy có thế hiểu trích rút thang tin là quá trình phát hiện các thông tin có câu

trúc từ văn có cầu trúc, bán câu lúc hay phí cầu trúc sau đó lưu trữ đưới đạng đũ liệu

có cầu trúc (ví dụ: cơ sở dữ liệu, file xml, file toxt od dinh dang, .) Trích rút thông tin

là một kỹ thuật, lĩnh vực nghiên cửu có liên quan đến truy vẫn thông từ, kbai thác dữ

liệu, cũng như xữ lý ngôn ngữ tự nhiền

Các nghiên cứu hiện nay liên quan đắn trích rút thông tin văn bản tập trưng vào:

14

Trang 15

Trích rủi thực thể trong văn bản tiếng Việt

~_ Trích rút thực thể có tên (Named Hntity Recognition); vige trich nit ra cdc

thực thể có tên tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công ty, tên tổ chức, một dịa danh, nơi chón

- ‘rich rit quan hệ (Relationshrp Lixtraction): cân xác định môi quan hệ giữa các thực thế đã nhận biết từ tài liệu

2.1.3 Các phương pháp trích rút thông tin

Để giải quyết bài toán trích rút thông tin, có rất nhiên hướng xử lý nhưng có thể

chia thành hai phương, pháp chính |5,8| là dựa vào trị thức và dựa vào học máy

a lưỡng tiếp cận đựa trên trị thức

C6 rất nhiều hệ thống trích rút trên thể giới dược xảy dung dựa trên hướng tiếp

cain nay, vi du [8]: AutoSlog(Riloff, 1993), Crystal (Soderland, 1995), 1AS/

chính lá một thành phần cúa hệ thống 1H và được gọi là “kuowlegde engieer “ [5[

Die điểm của việc xây dựng hệ thống theo hướng tiếp cận này là hệ thống luật được xây dựng bằng tay hoàn toàn phụ thuộc vào kinh nghiệm riêng của lừng người trong từng lĩnh vực, các mẫu hay các luật được tạo ra và được kiểm duyệt một cách kỹ lưỡng,

có quy mô bởi các “imowlegde engineer” Với các hệ thống xây đựng theo hướng này,

Để xây dựng một hệ thống có hiệu suất cao thường những quy tắc luôn được

kiểm định nhiều lần được sửa lặp đi lặp lại để tôi tra hệ thống Có thể mô hình hóa

việc xây dụng này theo hình sau

15

Trang 16

Trich riit thee thé trong van ban tiéng Viet

Hình 1 Mô hình xây dựng IE theo hưởng tiếp cận dựa trên trí thức

Với cách tiếp cận nảy thì hệ thông hoạt động theo một chu trình Để xây dựng

một hệ thông hoạt động tốt đòi hỏi luôn luôn có sự tương tác giữa người viết luật và hệ

thông củng với kho tải liệu huần luyện và tập luật luôn luôn được cập nhật đề cho hệ thong có thể hoạt động tốt nhất

b Hướng tiếp cận dựa trên mô hình học máy

Với hệ thống IE được xảy dựng theo hướng tiếp cận dựa trên tri thức thì chủ

trinh kiểm tra và sửa lỗi gặp rất nhiều khỏ khăn và phụ thuộc vào nhiều yếu tổ như:

loại ngôn ngữ, thời gian và khả năng viết luật

Để khắc phục giới hạn trên, phải xây dựng một mô hình bằng cách nảo đỏ có thẻ

tự học được Với mô hình này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn

ngữ vả làm tăng tính linh hoạt cho hệ thông Phương pháp nảy chủ yêu dựa vao học

may théng kê Có rất nhiều phương phap hoc may nhu mé hinh Markov an (Hidden

16

Trang 17

Trich riit thee thé trong van ban tiéng Viet

Markov Models-HMM), cac m6 hinh Markov cuc dai hoa Entropy (Maximum Markov Models — MEMM), m6 hinh cae truong ngau nhién cé dieu kién ( Conditional Random

Fields — CRF), phuong phap may vector hé tro ( Support Vector Machine SVM)

Các đặc điểm phải kẻ đền của việc xây dựng hệ thông IE theo hướng học máy là không cân một người nào đó hiểu biết về việc viết luật như thể nào Điều cần thiết ở day lả một người nào đó biết được mien ứng dung vả hiểu được những thông tin cần

trích rút Khi dữ liệu huấn luyện được chú thích, thuật toán huân luyện chạy vả sinh ra

những thông tin học được hay còn gọi là model đề phục vụ cho quả trình trích chọn tự

động sau này Các thuật học sẽ dựa trên dữ liệu đẻ tự học và thu được một model, dựa

trên model nảy nó sẽ trích chọn các thông tin trên dữ liệu mới Mô hình với hưởng tiếp,

cận nảy được mô tả như sau:

Hình 2 Mô hình xây dựng IE theo học máy:

Với hệ thống IE xây dựng hưởng nảy phải tập trung vảo việc tạo ra dữ liệu huấn

luyện Khi đó thông qua việc quy định thuật toản học, hệ thông có thể tự học mà không

cần sự can thiệp của bắt kỳ chuyên gia nào Tuy vậy việc xây dựng và lưu trữ tập dữ

liệu huần luyện rất khó và chỉ phỉ cao vì đề hệ thông cỏ thẻ thực hiện tót thì yêu câu tập

Trang 18

Trích rủi thực thể trong văn bản tiếng Việt

tuân luyện phải nhiều, Khi thêm hoặc xóa các thuộc tỉnh trích rút thì càn phải thay dối trên toàn tập huận luyện Vì thể đó cũng là hệ quả đẫn đến việc khó sửa đồi

Nhe vay trước khi xây dựng một hệ thông trích rút, tủy vao công việc và những,

điều kiện đã có, ta có thế xây đựng hệ thẳng theo hướng các mô hình học máy hoặc

theo hướng tiếp cận dựa trí thức

Sau đây là một sơ sánh giữa hai phương, pháp [5]:

" - Các trường trích rút có quy luật "- Có thê áp dụng với các trường trích

"_ Cần tập luật, từ diễn, kỹ năng viết rút không có quy luật

luật, có trí thức vẻ lĩnh vực trích rút "Cần bộ DI huấn luyện được gán

= Không cân bệ DL huấn luyện nhãn

"Không xử lý dược các trưởng hợp " Khi bộ DL huản luyện cỏ kích

= Khi lập luật phủ hết các trường hợp độ chính xác cao

thì hệ thông có độ chính xác cao

Bảng 1 Bảng so sánh trích rút theo buat và học máy

2.1.4 Thanh phan hé thông trích rúi thông tin

Mặc dù hệ thống trích rút thông tin được xây dụng với nhiễu phương pháp khác xrhau ấp đụng cho ec bai Loan khác nhau, hưng đến có các thành phần chính giống,

nhau Theo MUC-? [10,17{ hệ thông trích rút thông tin cô các thành phần chỉnh như sau:

18

Trang 19

Trích rủi thực thể trong văn bản tiếng Việt

1Iệ thông trích rút thông tin

'Xây dịng mẫu phan từ

Xây đựng mẫu quan hệ

Đa rả mẫu kịch ban )

Tĩnh 3 Các thao tác chính của hệ thống trích rút

Qua rnô hình trên có thể thấy, hệ thông trích rút bao gồm các khói cơ bản: tiền xử

lý, trích rút thực thể, giái quyết đồng tham chiếu, xây dựng mẫu phần tử, xây dựng mẫu

quan hệ, đưa ra mẫu kịch bản Tùy thuộc vào lừng ngôn ngữ, lừng bài toán cụ thể mà

có thẻ thêm hoặc bớt một vải khỏi trếtL

a Tiền xử lý

Quả trình tiền xử lý gồm nhiều thao thác, sau đây là một số thao tác cụ thể, Với xỗi hệ thống có thể bao gồm toàn bộ hoặc một số thao tác sau [S]:

-_ Nhận biết định dạng van bin, Voi mot vin ban dẫu vào nói chúng, hệ thống,

phái nhận biết định dạng tai liệu 1a gi: file word, file dang html,

19

Trang 20

Trích rủi thực thể trong văn bản tiếng Việt

-_ Tiách cô: Một văn bản dâu vào qua module nảy sẽ được tách thành các câu

Có thể đựa vào các đâu hiệu kết thúc câu để tách, ví đu như dâu “.”, đầu “?”,

dau “!”

- Tach tie: M&i cau lai duge tach thanh cdc th Voi cac ngén nef! nhu tiéng

Anh, tiếng Pháp việc tách từ đơn giản đựa vào khoáng kí tự trắng Ví dụ

với một chuối dầu vào là “ công nghệ thông tin “, khi quy dịnh khoảng trắng,

là đề phân tách các rh, thì qua medule này chuỗi câu trên sẽ được tách thành

4 từ như sau |công, nghệ, thing, tin]

-_ Phân đoạn i: Với một số ngôn ngữ như tiếng Trung hay tiếng Nhật, không,

có ranh giới rõ ràng phân tách giữa các từ, nên việc tách từ khá phức tạp, vì vậy phải có module phân đoạn từ đẻ tách dược rõ rằng và chính xác các từ

~ Gin nhãn từ loại: Các từ sau khả được phân tích hình thải sẽ được gản nhãn

từ loại dựa vào từ điền từ Mỗi Lừ sẽ được gần một nhãn về từ loại băng cách

sử đụng từ điển nhãn dược dịnh nghĩa sẵn Thông thường nhất sẽ có các

nhãn sau: N(đanh từ), V(động từ), Adj(tính từ), Pre(giới tủ),

Vĩ dụ: Với đầu vào là câu đã được lách [hành các từ:

Steve/Job/introduces/the/ Iphone/6/

Sau khi gan whan sé cb dang

Steve —N /Job —N /introduces - V/the - N/ Ipkione- N/6-.N/

b, Trich rut thuc thé ( Named Entity Recognition — NER)

TRay còn gọi là nhận đạng thực thể có tên ( NER) Module này thực biện nhận dang va trích rút các lớp thực thể nhưr tên người (PER), địa điểm(LOC), ngày(DATE), Việc nhận dạng thực thể có thể có độ chỉnh xác lên tới 97% với

20

Trang 21

Trích rủi thực thể trong văn bản tiếng Việt

¡ quyết đẳng tham chiều ( Co reference — CO)

Một đối tượng có thế xuất hiện trong một van bản với nhiều tên khác nhau Vì bài toán đặt ra là cần xác định chỉnh xác các trưởng họp củng tham chiếu tới một

đối tượng Nhận đạng đêng tham chiều giữa các thực thế bằng cách kết hợp những,

Camuy và Inava là lại động xe nỗi biếng của Toyota

d Xây dựng mẫu phần từ (Template Element— TE)

Xây dựng các mẫu thông tín mô tả lới thực thể đã được trích rúi Modulc này

dược xây dựng dựa trên quá trình trích rút thực thể và giải quyết dồng tham chiếu, từ

đó sẽ đưa ra một khuôn mẫu thông tin chưng cho các thực thẻ Vẻ cơ bản đỏ cũng như

các bản ghỉ trong cơ sở đữ liệu

© Xây dựng mẫu quan hệ ( Templcte Relation - 'TR)

Trang 22

Trích rủi thực thể trong văn bản tiếng Việt

Module nay thực hiện tìm và trích rút ra quan hệ giữa các thực thể,

‡ Dưa ra mẫu kịch ban ( Scenario Template - ST)

ST la nguyên mẫu định dạng đầu ra của hệ thống IE Chúng ràng buộc các thục thể TE với nhau trong sự kiện hay môi quan hệ Điều chỉnh các kết quả TE và TR cho phủ hợp với các kịch bắn sự việc cụ thé Đây là môi rửiệm vụ khó của TE

Sau đây là một ví đụ cụ thê về quá trình trích rút thông tin từ một đoạn tỉn:

The shiny red ANH: Trích rút ra cac thuc thé: “rocket”,

rockeli was fired on “Tuesday”, “Dr ead”, “We Build Rockets”

TR: Quan hệ giữa các thực the: “Dr Head"

làm việc cho “We Build Rockets”

ST: Sự kiện phòng tên lúa

Tĩnh 4 Ví dụ trích rút thông tín then quy trình

Với mỗi module trang quá trình trích rút lại cỏ khó khăn riêng và độ chính xác

cũng khác nhau tủy thuộc vào miễn dữ liệu, ngồn ngữ Sau đây là một số thông kê

trung bình về độ chính xác tối đa của mỗi module theo J IL Wang [10] thực hiện vào

im 2008

¬ 3

Trang 23

Trích rủi thực thể trong văn bản tiếng Việt

Module Độ chính xác tôi đa

Trịch rút thêng tin được ứng dụng rộng rãi vào nhiều lĩnh vực từ kinh tế tới chính

trị, lừ khoa học tới đời sống xã hội, Các ứng dụng thực tế như trích rúi thông tin về việc làm, giả cá sản phẩm, dịch bệnh, thời tiết, thông tia người diểu hành các tập doán

doanh nghiệp,

1E được áp dụng nhiễu trong quá trình tim kiểm thông thì phục vụ việc tối ưu kết quả tìm kiểm Ví dụ với hệ thống hỗ trợ việc làm, khi người đùng có như cầu tìm kiếm

một công việc đùng Goolge Search thir rang céng cu Google Search Engine không

thật sự hiểu va dap ing được các yêu cầu tìm kiếm của người dùng Những thông tin người dùng thực sự quan tâm như: các cổng ty nảo có tuyển dụng chức danh hay một aghé nghiệp nào đó, thông tin về các công 1y cần tuyển dụng, liên hệ với ai, chế độ chính sách của mỗi công ty như thể nảo, những, thông tin phản hổi, ý kiến nhận xét từ các nhân viên đã và dang lam tại các công ly ra sao TÁL cả những thông tim như vậy cân thiết phải dược trích rút, tổng hợp va tu van cho người dùng một cách 6 hé thing lay trong lĩnh vực du lịch, vi dụ, một người dùng muốn tìm kiểm thông tín về các nhà Trảng gên đường Nguyễn Du ở Hã nội, kết quả tí kiếm sẽ cho ra rất nhiều nhà hàng,

trên đường Nguyễn Du ở Hà nội, Sài Gòn, Đà Nẵng, Do hé thdng tim theo các từ

23

Trang 24

Trich riit thee thé trong van ban tiéng Viet

khóa trong đó 6 2 tir khoa “Nha hang”, “Nguyén Du” De cai thién ket qua chúng ta

tích hợp thêm hệ thống trích rút moi quan hệ vào hẻ thống tìm kiểm để loại bỏ đi kết

quả không mong muốn Trong trường hợp nảy, thông tin về nhà hàng trên đường Nguyễn Du ở Sai Gon, Da Nang sẽ không được hiển thị trên kết quả tìm kiếm Do đỏ kết quả tìm kiếm sẽ chính xác hơn

~ Đường Nguyễn Du ở Hà Nội

Hình 5 Ứng dụng IE trong tìm kiếm thông tin

TE là công cụ hỗ trợ của Web ngữ nghĩa Web ngữ nghữa là các trang, Web có thể

biểu diễn dữ liệu có khả năng kết hợp, phân lớp và khả năng suy diễn trên dữ liệu đó

Sự thành công của các Web ngữ nghĩa phụ thuộc vào khả năng của các ontology cũng

như sự phát triển của các trang Web được chú giải bởi các siêu dữ liệu tuân theo các ontology nảy Trong khi những lợi ích mả Web ngữ nghĩa đem lại rất lớn thì việc xây

dựng các ontology một cách thủ công lả hét sức khỏ khăn Vi lý do nảy, các công cụ

trích rút thông tin tự động từ các trang Web đề “làm đây” các ontology như hê thông

nhận biết các loại thực thẻ là hết sức cần thiết

24

Trang 25

Trich riit thee thé trong van ban tiéng Viet

TE ứng dụng vảo các hệ thông hỏi đáp QA (Question Answering) tur déng dura vao

kết quả trả về của máy tìm kiểm, IE hỗ trợ hệ thống trả lời câu hỏi tự động Trong hệ

thong hỏi đáp tự động, việc sử dụng hệ thống trích rút mối quan hệ giữa các thực thể dong vai trò quan trọng Hệ thông hỏi đáp có thê biết tên của một người và đưa ra các

thông tin liên quan đền người đỏ (địa chỉ, chức vụ, cơ quan lảm việc ), hệ thông hỏi

đáp có thể cho biết các thông tìm về các địa danh du lịch và đưa ra các thông tin liên quan ve dia danh đó như các bãi biển, khu nghỉ dưỡng Xem xét một ví dụ dưới đây:

Ví dụ người dùng cản hỏi “Ai lả người sáng lập Facebook? ”, kết quả trả vẻ từ các

search engine rất nhiều và hệ thông phải tìm cách trích ra câu trả lời mả người dùng

mong chở, do la “Mark Zuckerberg” Khi người dùng gửi một câu hỏi đến hệ thống

có dạng như: “Quảng Ninh có những đảo nào? * Hệ thông sẽ phân tích câu hỏi và đưa

ra thực thẻ “Quảng Ninh”, mỗi quan hệ “có đảo” giữa một địa điểm và một hay nhiều bãi biển nảo đó Dựa trên những thông tin nảy hệ thống sẽ trích rút tất cả mỗi quan hệ

“có đảo” có liên quan đền thực thẻ địa điểm "Quảng Ninh” trong tập các văn bản lưu trữ trong hệ thông Câu trả lời mả hệ thông đưa ra cho người đủng chính là tên các hòn

dao cỏ trong mỗi quan hệ “cỏ_ đảo” đã được trích rút ở trên

~ Bao Quan Lan

= Dao Tuan Chau

25

Trang 26

Trích rủi thực thể trong văn bản tiếng Việt

Hình 6 Ứng dung TE trong hệ thống hỏi đáp

TE1mg dụng trong các hệ thông hỗ trợ, tư vẫn mua hàng dưới dạng hệ gợi ý Vi

dụ khi người dùng cần tua một món hàng, những thông tín mà người dùng quan tâm

đến như: thẳng tín sản phẩm (giá cả từ cáo cửa hàng, chất hượng sản phẩm, thông tin phân hổi tù người dùng), thông tin nhà cưng cập (chế độ hậu mãi, chất lượng địch vụ, ), thông tia các sân phẩm cùng loại, Người dùng phải tốn nhiều thời gian dé tim kiếm và tự động trích xuất, tổng hợp thông tin theo kiểu của rninh đề có thể quyết định

cho việc mưa hàng

1? dùng cho việo trích rút thông tin từ các bài bảo khoa học như tên táo giá, tiều

đẻ từ mục “header của bài bảo” cũng như những thông tin tir muc “reference” ting

dụng xây dung các hệ thẳng tổ chức chỉ mục, tìm kiếm bai bảo khoa họe Một hệ thông

tim kiểm bài bao khoa học được đùng rộng rãi đó là Citeseer tại hình sau:

Trang 27

Trích rút thực thé trong văn bản tiếng Liệt

Quốc Phỏng Hoa Kỳ khởi sướng và hỗ trợ tải chính MUC được dau tu và khuyên

khích nghiên cửu phát triển các phương pháp mới cho trích xuất thông tin Để đánh giá kết quả của thông tin được trích xuất, các chuyên gia đã đưa ra độ đo dựa vào các độ

đo được sử dụng trong lĩnh vực truy vân thông tin (IR) dé là độ chính xác

“Preeision”(P) và đô phủ “Reeall'(R) [9,11]

27

Trang 28

Trích rủi thực thể trong văn bản tiếng Việt

Độ chính xác Precision (P): la dé do thẻ biện khả năng tin cậy của thong tin được trích xuất Dược tính là tỷ lệ giữa tổng số câu trả lời đúng tìm thấy với tổng số câu trả lời tìm thấy

Dé phủ Reoall (R): Thể hiện tỷ lệ thông tin được rút trích đúng Bao nhiêu phân

tp: Số kết quả đúng được tìm thấy

tr: Số kết quả đúng không due tim thay

fp: 86 két qué tim thdy khéng đúng

P va R thude khodng [0,1], ket qua t6t nbat 1a 1 P và R có liên quan và ảnh

thưởng lần nhau Khi so sánh, đánh giá một hệ thông hay một phương pháp nên so sánh

và đánh giá dựa trên cả D và IR Theo Line Bikvil, việc so sánh, xem xét cả hai thông số cùng lúc không phải đơn giản, và dễ dáng, Vì thế người ta đã thu cách kết hợp hai độ

đo này và đề xuất một độ đo mới, đó là F-Measure (F),

(Ø8 + 1)PR

#P+R

Thông số 8 xác định mức đồ tương quan giaa độ chính xác R (Recall) va 46 tin

cậy P (Precision), Cac chuyên gia về trích rút thông tin thường sử dụng [ = 1 để đánh

28

Trang 29

Trích rủi thực thể trong văn bản tiếng Việt

giá độ do E, Khi đó P và R dược pán trọng số bằng nhau, hiệu năng, của hệ thông dược đánh giá thông qua các giá trị khác nhau của độ chính xác P và độ phủ E, từ đó chúng,

†a có thể so sánh một cách dễ dàng

2xx (P+R) V6i B = 1 thi F-Mearsure: # —

2.2 Trích rút thực thé trong van bản tiếng Việt

hận dạng thực thể têu là một nhiệm vụ cơ bên của hệ thống trích rút thông lún,

đồng thời cũng là thành phân cết lõi của hệ thẳng xử lý ngôn ngữ tự nhiên Nhan dang

thục thể đã được quan tâm và nghiền cứu từ rất lầu Năm 1996, tại hội thảo MỤC lân thử 6 dã định nghữa nhận dạng thực thẻ có tên là xác dịnh và trích rút thực thẻ

Việc nhận dạng những đổi tượng có tên tương đối đơn giản tuy nhiên vẫn tẳn tại rất nhiều nhập nhằng làm cho việc nhận biết các loại thực thẻ trở nên khó khăn Ví dụ

“Hỗ Chí Minh” có lúc được sử dụng như tên người nhưng có lúc được sử đụng như tên

địa đanh, Đặc biệt trong Tiếng Việt thì các nhập nhằng đó lại nhiều hơn đo sự phúc tạp của ngữ pháp ( cụm động từ, cụm danh từ, .) cũng như không có nguồn từ điển đây đủ để tra cứu

Trang 30

Trích rủi thực thể trong văn bản tiếng Việt

Ta tìm hiểu một ví dụ: "Hổ Chỉ Minh là một nhà cách mạng, người sảng lap Dang Céng san Việt Nam, một trong những nguời đặt nền móng và lãnh đạo công cuộc dấu tranh giảnh độc lập, toàn vẹn lãnh thé cho Vist Nam trong thể kỹ 20, một

chiến sỹ cộng sản quốc lễ,”

Với ví dụ trên, sau quá trình nhận đạng thực thế, ta mong truôn đánh đầu được

aby sau: “<PER>Hé Chi Minh<(PER> la mét nhà cách mạng, người sáng 14p<ORG> Dang Céng sản Liệt Nam</OIRG>, một trong những người đặt nên móng

và lãnh dạo công cuộc dẤu tranh giành dộc lập, toàn vẹn lãnh thô cho <[LQC>Uiậệt

Nam<tLOC= trong thế ký 20, một chiễn sỹ cộng sẵn quée te”

Với ví dụ trên, trong hệ thông nhận biết thực thế tiếng Việt, quá trình gản nhãn

cho dữ liệu sẽ gặp khỏ khăn cho cạm từ “Đáng Cộng sản Việt Nam”, đây lả tên của một tổ chức nhưng không phải chữ cái nào cũng viết hoa

Có rất nhiều những nghiên cứu về NER tong những năm gản dây mà phân lớn hưởng đến là giải quyết nhập nhằng của các đổi tượng Tiểm năng cúa việc xảy dựng,

xnột hệ thống nhận dạng thực thể có tên rong ngôn ngữ? một cách chỉnh xác là nhằm hỗ trợ các hệ thông khác trong xứ lý ngôn ngữ tự nhiên như

-_ Hệ thẳng tìm kiếm trên Internet

~_ Tóm tắt văn bên, bài bảo bằng cách trước khi dọc bài báo, người đọc có thể lướt

qua đanh sách người, địa điểm, hay tổ chức được đề cập đến trong nội dung của

Trang 31

Trich riit thee thé trong van ban tiéng Viet

Hình 8 Kiến trúc hệ thống NER

Bước 1: Tách câu

Với văn bản đầu vào sẽ được tách thành các câu Thông thường với tiếng Việt

hoặc tiếng Anh sẽ dựa vào các kỉ tự kết thúc câu như:

31

„ *?° Tuy nhiên trong,

Trang 32

Trich riit thee thé trong van ban tiéng Viet

một số trường hop thi nguyén tic nay khéng ding, vi dụ như sự xuất hiện của dau “.” trong thông tin só

~ Đâu vào: Một đoạn van ban

- Đầu ra: Danh sách các câu

~ Đâu vào: Đoạn văn bản, câu văn bản

~_ Đầu ra: Danh sách Token

Bước 3: Gắn nhãn từ loại

Được sử dụng sau khi tách từ trong câu Mỗi từ sẽ được gán một nhãn về từ loại

bằng cách sử dụng từ điển nhãn được định nghĩa sẵn Trong tiếng Việt, thông thường nhất sẽ có các nhãn sau: đanh từ(N), động từ(V) tính từ(A), đại từ(P), số từ (M), định

từ (D), phụ từ (R), giới từ (E), cảm tù(O), Cụ thể hơn ta có một số phần loại như

trong danh từ lại cỏ các loại: danh từ riêng (Np), danh từ chỉ loại (Ne), danh từ vị tri

(ND,

Vi du:

“Ta có câu sau : Anh Nam đang choi dan Piano

Sau khi gán nhãn từ loại : Anh/N Nam/N đang/R chơi/V đàn/Ne Piano/N

Pe Le

Ngày đăng: 09/06/2025, 12:54

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
9. Zigi Zhang. (2013), Named Entity Recognition ~ Chanllenges In Document Annotation, Gazetter Construction And Disambiguation Sách, tạp chí
Tiêu đề: Named Entity Recognition ~ Chanllenges In Document Annotation, Gazetter Construction And Disambiguation
Tác giả: Zigi Zhang
Năm: 2013
10. J, H. Wang. (2008). Text Retrieval and Applications — More Advanced Topics Sách, tạp chí
Tiêu đề: Text Retrieval and Applications — More Advanced Topics
Tác giả: H. Wang
Năm: 2008
12. Line Eikvil. (1999), Information Extraction from World Wide Web Sách, tạp chí
Tiêu đề: Information Extraction from World Wide Web
Tác giả: Line Eikvil
Năm: 1999
14, Rohini Srihari and Wei Li. (1999), Information Extraction Supported Question Answering Sách, tạp chí
Tiêu đề: Information Extraction Supported Question Answering
Tác giả: Rohini Srihari, Wei Li
Năm: 1999
17-http:/Avww itL nist gov/iaui/894.02/related_projects/muc/proceedings/mue_7_toc ht ml18. http://rongbay.com/ Link
11. Katharina Kaiser and Silvia MikschVienna University of Technology Institute of Khác

HÌNH ẢNH LIÊN QUAN

Hình  1.  Mô  hình  xây  dựng  IE  theo  hưởng  tiếp  cận  dựa  trên  trí  thức - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 1. Mô hình xây dựng IE theo hưởng tiếp cận dựa trên trí thức (Trang 16)
Hình  2.  Mô  hình  xây  dựng  IE theo  học  máy: - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 2. Mô hình xây dựng IE theo học máy: (Trang 17)
Bảng  1.  Bảng  so  sánh  trích  rút  theo  buat  và  học  máy - Luận văn trích rút thực thể trong văn bản tiếng việt
ng 1. Bảng so sánh trích rút theo buat và học máy (Trang 18)
Hình  5.  Ứng  dụng  IE  trong tìm kiếm  thông  tin - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 5. Ứng dụng IE trong tìm kiếm thông tin (Trang 24)
Hình  7.  Hệ  thống  tim  kiếm  bai  bao  khoa  hoc  Citeseer - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 7. Hệ thống tim kiếm bai bao khoa hoc Citeseer (Trang 27)
Bảng  3.  Độ  chính  xác  hệ  thông  NER  trong  các  ngôn  ngữ - Luận văn trích rút thực thể trong văn bản tiếng việt
ng 3. Độ chính xác hệ thông NER trong các ngôn ngữ (Trang 31)
Hình  8.  Kiến  trúc  hệ  thống  NER - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 8. Kiến trúc hệ thống NER (Trang 31)
Hình  9.  Ví  dụ  hệ  thống  hỏi  đáp. - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 9. Ví dụ hệ thống hỏi đáp (Trang 37)
Hình  11.  Mô  hình  trích  rút thông tin  BĐS - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 11. Mô hình trích rút thông tin BĐS (Trang 42)
Hình  trích  rút  thông  tin  sử  dụng  Stanford  NER: - Luận văn trích rút thực thể trong văn bản tiếng việt
nh trích rút thông tin sử dụng Stanford NER: (Trang 45)
Hình  13.  Hệ  thống  hỏi  đáp  thông  tin  BĐS - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 13. Hệ thống hỏi đáp thông tin BĐS (Trang 50)
Hình  15.  Sơ  đỗ  khối  trích  rút  thông  tin  từ  câu  hồi. - Luận văn trích rút thực thể trong văn bản tiếng việt
nh 15. Sơ đỗ khối trích rút thông tin từ câu hồi (Trang 52)
Bảng  4:  Môi  trường  cài  đặt - Luận văn trích rút thực thể trong văn bản tiếng việt
ng 4: Môi trường cài đặt (Trang 55)
Bảng  6.  Bang  do  độ  chính  xác - Luận văn trích rút thực thể trong văn bản tiếng việt
ng 6. Bang do độ chính xác (Trang 57)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm