1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn trích rút sự kiện từ văn bản tiếng việt

63 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận Văn Trích Rút Sự Kiện Từ Văn Bản Tiếng Việt
Tác giả Nguyễn Văn Cường
Người hướng dẫn PGS.TS. Lê Thanh Hương
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 63
Dung lượng 1,08 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chinh vì vậy mà trích rút sự kiện đã được ứng dụng váo rất nhiều Tĩnh vục khác nhau như kinh tế, chính trị, văn héa, xã hội, y tế Ngày may cùng với sự phát triển nhanh chóng của Interne

Trang 1

BỘ GIÁO DỤC VẢ BẢO TẠO

TRUONG BAI HOC BACH KHOA HA NOI

NGUYEN VAN CL

TRÍCH RUT SU 'U VAN BAN TLENG VIỆT

Chuyên ngành : Công Nghệ Thông Tin

LUẬN VĂN THẠC SĨ KỸ THUẬT

Công nghệ thông tia

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS LE THANH HUONG

Ha Nội — Nam 2015

Trang 2

DANH MUC CAC HINH VE ceccccsscsenscesseestinstietenesteie XeeeeereeoR

1.5 _ Đóng góp chính của luận văn àcsceeeiereerrrrerrerro.TT

Chuong 2 TONG QUÁT VE TRICH RUT THÔNG TIN SỰ KIỆN 13

2.2.1 Dịnh nghĩa sự kiện à.neeeeiriiririirririrerreueesriee TR

3.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt 16 2.4 Sự khác nhau giữa trích rút thông tú và trích rút sự kiện ¬—

2.5 Ý nghĩa bài toản trích rút sự kiện hội thảo khoa học 4

Trang 3

3.1.3.1 Đặc diễm của các thể

3.1.3.2 Các luật để xác định một thực thể đơn

3.1.3.3 Các luật cho da thực thê on ceeeroee

3.1.3.4 Lựa chọn định dạng của tập luật

3.2 Ưu nhược diễm của phương pháp tiếp cận dựa trên luật

3.3 Tống quan vé Gate

3.3.1 Giới thiệu Gaf€ nHmeieereerde

3.3.2 Kiến trác của Gate

3.3.3 ANNIE (A Nearly New Information Extraction System)

3.3.1 Bộ luật TAPE (Taya Anotation Patterns lingine)

3.4 Mô bình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt

3.5 Phân tích vả thiết kế hệ thông,

3.6 Thiết kế cơ sở dữ liệu

y dựng các luật trong Gate

4.2.1 Luật được xây dựng dịa chỉ như sau

4.2.2 Luật xây đựng thời gian như sau:

4.2.3 Luật xây dụng tên sự kiện như sau cọc

4.3.4 Luật xây dụng link gốc on ni

Trang 4

4.3 Xây dựng hệ thống và giao diện thực nghiệm

4.4 Đưa đữ liệu lên Web, khai thác tìm kiếm thông tin

4,5 Đánh giá quả trình rút sự kiện à ri

4.6 Kết luận chương - - -

Chương 5 KẾT QUA VÀ HƯỚNG PHÁT TRIÊN

5.1 Cáo kết quả đạt được

Trang 5

LỜI CAM ĐOAN

Tôi xin cam: đoan giải pháp trích rút sự kiện lừ văn bản tẳng Việt được trình bày trong luận văn này là do tôi thực biện dưới sự hướng dẫn của PŒ8.T8 Lẻ Thanh

Trang 6

TỜI CẮM ƠN

Tuiận văn Trích rút sự kiện từ văn bân liễng Việt là kế quả của quá trình học tập và nghiên cửu trong suốt thởi gian học tập Thạc Sỹ tại Trường Đại học Bách

*hoa Hà Nội Trong suốt quá trình làm luận văn tác giả luôn nhận được sự chỉ bảo

của PG8.TS, Lẻ Thanh Hương Trước hết

tận lình và những yêu cầu nghiêm khắ

tôi xin bảy tó lòng kính trọng và biết ơn sâu sắc tới PGS.TS Lê Thanh Hương,

người đã truyền đạt những kién thite qui báu cũng như những kinh nghiệm nghiên

cứu khoa học trong suốt thời gian Lắc giả làm luận văn

Dé hoàn thành luận văn này, tác giá xin chân thành cám ơn đến Lan lãnh đạo

Viện Công nghệ thông tin và Truyền thông, Viện Đảo tạo sau đại học, Bộ môn Hệ thông Thông tìm thuộc trường Đại học Bảch khoa Hà Nội đã tạo điều kiện thuận lợi

trong quá trình học tập và nghiên củu để hoàn thành luậ

Với năng lực còn hạn chế luậu văn không tránh được những thiếu sói Tác

giả rất mong dược sự góp ý của quỷ thấy có, anh em ban be ding nghiệp để luận

văn được hoản thiện hơn

Tác giả

Nguyễn Văn Cường

Trang 7

DANH MỤC CÁC TỪ VIÉT TAT

GATE General Architecture for Text Engineering

ANRTE A Nearly New Information Extraction System

Trang 8

ĐANH MỤC CÁC HÌNH VẼ

Hình 3.1 Mỗ hình kiến trúc

GATE

Hình 3.2 Mô hình quá trình trích nat sy kign hdi thao khoa hee

Tinh 3.3 Biểu đồ phân tích chức nằng co

Tình 4.1 Giao diện chỉnh hệ thống GATE

Hình 4.2 Giao diện về trải của hệ thông ŒA'TE

Tĩinh 4.3 Giao diện về phải hệ thẳng GATE

Hình 4.4 Kết quả trích rút từ vẫn bân định dạng tự đo

1linh 4.5 Kết quả trích rút từ văn băn có định dạng

Hình 4.6 Thông tin về tên hội thảo được lưu trong bảng tenhoithao

Tình 47 Dữ liệu được lưu vào các bằng Irong cơ sở đữ liệu

Tinh 4.8 Sau khi trích rút thông tin hiện thị trên website

Hình 4.9 Kết quả tìm kiếm theo tên hội thảo

Hình 4.10 Kết quả tìm kiếm theo chủ dé và thời gian

Hình 4.11 Kết quá tim kiêm kết hợp theo tên hội thảo và theo thời gian Tỉnh 4.12 Giao điện sau khi kích vào duémg link

Trang 9

MỞ ĐẤU

"Trên thể giới đã có rất nhiều cổng trình nghiên cử về trích rút thông tia

(Euformntion Exiraotion - TE), trích rút sự kiện (Event Bxtraction - EE) là môi lĩnh

vực con của trích rút thông tin (Information Extraction - 1E) Trong những năm gẫn đây, trích rút sự kiện đã thu hút được rất nhiều sự quan tâm của các nhà khoa học

trên khắp thể giỏi, nó đã thụ được rhiều kết quả và đuợc cộng đông trên khắp thế giới quan tâm Chinh vì vậy mà trích rút sự kiện đã được ứng dụng váo rất nhiều

Tĩnh vục khác nhau như kinh tế, chính trị, văn héa, xã hội, y tế

Ngày may cùng với sự phát triển nhanh chóng của Internet với việc kết nói say tinh bang thông rộng, việc tiếp cận khối lượng lớn từ các kho dữ liệu văn ban

khắp nơi trên thê giới Chính vi vậy đặt ra cân hỏi làm thể nào chúng †a lây được

Trhững thông tín câu thiết và nhanh sát từ lượng dữ liệu không lễ đó mà mất íL thời

gian nhất Trích rút thông tin cho phép chúng ta thu thập và lọc ra những thông tia

cân thiết một cách dé đảng nhanh chóng và thuận tiện

Trên thế giới đã có nhiền công trình nghiên cứu về trích rút sụ kiện, ở Việt Nam các công trình nghiên cửu về vẫn đề nảy còn ít 1rong luận văn này tác giá sẽ

trình bảy trích rúi thông tín, trích rất sụ kiện, định nghĩa sự kiện, trích rút sự kiện tir

văn bản hội thảo khoa học tiếng Việt, ý nghĩa bải toán trích rút sự kiện, phương

pháp sử dụng trong luận văn, công cụ sử dụng trong luận vẫn,

Trang 10

Chuong 1 TONG QUAN

1.1 Tên để tài

Tên để tài Tiếng Việt Trích rút sự kiện tù văn bản tiếng Việt 'Tên để tải Tiếng Anh: Event extraction from text Vietnamese

1.2 Lý do chọn dễ t

Ngày mày, củng với sự phải triển nhanh của đất nước và hội nhập với khu

vực thi công nghệ thông, thì đóng vai trỏ quan trọng, nó đang phát triển mạnh mẽ vì

thé nó được ứng dựng trong nhiêu lĩnh vực của cuộc sảng xã hội Với sự phát triển

Tranh mẽ của Internet kết nối băng thông rộng cho phép chúng ta tìm kiểm thông tin xnột cách dễ đáng củng với nguồn dữ liệu rất đa dạng và phong phú từ Internet Tuy

nhiên với một kho đữ liệu rất phong phú vá đa dạng trên Internet đó thì không phải

dit héu no cũng chính thống Người sử dụng luôn raong muốn có những thông tr chính xác và được tổng hợp từ nhiều nguồn khác nhau để dễ đàng theo dai, tim kiểm, lưu trữ, vi vậy cân có một hệ thống trích rút sự kiện để người ding để đàng,

khai thác

'Trên thế giới, trích rút sự kiện đang rất được quan tâm Để ứng dụng được vào trong thực tế tủ hệ thống trích rút sự kiện thường được cài cho một ứng dung

sụ thể, Có rất nhiều khía cạnh mà BE chưa khai thác hết Ở môi lĩnh vục khác nhau

thi cd thé ap dụng phương thức tiếp cận khác nhau để giải quyết

Ở Việt Nam, các nghiên cứu về trích rút sự kiện còn íL nhất lá trong Tinh vực trích rút sự kiện từ văn bản Tiếng Việt còn nhiều hạn ché Chính vi vậy tỏi dã lụa chọn để tài: “Trích rút sự kiện từ văn bản tiếng Việt' mong muốn tìm ra những phương pháp giải quyết tốt hơn hiệu quả hơn đạt kết quả tốt hơn, nghiên cứu sâu

hơn

1.3 Mục tiêu nghiên cứu

Từ lý đo chọn đề tải nêu tại mục 1.2 trong luận văn lác giả nghiên cứa phương pháp tiếp cận giải quyết bài toán bích rút sự kiện đề trích rút các thực thể

Tử đó xây dựng và cải đặt một chương trình đemo ứng dựng, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt để hỗ trợ người đùng

Trang 11

1.4 Phạm vi nghiên cứu Phạm vi nghiên cửu: 1rong luận văn tập trung vào việc trích rút các thực

thê trong lĩnh vực hội thảo Tập đữ liệu Huử nghiệm được thu thập từ các trang

Website trực tuyến, các văn bản liên quan dễn hội thảo Trong luận văn tác giả sử dụng hệ thống văn phạm IAPT trong bộ công cụ phần mẻm mã nguồn mé GATE dé

trích rút các thuc 1

các thông tín liên quan đến trích rút nhực Thời gian (bao gỗm:

giờ phút, ngày tháng năm), tên địa chí (địa chí diễn ra hội tháo ở đâu), tên hội tháo

là gì Sau khi trích rút được các thực thế trên thì lưr vào cơ sở đữ liệu San đó đưa

đữ liệu lên trạng để khai thác sử dụng tại đây người sử dụng có thể tìm kiếm theo tên hội thảo, tìm kiểm theo thời gian

1.5 Đóng góp chính của luận văn

-_ Cung cấp phương pháp liếp cận giải quyết bài toán trích rút sự kiện và công cụ để trích rút ra các thuộc tính của thục thê

-_ Để xuất mê hình cho hệ thêng trích rút sự kiện từ văn bản héi thio khoa học tiếng Việt

- Bua ra cai nhin tong quát về lĩnh vực trích rút sự kiện hiện nay,

1.6 Bồ cục của luận văn

Luận văn được chua làm năm chương:

Chương một là phần mở đầu tác giả trình bảy lý do chọn đề tải, mục tiêu

nghiên cứu, phạm vị nghiên cứu và những đồng góp chính của luận vău

Chương hai tắc giã tập trung giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo

khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện

Chương ba cung cấp phương pháp, công cụ tiếp cận đẻ trích rút các thục

thể, tổng quan vẻ công cụ GATE (giới thiện vẻ Gate, kiến trúc của Gate, ANNIE,

bộ luật TAPE), mô Tình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt,

'phân tích và thiết kế hệ thông, thiết kế cơ sở đữ liệu

Chương bón thực nghiệm và đánh giá

Trang 12

Chương năm là phần kết luận và tổng kết lại các kết quả đã dạt dược của thuận văn và đề xuất các hướng nghiên cửa trong tương lai có liên quan đến luận

van.

Trang 13

Chương 2 TỎNG QUÁT VÉ TRÍCH RÚT THÔNG TTN SỰ KIỆN

G trong chương nảy táo giá tập trưng chủ yếu giải quyết các vẫn để sau:

giới thiệu trịch rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bởi (oán tích rủi

sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng, Việt, ý nghĩa bài toán trích rút sự kiện

2.1 Trích rút thông tin

Ngày nay, trich nat théng tin (information Hxtraction - LE ) cé rat nhiều

cách định nghĩa khác nhau Song có thẻ định nghĩa như sau Trích rút thông tin là

quá trình xử lý thông tn mà đầu vào là dạng vin ban ban cầu trúc hoặc văn bần phi cầu trúc như: văn bản, trang web Văn bản nảy sau khi được đi qua hệ thống sẽ tự

động trích rút ra các thục thể như: tên địa chỉ, tên người, tên quốc gia, tên co quan,

tên tổ chức thành đang văn bản có cầu trúc nhằm thỏa mãn: nhù cầu của người sử

vất khó khăn, không hể dễ ràng chính vì thế nó đã thu hút được

sự quan tâm của rất nhiễu các nhả nghiên cứu trong những năm qua Chính vì vậy

trích rút thông lin ngày càng được quan tâm hơu bởi các nhà nghiên cửu khác nhau

vẻ học máy, truy vấn thông tin, cơ sở đữ liệu Do dó hai hội nghị dã diễn ra rất quan

trọng đổi với các nghiên cửu vẻ trích rút thông tin la Message Understanding

Conference (MUC) va Automatic Content Extraction (ACE)

'Trịch rút thông tỉn từ van bản có nhiều nước độ như: trích rút các thực thể

(Named Entity Recognition NER), trích rút quan hệ giữa các thựo thể (Relation

Extraction - RE), phan giải đồng tham chiếu (Co-reference Resolution) Các kỹ thuật được sứ đụng trong trích rút thông tin bao gồm: phân đoạn, phân lớp, kết hợp,

phan cum

Về ứng dụng trong trích rút thông tín rất rộng rãi, trên thế giới TE được ứng, dụng rất nhiều vào việc trich rút thông tin trên Internet như: lẫy thông tin về tên các

công ty, tên giám đốc, theo đối cáo sự kiện Ngoài ra IE còn được ứng dụng váo

cham sóc khách hàng như trích rúI ra các Không tím của khách hang : ho (én, dia chi,

Trang 14

số diễn thoại, ngày tháng năm sinh của khách hàng, địa chỉ cmail, số nhà sau đó lưu vào trong cơ sở dữ liệu với mục địch dé chăm sóc khách hàng tết hơn Trong

những nằm gẫn đây TR đặc biệt chủ trọng và quan lâm trong lĩnh vực y học vì vậy

đã có khá nhiều nghiên cửu dược tiên hành nhằm ứng, dụng 1E vào việc trích rút thông tìn các thực thể trong lĩnh vực ngảnh y như tên protein và gene Các công cụ trích rút thông tím tự động Lừ các trang website như hệ thông Irích rất mối quan hệ giữa các thực thẻ lá rất cần thiết Ngoài ra IE cỏn hỗ trợ hệ thống trả lời câu hỏi tự động

Đài toán trích rút thông tin lừ văn bản có thể được phải biểu như sau -+ Đầu vào: Dữ liệu văn bản bat ky

Đâu ra: Thông tin đưới dạng cỏ câu trúc 2.2 Trích rút sự kiện

Trích rút sự kiện với mục đích là trích rút ra các thông tin có ý nghĩa từ tập

đữ liệu bán câu trúc bay phi câu trúc và được đông đảo cộng đồng các nhà khoa học

TL quam lâm và dẫu tư nghiên cứu Chính vì vậy khải riệm sự kiện lẫn dầu tiên

được tổ chức vào năm 1987 Message Understanding Conferences (MUC) véi su bé trợ của Quỹ nghiên cửu của Bộ quốc phòng Hoa Kỳ Sau đó có rât nhiều các hội

nghị đã được tổ chức tạo thành chuối hội nghị MỤC, Tại mỗi hội nghị thì thông tia cũng được quan tâm khác nhau nhưng đều có đặc điểm chung 1a chứng được trích

rút từ dữ liệu nói về khủng hoàng, Cúc chủ để trong dữ liệu thường là khủng bố, tội phạm, dánh bom và tại hội nghị này MỤC đã dưa ra dược trích rút thông tin dựa

trên mẫu đó là một đóng góp lớn Các mẫu này được ban tỏ chức quy định vì vậy các đội tham gia cần điển thông tỉn vào các mẫu này một cách tự động Kết quả các

sự kiện được trích rút gồm các thông tur người, sự việc, sự vật, tổ chức, thời giam,

địa chỉ, số lượng Dệ chính xác (preoision) năm trong khoảng từ 60% đến 70% va

điôi Lưởng (recal) tù 40% đến S0% [3]của

e nghiên cứu tham dự MƯC

Trích rút nội dung tự déng Automatic Content Lixtractien (ACH) của đại

học Pennsvivania được viết chủ yêu bằng các ngôn ngữ như tiếng Anh, Trung

Quốc, Á rập Đây là một chương trình cũng đã thụ hút được nhiều sự quan tâm Lie

Trang 15

công déng các nhà nghiên cửu khoa học Các thông tin dược trích rút gồm các thực thể, quan hệ giữa các thực thể, vả các sự kiện tham gia vào

Qua đó có thé thay ring Irích rút sự kiện nói riêng và trích rút thông tin nội chung Đây là một vấn dễ rất được quan tam va chủ trọng trong thời dại ngảy nay,

nó nhận được rất nhiễu sự quan tâm của cộng đồng và các nhà khoa học trên khắp

thể giới

2.2.1 Định nghĩa sự kiện

Trích rút sự kiện được giới thiệu lấn đâu tiên vào năm 1987 Message

Understanding Conference (MUC) [2] no đánh đấu một bước tiến trong trích rút sự

kiện Khi đỏ một sự kiện được đmh nghĩa như sau: “một sự kiện có tác nhân, thời

gian, địa chỉ và tác động tói môi trường xung quanh”

Cên thue Doddingion Goorge và cáo cộng sự trong một chương Hình

Autematie Content Iixtraotion (ACT) cũng đã đưa ra định nghĩa về sự kiện như

sau: “một sự kiện là một hành động được tạo bởi những người tham gia"[4] Trong,

chương trình ACE đã chia sự kiện ra thành các loại sau: tác nhân, đối tượng, nguồn

gốo, mục tiêu

Qua các nghiên cứu của các nhà khoa lọc có thể thấy rằng các nghiên cứ

déu dong ý sự kiện có thẻ coi như một mẫu gồm nhiều các thuốc tỉnh Quá trình

trích rút sự kiện quan tâm lâm thế nảo có thể điển các thông tin phủ hợp từ các văn tiần gốc tương ứng cho từng thuộc lính của nó

2.2.2 Bai toán trích rút sự kiện Trích rút sự kiện (Iivent Ixtractien - II) là một lĩnh vực con của trích rút

thông tia Nếu như trích rút thông tỉa chỉ quan tâm các đữ liệu rời rac (tên người, địa chỉ, cơ quan, số điện thoại, ) thí trích rút sự kiện quan tâm nhiều hơn tới tinh

câu trúc và mức độ liên quan của thông tin rong một sự kiện Tù đó, người đọc có

thể dễ răng suy luận ra cả

thông lim có ý nghấa

“Trích rút sự kiện từ văn bản nhận đầu vào là các văn bản phí cầu trúc hoặc

văn bản bán cầu trúc đầu ra nó được biểu điển đưới đạng thông tin có cấu trúc

Thích rút sự kiện có thế áp đụng cho muội miền đữ liệu cụ thể như hội thảo khao học,

Trang 16

théng tin cde tour du lich, lam cha me, họp hội đổng hương, tai nạn giao thông, các

cuộc mitting biểu tỉnh, các sự kiện cho quảng cáo, các thông tin xung quanh sự kiện thưởng bao gồm: Thời gian, địa chỉ, tên sự kiên, số lượng người [ram gia, thành phân tham gia,

Con theo Grishrnan và cộng sự, trích rút sự kiện là một bài toán khó vi phải

xử lý ngôn ngữ tự nhiên (Natural Tanguage Procossing - NI.P) và đặc trưng dữ liệu

[?] Điều nảy dé ràng nhận thấy trích rút sự kiện phụ thuộc nhiều vào ngôn ngữ tự

nhiên mã cụ thể lã bài toán nhận dạng thực thể (Named Intity Reeognition - NER)

Đồng thời, dữ liệu đầu vào của trích rút sự kiện rất đa dạng, phong phú đo đó sẽ ảnh

thưởng tới tính hiệu quá của trong quả trình trích rút

Đài toán trích rút sự kiện nhiệm vụ của nó là: làm thé nào để trích rút các thuộc lính của một sự kiện Để giải quyết vận đề này thủ hiện nay có nhiều phương pháp trích rút ra thuộc tính của sự kiện, trong đó phải kê đến phương pháp sử dựng, luật phương pháp tập luật được sử đụng từ rất sớm ngày nay né vẫn đang tiếp tục được phát triển dễ giải quyết bài Loán mày| 3| Quá trình trích rút bằng phương pháp này thường được sứ dụng các luật dựa vao quá trình khảo sát dữ liệu để trịch ra các

thuộc tính của mội sự kiện

2.3 Trích rút sự kiện từ văn hân hội thầu kh: học tiếng s

éc khai (hac tn there bong vin

Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt Thời gian( giờ

'phút ngày tháng năm), địa chỉ điển ra hội thảo ở đâu? tên hội thảo là gì? Kết quả của trích rút ra được đưa vào trong cơ sở dữ liệu vả đưa lên trang web để thông báo, khai thác các sự kiện hội thảo diễn ra

Trang 17

Ví dụ 1 Hội thảo khoa hẹc dầu vào là đạng văn bản tự do

Nằm trong chuỗi cáo hoạt động khoa hoc dai han của Viện Nghiên cứu Dòng,

ắc Á tuuộc Viện Hàn lâm Khoa học xã hội Việt Nam (Viên Hàn lâm) được lễ chức hàng năm với các chú dẻ khác nhau vẻ Nhật Bản, dược dồng ý của Chủ tịch 'Viện Hàn làm và sự tài trợ của Quỹ Giao lưu Quốc tế Nhật Bản (Japan Foundation),

/9/201 5, tại Hội trưởng 3D, Liễu Giai, Ba Đình, Hà Nội, Viện Nghiên cứu

ngay 0!

Đông Hắc Á (Viện Hàn lâm) tổ chức hội tháo tập hudn (workshop) quốc tế lần thứ

°a với chủ để “Nghiên củu lịch sử - văn hóa Xhật Bản” đợt I trong thời gian 5 ngày (từ 3/9- 9/9/2015) Đây là khóa học ngắn ngày đành cho các cần bộ trế phục vụ công tác nghiên cửu, giảng dạy về Nhật Ban tai cáo viện nghiên cứu và trường đại học tại Việt Nam

Vi du 2 Hội thảo khoa học đầu vào đữ liệu có định đạng (tên hội thảo, thời gian, địa chi)

Bộ Công Thương phối hợp với Công ty TNHH Điện tử Samsung Việt Nam

tổ chức hội thảo về lình vực công nghiệp hỗ tro của Samsung nhằm tìm ra các doanh nghiệp Việt Nam cỏ khá năng trở thành nhà cung cấp trực tiếp hoặc gián tiếp

cho Samsung, cụ thể như sau:

~ Tên Hội thảo: “Triển lăm Hội thảo công nghiệp hỗ trợ của Samsung Điện

~ Thời gian: 8h00, thứ Tư, ngày 15 tháng 7 nắm 2015

- Địa chỉ: Khách sạn Grand Plaza, 117 lrần Duy Hưng, Trung Hỏa, Cầu

Giấy, Hà Nội

Trong khảo sát thực tế, cho thây các hội thâo thường ở đạng van ban tr do

hoặc văn bản có định dạng sẵu, trong cá hai định dạng nảy thi các thuộc tỉnh chính

cân trích rút là: tên hội thảo, thời gian, địa chỉ

2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện

Trích rút sự kiện là một là một lĩnh vực con cúa trích rút thông tin, nêu như

trích rút thông †in quan tâm nhiều tới các đữ liệu rời rạo thì trích rút sự kiện quan

Trang 18

tam nhiều hơn tới tính cầu trúc và mức độ liên quan của thông tin trong một sự kiện 'Từ đó, người đọc có thể dễ ráng suy luận ra các thông tin có ý nghĩa

Trích rúi sự kiện có thể áp dụng cho mội miện dữ liệu cụ thể rửn vụ

tại nạn giao thông, bệnh dịcÌ„ thông tia các tour du lịch, dổng thời dưa ra các thông tin xung quanh sự kiện đó thường bao gồm: Thời gian, địa điểm, tên sự kiện,

số lượng,

2.5 ¥ nghĩa bài toàn trích rút sự kiện hội thảo khoa học

Ý nghĩa của bài toán trích rút sự kiện được rất nhiên các nhà khoa học và

cộng đồng quan tâm

Kết quả trích rút sự kiện hội tháo khoa học từ văn bản tiếng Việt là cơ sở

cho việc khai tháo thông tin, tổng hợp

Ngài ra nó còn giúp cho người dùng tìm kiếm thông tin lên quan đến hội thảo khoa học một cách để đàng

2.6 Kết luận chương

Trong chương này, luận văn đã trình bảy cơ bản về trích rút thông lăn, trích xút sự kiện, định nghĩa sự kiện, bai toán trích rút sự kiện, trích rút sự kiện tử văn bán

hội thao khoa học tiếng Việt, đồng thời nêu ý nghĩa của bài toán trích rút sự kiện từ

văn, Trong chương 3, luận văn sẽ trình bảy phương pháp tiếp cân và công cụ dễ giải

quyết bài toán trích rút sự kiện.

Trang 19

Chương 3 PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN

3 Phương pháp kết hợp luật và học máy

Mỗi phương pháp đều có những ưu nhược điểm riêng Tuy nhiên, trong

luận văn này tác giả không sử dụng phương pháp tiếp cận đựa trên học máy vì

phương pháp nảy cần phối sử dụng một lượng dữ liệu lớn để làm lập huấn luyện mà

việc gắn nhãn đữ liệu đối khi còn tốn thời gian và chỉ phí Tác giả lựa chọn phương

pháp dưa trên huật vì tính tiện lợi và để sử đụng của nó Do đó, trong chương nay,

luận văn trình bày chủ tiết về phương pháp dựa rên tập luật và ông cụ hỗ trợ việc trích rút thuộc tinh vả kiến trúc GATE trong bai toán trích rút sự kiện, mồ hình trích

rút sự kiện từ văn bản trội thão khao học tiếng Việt

3.1 Phương pháp dụa trên tập luật

Phương pháp dựa trên tập luật hay cỏn gọi lá phương pháp dựa trên trị thức

(knowlodge - đriven) Phương pháp đụa lên lập luật thường sử đhng kiến thúc

chuyên gia vẻ miễn dé sinh ra tập luật Người ta xây dựng một bộ tập các luật, phương pháp nảy có đặc điểm để thực hiên, thời gian thực thi nhanh và

3.1.1 Luật cú pháp

Luật củ pháp hay còn được gợi là mâu cú pháp (lexico-syntactic patterns)

huật củ pháp đã được sử dụng sớm trong bài toán trích rút sự kiện Diễn hình cho

phương pháp này là các luật được biểu điển dưới dạng biểu thức chính quy Các

xấu nay được sinh ra từ các chuyên gia miễn dưới dạng tập luật [1],[5]

Cá thể nói luật cú pháp là sự kết hợp của các ký tự và các thông tin cú pháp với các biểu thức chính quy sau khi các biểu thức chính quy này đã được xây dựng,

Trang 20

các biểu thức nảy sẽ dược so khớp với đữ liệu trong văn ban dâu vao dé trich chon

ra các thông tin tương ủng của các thuộc tính Trong một số trường hợp luật cú pháp được biểu diễn ở đạng đơn giản hơn, đó là các từ khoá Tập luậi củ pháp được

sử dụng trong trich rut sự kiện

3.12 Luật ngữ nghĩa Trong một số trường hợp Irích rút sự kiện phôi trích rút các khói miệm có ÿ

nghĩa đặc biệt, Để giải quyết được điều nảy, phương, pháp thường sử đụng, và hợp lý

là sử đụng luật ngữ nghĩa Các luật ngữ nghĩa không đơn giàn là các từ được biểu

điển dưới đang biểu thúc chính quy ma la cae Wt va mdi quan hệ giữa chủng

Dễ hiểu rõ hơn về chúng ta tin hiểu vẻ định dạng vá biểu điễn của tập luật

trong trích rút thực thể

3.1.3 Định dạng và biểu diễn của tập luật

Theo Sunita Sarawagi[6], một luật cơ bản có đạng như sau: "mẫu ngữ cảnh

— hành động" Một mẫu ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn phi lại thuộc tỉnh của một hoặc rhiểu thục thể, Một mẫu được gán nhấn là bao gồm tuột mẫu có biểu thức chính quy được xác định qua các tỉnh năng của thẻ ương văn bản và một

nhấn luỳ chọn Các thuộc tỉnh này có thể được chỉ ra là thuộc tính của thể hoặc ngữ

cảnh hoặc các văn bản trong, các thể xuất hiện,

31.31 Đặc dim của các thể

Sự kết hợp giữa mél thé trong mot câu thường được kết hợp cùng với lập thuộc tỉnh thu được thông qua một hoặc nhiều các tiêu chỉ như

~ Các chuối đại điện cho thẻ thông bảo

- Các loại chính tã của thể, có thế có dạng từ in hoa, từ in thường, hỗn hop

in hoa và mì thường, dầu cách, dấu chấm câu số, ký hiệu đặc biệt

- Cac phân của bài phát biếu của thẻ

Trang 21

Ví dụ, một thể như “New” phủ hợp với từ dâu tiên của từ diễn với tên thành

phd, tên đó sẽ được liên kết với một thuộc tinh “Dictionary - Lookup = start of city.”

~_ Các chú thích kẻm theo các bước xử lý trước dỏ

3.1.3.2 Các luật dỄ xác dịnh một thực thể don

Cáo luật dễ nhận ra một thực thé don dày đủ bao gồm ba loại mẫu sau:

-_ Một mẫu tùy chọn ghi lại bởi cảnh trước khi bắt đâu của một thực thể

-_ Một mẫu phù hợp với các thẻ trong các thực thế

~_ Một mẫu Lày chon để ghi lại bối cảnh sau khi kết thúc của thục thể

Vi dụ về một mẫu đề xác định tên người có dạng “ID Yair Weiss” bao gồm

một thẻ tiêu để được liệt kế trong tập từ điển các chức đanh (có chứa các mục như :

“Prol ”, “Dr”, “Mr” ), một đầu chấm, và hai từ viết hoa là

({Dieionay - Lookup = Titles}{String = “”}(Orthography type = capitalized word} {2})Person Names

Méi diéu kién trong dấu ngoặc nhợn là ruột diểu kiện của một thể dược thông, báo theo sau cùng với số tùy chọn chí ra số lần lặp lại của thế

Ví dụ về một luật để đánh dau (At cả số đi sau các giới từ “by” và “im” là thục

thể năm:

(String="by”|String="in"} ( {Orthography type = Number}):y— Year=:y

Có trái mẫu trong luật máy: mẫu đầu liên để ghi lại ngữ cảnh xuất hiện của các thực thể năm và mẫu thử hai ghi lại các tỉnh chất của thẻ tạo thành “year”

Một ví dụ khác cho việc tìm kiếm tên công ty dang “The XYZ Corp.” or

“ABC Ltd” được tạo bồi:

({Swing="The”}? {Orthography type = All capitalized} {Orthography type = Capitalized word, DictionaryType =Company end})}+ Company name

213.3 Các luật cho da thực thế

Một số luật có dạng biểu thức chính quy véi nhiéu slot, m4i slot dai dién

cho một thục thế kháo nhau do đó luật này dẫn đến sự công nhận của nhiều đổi tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bên phủ đữ liệu theo

Trang 22

định hướng, Ví dụ, hệ thống dựa trên luật WHISE [7| hệ thông, đựa trên nguyên tắc

đã được nhằm mục tiêu cho việc khai thảo từ hồ sơ có cấu trúc như hỗ sơ y tế, các tần phi bảo trì tết bị, và phân loại quảng cáo Các luật này được viết lại từ [7 |, để

trích rút hai thực thể, số lượng phòng, ngủ vá tiền thuê, từ một quảng, cáo cho thuê

căn hộ

({Omhography type Digig}Bedrooms (S_mg “BR”DG]*)

([String ="8”}X [Orthography type = Number}):Price—»Number

of Bedrooms =:Bedroom, Rent =: Price

1.3.4 Lụa chạn định dạng câa tập luật

C6 nhiều hệ thông dựa trên luật state-of-the-art cho phép các chương trình

tủy chọn viết bằng ngôn ngữ thủ tục như lava và C ¡ | thay cho hai thi tue nay Ja các luật GATFI8| hỗ trợ các chương trình Java thay cho ngôn ngữ uáy bằng một luật khác được gọi là IAPI trong hoạt động của một luật IAPI được đánh giá là

một khả năng mạnh mẽ bởi vì nó cho phép phan hành động của các quy tắc để truy

cập các thuộc tính khác nhau mà được sử dụng trong phần tuấu của các quy lắc và được sử dụng để chèn mới các trưởng cho chuối chủ thích Các trường mới cỏ thể được xem như các thuộc tỉnh bổ sung cho một luật

3.2 u nhược điểm của phương pháp tiến cận đựa trên luậL

Phương pháp tiếp cận dựa trên tập luận có những tru điểm sau:

~ Phương phúp tiếp cận đựa trên luật cần sử dụng íL đữ liệu huấn luyện hơn phương pháp tiếp cận dựa trên dữ liệu

- Phương pháp này có thê xây dựng các biểu thúc chính quy tốt cho trích rút thông đựa trên củ pháp, từ vựng, và các thành phan ngữ nghĩa Phương pháp nay cho đỏ chính xác rất cao, độ hỏi tưởng thấp Do đỏ phương pháp nảy rất thích hợp

cho các bài toán chỉ quan tâm đến độ chính xảo

Nhược điểm của phương pháp tiếp cận dựa trên luật

liên cạnh những ưu điểm, phương pháp tiếp cận dựa trên luật còn có những,

nhược điểm sau: Khi sử đựng phương pháp này đỏi hỏi người xây đựng đóng vai tro như chuyên gia miễn dữ liệu, người xây đựng phôi só kiến thức về ngôn ngữ, Lừ

Trang 23

vựng và cú pháp, cần phải rất am hiểu dữ liệu Ngoài ra, tập luật thường được xây dựng để lây ra các thông tin đặc biệt, do đó khi thay đổi sang miễn đữ liệu khác thì

lại phải xây đựng tập luât cho phù hợp Mà việc xây dựng lập luật đôi khi râi lốn

GATH (General Architectue for Text Engineering) là một công cụ phan

xnẻm được xây dựng và phát triển các ứng đụng xử lý ngôn ngữ tự nhiên, nó được

phát triển bởi một nhóm nghiên cứu của Trường Đại hoc Sheffield Anh Quéc tit

xăm 1995 Từ đó đến nay, GA đã trải qua nhiều phiên bán, phiên bản GATL 1.0 được giới thiệu vào năm 1996 vả phiên bản hiện tại là Gate 8.0 (2014) Nó được sử dụng trong các dự án nghiên cứu trong Tĩnh vực bích rút thông tin Hiên nhiều ngôn

ngữ như tiếng Anh, Ily Lạp, Tay Ban Nha, Thụy Diễn, Dức, Ý, Pháp Gate cũng,

hế trợ rất mạnh cho việc phát triển Web có ngít nghĩa

Trang 24

3.3.2 Kiến trúc của Gate

Sơ đồ kiến trúc của Gate như sau

*all communication via fixed APIs

*low coupling, high modularity, high

l Format | |[Document <a

nnotation logy | Onto- || net ||eteers

Hình 3.1 Mô hình kiên trúc của GATE

Mô hình kiến trúc GATE được chia lam 7 lớp chính:

> Lop IDE GUI: Là lớp giao điện trực quan tương tác với người dùng,

cho phép người dủng giao tiếp với GATE dễ dàng và thuận tiện hơn

> Lớp Applieation: Lớp ứng dụng mà GATE đã xây dựng, tiêu biểu như

ANNIE, OBIE, hay các thanh phan ứng dụng tích hợp (Plugin), cỏ thể thêm hoặc

gỡ bỏ vác ứng dụng bằng cach danh dau vao cac plugin can thiết trong Manage

Creole plugins

> Lớp Document Format: Lớp quản lý các loại tai liệu theo định dạng

khác nhau nhu xml, html, pdf

Trang 25

> Lep Corpus: Lop quản lý kho tải liệu gỗm nhiều thành phần khác nhau tập hợp một nhỏm các tải liệu, lớp quán lý kho tài liệu được chia ra thành nhiều

nức khác nhau như:

- Corpus + Document: Mét kho dit ligu bao gỏm 1 hay nhiều tải liệu

- Document Content -> Annotation Set: Từ nội dung tải Ligu dén bé

cu liên kết với những bộ nhần rào

nhấn, nội dụng của tải

-_ Annotation -> Feature Map: Tử nhãn đến đặc trưng của nhân, một nhãn sẽ có những đặc trưng nào

> Lớp Drocessing: Lớp này gồm các thành phần xử lý khác nhau như tách từ , gan nhân từ loại, nhận dạng từ quan điểm

> Lớp Language Resource: Lớp quản lý các đổi tượng dữ liệu đặc biệt trong GÁTE nhực lập Eừ điển (azeiteor), lập tù vựng (lexicon),

> Lép DataStore and Index: Lớp quản lý vẻ lưu trữ như lưu lại trạng thái

của các tài liệu đã xử lý hay các đổi tương xử lý tài liệu

GATE có các ưu điểm như

~ Tình linh động: Gate có thê xứ lý nhiều định dạng văn băn khác nhau như:

xml, pdf, Lex

- Tinh day di: Gate cung cfp day di cac thanh phan co ban nhu:

-+ Thánh phẩn ngôn ngữ (Language Resources): C6 thé fa một kho dữ liệu

(eorpu) hoặc các lài nguyên khác như: tập lừ điễn (gazelteers), tập từ vựng

(lexicons) hay một cầu tric (ontology)

+ Thanh phan xử lý (Processing Resource): Là một chương trình được cải đặt thuật toán xử lý trên các thành phân ngôn ngữ

- Tinh khá dụng: Gate cung cấp một thư viện khá linh hoạt và đây đũ cho

người lập trình java Ngoài ra ta có thê rất để đàng thêm vào những thành phân tích hop (Plugin) mới, bởi cơ chế dễ đảng “thém va tich hop” eda Gate

- Tinh di dimg: Gate cũng cưng cấp một giao diện đỗ họa cho phép người

ding có thể thao tác một cách dé dang và trực quan

Trang 26

3.3.3 ANNIE (A Nearly New Information Extraction System)

ANNIE (A Nearly New Information Lxtraction System) la hé thông rút

trích thông tin bạo gồm lập hợp các tái nguyên xt ly ANNTE dựa trên giải thuật

trạng, thải hữu hạn và ngôn ngữ JAPH,

Tộ tách từ: Mục đích để phân chia văn bản ra thành các từ đơn giản như các

số, dấu chấm, các ki b ác ký tự đặc biết ($,@&,#, ) và những từ thuộc những loại khác nhau Bộ tách từ không, nhất thiết phái sửa đổi cho những ứng dụng khác

tnhau hoặc những loại văn bản khác nhau

Ví dụ: Chữ cái đầu liên viết hoa hoặc tắt cả các chữ cái đều viết hoa

Tộ tách câu: Là quả trình phân chia văn bán thành các câu riêng biệ iệc

B6 gan nhãn từ loại: Một nhăn từ loại như một chú giải cho mỗi từ hoặc ký

tt Bộ gan nhãn và bộ tách câu là những thành phân không thể thiểu trong hệ thẳng,

nhận đạng thực 1

Bộ từ điển: Bao gồm một tập hợp cáo tử điễn nhỏ chữa các từ được dink

nghĩa theo ruột tiêu chỉ nào đó Chứa đựng các đánh sách, những danh sách này

được sử dung để hỗ trợ nhận biết thục thể, Trong bất kỳ một chủ giải Lookup nao

cũng có thể có một hoặc hai đặc trưng: đặc trung thứ nhật majorlype đây là thành phân bất buộc và đặc trưng thứ lưi minorType là thành phân tùy chọn có thể có hoặc không Khi bộ từ diễn hoạt động trên vin ban, các nhin (annotations) kiéu Lookưp (một kiểu nhãn mặc định trong GATT) được tạo ra bằng cách so khớp các

tử trong bộ từ điễn với các xân trong văn bản Các nhấn (annotation) kién Lookup này sẽ được sử dụng trong khi viết các luật JAPH

Tộ đánh đâu ngữ nghĩa: Dây lả những luật được viết thủ công thông qua

Trang 27

3.3.4 BG Init JAPE (Java Annpfatian Patterns Engine)

JAPL la một thành phân quan trong nhit trong GA'TE nó đóng vai trẻ chính

giúp công cụ này xử lý ngôn ngữ tự nhiên Bộ luật Japo là thành phần cơ bản trong

khung làm việc của Gate cho phép ta xây dựng các tập luật bằng các cách viết biểu,

thức chính quy trên nhãn (arrnotation) và tạo ra các nhãn mới trong văn bản

Một bộ luật TAPE báo gồm một lập các doạu (phases), mỗi doạu lại bao

am một tập các luật Mỗi tập luật lại gồm hai thành phản là vẻ trái (Left-hand-side

- LIS) và về phãi (Right-band-siđe - R15), hai về được phân biệt bởi ký hiệu:

“~>”.- Có củ pháp như sau

LUS (left-hand-side) —>- RUS (right-hand-side)

hi mệt luật TAPE thực thi thì các luật nhỏ bên trong của nó được thực

hành một cách tuân tự từ trên xuống như củng Priornty và mỏ thí hành các luật Lừ thấp đến cao (mặc định là -I nẻa không khai báo Priority)

Trong luật TAPE gảm hai thành phan chính là mệnh để trái (LHS) vả mệnh

dễ phả¡(RH8) Trong khi mệnh dễ phải (RHS) thẻ hiện hành động cần dược thực thì khi ménh dé trai (LHS) được thỏa mãn so khóp

-Mệnh đề trái T.H5 (paterns): Lá một biểu thức của các mẫu ørmotaiion

“¡" : phép lập một lân hoặc lặp nhiều lần

Cac miu duge sản trong mệnh để trải sẽ được sử dụng trong mệnh đề phái

- Mệnh đê phải RITS : Sử đựng các mẫu được cung cấp bái mệnh đề trái đề

thực thĩ một lệnh nào đó và thông thường 1a tạo ra các nhấn arnmolatton mới Các

araotation thỏa mãn yêu câu người dùng,

tỳ

Trang 28

Dé thuận tiên và tránh lặp di lặp lại các thành phan TAPE đưa ra khái niệm thay thé Macro Macro biểu điển một biểu thức chính quy sau đỏ được dùng thường,

xuyên trong về trải của luật

Một số lựa chọn khi viết luật:

Thành phần đầu tiên của mỗi luật TAPI ta phải thiết lập là một thuộc tính là

“Control” Cé 5 gid trị cho Control “all”, “once”, “brill”, “firs” va “appell”

Kiểu nảy phải được xác định khu bắt đầu mỗi văn phạm chứa các luật để điều khiển

so khép mẫu

Cú pháp:

Options: control=<kiéu diéu khién>

- Kiéu “Brill”: Khi có nhiền ơn một luật được thỏa mãn trên một văn bản, thì tắt cả các luật đó đều được thực thú San quá tình so khớp diễn ra ở tắt cả các luật thì điểm bắt đầu quá trình sơ khớp tiếp theo sẽ là điểm kết thúc của luật được so khớp dài nhất của quá trình trước

- Kiểu “4l” cũng giống như “brill” nó cha phép tắt cả các luật dược so khớp trên cùng một đoạn văn ban tuy nhiên nó có điểm khác biệt với “bưil]” là điểm tất đầu quả Irùnh so khớp Hếp theo là điểm bái đầu của nhãn gần nhất sau nó Có thế

nói kiểu “all” so kop réng hon “Brill”

- Kiéu “onee” Chí cỏ luật đầu tiên thỏa mẫn quá trinh so khớp được thực

tiện

- Kidu “First”, Luat được thực hiện ngay khi quá trình so khớp dâu tiên được thỏa mãn Cho nên khi chọn giá trị này thì chỉ có luật nào thỏa mãn đầu tiên sẽ được biếu điễn ra Bởi vậy nó không thích hợp che các luật sử đụng “1”, “2%, «2®

- Kidu “Appelt”: Chi co một huật thóa mãn quả trình so khớp có độ thục thi cao nhất được biếu điễn ra nhưng theo một thứ tự tru tiên sau:

L Trơng một đoạn văn bản nếu có nhiều luật thỏa mãn so khớp lừ vị trí X, nhưng luật nảo thóa mãn trên vừng đài nhất sẽ được thực thị

I Nếu qua bước 1 vẫn cên cô nhiều hơn một luật so khớp cùng một đoạn

trong văn bản thì luật náo có độ rà tiên cao hơn sẽ được thực hú

Trang 29

+ Nếu qua bước 2 van còn có nhiều hơn một luật so khớp củng doan trong

văn bản và có độ uu tiên như nhau thi luật nào được định nghĩa sau cùng trong văn phạm TAPE sẽ được thực thí

'Trong do cac priority la cảc số nguyên dương, theo thứ tự số lớn hơn thi

priority có độ tru tiên lớn hơn Nếu không khai báo trong luật thì priority có giá trị

xuặc định priority là -] (miority thốp nhấU

Vi du vé khai bao control

Phase: Entity

Input: Lookup, looken

Options: control= appelt

Vi đụ về JAPE Grammar dime 4é gan nhăn cho thực thẻ:

Rule: NewCity ({Lockup.minnorType == city}): Joc

=> ‘Joe Location = {kind =“

J" mle="NewCity"}

G vi du nay thi “loc” la nbn Vé phai của luật là phẩn theo sai mỗi (én Nhan “loc” duge chuyển tới về phải của luật và chủ giải có kiéu Location duge thêm vào mẫu, với hai đặc trưng Lày chọn là kind và rule các giá trị lần lượt lương

vung a “city” va “NewCity”

3.4 M6 hinh trich rat sq kign tr van ban hgi thao khoa hoc titng Việt

Qua khảo sát thực tế đữ liệu về hội thảo khoa học Để trích rủi ra các thực thể tử hội thảo khoa học tảz giá sử dụng các luật văn phạm JAPE trong GATE dé trích rút Tác giả để xuất mô hình trích rút sự kiện đựa vào các tập luật văn phạm

TATE trong bộ công cụ mã nguồn mở GATE như sau:

Trang 30

Các văn bản

hội thảo

-Tach tir -Tach cau Gan nhan tir loai_)

Đưa lên

Website khai

thac

Hinh 3.2 M6 hinh qua trình trích rút sự kiện hội thảo khoa học

Dữ liệu được lấy từ website thông qua việc thu thập thông tin để được dữ liệu đầu vảo là các văn bản hội thảo, dữ liệu này sẽ qua một module GATE đề trích:

rút thông tin liên quan đến hội thảo như: Thời gian (giờ phút ngày tháng năm diễn

ra sự kiện), Địa chỉ (nơi diễn ra sự kiên), tên sự kiên Sau khi trích rút được các

thông tin trên thi lưu vảo cơ sở đữ liệu sau đỏ kết nối với website để đưa dữ liệu lên

để khai thác

30

Trang 31

3.4.1Thu thập dữ liệu

Công việc đầu tiên đề xây dựng hệ thông trước tiên chúng ta càn thu thập dữ liệu, khi mà đữ liệu đầu vảo cảng chuan cảng chỉnh xác thì cảng để dàng cho phát triển hệ thông

Phan nay có nhiệm vụ thu thập dữ liệu đầu vảo từ các trang website trên

Internet hoặc các bài báo về hội thảo khoa học (Do thời gian cỏ hạn nên tác giả chỉ

thu thập dữ liệu bằng phương pháp thủ công ) để được các văn bản hội thảo sau đỏ

chuyên sang cho bước tiên xử lý Hiện nay nguồn dữ liệu trên mạng internet rất đa

dang vả phong phú nhưng không phải dé dang dé tim được một nguồn dữ liệu hợp

lý và chuẩn xác vì một số tải liệu không theo chính thông cho lên việc thu thập dữ

liệu gặp nhiêu khó khăn

Để thu thập dữ liêu cho luân văn tác giả đã tìm ở một số trang website như:

https://vass.gov.vn/ (Viện hàn lâm khoa học xã hội Việt Nam),

http:/Avww.ciem.org.vn/ (B6 ké hoach va dau tu viện nghiên cứu quản lý kinh tế trung ương) hai trang này thường xuyên cập nhật dữ liệu

3.4.2 Tiền xử lý

3.42.1 Téich từ

Tach tir: Điểm khác biệt của Tiếng Việt so với tiếng Anh đỏ là vân đẻ tách

từ Trong tiếng Anh các từ được phân biệt với nhau bởi dấu cách (khoảng trồng)

Trong tiếng Việt các từ cũng được phân biệt với nhau bởi dâu cách (khoảng trồng)

nhưng ở từ trong tiếng Anh là một tiếng hay một từ có thể bao gồm một, hai, ba hoặc nhiều tiếng Trong tiếng Việt một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó đề tạo thảnh từ có nghĩa

342.2 Tách câu

Tách câu được hiểu la tach văn bản thánh các câu riêng biệt thông thường sẽ

dựa vào sự xuất hiện của các kí tự sau *”, “2°, *!”, được coi là đâu hiệu kết thúc

câu Tuy nhiên điều này không phải lúc nảo cũng đúng, ví dụ như sự xuất hiện của

*” ở trong từ viết tắt, trong một đường dần URL

31

Ngày đăng: 09/06/2025, 13:00

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Hearst M.A (1992), Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on Computational Linguistics , pp.539-545 Sách, tạp chí
Tiêu đề: Automatic acquisition of hyponyms from large text corpora
Tác giả: Hearst M.A
Nhà XB: 14th Conference on Computational Linguistics
Năm: 1992
[2] Ralph Grishman and Beth Sundheim (1996), Message Understanding conference-6: A Brief History, pp. 466-471 Sách, tạp chí
Tiêu đề: Message Understanding conference-6: A Brief History
Tác giả: Ralph Grishman, Beth Sundheim
Năm: 1996
[3] Ralph Grishman Silja Huttunen and Roman Yangaber (2002), Information extraction for enhenced access to disease outbreak reports, Journal ofBiomedical Informastic, pp. 236-246 Sách, tạp chí
Tiêu đề: Information extraction for enhenced access to disease outbreak reports
Tác giả: Ralph Grishman, Silja Huttunen, Roman Yangaber
Nhà XB: Journal of Biomedical Informatics
Năm: 2002
[4] Doddington George R (2004), The automatic content extraction (ace) program - tasks, data, and evaluation Sách, tạp chí
Tiêu đề: The automatic content extraction (ace) program - tasks, data, and evaluation
Tác giả: Doddington George R
Năm: 2004
[6] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai 400076, India, pp. 261-377 Sách, tạp chí
Tiêu đề: Information Extraction
Tác giả: Sunita Sarawagi
Nhà XB: Indian Institute of Technology, CSE, Mumbai 400076, India
Năm: 2008
[7] Stephen Soderland (1999), “Learning information extraction rules for semi- structured and free text,” Machine Learning Sách, tạp chí
Tiêu đề: Learning information extraction rules for semi-structured and free text
Tác giả: Stephen Soderland
Nhà XB: Machine Learning
Năm: 1999
[5] Frederik Hogenboom , Flavius Frasincar , Uzay Kaymak and Franciska de Khác

HÌNH ẢNH LIÊN QUAN

Hình  3.1  Mô  hình  kiên  trúc  của  GATE - Luận văn trích rút sự kiện từ văn bản tiếng việt
nh 3.1 Mô hình kiên trúc của GATE (Trang 24)
Hình  3.3  Biểu  đỏ  phân  tích  chức  năng, - Luận văn trích rút sự kiện từ văn bản tiếng việt
nh 3.3 Biểu đỏ phân tích chức năng, (Trang 33)
Lưu  tên  hội  thảo,  1  bảng  lưu  địa  chỉ,  thời  gian  ta  tách  lâm  hai  bằng  (1  bâng  lưu  giờ, - Luận văn trích rút sự kiện từ văn bản tiếng việt
u tên hội thảo, 1 bảng lưu địa chỉ, thời gian ta tách lâm hai bằng (1 bâng lưu giờ, (Trang 35)
Hình 4.1  Giao diện chính  hệ thông  GATE  Giao  diện  GATE  được  chia  làm  hai  phần  chính: - Luận văn trích rút sự kiện từ văn bản tiếng việt
Hình 4.1 Giao diện chính hệ thông GATE Giao diện GATE được chia làm hai phần chính: (Trang 46)
Hình 4.5  Kết quả trích rút từ  văn bản có định dạng, - Luận văn trích rút sự kiện từ văn bản tiếng việt
Hình 4.5 Kết quả trích rút từ văn bản có định dạng, (Trang 49)
Hình 4.4  Kết  quả trích rút từ  văn bản định dạng tự  do. - Luận văn trích rút sự kiện từ văn bản tiếng việt
Hình 4.4 Kết quả trích rút từ văn bản định dạng tự do (Trang 49)
Hình  4.10  Kết quả tìm kiểm theo  chủ đẻ  vả thời  gian - Luận văn trích rút sự kiện từ văn bản tiếng việt
nh 4.10 Kết quả tìm kiểm theo chủ đẻ vả thời gian (Trang 53)
Hình  4.11  Kết  quả  tìm  kiểm  kết  hợp  theo  tên  hội  thảo  và  theo  thời  gian - Luận văn trích rút sự kiện từ văn bản tiếng việt
nh 4.11 Kết quả tìm kiểm kết hợp theo tên hội thảo và theo thời gian (Trang 54)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm