Trích rút sự kiện từ văn bản tiếng việt

Chính vì vậy mà trích rút sự kiện đã được ứng dụng vào rất nhiều lĩnh vực khác nhau như kinh tế, chính trị, văn hóa, xã hội, y tế… Ngày nay cùng với sự phát triển nhanh chóng của Interne

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

NGUYỄN VĂN CƯỜNG

TRÍCH RÚT SỰ KIỆN TỪ VĂN BẢN TIẾNG VIỆT

Chuyên ngành : Công Nghệ Thông Tin

LUẬN VĂN THẠC SĨ KỸ THUẬT

Công nghệ thông tin

NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS LÊ THANH HƯƠNG

Hà Nội – Năm 2015

Trang 2

MỤC LỤC

MỤC LỤC 2

LỜI CAM ĐOAN 5

LỜI CẢM ƠN 6

DANH MỤC CÁC TỪ VIẾT TẮT 7

DANH MỤC CÁC HÌNH VẼ 8

MỞ ĐẦU 9

Chương 1 TỔNG QUAN 10

1.1 Tên đề tài 10

1.2 Lý do chọn đề tài 10

1.3 Mục tiêu nghiên cứu 10

1.4 Phạm vi nghiên cứu 11

1.5 Đóng góp chính của luận văn 11

1.6 Bố cục của luận văn 11

Chương 2 TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN 13

2.1 Trích rút thông tin 13

2.2 Trích rút sự kiện 14

2.2.1 Định nghĩa sự kiện 15

2.2.2 Bài toán trích rút sự kiện 15

2.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt 16

2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện 17

2.5 Ý nghĩa bài toán trích rút sự kiện hội thảo khoa học 18

2.6 Kết luận chương 18

Chương 3 PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH RÚT SỰ KIỆN 19

3.1 Phương pháp dựa trên tập luật 19

3.1.1 Luật cú pháp 19

Trang 3

3.1.3.1 Đặc điểm của các thẻ 20

3.1.3.2 Các luật để xác định một thực thể đơn 21

3.1.3.3 Các luật cho đa thực thể 21

3.1.3.4 Lựa chọn định dạng của tập luật 22

3.2 Ưu nhược điểm của phương pháp tiếp cận dựa trên luật 22

3.3 Tổng quan về Gate 23

3.3.1 Giới thiệu Gate 23

3.3.2 Kiến trúc của Gate 24

3.3.3 ANNIE (A Nearly New Information Extraction System) 26

3.3.4 Bộ luật JAPE (Java Annotation Patterns Engine) 27

3.4 Mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt 29

3.4.1Thu thập dữ liệu 31

3.4.2 Tiền xử lý 31

3.4.2.1 Tách từ 31

3.4.2.2 Tách câu 31

3.4.2.3 Gán nhãn dữ liệu 32

3.4.3 So khớp luật 32

3.5 Phân tích và thiết kế hệ thống 33

3.6 Thiết kế cơ sở dữ liệu 34

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 36

4.1 Một số công cụ sử dụng trong thực nghiệm 36

4.1.1 Về thiết bị cấu hình phần cứng 36

4.1.2 Về công cụ phần mềm 36

4.2 Xây dựng các luật trong Gate 36

4.2.1 Luật được xây dựng địa chỉ như sau: 36

4.2.2 Luật xây dựng thời gian như sau: 40

4.2.3 Luật xây dựng tên sự kiện như sau: 43

4.2.4 Luật xây dựng link gốc 45

Trang 4

4.3 Xây dựng hệ thống và giao diện thực nghiệm 45

4.4 Đưa dữ liệu lên Web, khai thác tìm kiếm thông tin 52

4.5 Đánh giá quá trình rút sự kiện 55

Chương 5 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 57

5.1 Các kết quả đạt được 57

5.2 Hướng phát triển 57

TÀI LIỆU THAM KHẢO 58

PHỤ LỤC 59

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan giải pháp trích rút sự kiện từ văn bản tiếng Việt được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Lê Thanh Hương

Các kết quả trong luận văn tốt nghiệp là trung thực, chưa công bố trên bất kỳ công trình khoa học nào khác và không sao chép toàn văn của bất kỳ công trình nào khác Tôi xin chịu trách nhiệm về nội dung quyển luận văn này

Tác giả

Nguyễn Văn Cường

Trang 6

LỜI CẢM ƠN

Luận văn Trích rút sự kiện từ văn bản tiếng Việt là kết quả của quá trình học tập và nghiên cứu trong suốt thời gian học tập Thạc Sỹ tại Trường Đại học Bách khoa Hà Nội Trong suốt quá trình làm luận văn tác giả luôn nhận được sự chỉ bảo tận tình và những yêu cầu nghiêm khắc của PGS.TS Lê Thanh Hương Trước hết tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS.TS Lê Thanh Hương, người đã truyền đạt những kiến thức qúi báu cũng như những kinh nghiệm nghiên cứu khoa học trong suốt thời gian tác giả làm luận văn

Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn đến Ban lãnh đạo Viện Công nghệ thông tin và Truyền thông, Viện Đào tạo sau đại học, Bộ môn Hệ thống Thông tin thuộc trường Đại học Bách khoa Hà Nội đã tạo điều kiện thuận lợi trong quá trình học tập và nghiên cứu để hoàn thành luận văn này

Tác giả xin chân thành cảm ơn đến Ban Giám hiệu trường Đại học Kỹ thuật - Hậu cần CAND và anh em trong đơn vị đã tạo điều kiện cho tác giả đi học tập và nghiên cứu

Với năng lực còn hạn chế luận văn không tránh được những thiếu sót Tác giả rất mong được sự góp ý của quý thầy cô, anh em bạn bè đồng nghiệp để luận văn được hoàn thiện hơn

Tác giả

Nguyễn Văn Cường

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 3.1 Mô hình kiến trúc của GATE 24

Hình 3.2 Mô hình quá trình trích rút sự kiện hội thảo khoa học 30

Hình 3.3 Biểu đồ phân tích chức năng 33

Hình 4.1 Giao diện chính hệ thống GATE 46

Hình 4.2 Giao diện vế trái của hệ thống GATE 47

Hình 4.3 Giao diện vế phải hệ thống GATE 48

Hình 4.4 Kết quả trích rút từ văn bản định dạng tự do 49

Hình 4.5 Kết quả trích rút từ văn bản có định dạng 49

Hình 4.6 Thông tin về tên hội thảo được lưu trong bảng tenhoithao 51

Hình 4.7 Dữ liệu được lưu vào các bảng trong cơ sở dữ liệu 51

Hình 4.8 Sau khi trích rút thông tin hiện thị trên website 52

Hình 4.9 Kết quả tìm kiếm theo tên hội thảo 53

Hình 4.10 Kết quả tìm kiếm theo chủ đề và thời gian 53

Hình 4.11 Kết quả tìm kiếm kết hợp theo tên hội thảo và theo thời gian 54

Hình 4.12 Giao diện sau khi kích vào đường link 55

Trang 9

MỞ ĐẦU

Trên thế giới đã có rất nhiều công trình nghiên cứ về trích rút thông tin (Information Extraction - IE), trích rút sự kiện (Event Extraction - EE) là một lĩnh vực con của trích rút thông tin (Information Extraction - IE) Trong những năm gần đây, trích rút sự kiện đã thu hút được rất nhiều sự quan tâm của các nhà khoa học trên khắp thế giới, nó đã thu được nhiều kết quả và được cộng đồng trên khắp thế giới quan tâm Chính vì vậy mà trích rút sự kiện đã được ứng dụng vào rất nhiều lĩnh vực khác nhau như kinh tế, chính trị, văn hóa, xã hội, y tế…

Ngày nay cùng với sự phát triển nhanh chóng của Internet với việc kết nối máy tính băng thông rộng, việc tiếp cận khối lượng lớn từ các kho dữ liệu văn bản khắp nơi trên thế giới Chính vì vậy đặt ra câu hỏi làm thế nào chúng ta lấy được những thông tin cần thiết và nhanh nhất từ lượng dữ liệu khổng lồ đó mà mất ít thời gian nhất Trích rút thông tin cho phép chúng ta thu thập và lọc ra những thông tin cần thiết một cách dễ dàng nhanh chóng và thuận tiện…

Trên thế giới đã có nhiều công trình nghiên cứu về trích rút sự kiện, ở Việt Nam các công trình nghiên cứu về vấn đề này còn ít Trong luận văn này tác giả sẽ trình bày trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện, phương pháp sử dụng trong luận văn, công cụ sử dụng trong luận văn

Trang 10

Chương 1 TỔNG QUAN 1.1 Tên đề tài

Tên đề tài Tiếng Việt: Trích rút sự kiện từ văn bản tiếng Việt

Tên đề tài Tiếng Anh: Event extraction from text Vietnamese

1.2 Lý do chọn đề tài

Ngày nay, cùng với sự phát triển nhanh của đất nước và hội nhập với khu vực thì công nghệ thông tin đóng vai trò quan trọng, nó đang phát triển mạnh mẽ vì thế nó được ứng dụng trong nhiều lĩnh vực của cuộc sống xã hội Với sự phát triển mạnh mẽ của Internet kết nối băng thông rộng cho phép chúng ta tìm kiếm thông tin một cách dễ dàng cùng với nguồn dữ liệu rất đa dạng và phong phú từ Internet Tuy nhiên với một kho dữ liệu rất phong phú và đa dạng trên Internet đó thì không phải

dữ liệu nào cũng chính thống Người sử dụng luôn mong muốn có những thông tin chính xác và được tổng hợp từ nhiều nguồn khác nhau để dễ dàng theo dõi, tìm kiếm, lưu trữ,… vì vậy cần có một hệ thống trích rút sự kiện để người dùng dễ dàng khai thác

Trên thế giới, trích rút sự kiện đang rất được quan tâm Để ứng dụng được vào trong thực tế thì hệ thống trích rút sự kiện thường được cài cho một ứng dụng

cụ thể Có rất nhiều khía cạnh mà EE chưa khai thác hết Ở mỗi lĩnh vực khác nhau thì có thể áp dụng phương thức tiếp cận khác nhau để giải quyết

Ở Việt Nam, các nghiên cứu về trích rút sự kiện còn ít nhất là trong lĩnh vực trích rút sự kiện từ văn bản Tiếng Việt còn nhiều hạn chế Chính vì vậy tôi đã lựa chọn đề tài: “Trích rút sự kiện từ văn bản tiếng Việt” mong muốn tìm ra những phương pháp giải quyết tốt hơn hiệu quả hơn đạt kết quả tốt hơn, nghiên cứu sâu hơn

1.3 Mục tiêu nghiên cứu

Từ lý do chọn đề tài nêu tại mục 1.2 trong luận văn tác giả nghiên cứu phương pháp tiếp cận giải quyết bài toán trích rút sự kiện để trích rút các thực thể

Từ đó xây dựng và cài đặt một chương trình demo ứng dụng trích rút sự kiện từ

Trang 11

1.4 Phạm vi nghiên cứu

Phạm vi nghiên cứu: Trong luận văn tập trung vào việc trích rút các thực thể trong lĩnh vực hội thảo Tập dữ liệu thử nghiệm được thu thập từ các trang Website trực tuyến, các văn bản liên quan đến hội thảo Trong luận văn tác giả sử dụng hệ thống văn phạm JAPE trong bộ công cụ phần mềm mã nguồn mở GATE để trích rút các thực thể, các thông tin liên quan đến trích rút như: Thời gian (bao gồm giờ phút, ngày tháng năm), tên địa chỉ (địa chỉ diễn ra hội thảo ở đâu), tên hội thảo

là gì Sau khi trích rút được các thực thể trên thì lưu vào cơ sở dữ liệu Sau đó đưa

dữ liệu lên mạng để khai thác sử dụng tại đây người sử dụng có thể tìm kiếm theo tên hội thảo, tìm kiếm theo thời gian

1.5 Đóng góp chính của luận văn

- Cung cấp phương pháp tiếp cận giải quyết bài toán trích rút sự kiện và công cụ để trích rút ra các thuộc tính của thực thể

- Đề xuất mô hình cho hệ thống trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt

- Đưa ra cái nhìn tổng quát về lĩnh vực trích rút sự kiện hiện nay

1.6 Bố cục của luận văn

Luận văn được chia làm năm chương:

Chương một là phần mở đầu tác giả trình bày lý do chọn đề tài, mục tiêu nghiên cứu, phạm vi nghiên cứu và những đóng góp chính của luận văn

Chương hai tác giả tập trung giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện

Chương ba cung cấp phương pháp, công cụ tiếp cận để trích rút các thực thể, tổng quan về công cụ GATE (giới thiệu về Gate, kiến trúc của Gate, ANNIE,

bộ luật JAPE), mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, phân tích và thiết kế hệ thống, thiết kế cơ sở dữ liệu

Chương bốn thực nghiệm và đánh giá

Trang 12

Chương năm là phần kết luận và tổng kết lại các kết quả đã đạt được của luận văn và đề xuất các hướng nghiên cứu trong tương lai có liên quan đến luận văn

Trang 13

Chương 2 TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN

Ở trong chương này tác giả tập trung chủ yếu giải quyết các vấn đề sau: giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút

sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện

2.1 Trích rút thông tin

Ngày nay, trích rút thông tin (Information Extraction - IE ) có rất nhiều cách định nghĩa khác nhau Song có thể định nghĩa như sau Trích rút thông tin là quá trình xử lý thông tin mà đầu vào là dạng văn bản bán cấu trúc hoặc văn bản phi cấu trúc như: văn bản, trang web… Văn bản này sau khi được đi qua hệ thống sẽ tự động trích rút ra các thực thể như: tên địa chỉ, tên người, tên quốc gia, tên cơ quan, tên tổ chức thành dạng văn bản có cấu trúc nhằm thỏa mãn nhu cầu của người sử dụng

Để trích rút ra các thông tin có cấu trúc từ nguồn dữ liệu bán cấu trúc và phi cấu trúc là một việc rất khó khăn, không hề dễ ràng chính vì thế nó đã thu hút được

sự quan tâm của rất nhiều các nhà nghiên cứu trong những năm qua Chính vì vậy trích rút thông tin ngày càng được quan tâm hơn bởi các nhà nghiên cứu khác nhau

về học máy, truy vấn thông tin, cơ sở dữ liệu Do đó hai hội nghị đã diễn ra rất quan trọng đối với các nghiên cứu về trích rút thông tin là: Message Understanding Conference (MUC) và Automatic Content Extraction (ACE)

Trích rút thông tin từ văn bản có nhiều mức độ như: trích rút các thực thể (Named Entity Recognition –NER), trích rút quan hệ giữa các thực thể (Relation Extraction - RE), phân giải đồng tham chiếu (Co-reference Resolution) Các kỹ thuật được sử đụng trong trích rút thông tin bao gồm: phân đoạn, phân lớp, kết hợp, phân cụm

Về ứng dụng trong trích rút thông tin rất rộng rãi, trên thế giới IE được ứng dụng rất nhiều vào việc trích rút thông tin trên Internet như: lấy thông tin về tên các công ty, tên giám đốc, theo dõi các sự kiện … Ngoài ra IE còn được ứng dụng vào chăm sóc khách hàng như trích rút ra các thông tin của khách hàng : họ tên, địa chỉ,

Trang 14

số điện thoại, ngày tháng năm sinh của khách hàng, địa chỉ email, số nhà… sau đó lưu vào trong cơ sở dữ liệu với mục đích để chăm sóc khách hàng tốt hơn Trong những năm gần đây IE đặc biệt chú trọng và quan tâm trong lĩnh vực y học vì vậy

đã có khá nhiều nghiên cứu được tiến hành nhằm ứng dụng IE vào việc trích rút thông tin các thực thể trong lĩnh vực ngành y như tên protein và gene Các công cụ trích rút thông tin tự động từ các trang website như hệ thống trích rút mối quan hệ giữa các thực thể là rất cần thiết Ngoài ra IE còn hỗ trợ hệ thống trả lời câu hỏi tự động

Bài toán trích rút thông tin từ văn bản có thể được phát biểu như sau:

+ Đầu vào: Dữ liệu văn bản bất kỳ

+ Đầu ra: Thông tin dưới dạng có cấu trúc

2.2 Trích rút sự kiện

Trích rút sự kiện với mục đích là trích rút ra các thông tin có ý nghĩa từ tập

dữ liệu bán cấu trúc hay phi cấu trúc và được đông đảo cộng đồng các nhà khoa học rất quan tâm và đầu tư nghiên cứu Chính vì vậy khái niệm sự kiện lần đầu tiên được tổ chức vào năm 1987 Message Understanding Conferences (MUC) với sự hỗ trợ của Quỹ nghiên cứu của Bộ quốc phòng Hoa Kỳ Sau đó có rất nhiều các hội nghị đã được tổ chức tạo thành chuỗi hội nghị MUC Tại mỗi hội nghị thì thông tin cũng được quan tâm khác nhau nhưng đều có đặc điểm chung là chúng được trích rút từ dữ liệu nói về khủng hoảng Các chủ đề trong dữ liệu thường là khủng bố, tội phạm, đánh bom và tại hội nghị này MUC đã đưa ra được trích rút thông tin dựa trên mẫu đó là một đóng góp lớn Các mẫu này được ban tổ chức quy định vì vậy các đội tham gia cần điền thông tin vào các mẫu này một cách tự động Kết quả các

sự kiện được trích rút gồm các thông tin: người, sự việc, sự vật, tổ chức, thời gian, địa chỉ, số lượng…Độ chính xác (precision) nằm trong khoảng từ 60% đến 70% và hồi tưởng (recall) từ 40% đến 50% [2]của các nghiên cứu tham dự MUC

Trích rút nội dung tự động Automatic Content Extraction (ACE) của đại học Pennsylvania được viết chủ yếu bằng các ngôn ngữ như: tiếng Anh, Trung

Trang 15

cộng đồng các nhà nghiên cứu khoa học Các thông tin được trích rút gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện tham gia vào

Qua đó có thể thấy rằng trích rút sự kiện nói riêng và trích rút thông tin nói chung Đây là một vấn đề rất được quan tâm và chú trọng trong thời đại ngày nay,

nó nhận được rất nhiều sự quan tâm của cộng đồng và các nhà khoa học trên khắp thế giới

2.2.1 Định nghĩa sự kiện

Trích rút sự kiện được giới thiệu lần đầu tiên vào năm 1987 Message Understanding Conference (MUC) [2] nó đánh dấu một bước tiến trong trích rút sự kiện Khi đó một sự kiện được định nghĩa như sau: “một sự kiện có tác nhân, thời gian, địa chỉ và tác động tới môi trường xung quanh”

Còn theo Doddington George và các cộng sự trong một chương trình Automatic Content Extraction (ACE) cũng đã đưa ra định nghĩa về sự kiện như sau: “một sự kiện là một hành động được tạo bởi những người tham gia”[4] Trong chương trình ACE đã chia sự kiện ra thành các loại sau: tác nhân, đối tượng, nguồn gốc, mục tiêu

Qua các nghiên cứu của các nhà khoa học có thể thấy rằng các nghiên cứu đều đồng ý sự kiện có thể coi như một mẫu gồm nhiều các thuộc tính Quá trình trích rút sự kiện quan tâm làm thế nào có thể điền các thông tin phù hợp từ các văn bản gốc tương ứng cho từng thuộc tính của nó

2.2.2 Bài toán trích rút sự kiện

Trích rút sự kiện (Event Extraction - EE) là một lĩnh vực con của trích rút thông tin Nếu như trích rút thông tin chỉ quan tâm các dữ liệu rời rạc (tên người, địa chỉ, cơ quan, số điện thoại,…) thì trích rút sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện Từ đó, người đọc có thể dễ ràng suy luận ra các thông tin có ý nghĩa

Trích rút sự kiện từ văn bản nhận đầu vào là các văn bản phi cấu trúc hoặc văn bản bán cấu trúc đầu ra nó được biểu diễn dưới dạng thông tin có cấu trúc Trích rút sự kiện có thể áp dụng cho một miền dữ liệu cụ thể như hội thảo khao học,

Trang 16

thông tin các tour du lịch, làm cha mẹ, họp hội đồng hương, tai nạn giao thông, các cuộc mitting biểu tình, các sự kiện cho quảng cáo,… các thông tin xung quanh sự kiện thường bao gồm: Thời gian, địa chỉ, tên sự kiện, số lượng người tham gia, thành phần tham gia,…

Còn theo Grishman và cộng sự, trích rút sự kiện là một bài toán khó vì phải

xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trưng dữ liệu [2] Điều này dễ ràng nhận thấy trích rút sự kiện phụ thuộc nhiều vào ngôn ngữ tự nhiên mà cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER) Đồng thời, dữ liệu đầu vào của trích rút sự kiện rất đa dạng, phong phú do đó sẽ ảnh hưởng tới tính hiệu quả của trong quá trình trích rút

Bài toán trích rút sự kiện nhiệm vụ của nó là: làm thế nào để trích rút các thuộc tính của một sự kiện Để giải quyết vấn đề này thì hiện nay có nhiều phương pháp trích rút ra thuộc tính của sự kiện, trong đó phải kể đến phương pháp sử dụng luật phương pháp tập luật được sử dụng từ rất sớm ngày nay nó vẫn đang tiếp tục được phát triển để giải quyết bài toán này[3] Quá trình trích rút bằng phương pháp này thường được sử dụng các luật dựa vào quá trình khảo sát dữ liệu để trích ra các thuộc tính của một sự kiện

2.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt

Trong những năm gần đây trích rút sự kiện đã thu hút được nhiều sự quan tâm của nhiều nhà khoa học Đây là bước đi tốt cho việc khai thác tri thức trong văn bản

Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt: Thời gian( giờ phút ngày tháng năm), địa chỉ diễn ra hội thảo ở đâu? tên hội thảo là gì? Kết quả của trích rút ra được đưa vào trong cơ sở dữ liệu và đưa lên trang web để thông báo, khai thác các sự kiện hội thảo diễn ra

Đầu vào: Là các văn bản hội thảo khoa học (văn bản phi cấu trúc hoặc bán cấu trúc)

Đầu ra: Trích rút ra các thông tin sự kiện hội thảo(tên hội thảo, thời gian, địa

Trang 17

Ví dụ 1 Hội thảo khoa học đầu vào là dạng văn bản tự do

Nằm trong chuỗi các hoạt động khoa học dài hạn của Viện Nghiên cứu Đông Bắc Á thuộc Viện Hàn lâm Khoa học xã hội Việt Nam (Viện Hàn lâm) được tổ chức hàng năm với các chủ đề khác nhau về Nhật Bản; được đồng ý của Chủ tịch Viện Hàn lâm và sự tài trợ của Quỹ Giao lưu Quốc tế Nhật Bản (Japan Foundation), ngày 03/9/2015, tại Hội trường 3D, Liễu Giai, Ba Đình, Hà Nội, Viện Nghiên cứu Đông Bắc Á (Viện Hàn lâm) tổ chức hội thảo tập huấn (workshop) quốc tế lần thứ

ba với chủ đề “Nghiên cứu lịch sử - văn hóa Nhật Bản” đợt I trong thời gian 5 ngày (từ 3/9- 9/9/2015) Đây là khóa học ngắn ngày dành cho các cán bộ trẻ phục vụ công tác nghiên cứu, giảng dạy về Nhật Bản tại các viện nghiên cứu và trường đại học tại Việt Nam

Ví dụ 2 Hội thảo khoa học đầu vào dữ liệu có định dạng (tên hội thảo, thời

gian, địa chỉ)

Bộ Công Thương phối hợp với Công ty TNHH Điện tử Samsung Việt Nam

tổ chức hội thảo về lĩnh vực công nghiệp hỗ trợ của Samsung nhằm tìm ra các doanh nghiệp Việt Nam có khả năng trở thành nhà cung cấp trực tiếp hoặc gián tiếp cho Samsung, cụ thể như sau:

- Tên Hội thảo: “Triển lãm Hội thảo công nghiệp hỗ trợ của Samsung Điện tử”

- Thời gian: 8h00, thứ Tư, ngày 15 tháng 7 năm 2015

- Địa chỉ: Khách sạn Grand Plaza, 117 Trần Duy Hưng, Trung Hòa, Cầu Giấy, Hà Nội

Trong khảo sát thực tế, cho thấy các hội thảo thường ở dạng văn bản tự do hoặc văn bản có định dạng sẵn, trong cả hai định dạng này thì các thuộc tính chính cần trích rút là: tên hội thảo, thời gian, địa chỉ

2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện

Trích rút sự kiện là một là một lĩnh vực con của trích rút thông tin, nếu như trích rút thông tin quan tâm nhiều tới các dữ liệu rời rạc thì trích rút sự kiện quan

Trang 18

tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện

Từ đó, người đọc có thể dễ ràng suy luận ra các thông tin có ý nghĩa

Trích rút sự kiện có thể áp dụng cho một miền dữ liệu cụ thể như vụ tai nạn giao thông, bệnh dịch, thông tin các tour du lịch, đồng thời đưa ra các thông tin xung quanh sự kiện đó thường bao gồm: Thời gian, địa điểm, tên sự kiện,

số lượng,…

2.5 Ý nghĩa bài toán trích rút sự kiện hội thảo khoa học

Ý nghĩa của bài toán trích rút sự kiện được rất nhiều các nhà khoa học và cộng đồng quan tâm

Kết quả trích rút sự kiện hội thảo khoa học từ văn bản tiếng Việt là cơ sở cho việc khai thác thông tin, tổng hợp

Ngoài ra nó còn giúp cho người dùng tìm kiếm thông tin liên quan đến hội thảo khoa học một cách dễ dàng

2.6 Kết luận chương

Trong chương này, luận văn đã trình bày cơ bản về trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt; đồng thời nêu ý nghĩa của bài toán trích rút sự kiện từ văn Trong chương 3, luận văn sẽ trình bày phương pháp tiếp cận và công cụ để giải quyết bài toán trích rút sự kiện

Trang 19

Chương 3 PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN

3 Phương pháp kết hợp luật và học máy

Mỗi phương pháp đều có những ưu nhược điểm riêng Tuy nhiên, trong luận văn này tác giả không sử dụng phương pháp tiếp cận dựa trên học máy vì phương pháp này cần phải sử dụng một lượng dữ liệu lớn để làm tập huấn luyện mà việc gán nhãn dữ liệu đôi khi còn tốn thời gian và chi phí Tác giả lựa chọn phương pháp dựa trên luật vì tính tiện lợi và dễ sử dụng của nó Do đó, trong chương này, luận văn trình bày chi tiết về phương pháp dựa trên tập luật và công cụ hỗ trợ việc trích rút thuộc tính và kiến trúc GATE trong bài toán trích rút sự kiện, mô hình trích rút sự kiện từ văn bản hội thảo khao học tiếng Việt

3.1 Phương pháp dựa trên tập luật

Phương pháp dựa trên tập luật hay còn gọi là phương pháp dựa trên tri thức (knowledge - driven) Phương pháp dựa trên tập luật thường sử dụng kiến thức chuyên gia về miền để sinh ra tập luật Người ta xây dựng một bộ tập các luật, phương pháp này có đặc điểm dễ thực hiện, thời gian thực thi nhanh và tối ưu

3.1.1 Luật cú pháp

Luật cú pháp hay còn được gọi là mẫu cú pháp (lexico-syntactic patterns) luật cú pháp đã được sử dụng sớm trong bài toán trích rút sự kiện Điển hình cho phương pháp này là các luật được biểu diễn dưới dạng biểu thức chính quy Các mẫu này được sinh ra từ các chuyên gia miền dưới dạng tập luật [1],[5]

Có thể nói luật cú pháp là sự kết hợp của các ký tự và các thông tin cú pháp với các biểu thức chính quy sau khi các biểu thức chính quy này đã được xây dựng

Trang 20

các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu vào để trích chọn

ra các thông tin tương ứng của các thuộc tính Trong một số trường hợp luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá Tập luật cú pháp được

3.1.3 Định dạng và biểu diễn của tập luật

Theo Sunita Sarawagi[6], một luật cơ bản có dạng như sau: "mẫu ngữ cảnh

→ hành động" Một mẫu ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn ghi lại thuộc tính của một hoặc nhiều thực thể Một mẫu được gán nhãn là bao gồm một mẫu có biểu thức chính quy được xác định qua các tính năng của thẻ trong văn bản và một nhãn tuỳ chọn Các thuộc tính này có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trong các thẻ xuất hiện

3.1.3.1 Đặc điểm của các thẻ

Sự kết hợp giữa một thẻ trong một câu thường được kết hợp cùng với tập thuộc tính thu được thông qua một hoặc nhiều các tiêu chí như:

- Các chuỗi đại diện cho thẻ thông báo

- Các loại chính tả của thẻ, có thể có dạng từ in hoa, từ in thường, hỗn hợp

in hoa và in thường, dấu cách, dấu chấm câu số, ký hiệu đặc biệt

- Các phần của bài phát biểu của thẻ

- Danh sách xuất hiện các thẻ của từ điển Thông thường điều này có thể được tiếp tục tinh chế để cho biết, nếu các thẻ phù hợp với từ bắt đầu, kết thúc, hoặc

từ giữa một từ điển

Trang 21

Ví dụ, một thẻ như “New” phù hợp với từ đầu tiên của từ điển với tên thành phố, tên đó sẽ được liên kết với một thuộc tính “Dictionary - Lookup = start of city.”

- Các chú thích kèm theo các bước xử lý trước đó

3.1.3.2 Các luật để xác định một thực thể đơn

Các luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu sau:

- Một mẫu tùy chọn ghi lại bối cảnh trước khi bắt đầu của một thực thể

- Một mẫu phù hợp với các thẻ trong các thực thể

- Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể

Ví dụ về một mẫu để xác định tên người có dạng “Dr Yair Weiss” bao gồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa các mục như :

“Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là

({Dictionary - Lookup = Titles}{String = “.”}{Orthography type = capitalized word}{2})→Person Names

Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ được thông báo theo sau cùng với số tùy chọn chỉ ra số lần lặp lại của thẻ

Ví dụ về một luật để đánh dấu tất cả số đi sau các giới từ “by” và “in” là thực thể năm:

(String=“by”|String=“in”})({Orthography type = Number}):y→Year=:y

Có hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của các thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành “year”

Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or

“ABC Ltd.” được tạo bởi:

({String=“The”}? {Orthography type = All capitalized}{Orthography type = Capitalized word, DictionaryType =Company end})→ Company name

3.1.3.3 Các luật cho đa thực thể

Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện cho một thực thể khác nhau do đó luật này dẫn đến sự công nhận của nhiều đối tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bản ghi dữ liệu theo

Trang 22

định hướng Ví dụ, hệ thống dựa trên luật WHISK [7] hệ thống dựa trên nguyên tắc

đã được nhắm mục tiêu cho việc khai thác từ hồ sơ có cấu trúc như hồ sơ y tế , các bản ghi bảo trì thiết bị, và phân loại quảng cáo Các luật này được viết lại từ [7], để trích rút hai thực thể, số lượng phòng ngủ và tiền thuê, từ một quảng cáo cho thuê căn hộ

({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)

({String =“$”})({Orthography type = Number}):Price→Number

of Bedrooms =:Bedroom, Rent =: Price

3.1.3.4 Lựa chọn định dạng của tập luật

Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chương trình tùy chọn viết bằng ngôn ngữ thủ tục như Java và C + + thay cho hai thủ tục này là các luật GATE[8] hỗ trợ các chương trình Java thay cho ngôn ngữ này bằng một luật khác được gọi là JAPE trong hoạt động của một luật JAPE được đánh giá là một khả năng mạnh mẽ bởi vì nó cho phép phần hành động của các quy tắc để truy cập các thuộc tính khác nhau mà được sử dụng trong phần mẫu của các quy tắc và được sử dụng để chèn mới các trường cho chuỗi chú thích Các trường mới có thể được xem như các thuộc tính bổ sung cho một luật

3.2 Ưu nhược điểm của phương pháp tiếp cận dựa trên luật

Phương pháp tiếp cận dựa trên tập luận có những ưu điểm sau:

- Phương pháp tiếp cận dựa trên luật cần sử dụng ít dữ liệu huấn luyện hơn phương pháp tiếp cận dựa trên dữ liệu

- Phương pháp này có thể xây dựng các biểu thức chính quy tốt cho trích rút thông dựa trên cú pháp, từ vựng, và các thành phần ngữ nghĩa Phương pháp này cho độ chính xác rất cao, độ hồi tưởng thấp Do đó phương pháp này rất thích hợp cho các bài toán chỉ quan tâm đến độ chính xác

Nhược điểm của phương pháp tiếp cận dựa trên luật

Bên cạnh những ưu điểm, phương pháp tiếp cận dựa trên luật còn có những nhược điểm sau: Khi sử dụng phương pháp này đòi hỏi người xây dựng đóng vai trò

Trang 23

vựng và cú pháp, cần phải rất am hiểu dữ liệu Ngoài ra, tập luật thường được xây dựng để lấy ra các thông tin đặc biệt, do đó khi thay đổi sang miền dữ liệu khác thì lại phải xây dựng tập luật cho phù hợp Mà việc xây dựng tập luật đôi khi rất tốn thời gian

3.3 Tổng quan về Gate

3.3.1 Giới thiệu Gate

GATE (General Architecture for Text Engineering) là một công cụ phần mềm được xây dựng và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên, nó được phát triển bởi một nhóm nghiên cứu của Trường Đại học Sheffield Anh Quốc từ năm 1995 Từ đó đến nay, GATE đã trải qua nhiều phiên bản, phiên bản GATE 1.0 được giới thiệu vào năm 1996 và phiên bản hiện tại là Gate 8.0 (2014) Nó được sử dụng trong các dự án nghiên cứu trong lĩnh vực trích rút thông tin trên nhiều ngôn ngữ như tiếng Anh, Hy Lạp, Tây Ban Nha, Thụy Điển, Đức, Ý, Pháp Gate cũng

hỗ trợ rất mạnh cho việc phát triển Web có ngữ nghĩa

Trang 24

3.3.2 Kiến trúc của Gate

Sơ đồ kiến trúc của Gate như sau:

Hình 3.1 Mô hình kiến trúc của GATE

Mô hình kiến trúc GATE được chia làm 7 lớp chính:

 Lớp IDE GUI: Là lớp giao diện trực quan tương tác với người dùng, cho phép người dùng giao tiếp với GATE dễ dàng và thuận tiện hơn

 Lớp Application: Lớp ứng dụng mà GATE đã xây dựng, tiêu biểu như ANNIE, OBIE, hay các thành phần ứng dụng tích hợp (Plugin), có thể thêm hoặc

gỡ bỏ vác ứng dụng bằng cách đánh dấu vào các plugin cần thiết trong Manage Creole plugins

 Lớp Document Format: Lớp quản lý các loại tài liệu theo định dạng khác nhau như xml, html, pdf,…

Trang 25

 Lớp Corpus: Lớp quản lý kho tài liệu gồm nhiều thành phần khác nhau tập hợp một nhóm các tài liệu, lớp quản lý kho tài liệu được chia ra thành nhiều mức khác nhau như:

- Corpus -> Document: Một kho dữ liệu bao gồm 1 hay nhiều tài liệu

- Document Content -> Annotation Set: Từ nội dung tài liệu đến bộ nhãn, nội dung của tài liệu liên kết với những bộ nhãn nào

- Annotation > Feature Map: Từ nhãn đến đặc trưng của nhãn, một nhãn sẽ có những đặc trưng nào

 Lớp Processing: Lớp này gồm các thành phần xử lý khác nhau như: tách từ , gán nhãn từ loại, nhận dạng từ quan điểm

 Lớp Language Resource: Lớp quản lý các đối tượng dữ liệu đặc biệt trong GATE như: tập từ điển (Gazetteer), tập từ vựng (lexicon),…

 Lớp DataStore and Index: Lớp quản lý về lưu trữ như lưu lại trạng thái của các tài liệu đã xử lý hay các đối tương xử lý tài liệu

GATE có các ưu điểm như:

- Tính linh động: Gate có thể xử lý nhiều định dạng văn bản khác nhau như: xml, pdf, text…

- Tính đầy đủ: Gate cung cấp đầy đủ các thành phần cơ bản như:

+ Thành phần ngôn ngữ (Language Resources): Có thể là một kho dữ liệu (corpus) hoặc các tài nguyên khác như: tập từ điển (gazetteers), tập từ vựng (lexicons) hay một cấu trúc (ontology)

+ Thành phần xử lý (Processing Resource): Là một chương trình được cài đặt thuật toán xử lý trên các thành phần ngôn ngữ

- Tính khả dụng: Gate cung cấp một thư viện khá linh hoạt và đầy đủ cho người lập trình java Ngoài ra ta có thể rất dễ dàng thêm vào những thành phần tích hợp (Plugin) mới, bởi cơ chế dễ dàng “thêm và tích hợp” của Gate

- Tính dễ dùng: Gate cũng cung cấp một giao diện đồ họa cho phép người dùng có thể thao tác một cách dễ dàng và trực quan

Trang 26

3.3.3 ANNIE (A Nearly New Information Extraction System)

ANNIE (A Nearly New Information Extraction System) là hệ thống rút

trích thông tin bao gồm tập hợp các tài nguyên xử lý ANNIE dựa trên giải thuật trạng thái hữu hạn và ngôn ngữ JAPE

Bộ tách từ: Mục đích để phân chia văn bản ra thành các từ đơn giản nhƣ các

số, dấu chấm, các kí hiệu, các ký tự đặc biệt ($,&,#,…) và những từ thuộc những loại khác nhau Bộ tách từ không nhất thiết phải sửa đổi cho những ứng dụng khác nhau hoặc những loại văn bản khác nhau

Ví dụ: Chữ cái đầu tiên viết hoa hoặc tất cả các chữ cái đều viết hoa

Bộ tách câu: Là quá trình phân chia văn bản thành các câu riêng biệt.Việc phân chia này chủ yếu dựa vào dấu chấm câu hay dấu xuống dòng, nó cần thiết cho

bộ gán nhãn Cả bộ tách câu và bộ gán nhãn là các miền và ứng dụng độc lập

Bộ gán nhãn từ loại: Một nhãn từ loại nhƣ một chú giải cho mỗi từ hoặc ký

tự Bộ gán nhãn và bộ tách câu là những thành phần không thể thiếu trong hệ thống nhận dạng thực thể

Bộ từ điển: Bao gồm một tập hợp các từ điển nhỏ chứa các từ đƣợc định nghĩa theo một tiêu chí nào đó Chứa đựng các danh sách, những danh sách này đƣợc sử dụng để hỗ trợ nhận biết thực thể Trong bất kỳ một chú giải Lookup nào cũng có thể có một hoặc hai đặc trƣng: đặc trƣng thứ nhất majorType đây là thành phần bắt buộc và đặc trƣng thứ hai minorType là thành phần tùy chọn có thể có hoặc không Khi bộ từ điển hoạt động trên văn bản, các nhãn (annotations) kiểu Lookup (một kiểu nhãn mặc định trong GATE) đƣợc tạo ra bằng cách so khớp các

từ trong bộ từ điển với các xâu trong văn bản Các nhãn (annotation) kiểu Lookup này sẽ đƣợc sử dụng trong khi viết các luật JAPE

Bộ đánh dấu ngữ nghĩa: Đây là những luật đƣợc viết thủ công thông qua văn phạm JAPE Các luật này miêu tả các mẫu để so khớp với từ điển nếu nhƣ khớp thì kết quả đƣợc tạo ra là những chú giải Ngoài ra JAPE cung cấp bộ chuyển đổi hữu hạn trạng thái trên các chú giải dựa vào biểu thức chính quy

Trang 27

3.3.4 Bộ luật JAPE (Java Annotation Patterns Engine)

JAPE là một thành phần quan trọng nhất trong GATE nó đóng vai trò chính giúp công cụ này xử lý ngôn ngữ tự nhiên Bộ luật Jape là thành phần cơ bản trong khung làm việc của Gate cho phép ta xây dựng các tập luật bằng các cách viết biểu thức chính quy trên nhãn (annotation) và tạo ra các nhãn mới trong văn bản

Một bộ luật JAPE bao gồm một tập các đoạn (phases), mỗi đoạn lại bao gồm một tập các luật Mỗi tập luật lại gồm hai thành phần là vế trái (Left-hand-side

- LHS) và vế phải (Right-hand-side - RHS), hai vế được phân biệt bởi ký hiệu “ >” Có cú pháp như sau:

LHS (left-hand-side) > RHS (right-hand-side)

Khi một luật JAPE thực thi thì các luật nhỏ bên trong của nó được thực hành một cách tuần tự từ trên xuống như cùng Priority và nó thi hành các luật từ thấp đến cao (mặc định là -1 nếu không khai báo Priority)

Trong luật JAPE gồm hai thành phần chính là mệnh đề trái (LHS) và mệnh

đề phải(RHS) Trong khi mệnh đề phải (RHS) thể hiện hành động cần được thực thì khi mệnh đề trái (LHS) được thỏa mãn so khớp

- Mệnh đề trái LHS (patterns): Là một biểu thức của các mẫu annotation pattern và các toán tử ( *, ?, +.|)

Các toán tử sử dụng trong mệnh đề trái như:

“|” : phép hoặc

“*” : phép lặp (không hoặc nhiều lần )

“?” : phép không lặp hoặc lặp một lần

“+” : phép lặp một lần hoặc lặp nhiều lần

Các mẫu được gán trong mệnh đề trái sẽ được sử dụng trong mệnh đề phải

- Mệnh đề phải RHS : Sử dụng các mẫu được cung cấp bởi mệnh đề trái để thực thi một lệnh nào đó và thông thường là tạo ra các nhãn annotation mới Các annotation thỏa mãn yêu cầu người dùng

Trang 28

Để thuận tiện và tránh lặp đi lặp lại các thành phần JAPE đưa ra khái niệm thay thế Macro Macro biểu diễn một biểu thức chính quy sau đó được dùng thường xuyên trong vế trái của luật

Một số lựa chọn khi viết luật:

Thành phần đầu tiên của mỗi luật JAPE ta phải thiết lập là một thuộc tính là

“Control” Có 5 giá trị cho Control là: “all”, “once”, “brill”, “first” và “appelt” Kiểu này phải được xác định khi bắt đầu mỗi văn phạm chứa các luật đề điều khiển

so khớp mẫu

Cú pháp:

Options: control=<kiểu điều khiển>

- Kiểu “Brill”: Khi có nhiều hơn một luật được thỏa mãn trên một văn bản, thì tất cả các luật đó đều được thực thi Sau quá trình so khớp diễn ra ở tất cả các luật thì điểm bắt đầu quá trình so khớp tiếp theo sẽ là điểm kết thúc của luật được so khớp dài nhất của quá trình trước

- Kiểu “all” cũng giống như “brill” nó cho phép tất cả các luật được so khớp trên cùng một đoạn văn bản tuy nhiên nó có điểm khác biệt với “brill” là điểm bắt đầu quá trình so khớp tiếp theo là điểm bắt đầu của nhãn gần nhất sau nó Có thể nói kiểu “all” so khớp rộng hơn “Brill”

- Kiểu “once” Chỉ có luật đầu tiên thỏa mãn quá trình so khớp được thực hiện

- Kiểu “First”: Luật được thực hiện ngay khi quá trình so khớp đầu tiên được thỏa mãn Cho nên khi chọn giá trị này thì chỉ có luật nào thỏa mãn đầu tiên sẽ được biểu diễn ra Bởi vậy nó không thich hợp cho các luật sử dụng “+”, “*”, “?”

- Kiểu “Appelt”: Chỉ có một luật thỏa mãn quá trình so khớp có độ thực thi cao nhất được biểu diễn ra nhưng theo một thứ tự ưu tiên sau:

+ Trong một đoạn văn bản nếu có nhiều luật thỏa mãn so khớp từ vị trí X, nhưng luật nào thỏa mãn trên vùng dài nhất sẽ được thực thi

+ Nếu qua bước 1 vẫn còn có nhiều hơn một luật so khớp cùng một đoạn

Trang 29

+ Nếu qua bước 2 vẫn còn có nhiều hơn một luật so khớp cùng đoạn trong văn bản và có độ ưu tiên như nhau thì luật nào được định nghĩa sau cùng trong văn phạm JAPE sẽ được thực thi

Trong đó các priority là các số nguyên dương, theo thứ tự số lớn hơn thì priority có độ ưu tiên lớn hơn Nếu không khai báo trong luật thì priority có giá trị mặc định priority là -1 (priority thấp nhất)

Ví dụ về khai báo control

Phase: Entity

Input: Lookup, tooken

Options: control= appelt

Ví dụ về JAPE Grammar dùng để gán nhãn cho thực thể:

Rule: NewCity

({Lookup.minnorType == city}): loc

-> :loc.Location = {kind = "city", rule=”NewCity”}

Ở ví dụ này thì “loc” là nhãn Vế phải của luật là phần theo sau mũi tên Nhãn “loc” được chuyển tới vế phải của luật và chú giải có kiểu Location được thêm vào mẫu, với hai đặc trưng tùy chọn là kind và rule các giá trị lần lượt tương ưng là “city” và “NewCity”

3.4 Mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt

Qua khảo sát thực tế dữ liệu về hội thảo khoa học Để trích rút ra các thực thể từ hội thảo khoa học tác giả sử dụng các luật văn phạm JAPE trong GATE để trích rút Tác giả đề xuất mô hình trích rút sự kiện dựa vào các tập luật văn phạm JAPE trong bộ công cụ mã nguồn mở GATE như sau:

Trang 30

Hình 3.2 Mô hình quá trình trích rút sự kiện hội thảo khoa học

Dữ liệu được lấy từ website thông qua việc thu thập thông tin để được dữ

liệu đầu vào là các văn bản hội thảo, dữ liệu này sẽ qua một module GATE để trích

rút thông tin liên quan đến hội thảo như: Thời gian (giờ phút ngày tháng năm diễn

ra sự kiện), Địa chỉ (nơi diễn ra sự kiện), tên sự kiện Sau khi trích rút được các

Bo

Bộ trích rút thông tin

Tiền xử lý -Tách từ -Tách câu -Gán nhãn từ loại

Thu thập

dữ liệu (thủ công)

Lưu vào trong CSDL

Đưa lên Website khai thác

Trang 31

lý và chuẩn xác vì một số tài liệu không theo chính thống cho lên việc thu thập dữ liệu gặp nhiều khó khăn

Để thu thập dữ liệu cho luận văn tác giả đã tìm ở một số trang website như:

http://www.ciem.org.vn/ (Bộ kế hoạch và đầu tư viện nghiên cứu quản lý kinh tế trung ương) hai trang này thường xuyên cập nhật dữ liệu

3.4.2 Tiền xử lý

3.4.2.1 Tách từ

Tách từ: Điểm khác biệt của Tiếng Việt so với tiếng Anh đó là vấn đề tách

từ Trong tiếng Anh các từ được phân biệt với nhau bởi dấu cách (khoảng trống) Trong tiếng Việt các từ cũng được phân biệt với nhau bởi dấu cách (khoảng trống) nhưng ở từ trong tiếng Anh là một tiếng hay một từ có thể bao gồm một, hai, ba hoặc nhiều tiếng Trong tiếng Việt một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó để tạo thành từ có nghĩa

3.4.2.2 Tách câu

Tách câu được hiểu là tách văn bản thành các câu riêng biệt thông thường sẽ dựa vào sự xuất hiện của các kí tự sau “.”, “?”, “!”, được coi là dấu hiệu kết thúc câu Tuy nhiên điều này không phải lúc nào cũng đúng, ví dụ như sự xuất hiện của

“.” ở trong từ viết tắt, trong một đường dẫn URL

Định dạng
Số trang	63
Dung lượng	1,46 MB