Chinh vì vậy mà trích rút sự kiện đã được ứng dụng váo rất nhiều Tĩnh vục khác nhau như kinh tế, chính trị, văn héa, xã hội, y tế Ngày may cùng với sự phát triển nhanh chóng của Interne
Trang 1
BỘ GIÁO DỤC VẢ BẢO TẠO
TRUONG BAI HOC BACH KHOA HA NOI
NGUYEN VAN CL
TRÍCH RUT SU 'U VAN BAN TLENG VIỆT
Chuyên ngành : Công Nghệ Thông Tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
Công nghệ thông tia
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS LE THANH HUONG
Ha Nội — Nam 2015
Trang 2DANH MUC CAC HINH VE ceccccsscsenscesseestinstietenesteie XeeeeereeoR
1.5 _ Đóng góp chính của luận văn àcsceeeiereerrrrerrerro.TT
Chuong 2 TONG QUÁT VE TRICH RUT THÔNG TIN SỰ KIỆN 13
2.2.1 Dịnh nghĩa sự kiện à.neeeeiriiririirririrerreueesriee TR
3.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt 16 2.4 Sự khác nhau giữa trích rút thông tú và trích rút sự kiện ¬—
2.5 Ý nghĩa bài toản trích rút sự kiện hội thảo khoa học 4
Trang 33.1.3.1 Đặc diễm của các thể
3.1.3.2 Các luật để xác định một thực thể đơn
3.1.3.3 Các luật cho da thực thê on ceeeroee
3.1.3.4 Lựa chọn định dạng của tập luật
3.2 Ưu nhược diễm của phương pháp tiếp cận dựa trên luật
3.3 Tống quan vé Gate
3.3.1 Giới thiệu Gaf€ nHmeieereerde
3.3.2 Kiến trác của Gate
3.3.3 ANNIE (A Nearly New Information Extraction System)
3.3.1 Bộ luật TAPE (Taya Anotation Patterns lingine)
3.4 Mô bình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt
3.5 Phân tích vả thiết kế hệ thông,
3.6 Thiết kế cơ sở dữ liệu
y dựng các luật trong Gate
4.2.1 Luật được xây dựng dịa chỉ như sau
4.2.2 Luật xây đựng thời gian như sau:
4.2.3 Luật xây dụng tên sự kiện như sau cọc
4.3.4 Luật xây dụng link gốc on ni
Trang 44.3 Xây dựng hệ thống và giao diện thực nghiệm
4.4 Đưa đữ liệu lên Web, khai thác tìm kiếm thông tin
4,5 Đánh giá quả trình rút sự kiện à ri
4.6 Kết luận chương - - -
Chương 5 KẾT QUA VÀ HƯỚNG PHÁT TRIÊN
5.1 Cáo kết quả đạt được
Trang 5LỜI CAM ĐOAN
Tôi xin cam: đoan giải pháp trích rút sự kiện lừ văn bản tẳng Việt được trình bày trong luận văn này là do tôi thực biện dưới sự hướng dẫn của PŒ8.T8 Lẻ Thanh
Trang 6TỜI CẮM ƠN
Tuiận văn Trích rút sự kiện từ văn bân liễng Việt là kế quả của quá trình học tập và nghiên cửu trong suốt thởi gian học tập Thạc Sỹ tại Trường Đại học Bách
*hoa Hà Nội Trong suốt quá trình làm luận văn tác giả luôn nhận được sự chỉ bảo
của PG8.TS, Lẻ Thanh Hương Trước hết
tận lình và những yêu cầu nghiêm khắ
tôi xin bảy tó lòng kính trọng và biết ơn sâu sắc tới PGS.TS Lê Thanh Hương,
người đã truyền đạt những kién thite qui báu cũng như những kinh nghiệm nghiên
cứu khoa học trong suốt thời gian Lắc giả làm luận văn
Dé hoàn thành luận văn này, tác giá xin chân thành cám ơn đến Lan lãnh đạo
Viện Công nghệ thông tin và Truyền thông, Viện Đảo tạo sau đại học, Bộ môn Hệ thông Thông tìm thuộc trường Đại học Bảch khoa Hà Nội đã tạo điều kiện thuận lợi
trong quá trình học tập và nghiên củu để hoàn thành luậ
Với năng lực còn hạn chế luậu văn không tránh được những thiếu sói Tác
giả rất mong dược sự góp ý của quỷ thấy có, anh em ban be ding nghiệp để luận
văn được hoản thiện hơn
Tác giả
Nguyễn Văn Cường
Trang 7DANH MỤC CÁC TỪ VIÉT TAT
GATE General Architecture for Text Engineering
ANRTE A Nearly New Information Extraction System
Trang 8
ĐANH MỤC CÁC HÌNH VẼ
Hình 3.1 Mỗ hình kiến trúc
GATE
Hình 3.2 Mô hình quá trình trích nat sy kign hdi thao khoa hee
Tinh 3.3 Biểu đồ phân tích chức nằng co
Tình 4.1 Giao diện chỉnh hệ thống GATE
Hình 4.2 Giao diện về trải của hệ thông ŒA'TE
Tĩinh 4.3 Giao diện về phải hệ thẳng GATE
Hình 4.4 Kết quả trích rút từ vẫn bân định dạng tự đo
1linh 4.5 Kết quả trích rút từ văn băn có định dạng
Hình 4.6 Thông tin về tên hội thảo được lưu trong bảng tenhoithao
Tình 47 Dữ liệu được lưu vào các bằng Irong cơ sở đữ liệu
Tinh 4.8 Sau khi trích rút thông tin hiện thị trên website
Hình 4.9 Kết quả tìm kiếm theo tên hội thảo
Hình 4.10 Kết quả tìm kiếm theo chủ dé và thời gian
Hình 4.11 Kết quá tim kiêm kết hợp theo tên hội thảo và theo thời gian Tỉnh 4.12 Giao điện sau khi kích vào duémg link
Trang 9MỞ ĐẤU
"Trên thể giới đã có rất nhiều cổng trình nghiên cử về trích rút thông tia
(Euformntion Exiraotion - TE), trích rút sự kiện (Event Bxtraction - EE) là môi lĩnh
vực con của trích rút thông tin (Information Extraction - 1E) Trong những năm gẫn đây, trích rút sự kiện đã thu hút được rất nhiều sự quan tâm của các nhà khoa học
trên khắp thể giỏi, nó đã thụ được rhiều kết quả và đuợc cộng đông trên khắp thế giới quan tâm Chinh vì vậy mà trích rút sự kiện đã được ứng dụng váo rất nhiều
Tĩnh vục khác nhau như kinh tế, chính trị, văn héa, xã hội, y tế
Ngày may cùng với sự phát triển nhanh chóng của Internet với việc kết nói say tinh bang thông rộng, việc tiếp cận khối lượng lớn từ các kho dữ liệu văn ban
khắp nơi trên thê giới Chính vi vậy đặt ra cân hỏi làm thể nào chúng †a lây được
Trhững thông tín câu thiết và nhanh sát từ lượng dữ liệu không lễ đó mà mất íL thời
gian nhất Trích rút thông tin cho phép chúng ta thu thập và lọc ra những thông tia
cân thiết một cách dé đảng nhanh chóng và thuận tiện
Trên thế giới đã có nhiền công trình nghiên cứu về trích rút sụ kiện, ở Việt Nam các công trình nghiên cửu về vẫn đề nảy còn ít 1rong luận văn này tác giá sẽ
trình bảy trích rúi thông tín, trích rất sụ kiện, định nghĩa sự kiện, trích rút sự kiện tir
văn bản hội thảo khoa học tiếng Việt, ý nghĩa bải toán trích rút sự kiện, phương
pháp sử dụng trong luận văn, công cụ sử dụng trong luận vẫn,
Trang 10Chuong 1 TONG QUAN
1.1 Tên để tài
Tên để tài Tiếng Việt Trích rút sự kiện tù văn bản tiếng Việt 'Tên để tải Tiếng Anh: Event extraction from text Vietnamese
1.2 Lý do chọn dễ t
Ngày mày, củng với sự phải triển nhanh của đất nước và hội nhập với khu
vực thi công nghệ thông, thì đóng vai trỏ quan trọng, nó đang phát triển mạnh mẽ vì
thé nó được ứng dựng trong nhiêu lĩnh vực của cuộc sảng xã hội Với sự phát triển
Tranh mẽ của Internet kết nối băng thông rộng cho phép chúng ta tìm kiểm thông tin xnột cách dễ đáng củng với nguồn dữ liệu rất đa dạng và phong phú từ Internet Tuy
nhiên với một kho đữ liệu rất phong phú vá đa dạng trên Internet đó thì không phải
dit héu no cũng chính thống Người sử dụng luôn raong muốn có những thông tr chính xác và được tổng hợp từ nhiều nguồn khác nhau để dễ đàng theo dai, tim kiểm, lưu trữ, vi vậy cân có một hệ thống trích rút sự kiện để người ding để đàng,
khai thác
'Trên thế giới, trích rút sự kiện đang rất được quan tâm Để ứng dụng được vào trong thực tế tủ hệ thống trích rút sự kiện thường được cài cho một ứng dung
sụ thể, Có rất nhiều khía cạnh mà BE chưa khai thác hết Ở môi lĩnh vục khác nhau
thi cd thé ap dụng phương thức tiếp cận khác nhau để giải quyết
Ở Việt Nam, các nghiên cứu về trích rút sự kiện còn íL nhất lá trong Tinh vực trích rút sự kiện từ văn bản Tiếng Việt còn nhiều hạn ché Chính vi vậy tỏi dã lụa chọn để tài: “Trích rút sự kiện từ văn bản tiếng Việt' mong muốn tìm ra những phương pháp giải quyết tốt hơn hiệu quả hơn đạt kết quả tốt hơn, nghiên cứu sâu
hơn
1.3 Mục tiêu nghiên cứu
Từ lý đo chọn đề tải nêu tại mục 1.2 trong luận văn lác giả nghiên cứa phương pháp tiếp cận giải quyết bài toán bích rút sự kiện đề trích rút các thực thể
Tử đó xây dựng và cải đặt một chương trình đemo ứng dựng, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt để hỗ trợ người đùng
Trang 111.4 Phạm vi nghiên cứu Phạm vi nghiên cửu: 1rong luận văn tập trung vào việc trích rút các thực
thê trong lĩnh vực hội thảo Tập đữ liệu Huử nghiệm được thu thập từ các trang
Website trực tuyến, các văn bản liên quan dễn hội thảo Trong luận văn tác giả sử dụng hệ thống văn phạm IAPT trong bộ công cụ phần mẻm mã nguồn mé GATE dé
trích rút các thuc 1
các thông tín liên quan đến trích rút nhực Thời gian (bao gỗm:
giờ phút, ngày tháng năm), tên địa chí (địa chí diễn ra hội tháo ở đâu), tên hội tháo
là gì Sau khi trích rút được các thực thế trên thì lưr vào cơ sở đữ liệu San đó đưa
đữ liệu lên trạng để khai thác sử dụng tại đây người sử dụng có thể tìm kiếm theo tên hội thảo, tìm kiểm theo thời gian
1.5 Đóng góp chính của luận văn
-_ Cung cấp phương pháp liếp cận giải quyết bài toán trích rút sự kiện và công cụ để trích rút ra các thuộc tính của thục thê
-_ Để xuất mê hình cho hệ thêng trích rút sự kiện từ văn bản héi thio khoa học tiếng Việt
- Bua ra cai nhin tong quát về lĩnh vực trích rút sự kiện hiện nay,
1.6 Bồ cục của luận văn
Luận văn được chua làm năm chương:
Chương một là phần mở đầu tác giả trình bảy lý do chọn đề tải, mục tiêu
nghiên cứu, phạm vị nghiên cứu và những đồng góp chính của luận vău
Chương hai tắc giã tập trung giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo
khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện
Chương ba cung cấp phương pháp, công cụ tiếp cận đẻ trích rút các thục
thể, tổng quan vẻ công cụ GATE (giới thiện vẻ Gate, kiến trúc của Gate, ANNIE,
bộ luật TAPE), mô Tình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt,
'phân tích và thiết kế hệ thông, thiết kế cơ sở đữ liệu
Chương bón thực nghiệm và đánh giá
Trang 12Chương năm là phần kết luận và tổng kết lại các kết quả đã dạt dược của thuận văn và đề xuất các hướng nghiên cửa trong tương lai có liên quan đến luận
van.
Trang 13Chương 2 TỎNG QUÁT VÉ TRÍCH RÚT THÔNG TTN SỰ KIỆN
G trong chương nảy táo giá tập trưng chủ yếu giải quyết các vẫn để sau:
giới thiệu trịch rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bởi (oán tích rủi
sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng, Việt, ý nghĩa bài toán trích rút sự kiện
2.1 Trích rút thông tin
Ngày nay, trich nat théng tin (information Hxtraction - LE ) cé rat nhiều
cách định nghĩa khác nhau Song có thẻ định nghĩa như sau Trích rút thông tin là
quá trình xử lý thông tn mà đầu vào là dạng vin ban ban cầu trúc hoặc văn bần phi cầu trúc như: văn bản, trang web Văn bản nảy sau khi được đi qua hệ thống sẽ tự
động trích rút ra các thục thể như: tên địa chỉ, tên người, tên quốc gia, tên co quan,
tên tổ chức thành đang văn bản có cầu trúc nhằm thỏa mãn: nhù cầu của người sử
vất khó khăn, không hể dễ ràng chính vì thế nó đã thu hút được
sự quan tâm của rất nhiễu các nhả nghiên cứu trong những năm qua Chính vì vậy
trích rút thông lin ngày càng được quan tâm hơu bởi các nhà nghiên cửu khác nhau
vẻ học máy, truy vấn thông tin, cơ sở đữ liệu Do dó hai hội nghị dã diễn ra rất quan
trọng đổi với các nghiên cửu vẻ trích rút thông tin la Message Understanding
Conference (MUC) va Automatic Content Extraction (ACE)
'Trịch rút thông tỉn từ van bản có nhiều nước độ như: trích rút các thực thể
(Named Entity Recognition NER), trích rút quan hệ giữa các thựo thể (Relation
Extraction - RE), phan giải đồng tham chiếu (Co-reference Resolution) Các kỹ thuật được sứ đụng trong trích rút thông tin bao gồm: phân đoạn, phân lớp, kết hợp,
phan cum
Về ứng dụng trong trích rút thông tín rất rộng rãi, trên thế giới TE được ứng, dụng rất nhiều vào việc trich rút thông tin trên Internet như: lẫy thông tin về tên các
công ty, tên giám đốc, theo đối cáo sự kiện Ngoài ra IE còn được ứng dụng váo
cham sóc khách hàng như trích rúI ra các Không tím của khách hang : ho (én, dia chi,
Trang 14số diễn thoại, ngày tháng năm sinh của khách hàng, địa chỉ cmail, số nhà sau đó lưu vào trong cơ sở dữ liệu với mục địch dé chăm sóc khách hàng tết hơn Trong
những nằm gẫn đây TR đặc biệt chủ trọng và quan lâm trong lĩnh vực y học vì vậy
đã có khá nhiều nghiên cửu dược tiên hành nhằm ứng, dụng 1E vào việc trích rút thông tìn các thực thể trong lĩnh vực ngảnh y như tên protein và gene Các công cụ trích rút thông tím tự động Lừ các trang website như hệ thông Irích rất mối quan hệ giữa các thực thẻ lá rất cần thiết Ngoài ra IE cỏn hỗ trợ hệ thống trả lời câu hỏi tự động
Đài toán trích rút thông tin lừ văn bản có thể được phải biểu như sau -+ Đầu vào: Dữ liệu văn bản bat ky
Đâu ra: Thông tin đưới dạng cỏ câu trúc 2.2 Trích rút sự kiện
Trích rút sự kiện với mục đích là trích rút ra các thông tin có ý nghĩa từ tập
đữ liệu bán câu trúc bay phi câu trúc và được đông đảo cộng đồng các nhà khoa học
TL quam lâm và dẫu tư nghiên cứu Chính vì vậy khải riệm sự kiện lẫn dầu tiên
được tổ chức vào năm 1987 Message Understanding Conferences (MUC) véi su bé trợ của Quỹ nghiên cửu của Bộ quốc phòng Hoa Kỳ Sau đó có rât nhiều các hội
nghị đã được tổ chức tạo thành chuối hội nghị MỤC, Tại mỗi hội nghị thì thông tia cũng được quan tâm khác nhau nhưng đều có đặc điểm chung 1a chứng được trích
rút từ dữ liệu nói về khủng hoàng, Cúc chủ để trong dữ liệu thường là khủng bố, tội phạm, dánh bom và tại hội nghị này MỤC đã dưa ra dược trích rút thông tin dựa
trên mẫu đó là một đóng góp lớn Các mẫu này được ban tỏ chức quy định vì vậy các đội tham gia cần điển thông tỉn vào các mẫu này một cách tự động Kết quả các
sự kiện được trích rút gồm các thông tur người, sự việc, sự vật, tổ chức, thời giam,
địa chỉ, số lượng Dệ chính xác (preoision) năm trong khoảng từ 60% đến 70% va
điôi Lưởng (recal) tù 40% đến S0% [3]của
e nghiên cứu tham dự MƯC
Trích rút nội dung tự déng Automatic Content Lixtractien (ACH) của đại
học Pennsvivania được viết chủ yêu bằng các ngôn ngữ như tiếng Anh, Trung
Quốc, Á rập Đây là một chương trình cũng đã thụ hút được nhiều sự quan tâm Lie
Trang 15công déng các nhà nghiên cửu khoa học Các thông tin dược trích rút gồm các thực thể, quan hệ giữa các thực thể, vả các sự kiện tham gia vào
Qua đó có thé thay ring Irích rút sự kiện nói riêng và trích rút thông tin nội chung Đây là một vấn dễ rất được quan tam va chủ trọng trong thời dại ngảy nay,
nó nhận được rất nhiễu sự quan tâm của cộng đồng và các nhà khoa học trên khắp
thể giới
2.2.1 Định nghĩa sự kiện
Trích rút sự kiện được giới thiệu lấn đâu tiên vào năm 1987 Message
Understanding Conference (MUC) [2] no đánh đấu một bước tiến trong trích rút sự
kiện Khi đỏ một sự kiện được đmh nghĩa như sau: “một sự kiện có tác nhân, thời
gian, địa chỉ và tác động tói môi trường xung quanh”
Cên thue Doddingion Goorge và cáo cộng sự trong một chương Hình
Autematie Content Iixtraotion (ACT) cũng đã đưa ra định nghĩa về sự kiện như
sau: “một sự kiện là một hành động được tạo bởi những người tham gia"[4] Trong,
chương trình ACE đã chia sự kiện ra thành các loại sau: tác nhân, đối tượng, nguồn
gốo, mục tiêu
Qua các nghiên cứu của các nhà khoa lọc có thể thấy rằng các nghiên cứ
déu dong ý sự kiện có thẻ coi như một mẫu gồm nhiều các thuốc tỉnh Quá trình
trích rút sự kiện quan tâm lâm thế nảo có thể điển các thông tin phủ hợp từ các văn tiần gốc tương ứng cho từng thuộc lính của nó
2.2.2 Bai toán trích rút sự kiện Trích rút sự kiện (Iivent Ixtractien - II) là một lĩnh vực con của trích rút
thông tia Nếu như trích rút thông tỉa chỉ quan tâm các đữ liệu rời rac (tên người, địa chỉ, cơ quan, số điện thoại, ) thí trích rút sự kiện quan tâm nhiều hơn tới tinh
câu trúc và mức độ liên quan của thông tin rong một sự kiện Tù đó, người đọc có
thể dễ răng suy luận ra cả
thông lim có ý nghấa
“Trích rút sự kiện từ văn bản nhận đầu vào là các văn bản phí cầu trúc hoặc
văn bản bán cầu trúc đầu ra nó được biểu điển đưới đạng thông tin có cấu trúc
Thích rút sự kiện có thế áp đụng cho muội miền đữ liệu cụ thể như hội thảo khao học,
Trang 16théng tin cde tour du lich, lam cha me, họp hội đổng hương, tai nạn giao thông, các
cuộc mitting biểu tỉnh, các sự kiện cho quảng cáo, các thông tin xung quanh sự kiện thưởng bao gồm: Thời gian, địa chỉ, tên sự kiên, số lượng người [ram gia, thành phân tham gia,
Con theo Grishrnan và cộng sự, trích rút sự kiện là một bài toán khó vi phải
xử lý ngôn ngữ tự nhiên (Natural Tanguage Procossing - NI.P) và đặc trưng dữ liệu
[?] Điều nảy dé ràng nhận thấy trích rút sự kiện phụ thuộc nhiều vào ngôn ngữ tự
nhiên mã cụ thể lã bài toán nhận dạng thực thể (Named Intity Reeognition - NER)
Đồng thời, dữ liệu đầu vào của trích rút sự kiện rất đa dạng, phong phú đo đó sẽ ảnh
thưởng tới tính hiệu quá của trong quả trình trích rút
Đài toán trích rút sự kiện nhiệm vụ của nó là: làm thé nào để trích rút các thuộc lính của một sự kiện Để giải quyết vận đề này thủ hiện nay có nhiều phương pháp trích rút ra thuộc tính của sự kiện, trong đó phải kê đến phương pháp sử dựng, luật phương pháp tập luật được sử đụng từ rất sớm ngày nay né vẫn đang tiếp tục được phát triển dễ giải quyết bài Loán mày| 3| Quá trình trích rút bằng phương pháp này thường được sứ dụng các luật dựa vao quá trình khảo sát dữ liệu để trịch ra các
thuộc tính của mội sự kiện
2.3 Trích rút sự kiện từ văn hân hội thầu kh: học tiếng s
éc khai (hac tn there bong vin
Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt Thời gian( giờ
'phút ngày tháng năm), địa chỉ điển ra hội thảo ở đâu? tên hội thảo là gì? Kết quả của trích rút ra được đưa vào trong cơ sở dữ liệu vả đưa lên trang web để thông báo, khai thác các sự kiện hội thảo diễn ra
Trang 17Ví dụ 1 Hội thảo khoa hẹc dầu vào là đạng văn bản tự do
Nằm trong chuỗi cáo hoạt động khoa hoc dai han của Viện Nghiên cứu Dòng,
ắc Á tuuộc Viện Hàn lâm Khoa học xã hội Việt Nam (Viên Hàn lâm) được lễ chức hàng năm với các chú dẻ khác nhau vẻ Nhật Bản, dược dồng ý của Chủ tịch 'Viện Hàn làm và sự tài trợ của Quỹ Giao lưu Quốc tế Nhật Bản (Japan Foundation),
/9/201 5, tại Hội trưởng 3D, Liễu Giai, Ba Đình, Hà Nội, Viện Nghiên cứu
ngay 0!
Đông Hắc Á (Viện Hàn lâm) tổ chức hội tháo tập hudn (workshop) quốc tế lần thứ
°a với chủ để “Nghiên củu lịch sử - văn hóa Xhật Bản” đợt I trong thời gian 5 ngày (từ 3/9- 9/9/2015) Đây là khóa học ngắn ngày đành cho các cần bộ trế phục vụ công tác nghiên cửu, giảng dạy về Nhật Ban tai cáo viện nghiên cứu và trường đại học tại Việt Nam
Vi du 2 Hội thảo khoa học đầu vào đữ liệu có định đạng (tên hội thảo, thời gian, địa chi)
Bộ Công Thương phối hợp với Công ty TNHH Điện tử Samsung Việt Nam
tổ chức hội thảo về lình vực công nghiệp hỗ tro của Samsung nhằm tìm ra các doanh nghiệp Việt Nam cỏ khá năng trở thành nhà cung cấp trực tiếp hoặc gián tiếp
cho Samsung, cụ thể như sau:
~ Tên Hội thảo: “Triển lăm Hội thảo công nghiệp hỗ trợ của Samsung Điện
~ Thời gian: 8h00, thứ Tư, ngày 15 tháng 7 nắm 2015
- Địa chỉ: Khách sạn Grand Plaza, 117 lrần Duy Hưng, Trung Hỏa, Cầu
Giấy, Hà Nội
Trong khảo sát thực tế, cho thây các hội thâo thường ở đạng van ban tr do
hoặc văn bản có định dạng sẵu, trong cá hai định dạng nảy thi các thuộc tỉnh chính
cân trích rút là: tên hội thảo, thời gian, địa chỉ
2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện
Trích rút sự kiện là một là một lĩnh vực con cúa trích rút thông tin, nêu như
trích rút thông †in quan tâm nhiều tới các đữ liệu rời rạo thì trích rút sự kiện quan
Trang 18tam nhiều hơn tới tính cầu trúc và mức độ liên quan của thông tin trong một sự kiện 'Từ đó, người đọc có thể dễ ráng suy luận ra các thông tin có ý nghĩa
Trích rúi sự kiện có thể áp dụng cho mội miện dữ liệu cụ thể rửn vụ
tại nạn giao thông, bệnh dịcÌ„ thông tia các tour du lịch, dổng thời dưa ra các thông tin xung quanh sự kiện đó thường bao gồm: Thời gian, địa điểm, tên sự kiện,
số lượng,
2.5 ¥ nghĩa bài toàn trích rút sự kiện hội thảo khoa học
Ý nghĩa của bài toán trích rút sự kiện được rất nhiên các nhà khoa học và
cộng đồng quan tâm
Kết quả trích rút sự kiện hội tháo khoa học từ văn bản tiếng Việt là cơ sở
cho việc khai tháo thông tin, tổng hợp
Ngài ra nó còn giúp cho người dùng tìm kiếm thông tin lên quan đến hội thảo khoa học một cách để đàng
2.6 Kết luận chương
Trong chương này, luận văn đã trình bảy cơ bản về trích rút thông lăn, trích xút sự kiện, định nghĩa sự kiện, bai toán trích rút sự kiện, trích rút sự kiện tử văn bán
hội thao khoa học tiếng Việt, đồng thời nêu ý nghĩa của bài toán trích rút sự kiện từ
văn, Trong chương 3, luận văn sẽ trình bảy phương pháp tiếp cân và công cụ dễ giải
quyết bài toán trích rút sự kiện.
Trang 19Chương 3 PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN
3 Phương pháp kết hợp luật và học máy
Mỗi phương pháp đều có những ưu nhược điểm riêng Tuy nhiên, trong
luận văn này tác giả không sử dụng phương pháp tiếp cận đựa trên học máy vì
phương pháp nảy cần phối sử dụng một lượng dữ liệu lớn để làm lập huấn luyện mà
việc gắn nhãn đữ liệu đối khi còn tốn thời gian và chỉ phí Tác giả lựa chọn phương
pháp dưa trên huật vì tính tiện lợi và để sử đụng của nó Do đó, trong chương nay,
luận văn trình bày chủ tiết về phương pháp dựa rên tập luật và ông cụ hỗ trợ việc trích rút thuộc tinh vả kiến trúc GATE trong bai toán trích rút sự kiện, mồ hình trích
rút sự kiện từ văn bản trội thão khao học tiếng Việt
3.1 Phương pháp dụa trên tập luật
Phương pháp dựa trên tập luật hay cỏn gọi lá phương pháp dựa trên trị thức
(knowlodge - đriven) Phương pháp đụa lên lập luật thường sử đhng kiến thúc
chuyên gia vẻ miễn dé sinh ra tập luật Người ta xây dựng một bộ tập các luật, phương pháp nảy có đặc điểm để thực hiên, thời gian thực thi nhanh và
3.1.1 Luật cú pháp
Luật củ pháp hay còn được gợi là mâu cú pháp (lexico-syntactic patterns)
huật củ pháp đã được sử dụng sớm trong bài toán trích rút sự kiện Diễn hình cho
phương pháp này là các luật được biểu điển dưới dạng biểu thức chính quy Các
xấu nay được sinh ra từ các chuyên gia miễn dưới dạng tập luật [1],[5]
Cá thể nói luật cú pháp là sự kết hợp của các ký tự và các thông tin cú pháp với các biểu thức chính quy sau khi các biểu thức chính quy này đã được xây dựng,
Trang 20các biểu thức nảy sẽ dược so khớp với đữ liệu trong văn ban dâu vao dé trich chon
ra các thông tin tương ủng của các thuộc tính Trong một số trường hợp luật cú pháp được biểu diễn ở đạng đơn giản hơn, đó là các từ khoá Tập luậi củ pháp được
sử dụng trong trich rut sự kiện
3.12 Luật ngữ nghĩa Trong một số trường hợp Irích rút sự kiện phôi trích rút các khói miệm có ÿ
nghĩa đặc biệt, Để giải quyết được điều nảy, phương, pháp thường sử đụng, và hợp lý
là sử đụng luật ngữ nghĩa Các luật ngữ nghĩa không đơn giàn là các từ được biểu
điển dưới đang biểu thúc chính quy ma la cae Wt va mdi quan hệ giữa chủng
Dễ hiểu rõ hơn về chúng ta tin hiểu vẻ định dạng vá biểu điễn của tập luật
trong trích rút thực thể
3.1.3 Định dạng và biểu diễn của tập luật
Theo Sunita Sarawagi[6], một luật cơ bản có đạng như sau: "mẫu ngữ cảnh
— hành động" Một mẫu ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn phi lại thuộc tỉnh của một hoặc rhiểu thục thể, Một mẫu được gán nhấn là bao gồm tuột mẫu có biểu thức chính quy được xác định qua các tỉnh năng của thẻ ương văn bản và một
nhấn luỳ chọn Các thuộc tỉnh này có thể được chỉ ra là thuộc tính của thể hoặc ngữ
cảnh hoặc các văn bản trong, các thể xuất hiện,
31.31 Đặc dim của các thể
Sự kết hợp giữa mél thé trong mot câu thường được kết hợp cùng với lập thuộc tỉnh thu được thông qua một hoặc nhiều các tiêu chỉ như
~ Các chuối đại điện cho thẻ thông bảo
- Các loại chính tã của thể, có thế có dạng từ in hoa, từ in thường, hỗn hop
in hoa và mì thường, dầu cách, dấu chấm câu số, ký hiệu đặc biệt
- Cac phân của bài phát biếu của thẻ
Trang 21Ví dụ, một thể như “New” phủ hợp với từ dâu tiên của từ diễn với tên thành
phd, tên đó sẽ được liên kết với một thuộc tinh “Dictionary - Lookup = start of city.”
~_ Các chú thích kẻm theo các bước xử lý trước dỏ
3.1.3.2 Các luật dỄ xác dịnh một thực thể don
Cáo luật dễ nhận ra một thực thé don dày đủ bao gồm ba loại mẫu sau:
-_ Một mẫu tùy chọn ghi lại bởi cảnh trước khi bắt đâu của một thực thể
-_ Một mẫu phù hợp với các thẻ trong các thực thế
~_ Một mẫu Lày chon để ghi lại bối cảnh sau khi kết thúc của thục thể
Vi dụ về một mẫu đề xác định tên người có dạng “ID Yair Weiss” bao gồm
một thẻ tiêu để được liệt kế trong tập từ điển các chức đanh (có chứa các mục như :
“Prol ”, “Dr”, “Mr” ), một đầu chấm, và hai từ viết hoa là
({Dieionay - Lookup = Titles}{String = “”}(Orthography type = capitalized word} {2})Person Names
Méi diéu kién trong dấu ngoặc nhợn là ruột diểu kiện của một thể dược thông, báo theo sau cùng với số tùy chọn chí ra số lần lặp lại của thế
Ví dụ về một luật để đánh dau (At cả số đi sau các giới từ “by” và “im” là thục
thể năm:
(String="by”|String="in"} ( {Orthography type = Number}):y— Year=:y
Có trái mẫu trong luật máy: mẫu đầu liên để ghi lại ngữ cảnh xuất hiện của các thực thể năm và mẫu thử hai ghi lại các tỉnh chất của thẻ tạo thành “year”
Một ví dụ khác cho việc tìm kiếm tên công ty dang “The XYZ Corp.” or
“ABC Ltd” được tạo bồi:
({Swing="The”}? {Orthography type = All capitalized} {Orthography type = Capitalized word, DictionaryType =Company end})}+ Company name
213.3 Các luật cho da thực thế
Một số luật có dạng biểu thức chính quy véi nhiéu slot, m4i slot dai dién
cho một thục thế kháo nhau do đó luật này dẫn đến sự công nhận của nhiều đổi tượng cùng một lúc Những luật này được sử dụng tốt hơn cho bên phủ đữ liệu theo
Trang 22định hướng, Ví dụ, hệ thống dựa trên luật WHISE [7| hệ thông, đựa trên nguyên tắc
đã được nhằm mục tiêu cho việc khai thảo từ hồ sơ có cấu trúc như hỗ sơ y tế, các tần phi bảo trì tết bị, và phân loại quảng cáo Các luật này được viết lại từ [7 |, để
trích rút hai thực thể, số lượng phòng, ngủ vá tiền thuê, từ một quảng, cáo cho thuê
căn hộ
({Omhography type Digig}Bedrooms (S_mg “BR”DG]*)
([String ="8”}X [Orthography type = Number}):Price—»Number
of Bedrooms =:Bedroom, Rent =: Price
1.3.4 Lụa chạn định dạng câa tập luật
C6 nhiều hệ thông dựa trên luật state-of-the-art cho phép các chương trình
tủy chọn viết bằng ngôn ngữ thủ tục như lava và C ¡ | thay cho hai thi tue nay Ja các luật GATFI8| hỗ trợ các chương trình Java thay cho ngôn ngữ uáy bằng một luật khác được gọi là IAPI trong hoạt động của một luật IAPI được đánh giá là
một khả năng mạnh mẽ bởi vì nó cho phép phan hành động của các quy tắc để truy
cập các thuộc tính khác nhau mà được sử dụng trong phần tuấu của các quy lắc và được sử dụng để chèn mới các trưởng cho chuối chủ thích Các trường mới cỏ thể được xem như các thuộc tỉnh bổ sung cho một luật
3.2 u nhược điểm của phương pháp tiến cận đựa trên luậL
Phương pháp tiếp cận dựa trên tập luận có những tru điểm sau:
~ Phương phúp tiếp cận đựa trên luật cần sử dụng íL đữ liệu huấn luyện hơn phương pháp tiếp cận dựa trên dữ liệu
- Phương pháp này có thê xây dựng các biểu thúc chính quy tốt cho trích rút thông đựa trên củ pháp, từ vựng, và các thành phan ngữ nghĩa Phương pháp nay cho đỏ chính xác rất cao, độ hỏi tưởng thấp Do đỏ phương pháp nảy rất thích hợp
cho các bài toán chỉ quan tâm đến độ chính xảo
Nhược điểm của phương pháp tiếp cận dựa trên luật
liên cạnh những ưu điểm, phương pháp tiếp cận dựa trên luật còn có những,
nhược điểm sau: Khi sử đựng phương pháp này đỏi hỏi người xây đựng đóng vai tro như chuyên gia miễn dữ liệu, người xây đựng phôi só kiến thức về ngôn ngữ, Lừ
Trang 23vựng và cú pháp, cần phải rất am hiểu dữ liệu Ngoài ra, tập luật thường được xây dựng để lây ra các thông tin đặc biệt, do đó khi thay đổi sang miễn đữ liệu khác thì
lại phải xây đựng tập luât cho phù hợp Mà việc xây dựng lập luật đôi khi râi lốn
GATH (General Architectue for Text Engineering) là một công cụ phan
xnẻm được xây dựng và phát triển các ứng đụng xử lý ngôn ngữ tự nhiên, nó được
phát triển bởi một nhóm nghiên cứu của Trường Đại hoc Sheffield Anh Quéc tit
xăm 1995 Từ đó đến nay, GA đã trải qua nhiều phiên bán, phiên bản GATL 1.0 được giới thiệu vào năm 1996 vả phiên bản hiện tại là Gate 8.0 (2014) Nó được sử dụng trong các dự án nghiên cứu trong Tĩnh vực bích rút thông tin Hiên nhiều ngôn
ngữ như tiếng Anh, Ily Lạp, Tay Ban Nha, Thụy Diễn, Dức, Ý, Pháp Gate cũng,
hế trợ rất mạnh cho việc phát triển Web có ngít nghĩa
Trang 243.3.2 Kiến trúc của Gate
Sơ đồ kiến trúc của Gate như sau
*all communication via fixed APIs
*low coupling, high modularity, high
l Format | |[Document <a
nnotation logy | Onto- || net ||eteers
Hình 3.1 Mô hình kiên trúc của GATE
Mô hình kiến trúc GATE được chia lam 7 lớp chính:
> Lop IDE GUI: Là lớp giao điện trực quan tương tác với người dùng,
cho phép người dủng giao tiếp với GATE dễ dàng và thuận tiện hơn
> Lớp Applieation: Lớp ứng dụng mà GATE đã xây dựng, tiêu biểu như
ANNIE, OBIE, hay các thanh phan ứng dụng tích hợp (Plugin), cỏ thể thêm hoặc
gỡ bỏ vác ứng dụng bằng cach danh dau vao cac plugin can thiết trong Manage
Creole plugins
> Lớp Document Format: Lớp quản lý các loại tai liệu theo định dạng
khác nhau nhu xml, html, pdf
Trang 25> Lep Corpus: Lop quản lý kho tải liệu gỗm nhiều thành phần khác nhau tập hợp một nhỏm các tải liệu, lớp quán lý kho tài liệu được chia ra thành nhiều
nức khác nhau như:
- Corpus + Document: Mét kho dit ligu bao gỏm 1 hay nhiều tải liệu
- Document Content -> Annotation Set: Từ nội dung tải Ligu dén bé
cu liên kết với những bộ nhần rào
nhấn, nội dụng của tải
-_ Annotation -> Feature Map: Tử nhãn đến đặc trưng của nhân, một nhãn sẽ có những đặc trưng nào
> Lớp Drocessing: Lớp này gồm các thành phần xử lý khác nhau như tách từ , gan nhân từ loại, nhận dạng từ quan điểm
> Lớp Language Resource: Lớp quản lý các đổi tượng dữ liệu đặc biệt trong GÁTE nhực lập Eừ điển (azeiteor), lập tù vựng (lexicon),
> Lép DataStore and Index: Lớp quản lý vẻ lưu trữ như lưu lại trạng thái
của các tài liệu đã xử lý hay các đổi tương xử lý tài liệu
GATE có các ưu điểm như
~ Tình linh động: Gate có thê xứ lý nhiều định dạng văn băn khác nhau như:
xml, pdf, Lex
- Tinh day di: Gate cung cfp day di cac thanh phan co ban nhu:
-+ Thánh phẩn ngôn ngữ (Language Resources): C6 thé fa một kho dữ liệu
(eorpu) hoặc các lài nguyên khác như: tập lừ điễn (gazelteers), tập từ vựng
(lexicons) hay một cầu tric (ontology)
+ Thanh phan xử lý (Processing Resource): Là một chương trình được cải đặt thuật toán xử lý trên các thành phân ngôn ngữ
- Tinh khá dụng: Gate cung cấp một thư viện khá linh hoạt và đây đũ cho
người lập trình java Ngoài ra ta có thê rất để đàng thêm vào những thành phân tích hop (Plugin) mới, bởi cơ chế dễ đảng “thém va tich hop” eda Gate
- Tinh di dimg: Gate cũng cưng cấp một giao diện đỗ họa cho phép người
ding có thể thao tác một cách dé dang và trực quan
Trang 263.3.3 ANNIE (A Nearly New Information Extraction System)
ANNIE (A Nearly New Information Lxtraction System) la hé thông rút
trích thông tin bạo gồm lập hợp các tái nguyên xt ly ANNTE dựa trên giải thuật
trạng, thải hữu hạn và ngôn ngữ JAPH,
Tộ tách từ: Mục đích để phân chia văn bản ra thành các từ đơn giản như các
số, dấu chấm, các ki b ác ký tự đặc biết ($,@&,#, ) và những từ thuộc những loại khác nhau Bộ tách từ không, nhất thiết phái sửa đổi cho những ứng dụng khác
tnhau hoặc những loại văn bản khác nhau
Ví dụ: Chữ cái đầu liên viết hoa hoặc tắt cả các chữ cái đều viết hoa
Tộ tách câu: Là quả trình phân chia văn bán thành các câu riêng biệ iệc
B6 gan nhãn từ loại: Một nhăn từ loại như một chú giải cho mỗi từ hoặc ký
tt Bộ gan nhãn và bộ tách câu là những thành phân không thể thiểu trong hệ thẳng,
nhận đạng thực 1
Bộ từ điển: Bao gồm một tập hợp cáo tử điễn nhỏ chữa các từ được dink
nghĩa theo ruột tiêu chỉ nào đó Chứa đựng các đánh sách, những danh sách này
được sử dung để hỗ trợ nhận biết thục thể, Trong bất kỳ một chủ giải Lookup nao
cũng có thể có một hoặc hai đặc trưng: đặc trung thứ nhật majorlype đây là thành phân bất buộc và đặc trưng thứ lưi minorType là thành phân tùy chọn có thể có hoặc không Khi bộ từ diễn hoạt động trên vin ban, các nhin (annotations) kiéu Lookưp (một kiểu nhãn mặc định trong GATT) được tạo ra bằng cách so khớp các
tử trong bộ từ điễn với các xân trong văn bản Các nhấn (annotation) kién Lookup này sẽ được sử dụng trong khi viết các luật JAPH
Tộ đánh đâu ngữ nghĩa: Dây lả những luật được viết thủ công thông qua
Trang 273.3.4 BG Init JAPE (Java Annpfatian Patterns Engine)
JAPL la một thành phân quan trong nhit trong GA'TE nó đóng vai trẻ chính
giúp công cụ này xử lý ngôn ngữ tự nhiên Bộ luật Japo là thành phần cơ bản trong
khung làm việc của Gate cho phép ta xây dựng các tập luật bằng các cách viết biểu,
thức chính quy trên nhãn (arrnotation) và tạo ra các nhãn mới trong văn bản
Một bộ luật TAPE báo gồm một lập các doạu (phases), mỗi doạu lại bao
am một tập các luật Mỗi tập luật lại gồm hai thành phản là vẻ trái (Left-hand-side
- LIS) và về phãi (Right-band-siđe - R15), hai về được phân biệt bởi ký hiệu:
“~>”.- Có củ pháp như sau
LUS (left-hand-side) —>- RUS (right-hand-side)
hi mệt luật TAPE thực thi thì các luật nhỏ bên trong của nó được thực
hành một cách tuân tự từ trên xuống như củng Priornty và mỏ thí hành các luật Lừ thấp đến cao (mặc định là -I nẻa không khai báo Priority)
Trong luật TAPE gảm hai thành phan chính là mệnh để trái (LHS) vả mệnh
dễ phả¡(RH8) Trong khi mệnh dễ phải (RHS) thẻ hiện hành động cần dược thực thì khi ménh dé trai (LHS) được thỏa mãn so khóp
-Mệnh đề trái T.H5 (paterns): Lá một biểu thức của các mẫu ørmotaiion
“¡" : phép lập một lân hoặc lặp nhiều lần
Cac miu duge sản trong mệnh để trải sẽ được sử dụng trong mệnh đề phái
- Mệnh đê phải RITS : Sử đựng các mẫu được cung cấp bái mệnh đề trái đề
thực thĩ một lệnh nào đó và thông thường 1a tạo ra các nhấn arnmolatton mới Các
araotation thỏa mãn yêu câu người dùng,
tỳ
Trang 28Dé thuận tiên và tránh lặp di lặp lại các thành phan TAPE đưa ra khái niệm thay thé Macro Macro biểu điển một biểu thức chính quy sau đỏ được dùng thường,
xuyên trong về trải của luật
Một số lựa chọn khi viết luật:
Thành phần đầu tiên của mỗi luật TAPI ta phải thiết lập là một thuộc tính là
“Control” Cé 5 gid trị cho Control “all”, “once”, “brill”, “firs” va “appell”
Kiểu nảy phải được xác định khu bắt đầu mỗi văn phạm chứa các luật để điều khiển
so khép mẫu
Cú pháp:
Options: control=<kiéu diéu khién>
- Kiéu “Brill”: Khi có nhiền ơn một luật được thỏa mãn trên một văn bản, thì tắt cả các luật đó đều được thực thú San quá tình so khớp diễn ra ở tắt cả các luật thì điểm bắt đầu quá trình sơ khớp tiếp theo sẽ là điểm kết thúc của luật được so khớp dài nhất của quá trình trước
- Kiểu “4l” cũng giống như “brill” nó cha phép tắt cả các luật dược so khớp trên cùng một đoạn văn ban tuy nhiên nó có điểm khác biệt với “bưil]” là điểm tất đầu quả Irùnh so khớp Hếp theo là điểm bái đầu của nhãn gần nhất sau nó Có thế
nói kiểu “all” so kop réng hon “Brill”
- Kiéu “onee” Chí cỏ luật đầu tiên thỏa mẫn quá trinh so khớp được thực
tiện
- Kidu “First”, Luat được thực hiện ngay khi quá trình so khớp dâu tiên được thỏa mãn Cho nên khi chọn giá trị này thì chỉ có luật nào thỏa mãn đầu tiên sẽ được biếu điễn ra Bởi vậy nó không thích hợp che các luật sử đụng “1”, “2%, «2®
- Kidu “Appelt”: Chi co một huật thóa mãn quả trình so khớp có độ thục thi cao nhất được biếu điễn ra nhưng theo một thứ tự tru tiên sau:
L Trơng một đoạn văn bản nếu có nhiều luật thỏa mãn so khớp lừ vị trí X, nhưng luật nảo thóa mãn trên vừng đài nhất sẽ được thực thị
I Nếu qua bước 1 vẫn cên cô nhiều hơn một luật so khớp cùng một đoạn
trong văn bản thì luật náo có độ rà tiên cao hơn sẽ được thực hú
Trang 29+ Nếu qua bước 2 van còn có nhiều hơn một luật so khớp củng doan trong
văn bản và có độ uu tiên như nhau thi luật nào được định nghĩa sau cùng trong văn phạm TAPE sẽ được thực thí
'Trong do cac priority la cảc số nguyên dương, theo thứ tự số lớn hơn thi
priority có độ tru tiên lớn hơn Nếu không khai báo trong luật thì priority có giá trị
xuặc định priority là -] (miority thốp nhấU
Vi du vé khai bao control
Phase: Entity
Input: Lookup, looken
Options: control= appelt
Vi đụ về JAPE Grammar dime 4é gan nhăn cho thực thẻ:
Rule: NewCity ({Lockup.minnorType == city}): Joc
=> ‘Joe Location = {kind =“
J" mle="NewCity"}
G vi du nay thi “loc” la nbn Vé phai của luật là phẩn theo sai mỗi (én Nhan “loc” duge chuyển tới về phải của luật và chủ giải có kiéu Location duge thêm vào mẫu, với hai đặc trưng Lày chọn là kind và rule các giá trị lần lượt lương
vung a “city” va “NewCity”
3.4 M6 hinh trich rat sq kign tr van ban hgi thao khoa hoc titng Việt
Qua khảo sát thực tế đữ liệu về hội thảo khoa học Để trích rủi ra các thực thể tử hội thảo khoa học tảz giá sử dụng các luật văn phạm JAPE trong GATE dé trích rút Tác giả để xuất mô hình trích rút sự kiện đựa vào các tập luật văn phạm
TATE trong bộ công cụ mã nguồn mở GATE như sau:
Trang 30Các văn bản
hội thảo
-Tach tir -Tach cau Gan nhan tir loai_)
Đưa lên
Website khai
thac
Hinh 3.2 M6 hinh qua trình trích rút sự kiện hội thảo khoa học
Dữ liệu được lấy từ website thông qua việc thu thập thông tin để được dữ liệu đầu vảo là các văn bản hội thảo, dữ liệu này sẽ qua một module GATE đề trích:
rút thông tin liên quan đến hội thảo như: Thời gian (giờ phút ngày tháng năm diễn
ra sự kiện), Địa chỉ (nơi diễn ra sự kiên), tên sự kiên Sau khi trích rút được các
thông tin trên thi lưu vảo cơ sở đữ liệu sau đỏ kết nối với website để đưa dữ liệu lên
để khai thác
30
Trang 313.4.1Thu thập dữ liệu
Công việc đầu tiên đề xây dựng hệ thông trước tiên chúng ta càn thu thập dữ liệu, khi mà đữ liệu đầu vảo cảng chuan cảng chỉnh xác thì cảng để dàng cho phát triển hệ thông
Phan nay có nhiệm vụ thu thập dữ liệu đầu vảo từ các trang website trên
Internet hoặc các bài báo về hội thảo khoa học (Do thời gian cỏ hạn nên tác giả chỉ
thu thập dữ liệu bằng phương pháp thủ công ) để được các văn bản hội thảo sau đỏ
chuyên sang cho bước tiên xử lý Hiện nay nguồn dữ liệu trên mạng internet rất đa
dang vả phong phú nhưng không phải dé dang dé tim được một nguồn dữ liệu hợp
lý và chuẩn xác vì một số tải liệu không theo chính thông cho lên việc thu thập dữ
liệu gặp nhiêu khó khăn
Để thu thập dữ liêu cho luân văn tác giả đã tìm ở một số trang website như:
https://vass.gov.vn/ (Viện hàn lâm khoa học xã hội Việt Nam),
http:/Avww.ciem.org.vn/ (B6 ké hoach va dau tu viện nghiên cứu quản lý kinh tế trung ương) hai trang này thường xuyên cập nhật dữ liệu
3.4.2 Tiền xử lý
3.42.1 Téich từ
Tach tir: Điểm khác biệt của Tiếng Việt so với tiếng Anh đỏ là vân đẻ tách
từ Trong tiếng Anh các từ được phân biệt với nhau bởi dấu cách (khoảng trồng)
Trong tiếng Việt các từ cũng được phân biệt với nhau bởi dâu cách (khoảng trồng)
nhưng ở từ trong tiếng Anh là một tiếng hay một từ có thể bao gồm một, hai, ba hoặc nhiều tiếng Trong tiếng Việt một tiếng có thể liên kết với từ đứng trước nó, hoặc đứng sau nó đề tạo thảnh từ có nghĩa
342.2 Tách câu
Tách câu được hiểu la tach văn bản thánh các câu riêng biệt thông thường sẽ
dựa vào sự xuất hiện của các kí tự sau *”, “2°, *!”, được coi là đâu hiệu kết thúc
câu Tuy nhiên điều này không phải lúc nảo cũng đúng, ví dụ như sự xuất hiện của
*” ở trong từ viết tắt, trong một đường dần URL
31