Ý tường chung trong dịch máy dựa trên thống kê là chúng ta tìm kiếm các tính chắt của dừ liệu văn bản sonơ n sừ mà dễ dàng đo được và tìm cách sử dụns nhữnơ thuộc tính này đế tiên đoán k
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2MỤC LỤC
C H Ư Ơ N G 1 GIỚI T H IỆ U 4
1 1 Đặt vấn đ ề 4
1.2 Nội dune của đề t à i 4
1.3 Cấu trúc của báo c á o 4
C H Ư Ơ N G 2 TỔ N G Q U A N VẼ DỊCH MẢY VÀ TÓM TẮ T V Ã N B À N 6
2.1 Tồng quan vè dịch m á y 6
2.1.1 Thế nào là dịch máy, vai trò và vị t r í 6
2.1.2 Các chiến lược dịch máy cơ b ả n 7
2.1.3 Một sổ tiếp cận m ớ i 10
2.1.4 Tiếp cận xây dựnơ hệ thòng dịch cùa chúng tỏi 13
2.2 T ò n s quan về tóm tăt văn b à n 14
2.2.1 T o n s quan về tóm tẳt văn b à n 14
2.2.2 rỏ m Tnch lọc (extraction) 15
2.2.3 Tóm tát cò đọnii (abstraction) 16
2.3 Két luận c h ư ơ n g 17
C H Ư Ơ N G 3 HẸ T H O N G DỊCH CHUYỂN Đ Ỏ I 18
3.1 Kiến trúc hệ th ò n g 18
3.2 rư điên sone n a ừ 19
3.3 Phàn tích hinh thai 19
3.4 Gán nhãn từ lo ạ i 21
3.5 Phàn tích cu p h a p 21
3.6 Xứ lý nhập nhủnơ rmừ n s h ĩa 23
3 7 Sinh càu tiéns V iệ t 25
3.8 Xâv dự ns dừ liệu d ịc h 27
3.9 Một số còn2 c ụ 27
3.10 pcết qua thí n g h iệ m 28
3.12 Kèt luận c h ư ơ n s 28
C H Ư Ơ N G 4 M ỌT s ỏ PHƯƠNG PHAP TOM TÁ T VĂN BAN M Ớ I 30
4.1 Mỏ ta hệ t h ố n g 30
4.2 Tóm lát vãn ban dựa trèn M E M 30
4.3 Tóm tãt vãn băn dựa trẽn C o-M E M 31
4.4 Rút iiọn c à u 32
4.5 Kèt quà thực n íih iệ m 37
Trang 34.6 Kết luận c h ư ơ n g 42
C H Ư Ơ N G 5 K ẾT L U Ậ N 43
5.1 Kết luận và kiến n g h ị 43
TÀI LIỆU TH A M K H Ả O 44
PHỤ L Ụ C -t5 Danh sách n hữ ng người tham gia thực hiện đề tài ThS Lẽ A nh Cường (chủ trì), Trường ĐH Công nghệ PGS TS Hồ Sĩ Đàm, Trườne ĐH Công nghệ PGS TS Đinh Mạnh Tường, Trường ĐH Cônơ nghệ TS Nguvễn Lè Minh, Viện Khoa học và Công nghệ Tiên tiến của Nhật Bàn (JAIST) ThS N guyễn Phương Thái, Trường ĐH Công nghệ CN Nguyễn Văn Vinh, Công ty Lạc Việt Danh mục các bảng số liệu B ans 1 Bans đánh 2Ìá két quà dịch m á y 28
B áns 2 Sự phàn bố của dừ liệu học đối với các kiêu l ớ p 37
Burm 3 So sánh Liiừa phương pháp của chuns tôi và phươrm pháp cùa Kniaht và Marcu (2 0 0 2 ) 41
D anh m ục các hình Hình 2.1 Sơ đồ tồng quan một hệ dịch m á y 7
Hình 272 Hệ thốns dịch trực t i ế p 8
Hình 2.3 Hệ thống dịch chuyển đ ồ i 9
Hình 2.4 Lược đồ quan hệ giừa mô hình chuyên đôi và liẻn n s ữ 10
Hình 3.1 Kiến trúc hệ thốns dịch chuyển đ ồ i 18
Hình 3.2 Cônơ cụ biên soạn từ điển song n2ử 19
Hình 3.3 Sơ đồ các thành phần của một bộ phàn tích hình thái hai m ứ c 21
Hình 3.4 Một cây cú pháp 23
Hình 2.5 Mô hinh một hệ dịch Anh V iệ t 25
Hình 4.1 Mồ tả một quá trình chuyèn đôi một câu dài thành một câu ngấn hơn 34
Hình 4.2 Các ĩhuộc tính ngừ ngh ĩa 35
2
Trang 4Hình 4.3 M ô tả hiệu nãng của Co-M EM sử dụng một phàn cùa dữ liệu học và
M EM sử dụng toàn bộ dừ liệu h ọ c 39Hình 4.4 M ô tả hiệu năng của Co-MEM, MEM, và Lead với kích thước của tómtắt thay đ ổ i 40Hình 4.5 Một sò ví dụ về rút 5ọn càu ap dụns phươne phap MEM và phươnơ pháp
D ecision-Tree 42
Trang 5CHƯƠNG 1 GIỚI THIỆU
1.1 Đ ặ t vấn đề
Hiện nay vấn đề xử lý ngôn ngừ tự nhièn ờ Việt Nam dans có tính thừi sự thu hút được nhiều quan tâm của các nhà khoa học Tuy nhiên các kết quả đạt được vẫn còn hạn chế và có thể coi như chúne ta đang băt đầu nhừne bước khởi độne trona lĩnh vực này T ron e xử lý ngôn ngữ tự nhiên, lĩnh vực dịch máy đã và vẫn đang có nhu cầu cấp thiết, nhất là trong việc phát triên các nghiên cứu và ứng dụns để xảy dựng hệ dịch từ tiếng Anh sang tiếnơ Việt Bẽn cạnh đó, một lĩnh vực cùng được nehiẽn cứu nhiêu trẻn thế giới là tóm tắt văn bản nhưng còn ít được chú ý ở Việt nam M ột sự kêt hợp siừ a tóm tăt và dịch văn bản từ tiếng Anh sang tiếng Việt áẽ
có rất nhiều ứng dụng và mang lại lợi ích thiết thực khi trợ giúp neười sử dụng nám được thông tin neày càns lớn, nhất là những tài liệu tiếng Anh đối với người không thạo tiếng Anh
1.2 Nội d u n g của đề tài
Tìm hiêu về dịch máy Anh-Việt và tóm tắt văn bản tiếne Anh
Bước dâu xày d im s thừ nghiệm một hệ thòng tóm tất và dịch văn bàn từtiêng Anh sans tiẻng Việt trons một sò chủ đê hạn chẻ như Tin học, Kinhtế
Xàv dựng một sò c ô ns cụ và dử liệu cuns câp cho việc nghiên cứu về xử lv ngôn nơừ tự nhièn tại khoa
1.3 C ấu trúc của báo cáo
Mục tiêu của đề tài là nshièn cửu và bước đẳu xảy dựna một hệ thống dịch và tóm tất tự đ ộ n s văn bản Anh-Việt Do đó chúng tôi sẽ trình bày hai phằn: hệ thốnơ dịch A nh-V iệt và tóm tăt văn bán tiêng Anh Hệ thông dịch Anh-Việt đã được chúnơ tôi phát triẻn từ nhiều năm trước (Phạm H ồn s N euyèn và cộng sự, 2003)
N h ư n g đê tiện theo dõi, chúnơ tôi vẫn trinh bày lại ờ đây kiến trúc hệ thốns và siới thiệu ve từnơ thành phan của nó Tronơ khi trình bày chúng tỏi sẻ nhấn mạnh các c ô n s việc mới mà chúnơ tôi đã thực hiện cùnơ với kết quả đạt được trona khuôn kho dự án nghiên cứu này Thèm vào đó chủns tôi cùn® đề cập đến tình hình nghiên cứu dịch máy ờ nước ta hiện nay trong phần tảng quan các vấn đề nghiẻn cưu Vàn dê tóm tat ván ban tiếng Anh dược trình bay tương dối độc lập
4
Trang 6với vấn đề dịch máy Tiếp cận chính của chúng tỏi là sừ dụne học máy đê tóm tăt
văn bản.
Báo cáo gồm 5 chương:
- C h ư ơ n s 1: Đặt vấn đề và các mục tiêu của đề tài
- Chương 2: Giới thiệu tông quan vè dịch máy và tóm tăt văn ban
- Chương 3: Trình bày về hệ thống dịch chuyển đổi, các thành phần của nó
và các kỹ thuật cơ bản
- C hươne 4: Trình bày một số phưome pháp tóm tát văn bản mứi như tóm tắtvăn bản điều khiến bời cú pháp, tóm tát văn bản sử dụns SVM, hay tóm tắtvăn bản với cây quyết định
C h ư ơ ns 5: Kêt luận và kiên nghị
Phụ lục: Một sò báo cáo khoa học và khoá luận được thực hiện trons khuôn khồ đề tài
5
Trang 7CHƯƠNG 2 TỎNG ỌUAN VÈ DỊCH MÁY
VÀ TÓM TẮT VĂN BẢN
2.1 T ổ n g quan về dịch m áy
2.1.1 Thế nào là dịch máy, vai trò và vị trí
Trải qua mấy thập kỉ, vắn đề dịch máv đà được rất nhiều nhà khoa học quan tâm họ đã đưa ra nhiều khái niệm về dịch máy, tuy nhiên ý tưởng chính của họ
vẫn là như nhau (Hutchins và Somers 1992): Các hệ dịch m áy (machine
translation system -M T) là các hệ thống sử dụng mảy tính đẽ dịch tài liệu từ một
thứ tiêng (trong ngôn n gữ tự nhiên) sang m ột hoặc vài thứ tiêng khác.
N eỏn ngừ của vãn bản cằn dịch được gọi là ngôn neừ nguồn hay ngôn n sử vào Ngôn ngừ văn bản đã dịch ra được gọi là ngòn ngừ đích hay nsô n n e ừ ra
Theo thống kẻ của Liên hợp quốc hiện có gằn 10.000 ngôn ngừ trên toàn thế giới N hờ có những ngôn ngừ khác nhau loài người mới có được nền văn hoá đa dạng, nhưng lượns nsôn neữ nhiều như vậy cùng là rào càn sự phát triền của
th ư ơ n s mại và 2Ĩao liru thỏnơ tin quôc tê Đê khãc phục sự càn trờ nàv loài người phái dùne một đội nsũ phiẻn địch/bièn dịch viên ràt lớn dê dịch các văn bản tủi liệu, lời nói từ tiêng nước này sang tiẻng nước khác Đó là còna việc thủ còne
n ặns nhọc nhưns nãns suât thảp siá thành cao, trone khi khối lượnơ văn bản cần dịch lại neàv càng nhiêu Mặt khác, với sự phát triên cực kì nhanh chỏng cùa Internet dần tới nguồn thông tin được truy cập từ khấp mọi nơi trên thế ơiới với nhiều ngôn ngừ khác nhau Điêu này càng làm tăng nhu câu dịch từ ngôn ngữ nàv san s ngôn nơừ khác với tôc độ nhanh mà-việc dịch thủ cỏnơ đã khôna còn đáp íme được nữa
Do vậy, dịch máy là một nhu câu tât vêu Nó sẽ đóns một vai trò quan trọne tro n s đời sống xã hội và có tính kinh tê cao Dịch máy được bẳt đẩu nsièn cứu ngay sau khi xuất hiện chiẻc máy tính điện tử đâu tiẻn Tuv nhiên, dịch máv khône chi là một ứng dụng tin học phi số thuần tuý mà nó còn cần một lượns lớn tri thức dịch Do đó mà việc giải quyẻt triệt đê nsôn ngừ tự nhiên là điều vò cùng khó khăn và đến nay vẫn còn rât nhiều vàn đê càn được tiẻp tục nshiẻn cứu
Chủnơ ta có thẻ hinh d u n s một hệ dịch máv qua sơ đồ sau:
6
Trang 82.1.2 Các chiến lirợc dịch máy cơ bán
Các hệ thốns dịch máy thông thường được phản loại theo các chiến lược cơ ban sau đâv (Hutchins và Somers 1992):
2.1.2.1 Dịch trực tiếp
Các hệ thons dịch trực tièp liên quan đẽn việc đối sánh các mẫu xâu và việc sáp xếp lại xâu đích cho thích hợp với ngôn ngử đích Rất nhiều hệ thốns trước đây c ủ n s như một số phàn mèm dịch máy hiện nay cho các máy tính cá nhản đã dùng chièn lược này Các hệ thòng theo tièp cận này được thiẻt kè cho từng cặp nsôn n s ừ cụ thè tiẻn trinh dịch là trực tiẻp từ ngòn n2ừ nouòn sans nsòn ngừ đích Hệ ihòn s bao 2ÒĨĨ1 một từ điẻn song ngừ lớn một sô qui tăc từ \ạrn2 được sư dụns cho phàn tích tư đièn và các thu tục xư lý đặc trims cho việc chuyèn đỏi aiừa
7
Trang 9hai ngôn ngừ Sau đây là tồng kết bốn giai đoạn thường được dùng cho các hệ thống dịch máy trực tiếp:
1 Phân tích hình thái câu nguồn: Công việc của giai đoạn này là phân câu thành các từ và phân tích hình thái cho những từ nàv.
2 Chuyên đôi nội dun s từ vựng từ nsôn n sừ n2uồn sans nsỏn n2ừ đích: chọn nội
dung dịch tương đương của các từ ưong ngòn ngữ đích Công việc này sử dụng từ
điển song ngữ Một số hệ thống ngoài việc sử dụng từ điển sons n2ử nó còn sử dụng các thủ tục chọn nghĩa của từ dựa vào ngừ cảnh lân cận
3 X ử lý đặc trưng: phần việc ưong giai đoạn nàv phụ thuộc vào sự khác nhau giừa ngôn ngữ đích và nsôn n sừ nguồn mà thực hiện các xử lý liên quan đến các từ ơhép, cụm danh từ, cụm độn s từ, giới từ, hay liên quan đến vị trí của s v o (chù từ,
động từ, túc từ),
4 Sinh câu đích: giai đoạn cuối cùng thường là sinh hình thái cho nsòn n2ử đích,
mà thường là liên quan đến động từ (các thì, neôi, số) và danh từ (số nhiều, số ít)
Càu vào thuòc ngôn ngữ nguồn
Cảu ra thuòc ngón ngữ đích
H ình 2.2 Hệ [hóng dịch trực tiêp
ư u đièm của phương pháp dịch trực tiẻp là đơn siản n hưns nhược diêm là chẩt lượng dịch khòns tòt cho các cặp ngòn n sừ không có nhiẻu sự tươns đồns về tử vựng và cấu trúc như Anh-Việt Nó chì đạt chất lượng tươne đối cho các cặp neòn ngừ có nhiều sự tươns đồne như Anh-Pháp Thực tế phương pháp này ít được dùn£ độc lập mà thường được kết hợp với các phương pháp dịch dựa rrèn luật đề
xử lý những câu mà bộ phân tích không nhận được
Trang 102.1.2.2 Dịch chuyển đổi
M ột hệ thống dịch chuyển đổi được thiết kế để dịch một cặp rmỏn ngử nhảt định, các hoạt động chính của hệ thống bao gồm: phản tích, chuyển đối và sinh cảu T hô ne thườne quá trình dịch diễn ra như sau: câu vào được phàn tích hinh thái, sau đó được nhận dạna bơi bộ phàn tích cú phap ma kết qua thương được biếu diễn dưới dạng cây cú pháp, tiếp đó câv cú pháp này sẽ được chuvén đôi sana dạng tương đươnơ ờ ngòn n sừ đích và từ đó máy sẽ sinh cáu thuộc n2Òn nsừ đích
Hìnlĩ 2.3 Hệ í hỏng dịch chuyên đói
Các hệ thòrm dịch chuvèn đôi có im diêm là chuvẻn tai dược càu trúc cu phap
và I12Ừ nshĩa từ vựng tuy nhiên khỏ khăn là nhập nhăns từ vựng (một lừ co thè có nhiều từ loại và nhiêu nghĩa) và nhập nhăns câu trúc (một càu co thê co nhiêu càv
cú pháp) Do vậv naười ta thưởng kêt hợp phương pháp này với các phươns pháp khác như dịch trực tiếp troQơ việc xử lý các trường hợp càu có cấu trúc khòns tốt (khònơ nhận dược băns bộ phân tích cú pháp)
2.1.2.3 Dịch liên ngử
Trorm hệ thông dịch liên ngữ trước tièn càu nsuôn được phân tích thanh một biểu diễn chuns, sau đó từ biẻu diễn nàv sinh ra càu đích Dịch liên n sừ do đó bao 2Òm hai íia i đoạn: từ ngòn neừ nsuòn tới neòn nsừ chung, và từ nsòn ngừ chuns tới nsòn n s ừ đích Như vậv các hệ thỏns dịch liên n sừ dùnơ một bộ kí hiệu dừ liệu
mò tà hạt nhàn ìiọi là một liên nsữ Liên n2ừ được định nghĩa như một tập các khái niệm và các quan hệ iỉiừa các khái niệm Liên rmừ biêu thị V níihĩa cua càu
9
Trang 11dưới dạng mạng ngữ nghĩa, trong đó mỗi nút biểu diễn một khái niệm và mỗi cung biểu thị một quan hệ Vì thế, nó cỏ thể được xem là đặc tả về cấu trúc khái niệm Các hệ thống dịch liên ngữ được thiết kế theo các bước của hệ thống chuyển đồi Nhưng trước khi tạo cấu trúc ngữ pháp thuộc nsôn ngừ đích thi cấu trúc ngữ
pháp của ngôn ngữ nguồn được phán tích vào trong liên n sử Tiép theo hệ thốnơ
dịch sử dụng tri thức từ liên ngữ để phân tích nsữ nghĩa và tạo cấu trúc ngừ pháp ở ngôn ngữ đích Sau đó là giai đoạn sinh câu bình thườne.
Hình 2.4 Lược đô quan hệ giữa mỏ hình chuvẻn đôi và liên ngữ
Dịch liên n sữ có ưu thế trong trường hợp xây dựng hệ thống dịch đa ngừ Nếu
một hệ thốns dịch n ngôn ngừ thì chúng ta chì can n quá trình chuyén đồi sang liên
ngừ và n quá trình từ liên ngử sang ngôn ngừ đích, trong khi với hệ thống dịch chuvén đồi thì chúng ta cần n(n-l) quá trình như thè cho tất cả các cặp nsòn ngừ Tuv nhiên xây dựng được một lièn ngừ đủ mạnh để có thề mỏ tả các thòng tin cho cùne lúc nhiều n sôn neử, cùng với các luật sinh cho từng ngòn neữ là một công việc rất phức tạp và đến bây giờ cùng chưa có hệ thống dịch nào thành c ô n s với cách tiẻp cận này
2.1.3 M ột số tiếp cận mói
Tronơ thập kỷ 90 và đến hiện nay có rất nhiêu nehiên cứu tìm hiểu về sử dụne corpus (cơ sở dừ liệu vãn bản lớn) trong dịch máy Với việc sử du ns corpus, các
10
Trang 12kỹ thuật trong thống kê đã thể hiện được những ưu điểm của nó Trong phẩn này
chúng tôi giới thiệu hai tiếp cận điển hình trong việc sử dụng corpus là dịch máy dựa trên thống kê SBM T (Statistical-Based Machine Translation) và dịch máy dựa
trẽn ví dụ EB M T (Example-Based Machine Translation) Các phương pháp mới nà\ thẻ hiện cách nhìn mới 50 với tiếp cận truvền thỏns và maníi lại một sỏ 'ivèt
quả, tuy nhiên cùng còn nhiều hạn chế.
2.1.3.1 Dịch máy dựa trên thống kê
Tiếp cận dịch máy dựa trẻn thốns kê được siới thiệu đầu tiên tronơ (Brovv, 1990)
và các mô hình toán học cho tiếp cận này được trình bày đầy đủ và chi tiết trons (Brow, 1993) Tiêp cận dịch dựa trên thống kê thực hiện dịch trên từng cặp nsòn nsữ cụ thể Nó coi mọi câu trong một ngôn ngữ đều là kết quả dịch của một câu bất kỳ thuộc n2Ôn n2ừ kia với một xác suât nào đó Với mỗi cặp càu (s,t) ta ký hiệu P(tịs) là xác suàt chương trình dịch sẽ chọn càu t trons ngôn nơữ đích là kết quá dịch của câu s trong ngôn ngừ nguồn Ta mong muôn chươnơ trinh dịch sỗ xác định được giá trị P(tịs) là rất bé với cặp càu như (She is a teacher ; Tôi thích một quvén sách màu xanh) và có giá trị cao trons cặp càu như (I like a blue book i Tỏi thích một quyên sách màu xanh) Như vậy với xâu thuộc nsôn n sữ nsuồn s hệ thống dịch xác suàt phai tìm được xảu đích t sao cho cực đại 2Ìá trị P(t!s) Sử dụnơ Cỏn2 thức Bayes ta có thè viẻt:
(a) Tính toán khả nãns của một xâu sẽ thuộc n2Òn nsừ đích, hay nói cách khác là tính toan khá nãna một xâu sẽ có dạna tòi trone nsòn n<zừ đó
( b) Tính toán khá nãna cua xâu n2uỏn sẽ là xàu dịch của một xâu ngỏn n sừ đích, hay tồng quát là kha năng một xâu là xâu dịch cua một xâu thuộc nơòn nsừ khác.(c) Một kỹ thuật tim kiêm xâu nsôn n2ử đích làm cực đại biẻu thức trẻn
Y nghĩa cùa bièu thức P(t)*P(sịt) là duns hoà hai yếu tò: t là xàu dịch cùa s và t
cỏ khuòn dạn« tòt trons nsòn ngừ đích
N hư vậy hệ thốns dịch xác suàt liên quan đên mô hình đơn n2ử và mô hinh dịch Vlô hình đơn n sừ thườniĩ dựa trên mò hình neram (thực tẻ là bi gram hoặc trisram) Mô hinh này xác định kha năna xuãt hiện cua một từ phụ thuộc vào các
11
Trang 13từ đứng liền trước nó (2 từ đối với mô hỉnh bigram, 3 từ đối với mô hình trigram)
N hờ đó ta có thề tính khả năng một xâu có khuôn dạng tốt trong ngôn ngừ đích
Mô hình dịch sử dụng tần suất cùng xuất hiện của các từ trong ngôn ngừ neuồn và
các từ trong ngôn ngữ đích, chiều dài của xâu chứa các từ đó, vị trí của các từ trong xâu, số lượng các từ thuộc xàu đích tươnơ ứng với từ thuộc xâu n2uỏn
Các hệ thống dịch máy thống kê được huấn luyện trên một lượng lớn dữ liệu văn bản song ngữ Nhiều mô hình bao gồm rất ít hoặc không liên quan đến các tri thức ngôn n eữ học, thay vào đó là dựa vào các đặc tính phàn phôi các từ và các cụm để sinh ra kết quả dịch thích hợp nhất Ý tường chung trong dịch máy dựa trên thống kê là chúng ta tìm kiếm các tính chắt của dừ liệu văn bản sonơ n sừ mà
dễ dàng đo được và tìm cách sử dụns nhữnơ thuộc tính này đế tiên đoán kết quả dịch Các thuộc tính có thẻ đo được bao gồm tần suất xuất hiện của các từ trong văn bản nguồn và đích, các vị trí quan hệ của các từ trong câu, chiều dài của càu,
và một số thuộc tính khác Điếm mạnh là mỏ hình này cần rất ít thông tin ngôn ngữ Tuy nhiên nó chì thê hiện kêt quả tôt khi những câu test tươnơ tự như dừ liệu huấn luvện
Y tườno cơ bản trons EBM T rất đơn siãn: dê dịch một càu thườnơ là chúns ta
sử dụng kêt quả dịch cua các càu tươne tự như càu đó, và rât nhiều kèt quả dịch chì là sứa đôi những két qua dã có Khi có một càu càn dịch, chúnơ ta tìm trong dữ liệu ví dụ các câu tươnơ ímơ với càu cần dịch sao cho các phần tronơ câu này bị phú bời các càu ví dụ được chọn Từ các thành phản phủ này chúng ta lấy ra các thành phần dịch tương ímơ từ câu dịch của càu ví dụ và kết hợp lại đế xây dựng nèn kết quả dịch Ví dụ:
Chúng ta cần dịch câu: "John bought a book on e co n o m ics/’
Giả sử trone kho ví dụ có hai mẫu:
Ann read a book on economics (Ann đọc một cuốn sách về kinh tế) (1)
Julie bought a notebook (Julie đã mua một cuốn vở) (2)
Hệ thống sẽ nhận dạng được cụm a book on economics trong mẫu (1) và cụm Julie bought trong mẵu (2) sẽ phủ càu cần dịch Do đó sẽ lấy hai cụm dịch tưng ứng là một cuốn sách về kinh tế và Julie đã mua đê xây dựng nên kết quà dịch là John dã mua một cuốn sách về kinh tế
Theo (Sato 1990), một hệ thống EBMT đặc trưng thường có nhữnơ thành phần chinh sau đây:
12
Trang 14Một cơ sở dữ liệu bao gồm các ví dụ, mỗi ví dụ là một cặp câu nguồn và câu đích đã được dóng hàng Thông thường thì cấu trúc câu phi được lưu
dưới dạng cấu trúc phụ thuộc
Một thuật toán tìm các ví dụ tương ứng với câu vào được hiểu là các ví dụ này sẽ phủ lên càu cằn dịch
- Một thuật toán kết hợp dùne để xây dựng lại cảu vào bang cách kết hợp các
thành phần con (các phằn phủ) tuơne ÚT12 với càu vào từ các ví dụ
- Một thuật toán chuyển đồi và kết hợp từ các thành phần dịch trons các ví
2.1.4 Tiep cận xây dựng hệ thông dịch của chúng tôi
rỏ m lại có hai ticp cận chính dê giãi quyêt bài roán dịch máv là liẻp cận dựa irèn luật mà điên hinh nhàt là phươrm pháp dịch chuyên đòi và tiẻp dựa trèn corpus mà tiêu biêu là hai phương pháp dịch dựa trẽn ví dụ và dịch thònơ kẻ Mỗi
ph ư ơ ns pháp dẽu có nhữnư điỏm mạnh và nnửrm nhược điẻm riêng Tiẻp cận dựa trên luật thè hiện tính tòna quát hoá của các qui rác nsòn n2ừ nhimơ làm này sinh nhièu nhập n hẳns và khó khăn trone xử lý một sô hiện tượns nsỏn naử Trong khi tiẻp cận dựa trèn corpus, đo khai thác nhửrm két quà dịch trẻn một sò lượns lớn các ví dụ nèn sẽ cho kết quà tòt néu gặp những càu có nhiẻu tiromơ đông với tập huân luvện và như vậv siài quvèt được nhièu trương hợp cụ thê cua ngòn ngừ Tuy nhièn đặc đièm này sẽ khòns còn ư ons trươnơ hợp dữ liệu thưa Mặt khác khi chúng ta cẩn dịch nhừnơ mién dừ liệu mới hệ thônơ dựa trẽn corpus phải được huấn luyện lại trèn tạp dừ liệu mới
Vì n hừns đặc điẻm đó mà da sô các hệ thònơ dịch thương mại hiện nav vần có kiến trúc dựa trẻn luật Tuv nhièn chúns thường khòns thuần tuý dựa ưẻn luật mà chứa một sổ thành phẩn sử dụns kỹ thuật thòng kê đê xử lý nhập nhầng Chính vì vạy trons V tươne xây đựn« hệ thòno dịch tự dộn2 Anh-Việt chú ns tòi lấy tiếp cận dựa trèn luật là tiẻp cận chinh và sử dụng các kỹ thuật thòns kẻ bô trợ
13
Trang 152.2 T ổ n g q u a n về tóm tắt văn bản
Với sự bùng nổ thông tin tri thức bàng văn bản hiện nay, tóm tắt văn bản, trích lọc thông tin, và tìm kiếm thông tin được xem như một trong nhừng vấn đề rất quan trọng được sự quan tâm nghiên cưu cùa các nhà khoa học và các chính phù như
M ỹ, Nhật, v.v Hiện tại ứng dụng của tóm tất văn bản rất phons phú, chúng ta có
thể kể một vài Cm2 dụns chính của tóm tắt văn bản như sau: Được sử dụng cùng
mật với một lượng k h ổn s lồ thòng tin hàng ngày Thu gọn kích thước vãn bản cho phép tích hợp vào các thiết bị cầm tay như điện thoại di dộnơ, máy Paml, PDA và nhiều thiết bị cầm tay khác nữa Trong đề tài này chúnơ tôi nghièn cứu các phương pháp tóm tất văn bàn đê áp dụng tích hợp vào một hệ thống dịch máy có sẵn Điêu đó rất hừu ích bơi một sự kết hợp 2Ĩừa tóm tắt và dịch vãn bản từ tiếng Anh sang tiếng Việt sẽ có rất nhiều ứng dụng và mang lại lợi ích thiết thực khi trợ ơiúp người sử dụng nãm được thông tin ngày càng lớn, nhàt là nhừng tài liệu tiẽna Anh đối với neười khônơ thạo tiêng Anh
Với nhu cầu và lý do như vậy tronơ đê tài nàv, nghiên cứu về tóm rát vãn bản được xem như một trona nhừns Cỏn2 việc chính trong dó chứne tòi xàv dựng một
hệ thone tóm tất văn bán ờ mức đon giản cho phép rút ơọn một vãn bản dài thành vãn ban cò đọna hơn Trước khi đi sâu vào chi tiết các phươne pháp tóm tất văn bàn thực hiện ở trong đề tài này chúng tỏi mô tả một cách tòng quan nhất về các
d ạn " tóm tất văn bán cũng như các phươns pháp tiẻp cận đê 2Ìải quvểt bài toán
2.2.1 T ổng quan về tóm tát văn bản
Mục đích chinh cùa tóm tắt vãn bàn là trìnlĩ bày ý chính của một văn bản dưới dạnơ cò đọng hơn dễ thấy rang nêu tát cả các càu trons văn bản là quan trọns như nhau, việc tóm tất vãn bản trơ nên ràt khó khăn và khòna có nhiẻu V nshĩa Tuy nhiên, th ỏns tin quan trọng thường phàn bô không đồng đểu ở các càu, ví dụ nội dung chính của một văn bản thường xuyèn được mô tà ở các câu đầu tiên Trước khi đi sâu vào chí tiết phằn nghiẻn cứu trong đê tài này, chủnơ tôi trinh bày một cách tóm tắt nhất về các thè loại văn bản và các cách tiêp cận tóm tắt vân bản gần đây (xem chi tiết trong (M ani và Maybury, 1999), ( N e g g e m e y e r , 1998))
Tóm tãt biẻu lộ [indicative summaries) cuno càp một hướns nshiẻn cứu về sự
mỏ tả nội d u n s của văn bản mà khòng đòi hỏi sự chuyèn đôi vê các nsừ cảnh xác
14
Trang 16định Trong khi đó tóm tăt cung cap (informative sum m aries) một phiên bản ngăn
hơn của nội dung vãn ban Cuối cùng, tóm tất dựa ưẻn cảu hỏi tập trung vào mục đích của người đọc để xác định nội dune bản tóm tất
Trích lọc í extra ctio n ) là một quá trinh xác định các yèu tô quan trọng càu
thành nèn một văn ban cho trước, abstraction là quá trinh biểu diễn vãn ban vơi khuôn dạng cô đọng trong khi vẫn chuyền tải được nội dung chính của vãn bản Tóm tăt văn bàn là một vấn đề hết sửc khó khăn bời nó vêu cầu phải hiẻu cả nội dung của vãn ban và những thong tin liên quan đến vẩn đề naừ nshĩa tu từ học quan hệ giữa các câu trong một đoạn ván cho trước
2.2.2 Tóm Trích lọc (extraction)
Tronơ các phươna pháp trích lọc văn ban trích lọc càu được sư dụng đẻ xác định các càu hay mệnh dẻ quan trọns nhàt tronơ một vãn ban hay một tập các văn ban Các phươnơ pháp nshien cứu trước đây vẻ tóm tăt vãn bán có thẻ được chia thành các hướne chính sau đây:
a) P hương ph á p heurisctic
Dựa trẻn vị trí: Phương pháp đơn 2Ìàn nhàt là dựa trên vị trí với quan niệm rune các càu xuàt hiện ơ đâu vãn bàn thườna quan trọne hơn những càu xuàt hiện ơ ỉiiừa hay ừ cuỏi cùng cua văn ban Với phươníi phap nàv cách tóm íãt Jon iiã n nhàt dô tạo ra một ban tóm tãt là chunn ta chọn ra nhừns càu đâu tièn irons vãn ban tùv theo kích ihươc và <JỘ dãi ìnona muòn cua ban tóm tất VIặc dâu hiệu nãne cua phươnư phap này thav đôi ràt nhiêu
theo kiểu cua vãn ban (văn ban khoa học, tin tưc V.V.) tuv nhiên nó iuòn
luôn chứng to được vào khoảna 33% cảu quan trọnơ trons vãn bản thườn2 năm ừ các vị trí đâu tiên
Dựa trén tiêu đề: Edmunson chi ra rărre; nhữns từ trono tiêu đê thườnơ liên quan đèn những càu quan trọns irons văn bán hơn là nhừns càu không quan tronsz Do dỏ sứ đụng, tiêu dê dược xem như là một phươna pháp dẻ xác định các càu quan trọns đỏi với một vãn ban cho trước
Dựa trèn các cụm từ: Tronơ vãn bản chúng ta có thẻ sư dụno các cụm từ hay dùne dẻ xác định xem câu có chửa từ đó là quan trọns hay khôns quan trọng
Dựa trên tuần suất của từ: Chủng ta có thè sư đụnơ tàn suảt xuảt hiện cua từ
đ ê tính đ ộ quan trọnơ của một cdu bãng cách tòng hợp tất ca các từ tr o n s
càu dó
i5
Trang 17b) P h ư ơ ng p h á p dựa trên cơ sở tri thức
Phương pháp dựa trẽn cơ sở tri thức liên quan đến việc tóm tát các văn bàn
theo một chủ đề xác định Phương pháp này sử dụng cơ sở tri thức phong phú về chủ đề để quyết định thành phần nào trong ván bản sẽ được đưa vào nội dung tóm tat Phương pháp này mặc dù là phù hợp cho một chủ đề nhất định nhưng sẽ rât khó áp dụng sang một chủ đề mới bời vì chúng ta phải chuvển đồi cơ sở trí thức phù hợp với chủ đê mới Công việc đó rất tốn công sức Hơn nửa, các phương
pháp này đòi hỏi phải hiểu ngôn ngừ sảu nên khỏng phải là phương pháp có lợi về
mặt tôc độ tính toán
c) P hư ơ ng p h á p dựa trên thống kê
Tièp cận thòng kẽ đà LhímR tò được tiềm nãne khi áp dụng vào nhiêu vàn đê trone xử lý neôn ngữ tự nhiên, như dịch máy, tim kiếm vãn bản, và trích thông tin Khá nhiều phương pháp thông kê đã được áp dụng cho tóm tắt văn bản Một trong những ứng dụng thành công của phương pháp này là kết hợp nhiều phương pháp khác nhau thò ns qua việc xem xét bài toán tóm tất văn bản như bài toán phân lớp
Cự thể hơn, một câu trong văn bản có thề được xem xét một trong 2 lớp, lớp quan trọns và lớp khòns quan trọno Phương pháp sử dụng học máy được áp dụng để xảy d ự ns các luật cho việc phân lớp kè trẻn Các phươns pháp học máy đà được
áp dune thành cõng cho việc tóm tãt vãn ban bao gòm m ans Bayes, support vector machines, maximum entropy models, v.v
2.2.3 Tóm tắt cô đọng (abstraction)
Các nghiên cứu sần đây đã tập trung vào các van đề về sinh càu tronơ tóm tẳt vãn bản Kỹ thuật sinh càu được xem như là chìa khóa đẽ có thề thu được một hệ
tóm tắt văn bản đúnơ naử pháp và bô cục chặt chẽ Trong khi xây dựng một bản
tóm tắt cô đọns là một còng việc hết sức khó khăn, các phương pháp sinh câu ở mức đơn giản horn đã thu được những kẽt quả nhât định Các phương pháp sinh câu ở đây bao gòm:
a) Rút gọn cảu
Đe tích hợp các kv thuật sinh cảu vào vẩn đề tóm tất vãn bàn, nhiều phương pháp đã được nơhiẻn cứu Trước hết, Jing (Jing, 2002) mô tả một phương pháp tóm tẩt vãn bản dựa trẻn các kỹ thuật cãt và dán, trong đó một vài phép toán cat dán bao 2ồm rút gọn kết hợp và đồng nghĩa đã được sử dụng như là nhừng kỷ thuật chinh cho việc nàng cao chât lượng của một hệ tóm tăt văn bản Knight và Marcu (K nisht và Marcu 2002) cùng trình bày một phương pháp rút gọn câu khác
16
Trang 18trong đó bài toán rút gọn câu được mô tả như một dãv các phép toán nhàm chuyến đôi câu thành câu ngăn hơn.
Trong báo cáo này, việc rút gọn câu được xem như là một nhiệm vụ chính, trong đó chúne tôi đề xuất một phươne pháp rút ơọn càu mới là một phươne pháp
mờ rộng của Knight và Marcu (2002), cho phép rút 2ọn càu với độ chinh \ í c cao
2.3 Kết luận ch ư ơ n g
Trong chươnơ này, ờ phần đầu (mục 2.1) chúnơ tòi đã giới thiệu tổn2 quan về dịch máv sau đó chúnơ tòi đã đề cập đến tiếp cận xàv dim s hệ thốrm dịch của mình, đó là một hệ thòng dịch chuyển đối giàu tri thức trong đó tim s mòđun có thè
là (iựa trên luật hoặc học máy Chương 3 sẽ mò tả kỹ hơn về hệ thốrm dịch này ơ phàn sau (mục 2.2) ch ủns tòi đã 2ĨỚĨ thiệu tònơ quan vẻ tòm tăt vãn ban tronơ đó đáng chú V là hai kiêu tóm tăt văn bản: tóm tat trích lọc và tóm tất cô đọne
C hươns 4 sẽ trình bày một sô nghiên cứu mới cùa chúng tôi vê tóm tãt văn bàn sử dụng học máy
Đ A I H Ọ C Q U Ố C G IA HA I 'O I TRUNG TÂM TH Ò N G TIN THƯ VIỀN
D T ~ / 3 ^ M
Trang 19CHƯƠNG 3 HỆ THÓNG DỊCH CHUYẺN ĐỎI
3.1 Kiên trúc hê thông• o
Sơ đồ hệ thốne dịch của chúng tôi như sau: -
Hình 3 ỉ Kiên [rúc hệ thông dịch chuvên đỏi
Theo sơ đồ trẻn văn ban vào trước tiên được tiền xử lý (lấy text loại bò nhiễu,
v.v.) sau đó sẽ được cãt câu, tách từ rỏi đây vào bộ p_hàn tích hình thái Môđun nàv
cỏ nhiệm vụ xác định dạng gôc từ loại và các thôna tin hình thái-cú pháp của từ
Kè tiếp, các càu vào sẽ dược nán nhãn từ loại nhăm ăiàm bớt nhập nhãniĩ vè phàn
loại từ Sau dó bộ phàn tích cú pháp sẻ xác định câu trúc cú pháp của các càu vào
và dưa ra các cây cú pháp Sau khi đã có kẻt quả phàn tích cú pháp, bộ phàn tích
n sừ nehĩa sẽ xử lý nhập n h àn s n s ử nơhĩa băne cách lựa chọn nơhĩa đúng hay loại
bo các nghĩa k h ò ns thích hợp cho các từ trong cảu Cưòi cùng lả bước sinh càu
tiếng Việt Cơ sở tri thức của hệ thốnơ này khá đa dạns với hai phần chính là từ điển sons nsòr Anh-Việt và bộ luật củ pháp tièng Anh
18
Trang 203.2 T ừ điển song ngữ
Từ điển song ngừ là cơ sờ dừ liệu rất quan trọng cùa một hệ thống dịch chuyển
đồi Từ điển này là từ điển dịch máy và khác với từ điển điện tử thône thườns dùng cho con người Nó bao gồm rất nhiều loại tri thức từ vựns; như hinh thái, cú pháp và naừ nghĩa Mỗi tư đẻníi Anh có một mục từ tươii2 ứna tron li lừ diên Mục
từ chứa các thông tin vê hình thái, từ loại, luật củ pháp đi với từ phản loại nsừ nahĩa nghĩa tiênơ Việt Dưới đây là hình chụp Cỏn2 cụ soạn thảo từ điển của chúng tôi:
FBEE
Pile 6úit '.V * Toots rtto
iWord 4 Rule ot Wofd
Scdaqxri
V jja q x ll
Scjhi SoJCTinil
* ỉ i n * /1 n r n n '
ỉia VS1 kn cn ia cBo '4
‘a i u pr.\r i ó a ve s u a '' '.lua ì 'v e ooá"
19
Trang 21nhăng từ loại được thực hiện ờ các 2Ìai đoạn tiẽp sau Một ví dụ về kết quà trả về của mô đun hình thái:
Mô hình hình thái hai mức được Kimmo Koskenniemi đưa ra vào năm 1983
C hú ns ta xem xét một ví dụ biến đồi hình thái sau: từ chased dược xem như là dần xuất từ chase bang việc thèm hậu tô -ed Tuv nhiên, néu thèm -ed vào chase thì sẽ dần đến việc sẽ phải loại bớt đi một kí tự e Do đó chase và chas được xem như là các dạng khác nhau của cùng một hình vị Một từ được biểu diễn như một tươno ứng trực tièp giữa dạng từ vựnơ của nó và chính từ đó hay còn 2ỌÌ là dạnư bên dưới và dạne bề mật Đây cùng chính là lý do vi sao mò hinh này dược gọi là mò hình hai mức Ví dụ từ chased dược xem như !à biêu diễn hai mức sau:
Dạno bèn dươi: chas e ^ ed
Dạne bè mặt: chas 0 0 ed
Trorm đó kí hiệu - là biên của hình vị 0 là kí hiệu cho kí tự tròng
Một bộ phàn tích hình thái theo mỏ hình hai mức có hai thành phàn dừ liệu chinh
là thành phần luật và thành phàn từ diên Thanh phàn luật bao 2ÒIĨ1 các luật hìnhthái hai mức thành phàn từ điẻn bao £ỏm tât cả các hình vị ( từ «ốc và phụ tố) Bộphàn tích có hai hoạt động là "sinh đạnơ” từ (Generator) và "nhận d a n s ” cừ (Recognizer) Hoạt độna sinh dạng từ sẽ chàp nhận đâu vào là một khuòn dạns tư vựnơ, hay là dạns bèn dưới và tra vè dạnơ bẻ mặt của nó ví dụ: nhận vào spv - s
và trả về spies Trong khi hoạt độns nhận dạne có đâu vào là dạns bè mặt và trả về dạng từ v u n 2 bèn đưỡi ví dụ: nhận vào spies và trả vẻ spv - s và kèt qua nàv có V nghĩa như Danh từ - s ỏ nhiều Sơ đồ các thanh phàn của một bộ phân tích hình thái hai mức như ở hinh 2.3 Chi tiẻt vé khuòn dạnơ luật hinh thái hai mức và các
kỹ thuật được sử dụng trong phàn tích hình thái hai mức xin xem trono I Graeme 1992)
:o
Trang 22R u l e s L e x i c a l
H inh 3.3 S ơ đô các thành phản cùa một bộ phà n tích hình thái hai mức
Giai đoạn này còn gọi là xử lý nhập nhẩng từ loại Có nhiều cách để giải quyết bài toán này (M annine và Schutze, 1999) Chúng tôi xày dựng mòđun gán nhăn từ loại sử dụng kết hợp mò hình H M M bậc hai (M anning và Schutze 1999) và mò hình văn phạm ràng buộc (Voutilainen, 1997) Mô hình H M M này có các trạng thái àn là các từ loại càn được xác định, mỗi trạng thái phụ thuộc vào hai trạng thái trước đó các trạna thái phát ra các quan sát là các từ Chúns tòi thưc hiện việc huân luvện mô hình trẻn corpus Penn TreeBank II (Marcus 1993) Mô hình văn phạm ràng buộc sư dụne các luật IF THEN dê xư lý nhập nhảns Câu vào trươc tiên được đưa qua bộ sán nhãn từ loại HMM, nèu xác suất dày từ loại dược chọn lớn hơn ngưỡng cho trước thi chàp nhận kèt qua này trái lại càu vào được dưa qua
bộ gán nhãn từ loại dựa trèn luật Vi bộ nhãn của Penn TreeBank ÍI khác với bộ nhãn của hệ thône dịch này nẻn chứng tỏi cũng càn xâv dựng bans ánh xạ giữa chúns Việc chuyên đôi nhãn được thực hiện trước và sau khi sán nhãn từ loại ■
21
Trang 23nhiều cây phàn tích Để xử lý các nhập nhằne này, người ta nshién cứu các heuristics mà điển hình là ưu tiên từ vựng, iru tiên các cặp từ cỏ quan hệ ngữ pháp
(như V -0 , S-V, v.v.) hay ưu tiên liên kết phải nhất Cùng theo tiếp cận dựa trẽn
luật, còn có nhiều vãn phạm khác như HPSG hay LTAG So với văn phạm phi n2ử cánh thi các văn phạm nàv có khả năna mò tá ròt hơn tuy nhiên viéc xàv 'Jựnn bộ luật công phu hơn vì chúne vẻu cầu được mò tả rất chặt chẽ Nhược điẻm cua phàn tích củ pháp dựa vào luật là việc xây dựng bộ luật vãn phạm rất tốn kém độ chính xác của phân tích cú pháp lại khòna cao
và Schutze, 1999) Tiếp cận này khai thác các kỹ thuật trons lĩnh vực học máy hay xác suẩt thống kẻ như cây quyết định, HMM ME, v.v Tiếp cận này chi yêu cầu tài nsuvèn là corpus, có thẻ dã được gán nhãn hoặc chưa Nhìn chunơ việc xảy dựn2 corpus ít tốn kém hơn xày dựns bộ luật cú pháp, hơn nữa nó có thẻ dược sử dụne dê nshièn cứu nhièu mô hinh phàn tích khác nhau
Tiẻp cận thứ ba có thẻ kê đên là incremental parsing Lây ví dụ phưcms pháp
increm ental deep p a rsin g chia quá trình phàn tích cú pháp ra thánh nhiêu siai
doạn bẳt đẩu là phản tích hình thái, ròi dẽn xử lý nhập nhăna từ loại, nhận dạng thực thẻ tên phàn tích cú pháp nònơ ròi cuòi cùns mới là phàn tích cú phap Từnu
mỏ đun là dộc lập với nhau, có thè mô đun 2án nhãn từ loại là dựa tròn luật (CG chảna hạn) nhưns IT1Ỏ đun nhận dạne thực thẻ tẻn lại lã HMM v.v Nhiêu bộ phàn tích cu pháp rất mạnh dược xâv dựns theo tièp cận này
Chúng tòi thực hiện tièp cận dựa trên luật Thuật toán phàn tich cu phap dược chung tôi sử duns là Earlev (Jurafskv và Martin 2000), một thuật toan phàn tích
cú phap dựa vào bans hiệu quá Hai vàn đc khó của phàn tích củ pháp là nhập nhăns cú phap và thiếu luật Nhập nhầns cú pháp dược xử lý bans cách sư dụng một số heuristics như ưu tiẻn từ vựng, liên kẻt tòi thiêu, ưu tiên quan hẻ nsữ phap Tron s đó dừ liệu về quan hệ nsữ pháp được rút ra từ các corpus lớn Vàn đề thiêu luật dược xử lý bans cách phàn tích sần đúnơ muỏn vậy mọi thành phàn cú pháp tronư càu đều được phàn tích sau đó chọn ra các thành phàn tòt nhài phu lèn Làu vào Dưới dây là hinh chụp một cày cú pháp:
Trang 24Input sentence: He has a lot of books
>SVP
I—> Sdgtn_dt[pre, Sg3] ("has")
—> SObj ' —> Scdt' —> SDetHead I—> SDeterminer
nhằng về naừ nghĩa Ví dụ như trong tiêng Anh, tử bank có thê là danh từ hoặc
động từ Trong chức năng danh từ từ bank lại có thẻ m ans V nehĩa là ngân hàng,
bờ, đóng Thuật n eừ WSD chúng ta đề cặp ở đây chi nói đên nhảp nhãno về mặt
Trang 25ngữ nghĩa của từ vựng Các phương pháp xử lý nhập nhăng nsừ nghĩa dựa trên
ngữ cảnh thường chì thực hiện trên ngòn ngừ mà nỏ định xử lý Đièu này khi áp
dụng vào dịch Anh Việt vẫn còn một số vắn đề chưa giải quyết được:
- Thử nhất là khi đã được xử lý ngừ nghĩa, mỗi một từ vựnơ được xác định một phản loại và một nghĩa duy nhàt ưong tiếng Anh thì nỏ vẫn còn cỏ thẻ có nhièu
khả năng tương ứng trong tiếng Việt Ví dụ như danh từ bank với nghĩa là
"m ound" thì tương ứng với nó ưong tiếng Việt vẫn bị nhập nhàns bởi bờ,
đỏng, bãi,
- Thứ hai là khi muốn áp dụng các kết quả xử lý nsữ nshĩa trên tiếns Anh thì chúnơ ta phái xây dựng một từ điến dịch Anh - Anh - Việt với mỗi một n2hĩa (sense) trons tiẻnơ Anh phải được dịch tươns ứns với các trườns hợp trone tiêng Việt Trong khi các từ diên của chúns ta hiện nav không có sự đối sánh tươ ns ứng này Mặt khác sự đối sánh về mật nsừ nshĩa này nhièu khi khòng tương ứng ví dụ như một nsữ nehĩa xác định trong tiếna Anh lại có thẻ tươnơ ime với nhiêu n«ừ nsh ĩa trons tiẻns Việt và ngược lại
Chính hai lý do trèn và muôn khône phải bò quá nhiỏu côna sức đê xâv dựng lại một từ diên tươns úm 2 n2ử niihĩa Anh - Việt như vậy mà chúns tòi nìihiên cứu xứ
lv nhập nhãns naừ nshĩa trons các hệ thôn2 dịch tự độns Anh - Việt theo hưcms
từ một từ \ựniì dà dược xác định phàn loại chún2 ta có thê xác định !uòn imử nizhTa cua từ đỏ (mà chính xác hơn là từ dịch tươne ứns) trona tiẽna Việt dựa vào nuử canh ma khonsz qua việc xác định n«ừ nơhĩa trons nsòn n2ữ nuuỏn
Nhấc lại rẩrm cỏ hai tiếp cận chính tron" dịch máy là tiẻp cận dựa trèn luật và tièp cận thống kè Tuy nhiên các hệ thông dịch máv hiện nav đêu khònsĩ được thièt kè thuần túy theo một tiếp cận nào cả Đe bỏ suns các điẻm mạnh của cà hai tiẻp cận các hệ thốns dịch máv hiện nay đều là các hệ thòns lai phàn tích n2Òn ngừ nsuòn dựa trẽn các luật hình thái, cú pháp, nsừ nghĩa và áp dụng phương pháp thòng kè trons xử lý nhập nhẳnơ Sau đâv chúng tôi trinh bày một sơ đô tỏna quát của một
hệ dịch máy mà chi tiết hơn vào phần xử lý nhập nhăng ngừ nghĩa:
Trang 26từ diến luật hình thái luật cú phap corpus (PO S, cú pháp)
xử lý ràng ngừ nghĩa ràng buộc
xử lý ngừ nghĩa thống kê
constraint rule
nghĩa dịch xác định
nguon y
Hình 2.5 Mô hình một hệ dịch Anh Việt
Quá trình thực hiện xử lý nhập nhẳnơ neừ nghĩa được bắt đầu sau khi hệ thốna đã phàn tích văn bản vào ờ mặt hình thái và cú pháp Trước tiẻn chúns ta sẽ tìm kiếm các luật ràns buộc ơắn với từng từ vựng thuộc ván bản và thực hiện các luật ràng
buộc này Tại bước này, không gian nehĩa dịch sẽ được thu hẹp lại (nehĩa dịch
được xác định duy nhảt hoặc dược loại bo bớt) Sau đó bước tiêp theo là sử dụns corpus tiếng Việt để chọn nghĩa dịch có khả năng nhất dựa vào collocation của các cặp củ pháp hoặc tân suât đông xuât hiện của các từ trone cửa sô n2ử cảnh Chi tiết xin xem trone (Lê Anh Cường, 2003)
3 7 Sinh câu tiếng Việt
Giai đoạn sinh cảu tiếng Việt về cơ bản thực hiện chuyên đôi câu trúc ngừ pháp từ
ngôn ngừ nguồn (tiếng Anh) sang ngôn nsừ đích (tiếns Việt) Việc này là cân thiết
vì các ngỏn ngừ khác nhau thường có cách thè hiện ngừ nghĩa theo cú pháp là
Trang 27không giống nhau Ví dụ như trong tiếng Anh thì tính từ đứng trước danh từ còn với tiếng Việt thì ngược lại Hơn thế nửa, nhiều khi do sự khác nhau về cấu trúc
mà khi chuvển đồi từ ngôn ngữ này sang ngôn naữ khác thườne phát sinh ra thành phần mới hoặc làm mất đi thành phan nào đó Việc chuyển đôi cấu trúc dựa trẻn bièu diễn cày, do đó công việc chuyên dôi cú pháp ừ đây liên quan đến cac phép toán trên cây: đảo nhánh; xoá nhánh; chèn nhánh Thuật toán được thực hiện đệ qui theo kiểu top-down Tuv theo việc chuvèn đôi giữa hai nsòn ngữ cụ thể nào
mà đỗi với mỗi luật cú pháp sẽ có các điẻu khiẻn chuyèn đôi đi kèm Sau đâv ta sẽ chi ra một số trườno hợp trong việc chuyển đôi từ cày cú pháp tiếne Anh sans tiếng Việt
aj Đào nhánh:
Ví dụ: She likes the blue book
^ Cô ấy thích một quvến sách màu xanh
Trong đó có cấu trúc cụm danh từ: Adj N => N Adj
Ví dụ: She is as tall as him
26
Trang 28■=> Cô ây cao như anh ẩy
Trong đó cỏ cấu trúc: “as” Adj “as" NP => Adj “như'* NP
Khuòn dạng điều khiển chuyển đổi cấu trúc: như chúng ta đã thấy mỗi nút trong cày bao gồm nút cha và các nút con chính là thế hiện của một luật cú pháp tuomơ ứng Mỗi chuyển đồi của nút câv đê sinh cảy tương ứng trong ngôn nsử đích tương ứng với việc chuyển đôi các nút trone luật để tạo luật tươnơ íme tronơ nsôn ngữ đích
3.8 X ây d ự n g d ữ liệu dịch
Xảy dựng dữ liệu dịch là quá trình rắt quan trọng trong dịch máy (Mannine và Schutze, 1999), đặc biệt là đối với các hệ dịch chuyền đổi Có hai cách làm dữ liệu phổ biến, cách thứ nhẩt là làm hoàn toàn bang tay, cách thứ hai là làm bán tự dộns tức là máy sẽ khám phá ra dử liệu thò trons corpus, sau đó ngươi dùn<z sẻ chọn lựa vào hiệu chinh trên đôrm dữ liệu mà máy đưa ra như vậy sè giúp giảm còng sức đáng kể Chúng tôi đi theo tiếp cận thứ hai với sự hỗ trợ cùa một số cône
3.9 M ộ t số công cụ
Việc làm dữ liệu sẽ hiệu quả hơn rât nhiều nếu có các công cụ tốt hỗ trợ Trons khuòn khô của dự án, chúng tôi đã phát triẻn công cụ thống kê tự động các collocation từ corpus thô Đôi với dữ liệu tièng Anh trước tiên chúna được máy gán nhãn từ loại, sau đó lọc ra các cụm từ với tần suất xuất hiện cao và có mẫu từ loại thuộc dạng cho trước Đối với corpus tiêng Việt, 2Ĩai đoạn phân đoạn từ tiếne Việt được thực hiện đẩu tiẻn, sau đó máy sẽ thống kê các cụm từ có tần suất cao
kế tiếp lọc theo mẫu cú pháp dựa vào từ điên Công cụ này đã 2Ĩúp tăng tốc độ làm
mẫu dịch theo cụm từ và eiúp xử lv nơữ nehĩa tốt hơn.
27
Trang 29Chúng tôi sử dụne hai bộ test sau:
Streamline A Streamline B và Streamline c
b) Đánh g iả
Kèt quả dịch của máy được một nhỏm nhừrm rmười chuvên dịch tiếne Anh đánh giá và phân ra các loại sau:
Kèt quả dịch là tôt, cả vẻ cú pháp, nsử nshĩa và văn Việt
Kẻt quả dịch là hièu dược nhưnơ chưa tinh về neừ nshĩa hoặc vãn ViệtKêt quả dịch là hièu dược với sự sửa đôi nhò
Kèt quà dịch là khòns hiẻu dược (sai v)
B ảng ỉ Bàng đánh giá kẻt quả dịch mảy’
Báng kết quà trẽn cho thảy máy dịch tòt các càu hội thoại tiẻnơ Anh thòn2 dụns và dịch chưa tòt các bán tin tièns Anh Ta lý siài kêt quả nàv như sau: Đa sò các cáu hội thoại tiếns Anh thônơ dụns có càu trúc cú pháp chuàn hoặc đơn 2Ìàn va tù
v ự n s thòng dụng do đó máv dịch tòt rrái lại các cảu trong ban tin thươno có càu trúc cú pháp phức tạp thậm chí là xấu và từ vạmơ có tính chuyên nsành do đó máv dịch khôns tốt khi ta kh ò n s sử dụns từ điên chuyèn ngành
3.12 Kết luận ch ư ơ n g
Troníỉ chươne này chuns tòi dã mỏ tả vê một hệ thỏrm dịch c h in èn đỏi cụ thẻ Hệ thống này cỏ kha nănơ khai thác nhiêu loại tri thưc ngôn neừ và dược tích hợp các
28
Trang 30công nghệ x ử lý ngôn ngữ hiện đại, bao gôm cả dựa trên luật và học máy thòng kẻ Chúng tôi khòng trình bày sàu vào các kỳ thuật cụ thể, mà chi nẻu đu để neười dọc hiểu được kiến trúc hệ thống, vai trò và chức năng của từng môđun tiếp cận để xử
lv các vấn đề ở mỗi môđun và trích dẫn đầy đủ các tài liệu tham khảo sâu Chúne tôi đà đưa ra các sò liệu thực nshiệm ờ phản phàn tích cú phap và chất íượng dịch của hệ thống
Trang 31CHƯƠNG 4 MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN
BẢN iMỚI
4.1 i\Iô tả hệ thống
Hệ thông tóm tất vãn bản của chúng tôi gồm hai phần chính được mò tả một cách vắn tắt như sau: Phần thứ nhắt có nhiệm vụ trích ra tập các cảu quan trọns từ một văn bán cho trước Phương pháp cúa chúng tôi là xem xét bài toán trích ra tập câu quan trọng như bài toán phân lớp sừ dụns mô hình entropv cực đai (MEM) Phần thứ hai có nhiệm vụ rút sọn các càu dài thành các câu nsẩn hơn trons khi rmừ nghĩa chính cua chúns vẫn khòns thay đôi Trons phần nàv chủns tòi đề xuất một cách tiếp cận thốns kè cho việc rút gọn càu thông qua việc ươc lượnơ dựa trẻn tập dữ liệu bao ơỏm các câu và các rút ngọn của chúnơ Hình 2 mò tả một cách tons quan hệ thông tóm tãt văn bản được thực hiện tron2 đề tài nàv
4.2 Tóm tat vãn bán dựa trên iMEIVl
Phươns pháp tóm tăt văn bủn của chúrm tòi sư (iuníỉ phương phap học máv bans mỏ hình entropv cực đại (maximum entropv models) (Manning và Sehutze 1999) irorm đỏ dừ liệu học máv dược sư dụng từ dừ liệu chuàn Chúng lỏi sư dụns một tập bao 2ÒIĨ1 200 văn ban cho việc học máy, trons dó trims bình mỏt văn ban vào khoảng 50 càu Sau khi sử dụns phương phap học máy barm mỏ hinh MEM chủng tôi thu dược mò hinh cho việc trích các càu quan trọng từ một vãn ban bất
kỳ khòns thuộc dừ liệu học
Dưới dày chủng tòi mò tả một cách văn tăt vè mò hình entropv cực đại trona
bài toán phản lớp như sau: Giả sử cho trước một tập dừ liệu Đ chuns ta cần tim một mò hình thõa măn n ràns buộc cho trước tronơ khi mô hình đó phai phù hơp
vơi phàn bô xác suàt từ dừ liệu Lý thuyẻt MEM cho phep chuns ta chọn dược mò hình thỏa màn các đièu kiện kẻ ĩrèn Đỏi với bài toán phàn !ớp chúna la phai xàv dựng được tập các hàm ràns buộc hay còn ơọi là các hàm thuộc tinh Một cách hình thức hàm thuộc tính trong bài toán trích câu quan trọns có thẻ được mò tà như sau:
C húns ta 2ỌĨ c là tập các nhãn, ở đây c chì bao sồm hai lớp (true, false) đẻ chì
ra một câu là quan irons hav khỏne quan trọns Hàm rànơ buộc là hàm chì ra mòi quan hệ cua một càu dôi với một nhãn cho trước (eonstrainst function), kí hiệu là f
30
Trang 32(c,s), ví dụ, một hàm ràng buộc chỉ ra ràng một câu là quan trọnơ nếu nó chứa *‘in conclusion” có thê diễn tả như sau:
fl if "in conclusion" e S
10 otherwise
Sau khi xây dựng được các hàm ràng buộc, mối quan hệ giừa một câu và một nhãn
có thế được xác định nhờ các công thức sau đây:
! s) = ^ 7—e x p ( £ ị / X c s ) )
Z(s) = 2 ] e x p ( ^ Ả /( c s))
Đe xác định được một câu là quan trọng hay không quan trọng chúnơ ta cằn xác
định xác suất Pícịs) nêu P ftrue\s)> P (false\s) ta thu được một càu quan trọng và nsược lại s là câu không quan trọng Đê xác định xác suất P(cỊs) điều cần thiết là phái ước lượng được các tham số Ả ; với lý do đó chúne tôi sử dụng thuật toán
GIS để xác định các tham sô cho các hàm ràng buộc
Như vậy, vàn đê quan trọng của MEiM là làm thẻ nào xảy dựns được tập các hàm thuộc tính, với 1Ý do đó chúng tôi đã sử dụng các hàm thuộc tính như sau:
Hàm ràng buộc vê vị trí: Nhừng câu ờ dâu tiên hoặc ơ cuôi cùnơ vãn ban thường
dược xem như là nhữns cảu quan trọng
Hàm ràng buỏc vẻ độ dài: Một càu ngán thi thươno được xem như là một cảu
quan trọna C hú ns tôi sử đụnơ các siá trị sau đây đê xác định một càu nsãn: càu nho hưn 6 từ càu lớn hơn 6 từ và nhò hơn 20 từ, câu lớn hơn 20 từ
Hàm ràns buộc liên quan đên tiẽu đê của văn bàn: Một càu liên quan đên tiêu đê cùa văn bàn được xem như là một càu quan trọns
quan trọnơ và khỏnơ quan trọng đê xây đựng hàm rànơ buộc
K hoang cách giữa các càu: Khoảng cách 2Ìừa c^c tù’ irons văn bản với các từ xuât
hiện ở trước nó
Câu trúc về chương mục: Các cấu trúc về chươnơ mục cũng được sử dụns đẻ xây
dự n s hàm ràng buộc
4.3 Tóm tắt văn bản dựa trên Co-iMEM
Phươns pháp Co-M EM là một mô hình áp dụ n s co-trainirm với hàm học máy
cơ sở là MEM Phương pháp Co-leaming được áp dụng rất thành công vào các bài loan xư lý nsỏn n sừ tự nhiên troníỉ đó dừ liệu học máy khỏrm đủ lởn Trons bài toán phàn tích cú pháp, nhận dạng tèn riêng, v.v (P ire c e , 2 0 0 1 ) (S arkar,
31
Trang 332 0 0 1 ) Trong bài toán trich tập càu quan trọng, nghièn cứu của chúng tỏi là đánh
giá hiệu năng của mô hinh co-leaming cho M EM khi so sánh với phương Dháp
MEM thuần túy.
Phần tiếp theo trình bày phương pháp rút 2ọn càu theo đó mỗi câu dài trona tập các câu quan trọng sẽ dược thu ơọn đề trư thảnh một câu naán hơn sao cho I12Ừ nghĩa chĩnh của các câu là không thay đồi
4.4 Rút gọn câu
Phương pháp rút gọn câu của chúns tôi dựa trên mò hình học thỏno kè là chủ vếu trons đó chúng tòi đề cập tới sử dụns SVM và MEM dề học từ tập dừ liệu có sẵn bao gôm các càu dài và các rút gọn cua chúng
a) Mô hình cùa việc rút gọn câu.
Mô hình của việc rút gọn càu của chúnơ tòi dược xày đựrm dựa trèn kiến trúc shift-reduce trước hèt một cdu được phàn tích thành cày cú pháp, sau đó câv cú pháp này sử dụnơ một qua trinh chuyên đôi đê chuvén một cây thành cày n2ẳn hom
Đè tiện cho việc 2Ìài thích cơ chè của phương pháp rút gọn càu chúrm tôi đưa ra một số định nghĩa hinh thức dưới dây:
Một InputList (danh sách dâu vào) bao 2Òm một dãv các từ được iíộp vào một eàv cú pháp biễu diễn cho càu ơ đây mỗi một tư tronìi InputList dược mã hoa như một ki hiệu ngừ pháp cua các thành phàn trorm cà\ cú pháp CSTACK là một ngăn xỏp bao iZ Ò m tát ca các cày con (sub-tree) dẻ chuvén dôi thanh cà\ nho hơn Cuối cun RSTACK là một nsán xèp bao 20m cac cà\ con dược loại bo từ InputList trons quá trình chuvèn đôi từ càv dài thành càv níiãn
Đầu vào là càu (a.b.c.d.e) sau khi chuyên dôi chủns tòi thu được càu nsãn hơn (b,e.a) Quá trinh chuyền đôi dựa trên một dãy các "hành độns'*: các hành độns ờ đây bao aỏm:
- SHIFT REDUCE DROP, and RESTORE Chung ta có thẻ mỏ tà một cách tom tất các phương thức hoạt dộng của các hành dộng này như sau:
• SHIFT: là các hành động dịch chuyèn các từ từ trons danhsách vào một ngăn kéo Được ký hiệu như là SHIFT
• RED U C E (Ik X) lav ra Ik cây cú pháp ờ đâu của n2ãn kéo
vã kết họp chúnơ tạo thanh một cà\ mới iron2 dó Ik là một
số rmuyèn và X là một ký hiệu neừ pháp
Trang 34• D R O P X: dịch chuyển một dãy các từ liên quan đến cấu
trúc ngữ pháp từ danh sách đẩu vào đến RSTACK Cả
R ED U C E và DROP được sử dụne để suy dẫn cho cây được
rút eọn
• A SSIGN TYPE X: thay đồi ký hiệu của cà> ờ đầu
CSTACK.
• RESTORE Ik: lấy Ik phần tử từ RSTACK cho vào danh
sách đầu vào (InputList).
Đe tiện lợi chủng tôi giả sử một “cấu trúc” là một trạng thái của InputList, CSTACK và RSTACK; một neừ cành hiện thời là các thôns tin quan trọne của một "cảu trúc?\ Các thông tin quan trọng được khai báo như một vector của các thuộc tính sử dụng các phương pháp heuristic
b) Thuật toán rút gọn càu băng câv quvêt định (Kinght và Xíarcu, 2002).
Ý tườne chính của thuật toán nàv là học một cách tự độnơ các luật từ corpus,
và sừ đụnơ các luật đó để chuyên đôi một câu dài thành một càu ngan hơn Quá trình áp dụne các luật được lặp lại cho đên khi điêu kiện dừrm xuàt hiện Điẻu kiện
dừnơ xuất hiện khi chỉ có một cây củ pháp xuất hiện ờ CSTACK và ínputList là
rồng, về chi tiết của thuật toán xin tham khao (Minh và cộns sự 2004)
Xét một thí dụ đơn giản sau đâv đê chưvèn một càu dài thành một càu ngân hơn sử dụne mỏ hình của chúng tôi
33
Trang 35RSTACK INPUT LIST
c
RED U CE 2 F ste p 7
Hĩnh 4 1 \ ỉ ò ỉa một quả trình chuvên đôi một càu dài thành một càu ngán hơn
Hình 4.1 biêu diên một ví dụ mò ta một qua trinh chuvèn dôi câu dài thành càu ngẳn hơn bans việc áp đụn s một dãy các hành độnơ Ví dụ ở <iòn2 dâu tiẻn DROP
H xóa inột cày con với nút gổc là H ờ trong InputList va lưu nó vào RSTACK InputList sẽ chuyền tới một trạng thái mới vơi cày con có nhãn A như ở dòng thứ
2 Như vậy cây rút gọn s có thê thu được bãns cách áp đụ n2 một dày các hành dộng như sau: DROP H: SHIFT: ASSIGN TYPE K: DROP B: SHIFT; ASSIGN TYPE H: REDUCE 2 F: RESTORE H; SHIFT: ASSIGN TYPE D: REDUCE 2 G
C) Hoc các lu ậ t r ú t g ọ n
34
Trang 36N hư đã đề cập ở trên, các hành động đối với mỗi **cấu trúc,? có thề được đoán nhận
bới sử dụng các luật học, đê ánh xạ các ngữ canh và các hành động Đe có được
các luật học máy như vậy, các “cấu trúc” được biễu diễn dứoi dạng các vector với
một số lượng lớn các thuộc tính Chúns tôi sử dụ ns mô hình SVM để học các luật
rút uọn bời vi phương pháp nàv thẻ hiện khả năng phản lớp với độ chính xac cao
với một không gian rất lớn các thuộc tính Giống như phương pháp MEM, các
hàm thuộc tính là các đặc điềm quan trọnơ bậc nhảt của phươnơ pháp học bần2
SVM Cho bài toán rút gọn cảu chúng tòi thiẻt kẻ các hàm thuộc tính như sau:
Các thuộc tính điều khiển (operation features)
Các thuộc tính này phản ánh số lưọme các cày tronơ c STACK và RSTACK và
kiều của 5 hành động liền kề trước đó Chúng tôi cùnơ sử dụng các thuộc tính biểu
diễn cho các thông tin trạng thái của CSTACK và RSTACK, bao gồm thòng tin
của nút gốc của các cây con Chúng tôi cũns xét các thông tin của 10 cây con đầu
tiẻn trong C STA C K và RSTACKvới các thông tin về nút gốc và các thône tin về
chức năng ngừ pháp của các nút lá.
Các thuộc tính của cây gố c
Các thuộc tính của cày ơôc xác định các thành phàn nsừ pháp hăt n«uỏn từ phản
tư đầu tiên cùa InputList Thí dụ trorm hinh 1 lài ca các thành phàn n°ữ phap là
các kí hiệu ngừ pháp của phan tử hiện tại của Inputlist từ "N P ” cho dên dộns từ
"convince"
35
Trang 37Input List
Hình 4.2 Các thuộc tinh ngữ nghĩa
Các t/tuộc tính n g ừ ng/tĩa
Các thuộc tính sau đây được sử dụng trons mò hình của chủns tôi bao sòm:
- Thòng tin vẻ ngừ nghĩa về các từ ờ thừi diêm hiện tại; các kiểu nsừ nghĩa này
bao sòm các kiêu của tên riẻne bao ơỏm: Vị tri Neười Tô chức, và Thừi aian dôi với càu đàu vào Đẻ xác định các kiêu tên riêng này chúrm tôi xàv dựns một mô hình dựa trẻn MEM chi tiết dược trinh bàv trong (Borthiwich 1994)
- Thông tin ve n£ử nghĩa chi ra liệu một từ dâu vào có phai là tư quan trọns trons một đơn vị ngừ pháp (head word)
- Thòna tin ngừ nohĩa xác định mòi quan hệ ơiừa các từ trons càu dê xác định các môi quan hệ này chúna tòi dựa trẻn tư điên COMMLEX
Sử dụns các thònơ tin vê ngữ nghĩa chún2 ta có thè tránh được việc xóa các thành phần quan trọn2 trons càu Ví dụ các độnơ từ chính (main verb), chủ ngừ (subject) và vị n2ừ (object) là càn thièt trong một càu Đôi với các cụm danh tư danh từ chính thườnơ m ans V chính cua danh từ đó Hình 2 mò tả một "câu true" trons dó độnơ từ ”convince"có thẻ dược theo sau bời một cụm danh tử hav một cụm giới từ bất đầu bang giới từ “o f '
H ọc bằng S V M h ai bước sử dụng các cặp đôi
Sử dụng các thuộc tinh kề trèn chúng ta có thẻ thu được dử liệu học cho SVMs 0 dây một mẫu học bao £»ồm một cập các vector tươn" úms với một hanh đôns (action) Thuật toán dẻ trích ra các mẫu học từ dừ liệu có săn dược mỏ ta một
36
Trang 38cách đầy đủ trong (Minh và cộng sự, 2004) Bởi vì phương pháp SVM cơ bản là
phương pháp phàn lớp nhị phàn (binary classification) ưong khi đó bài toán rúi
gọn câu được xem xét như là bài toán cho nhiều lớp Với lý do đó, chúng tôi sử
dụng phương pháp các cặp đôi để áp dụng cho bài toán rút gọn câu v ắ n đề của bài toàn phản lớp nhiều lớp liẻn quan đến việc xác định mỗi quan sát vào một lớp
ở trong k lớp cho trước
Đối với bài toán rút gọn câu sỏ lượng lớp vào khoảnơ cỡ vài trăm, việc sử dụns
phương pháp cặp đôi có thể làm thời gian rút gọn chậm đi dáng kể Tuv vậy, các lớp trong bài toán này có thề chia thành 5 loại: SHIFT, REDUCE, DROP
A SSIG N TYPE, và RESTORE Chúng ta có thể sử dụng phương pháp cặp đôi đểxác định kiểu của một hành động cho trước sử dụnơ 5 lớp SHIFT, REDUCE RESTORE Sau đó chúng ta sẽ xác định hành động cụ thể của mỗi lớp Như vậy chứng ta đã áp dụng phương pháp cặp đối 2 mức Mức thứ nhất xác định loại hành độne và mức thứ 2 xác định hành động cụ thê Bảng 2 chỉ ra sự phàn bố siừa các mẫu học đối với các kiểu của các hành động
Báng 2 Sự phản bỏ của dữ liệu học đỏi với các kiêu lớp
4.5 Kết quả thực nghiệm
Đề dánh giá độ chính xác của phương pháp trích tập câu quan trọng, chủng tòi dựa trèn tặp dừ liệu chuẩn bao gồm DUC và Comp-lang IT e fe ư l9 7 !I T ro n s đó có 80 bài báo được biêu diễn dưới dạng XML, trung bình mỗi bài báo có độ dài 174 càu
Trang 39và tập các câu quan trọng của mỗi bài báo lấ'8 câu Chúng tòi lấy n<zầu nhiên 70
vãn bàn đê sinh đừ liệu học máy, số còn lại sử dụng cho việc thực nshiệm so sánh
kết quả của phương pháp MEM đối với phương pháp đơn dàn nhầt là lấy ra tập
các câu đâu tiên trons ván bản (Lead-based) Chúng tôi thực nshiệm với kích thước của các bán tóm tã tv ă n hãn thay đỏi từ 6 cho đẽn 20 càu
Chúng tôi xây dựnơ 2 thí nghiệm như sau: Trong thí nghiệm đầu tiên, chúns tòi dùng Co-M EM với một số lượng nhò các mẫu học có nhãn cùns với một số lượnư lớn các mầu khòna có nhãn đẻ so sánh với phương pháp MEM với một số lượns lớn các mẫu có nhãn Trons thí nehiệm thứ 2, chúnơ tòi đánh 2Ĩá các dừ liệu
kh ò n s có nhãn sẽ anh hườno thẻ nào đỏn các hiệu nãns của trích các càu quan trọns sử dụ ns một sò lượns nhỏ các mầu học có nhãn
Trone thí nghiệm dâu tiên, chúns tôi chọn naẵu nhiên một tập bao 2 0m 6.000 các mẫu có nhàn trong tòng sò 11.077 mẫu như là dừ liệu học Các mẫu còn lại sẽ được \e m như là mầu khòns có nhãn cho phương pháp Co-MEM Với các dữ liệu như vậv chúng tòi ước lượns MEM và CO-MEM cho bài toán trích càu quan trọns dựa trèn thuật toán GIS
Mình vè mỏ la F-measure cua CO-MEM và MEM cho bài toán trích càu quan trọnv! với sự thav đôi cua kích thước tóm tãt Kèt quà thu đươc cho thà\ Co-MEM tõt
hon chut ít so vứi phưưnii phap V1EM sử dụng toan bộ dữ liệu làm dữ liệu học
máy fc)ièu đo 2Íai thích rẳns sử dụng Co-MEM Chuns lỏi cỏ thè xỏa bỏ inột vãi
dữ liệu học nhiễu mà khòns phù hợp dôi với mò hình MEM
Trang 40Hình 4.3 Mô tà hiệu năng của Co-M EM sử dụng m ột phan của d ữ liệu học và
M E M sử dụng toàn bộ dữ liệu học.
Đối với thí nehiệm thứ 2 chúng tôi thu thập dừ liệu học máy từ Dưc với 6.000 mẫu học chúrm tôi sử dụne 20,000 mẫu không có nhãn với mone muốn nàns: cao hiệu suàt của việc trích các tập càu quan t r ọ n ơ , Hình 4.3 mò tả một cách rõ rànơ ràna Co-M EM tôt hơn MEM với kích thước tòm tất thay dôi Nó cùng chi ra rảne hiệu suất cua M EM tòt hơn so với Leading-based
59