Hệ thống dịch và tóm tắt văn bản Anh - Việt

Ý tường chung trong dịch máy dựa trên thống kê là chúng ta tìm kiếm các tính chắt của dừ liệu văn bản sonơ n sừ mà dễ dàng đo được và tìm cách sử dụns nhữnơ thuộc tính này đế tiên đoán k

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

Trang 2

MỤC LỤC

C H Ư Ơ N G 1 GIỚI T H IỆ U 4

1 1 Đặt vấn đ ề 4

1.2 Nội dune của đề t à i 4

1.3 Cấu trúc của báo c á o 4

C H Ư Ơ N G 2 TỔ N G Q U A N VẼ DỊCH MẢY VÀ TÓM TẮ T V Ã N B À N 6

2.1 Tồng quan vè dịch m á y 6

2.1.1 Thế nào là dịch máy, vai trò và vị t r í 6

2.1.2 Các chiến lược dịch máy cơ b ả n 7

2.1.3 Một sổ tiếp cận m ớ i 10

2.1.4 Tiếp cận xây dựnơ hệ thòng dịch cùa chúng tỏi 13

2.2 T ò n s quan về tóm tăt văn b à n 14

2.2.1 T o n s quan về tóm tẳt văn b à n 14

2.2.2 rỏ m Tnch lọc (extraction) 15

2.2.3 Tóm tát cò đọnii (abstraction) 16

2.3 Két luận c h ư ơ n g 17

C H Ư Ơ N G 3 HẸ T H O N G DỊCH CHUYỂN Đ Ỏ I 18

3.1 Kiến trúc hệ th ò n g 18

3.2 rư điên sone n a ừ 19

3.3 Phàn tích hinh thai 19

3.4 Gán nhãn từ lo ạ i 21

3.5 Phàn tích cu p h a p 21

3.6 Xứ lý nhập nhủnơ rmừ n s h ĩa 23

3 7 Sinh càu tiéns V iệ t 25

3.8 Xâv dự ns dừ liệu d ịc h 27

3.9 Một số còn2 c ụ 27

3.10 pcết qua thí n g h iệ m 28

3.12 Kèt luận c h ư ơ n s 28

C H Ư Ơ N G 4 M ỌT s ỏ PHƯƠNG PHAP TOM TÁ T VĂN BAN M Ớ I 30

4.1 Mỏ ta hệ t h ố n g 30

4.2 Tóm lát vãn ban dựa trèn M E M 30

4.3 Tóm tãt vãn băn dựa trẽn C o-M E M 31

4.4 Rút iiọn c à u 32

4.5 Kèt quà thực n íih iệ m 37

Trang 3

4.6 Kết luận c h ư ơ n g 42

C H Ư Ơ N G 5 K ẾT L U Ậ N 43

5.1 Kết luận và kiến n g h ị 43

TÀI LIỆU TH A M K H Ả O 44

PHỤ L Ụ C -t5 Danh sách n hữ ng người tham gia thực hiện đề tài ThS Lẽ A nh Cường (chủ trì), Trường ĐH Công nghệ PGS TS Hồ Sĩ Đàm, Trườne ĐH Công nghệ PGS TS Đinh Mạnh Tường, Trường ĐH Cônơ nghệ TS Nguvễn Lè Minh, Viện Khoa học và Công nghệ Tiên tiến của Nhật Bàn (JAIST) ThS N guyễn Phương Thái, Trường ĐH Công nghệ CN Nguyễn Văn Vinh, Công ty Lạc Việt Danh mục các bảng số liệu B ans 1 Bans đánh 2Ìá két quà dịch m á y 28

B áns 2 Sự phàn bố của dừ liệu học đối với các kiêu l ớ p 37

Burm 3 So sánh Liiừa phương pháp của chuns tôi và phươrm pháp cùa Kniaht và Marcu (2 0 0 2 ) 41

D anh m ục các hình Hình 2.1 Sơ đồ tồng quan một hệ dịch m á y 7

Hình 272 Hệ thốns dịch trực t i ế p 8

Hình 2.3 Hệ thống dịch chuyển đ ồ i 9

Hình 2.4 Lược đồ quan hệ giừa mô hình chuyên đôi và liẻn n s ữ 10

Hình 3.1 Kiến trúc hệ thốns dịch chuyển đ ồ i 18

Hình 3.2 Cônơ cụ biên soạn từ điển song n2ử 19

Hình 3.3 Sơ đồ các thành phần của một bộ phàn tích hình thái hai m ứ c 21

Hình 3.4 Một cây cú pháp 23

Hình 2.5 Mô hinh một hệ dịch Anh V iệ t 25

Hình 4.1 Mồ tả một quá trình chuyèn đôi một câu dài thành một câu ngấn hơn 34

Hình 4.2 Các ĩhuộc tính ngừ ngh ĩa 35

2

Trang 4

Hình 4.3 M ô tả hiệu nãng của Co-M EM sử dụng một phàn cùa dữ liệu học và

M EM sử dụng toàn bộ dừ liệu h ọ c 39Hình 4.4 M ô tả hiệu năng của Co-MEM, MEM, và Lead với kích thước của tómtắt thay đ ổ i 40Hình 4.5 Một sò ví dụ về rút 5ọn càu ap dụns phươne phap MEM và phươnơ pháp

D ecision-Tree 42

Trang 5

CHƯƠNG 1 GIỚI THIỆU

1.1 Đ ặ t vấn đề

Hiện nay vấn đề xử lý ngôn ngừ tự nhièn ờ Việt Nam dans có tính thừi sự thu hút được nhiều quan tâm của các nhà khoa học Tuy nhiên các kết quả đạt được vẫn còn hạn chế và có thể coi như chúne ta đang băt đầu nhừne bước khởi độne trona lĩnh vực này T ron e xử lý ngôn ngữ tự nhiên, lĩnh vực dịch máy đã và vẫn đang có nhu cầu cấp thiết, nhất là trong việc phát triên các nghiên cứu và ứng dụns để xảy dựng hệ dịch từ tiếng Anh sang tiếnơ Việt Bẽn cạnh đó, một lĩnh vực cùng được nehiẽn cứu nhiêu trẻn thế giới là tóm tắt văn bản nhưng còn ít được chú ý ở Việt nam M ột sự kêt hợp siừ a tóm tăt và dịch văn bản từ tiếng Anh sang tiếng Việt áẽ

có rất nhiều ứng dụng và mang lại lợi ích thiết thực khi trợ giúp neười sử dụng nám được thông tin neày càns lớn, nhất là những tài liệu tiếng Anh đối với người không thạo tiếng Anh

1.2 Nội d u n g của đề tài

Tìm hiêu về dịch máy Anh-Việt và tóm tắt văn bản tiếne Anh

Bước dâu xày d im s thừ nghiệm một hệ thòng tóm tất và dịch văn bàn từtiêng Anh sans tiẻng Việt trons một sò chủ đê hạn chẻ như Tin học, Kinhtế

Xàv dựng một sò c ô ns cụ và dử liệu cuns câp cho việc nghiên cứu về xử lv ngôn nơừ tự nhièn tại khoa

1.3 C ấu trúc của báo cáo

Mục tiêu của đề tài là nshièn cửu và bước đẳu xảy dựna một hệ thống dịch và tóm tất tự đ ộ n s văn bản Anh-Việt Do đó chúng tôi sẽ trình bày hai phằn: hệ thốnơ dịch A nh-V iệt và tóm tăt văn bán tiêng Anh Hệ thông dịch Anh-Việt đã được chúnơ tôi phát triẻn từ nhiều năm trước (Phạm H ồn s N euyèn và cộng sự, 2003)

N h ư n g đê tiện theo dõi, chúnơ tôi vẫn trinh bày lại ờ đây kiến trúc hệ thốns và siới thiệu ve từnơ thành phan của nó Tronơ khi trình bày chúng tỏi sẻ nhấn mạnh các c ô n s việc mới mà chúnơ tôi đã thực hiện cùnơ với kết quả đạt được trona khuôn kho dự án nghiên cứu này Thèm vào đó chủns tôi cùn® đề cập đến tình hình nghiên cứu dịch máy ờ nước ta hiện nay trong phần tảng quan các vấn đề nghiẻn cưu Vàn dê tóm tat ván ban tiếng Anh dược trình bay tương dối độc lập

4

Trang 6

với vấn đề dịch máy Tiếp cận chính của chúng tỏi là sừ dụne học máy đê tóm tăt

văn bản.

Báo cáo gồm 5 chương:

- C h ư ơ n s 1: Đặt vấn đề và các mục tiêu của đề tài

- Chương 2: Giới thiệu tông quan vè dịch máy và tóm tăt văn ban

- Chương 3: Trình bày về hệ thống dịch chuyển đổi, các thành phần của nó

và các kỹ thuật cơ bản

- C hươne 4: Trình bày một số phưome pháp tóm tát văn bản mứi như tóm tắtvăn bản điều khiến bời cú pháp, tóm tát văn bản sử dụns SVM, hay tóm tắtvăn bản với cây quyết định

C h ư ơ ns 5: Kêt luận và kiên nghị

Phụ lục: Một sò báo cáo khoa học và khoá luận được thực hiện trons khuôn khồ đề tài

5

Trang 7

CHƯƠNG 2 TỎNG ỌUAN VÈ DỊCH MÁY

VÀ TÓM TẮT VĂN BẢN

2.1 T ổ n g quan về dịch m áy

2.1.1 Thế nào là dịch máy, vai trò và vị trí

Trải qua mấy thập kỉ, vắn đề dịch máv đà được rất nhiều nhà khoa học quan tâm họ đã đưa ra nhiều khái niệm về dịch máy, tuy nhiên ý tưởng chính của họ

vẫn là như nhau (Hutchins và Somers 1992): Các hệ dịch m áy (machine

translation system -M T) là các hệ thống sử dụng mảy tính đẽ dịch tài liệu từ một

thứ tiêng (trong ngôn n gữ tự nhiên) sang m ột hoặc vài thứ tiêng khác.

N eỏn ngừ của vãn bản cằn dịch được gọi là ngôn neừ nguồn hay ngôn n sử vào Ngôn ngừ văn bản đã dịch ra được gọi là ngòn ngừ đích hay nsô n n e ừ ra

Theo thống kẻ của Liên hợp quốc hiện có gằn 10.000 ngôn ngừ trên toàn thế giới N hờ có những ngôn ngừ khác nhau loài người mới có được nền văn hoá đa dạng, nhưng lượns nsôn neữ nhiều như vậy cùng là rào càn sự phát triền của

th ư ơ n s mại và 2Ĩao liru thỏnơ tin quôc tê Đê khãc phục sự càn trờ nàv loài người phái dùne một đội nsũ phiẻn địch/bièn dịch viên ràt lớn dê dịch các văn bản tủi liệu, lời nói từ tiêng nước này sang tiẻng nước khác Đó là còna việc thủ còne

n ặns nhọc nhưns nãns suât thảp siá thành cao, trone khi khối lượnơ văn bản cần dịch lại neàv càng nhiêu Mặt khác, với sự phát triên cực kì nhanh chỏng cùa Internet dần tới nguồn thông tin được truy cập từ khấp mọi nơi trên thế ơiới với nhiều ngôn ngừ khác nhau Điêu này càng làm tăng nhu câu dịch từ ngôn ngữ nàv san s ngôn nơừ khác với tôc độ nhanh mà-việc dịch thủ cỏnơ đã khôna còn đáp íme được nữa

Do vậy, dịch máy là một nhu câu tât vêu Nó sẽ đóns một vai trò quan trọne tro n s đời sống xã hội và có tính kinh tê cao Dịch máy được bẳt đẩu nsièn cứu ngay sau khi xuất hiện chiẻc máy tính điện tử đâu tiẻn Tuv nhiên, dịch máv khône chi là một ứng dụng tin học phi số thuần tuý mà nó còn cần một lượns lớn tri thức dịch Do đó mà việc giải quyẻt triệt đê nsôn ngừ tự nhiên là điều vò cùng khó khăn và đến nay vẫn còn rât nhiều vàn đê càn được tiẻp tục nshiẻn cứu

Chủnơ ta có thẻ hinh d u n s một hệ dịch máv qua sơ đồ sau:

6

Trang 8

2.1.2 Các chiến lirợc dịch máy cơ bán

Các hệ thốns dịch máy thông thường được phản loại theo các chiến lược cơ ban sau đâv (Hutchins và Somers 1992):

2.1.2.1 Dịch trực tiếp

Các hệ thons dịch trực tièp liên quan đẽn việc đối sánh các mẫu xâu và việc sáp xếp lại xâu đích cho thích hợp với ngôn ngử đích Rất nhiều hệ thốns trước đây c ủ n s như một số phàn mèm dịch máy hiện nay cho các máy tính cá nhản đã dùng chièn lược này Các hệ thòng theo tièp cận này được thiẻt kè cho từng cặp nsôn n s ừ cụ thè tiẻn trinh dịch là trực tiẻp từ ngòn n2ừ nouòn sans nsòn ngừ đích Hệ ihòn s bao 2ÒĨĨ1 một từ điẻn song ngừ lớn một sô qui tăc từ \ạrn2 được sư dụns cho phàn tích tư đièn và các thu tục xư lý đặc trims cho việc chuyèn đỏi aiừa

7

Trang 9

hai ngôn ngừ Sau đây là tồng kết bốn giai đoạn thường được dùng cho các hệ thống dịch máy trực tiếp:

1 Phân tích hình thái câu nguồn: Công việc của giai đoạn này là phân câu thành các từ và phân tích hình thái cho những từ nàv.

2 Chuyên đôi nội dun s từ vựng từ nsôn n sừ n2uồn sans nsỏn n2ừ đích: chọn nội

dung dịch tương đương của các từ ưong ngòn ngữ đích Công việc này sử dụng từ

điển song ngữ Một số hệ thống ngoài việc sử dụng từ điển sons n2ử nó còn sử dụng các thủ tục chọn nghĩa của từ dựa vào ngừ cảnh lân cận

3 X ử lý đặc trưng: phần việc ưong giai đoạn nàv phụ thuộc vào sự khác nhau giừa ngôn ngữ đích và nsôn n sừ nguồn mà thực hiện các xử lý liên quan đến các từ ơhép, cụm danh từ, cụm độn s từ, giới từ, hay liên quan đến vị trí của s v o (chù từ,

động từ, túc từ),

4 Sinh câu đích: giai đoạn cuối cùng thường là sinh hình thái cho nsòn n2ử đích,

mà thường là liên quan đến động từ (các thì, neôi, số) và danh từ (số nhiều, số ít)

Càu vào thuòc ngôn ngữ nguồn

Cảu ra thuòc ngón ngữ đích

H ình 2.2 Hệ [hóng dịch trực tiêp

ư u đièm của phương pháp dịch trực tiẻp là đơn siản n hưns nhược diêm là chẩt lượng dịch khòns tòt cho các cặp ngòn n sừ không có nhiẻu sự tươns đồns về tử vựng và cấu trúc như Anh-Việt Nó chì đạt chất lượng tươne đối cho các cặp neòn ngừ có nhiều sự tươns đồne như Anh-Pháp Thực tế phương pháp này ít được dùn£ độc lập mà thường được kết hợp với các phương pháp dịch dựa rrèn luật đề

xử lý những câu mà bộ phân tích không nhận được

Trang 10

2.1.2.2 Dịch chuyển đổi

M ột hệ thống dịch chuyển đổi được thiết kế để dịch một cặp rmỏn ngử nhảt định, các hoạt động chính của hệ thống bao gồm: phản tích, chuyển đối và sinh cảu T hô ne thườne quá trình dịch diễn ra như sau: câu vào được phàn tích hinh thái, sau đó được nhận dạna bơi bộ phàn tích cú phap ma kết qua thương được biếu diễn dưới dạng cây cú pháp, tiếp đó câv cú pháp này sẽ được chuvén đôi sana dạng tương đươnơ ờ ngòn n sừ đích và từ đó máy sẽ sinh cáu thuộc n2Òn nsừ đích

Hìnlĩ 2.3 Hệ í hỏng dịch chuyên đói

Các hệ thòrm dịch chuvèn đôi có im diêm là chuvẻn tai dược càu trúc cu phap

và I12Ừ nshĩa từ vựng tuy nhiên khỏ khăn là nhập nhăns từ vựng (một lừ co thè có nhiều từ loại và nhiêu nghĩa) và nhập nhăns câu trúc (một càu co thê co nhiêu càv

cú pháp) Do vậv naười ta thưởng kêt hợp phương pháp này với các phươns pháp khác như dịch trực tiếp troQơ việc xử lý các trường hợp càu có cấu trúc khòns tốt (khònơ nhận dược băns bộ phân tích cú pháp)

2.1.2.3 Dịch liên ngử

Trorm hệ thông dịch liên ngữ trước tièn càu nsuôn được phân tích thanh một biểu diễn chuns, sau đó từ biẻu diễn nàv sinh ra càu đích Dịch liên n sừ do đó bao 2Òm hai íia i đoạn: từ ngòn neừ nsuòn tới neòn nsừ chung, và từ nsòn ngừ chuns tới nsòn n s ừ đích Như vậv các hệ thỏns dịch liên n sừ dùnơ một bộ kí hiệu dừ liệu

mò tà hạt nhàn ìiọi là một liên nsữ Liên n2ừ được định nghĩa như một tập các khái niệm và các quan hệ iỉiừa các khái niệm Liên rmừ biêu thị V níihĩa cua càu

9

Trang 11

dưới dạng mạng ngữ nghĩa, trong đó mỗi nút biểu diễn một khái niệm và mỗi cung biểu thị một quan hệ Vì thế, nó cỏ thể được xem là đặc tả về cấu trúc khái niệm Các hệ thống dịch liên ngữ được thiết kế theo các bước của hệ thống chuyển đồi Nhưng trước khi tạo cấu trúc ngữ pháp thuộc nsôn ngừ đích thi cấu trúc ngữ

pháp của ngôn ngữ nguồn được phán tích vào trong liên n sử Tiép theo hệ thốnơ

dịch sử dụng tri thức từ liên ngữ để phân tích nsữ nghĩa và tạo cấu trúc ngừ pháp ở ngôn ngữ đích Sau đó là giai đoạn sinh câu bình thườne.

Hình 2.4 Lược đô quan hệ giữa mỏ hình chuvẻn đôi và liên ngữ

Dịch liên n sữ có ưu thế trong trường hợp xây dựng hệ thống dịch đa ngừ Nếu

một hệ thốns dịch n ngôn ngừ thì chúng ta chì can n quá trình chuyén đồi sang liên

ngừ và n quá trình từ liên ngử sang ngôn ngừ đích, trong khi với hệ thống dịch chuvén đồi thì chúng ta cần n(n-l) quá trình như thè cho tất cả các cặp nsòn ngừ Tuv nhiên xây dựng được một lièn ngừ đủ mạnh để có thề mỏ tả các thòng tin cho cùne lúc nhiều n sôn neử, cùng với các luật sinh cho từng ngòn neữ là một công việc rất phức tạp và đến bây giờ cùng chưa có hệ thống dịch nào thành c ô n s với cách tiẻp cận này

2.1.3 M ột số tiếp cận mói

Tronơ thập kỷ 90 và đến hiện nay có rất nhiêu nehiên cứu tìm hiểu về sử dụne corpus (cơ sở dừ liệu vãn bản lớn) trong dịch máy Với việc sử du ns corpus, các

10

Trang 12

kỹ thuật trong thống kê đã thể hiện được những ưu điểm của nó Trong phẩn này

chúng tôi giới thiệu hai tiếp cận điển hình trong việc sử dụng corpus là dịch máy dựa trên thống kê SBM T (Statistical-Based Machine Translation) và dịch máy dựa

trẽn ví dụ EB M T (Example-Based Machine Translation) Các phương pháp mới nà\ thẻ hiện cách nhìn mới 50 với tiếp cận truvền thỏns và maníi lại một sỏ 'ivèt

quả, tuy nhiên cùng còn nhiều hạn chế.

2.1.3.1 Dịch máy dựa trên thống kê

Tiếp cận dịch máy dựa trẻn thốns kê được siới thiệu đầu tiên tronơ (Brovv, 1990)

và các mô hình toán học cho tiếp cận này được trình bày đầy đủ và chi tiết trons (Brow, 1993) Tiêp cận dịch dựa trên thống kê thực hiện dịch trên từng cặp nsòn nsữ cụ thể Nó coi mọi câu trong một ngôn ngữ đều là kết quả dịch của một câu bất kỳ thuộc n2Ôn n2ừ kia với một xác suât nào đó Với mỗi cặp càu (s,t) ta ký hiệu P(tịs) là xác suàt chương trình dịch sẽ chọn càu t trons ngôn nơữ đích là kết quá dịch của câu s trong ngôn ngừ nguồn Ta mong muôn chươnơ trinh dịch sỗ xác định được giá trị P(tịs) là rất bé với cặp càu như (She is a teacher ; Tôi thích một quvén sách màu xanh) và có giá trị cao trons cặp càu như (I like a blue book i Tỏi thích một quyên sách màu xanh) Như vậy với xâu thuộc nsôn n sữ nsuồn s hệ thống dịch xác suàt phai tìm được xảu đích t sao cho cực đại 2Ìá trị P(t!s) Sử dụnơ Cỏn2 thức Bayes ta có thè viẻt:

(a) Tính toán khả nãns của một xâu sẽ thuộc n2Òn nsừ đích, hay nói cách khác là tính toan khá nãna một xâu sẽ có dạna tòi trone nsòn n<zừ đó

( b) Tính toán khá nãna cua xâu n2uỏn sẽ là xàu dịch của một xâu ngỏn n sừ đích, hay tồng quát là kha năng một xâu là xâu dịch cua một xâu thuộc nơòn nsừ khác.(c) Một kỹ thuật tim kiêm xâu nsôn n2ử đích làm cực đại biẻu thức trẻn

Y nghĩa cùa bièu thức P(t)*P(sịt) là duns hoà hai yếu tò: t là xàu dịch cùa s và t

cỏ khuòn dạn« tòt trons nsòn ngừ đích

N hư vậy hệ thốns dịch xác suàt liên quan đên mô hình đơn n2ử và mô hinh dịch Vlô hình đơn n sừ thườniĩ dựa trên mò hình neram (thực tẻ là bi gram hoặc trisram) Mô hinh này xác định kha năna xuãt hiện cua một từ phụ thuộc vào các

11

Trang 13

từ đứng liền trước nó (2 từ đối với mô hỉnh bigram, 3 từ đối với mô hình trigram)

N hờ đó ta có thề tính khả năng một xâu có khuôn dạng tốt trong ngôn ngừ đích

Mô hình dịch sử dụng tần suất cùng xuất hiện của các từ trong ngôn ngừ neuồn và

các từ trong ngôn ngữ đích, chiều dài của xâu chứa các từ đó, vị trí của các từ trong xâu, số lượng các từ thuộc xàu đích tươnơ ứng với từ thuộc xâu n2uỏn

Các hệ thống dịch máy thống kê được huấn luyện trên một lượng lớn dữ liệu văn bản song ngữ Nhiều mô hình bao gồm rất ít hoặc không liên quan đến các tri thức ngôn n eữ học, thay vào đó là dựa vào các đặc tính phàn phôi các từ và các cụm để sinh ra kết quả dịch thích hợp nhất Ý tường chung trong dịch máy dựa trên thống kê là chúng ta tìm kiếm các tính chắt của dừ liệu văn bản sonơ n sừ mà

dễ dàng đo được và tìm cách sử dụns nhữnơ thuộc tính này đế tiên đoán kết quả dịch Các thuộc tính có thẻ đo được bao gồm tần suất xuất hiện của các từ trong văn bản nguồn và đích, các vị trí quan hệ của các từ trong câu, chiều dài của càu,

và một số thuộc tính khác Điếm mạnh là mỏ hình này cần rất ít thông tin ngôn ngữ Tuy nhiên nó chì thê hiện kêt quả tôt khi những câu test tươnơ tự như dừ liệu huấn luvện

Y tườno cơ bản trons EBM T rất đơn siãn: dê dịch một càu thườnơ là chúns ta

sử dụng kêt quả dịch cua các càu tươne tự như càu đó, và rât nhiều kèt quả dịch chì là sứa đôi những két qua dã có Khi có một càu càn dịch, chúnơ ta tìm trong dữ liệu ví dụ các câu tươnơ ímơ với càu cần dịch sao cho các phần tronơ câu này bị phú bời các càu ví dụ được chọn Từ các thành phản phủ này chúng ta lấy ra các thành phần dịch tương ímơ từ câu dịch của càu ví dụ và kết hợp lại đế xây dựng nèn kết quả dịch Ví dụ:

Chúng ta cần dịch câu: "John bought a book on e co n o m ics/’

Giả sử trone kho ví dụ có hai mẫu:

Ann read a book on economics (Ann đọc một cuốn sách về kinh tế) (1)

Julie bought a notebook (Julie đã mua một cuốn vở) (2)

Hệ thống sẽ nhận dạng được cụm a book on economics trong mẫu (1) và cụm Julie bought trong mẵu (2) sẽ phủ càu cần dịch Do đó sẽ lấy hai cụm dịch tưng ứng là một cuốn sách về kinh tế và Julie đã mua đê xây dựng nên kết quà dịch là John dã mua một cuốn sách về kinh tế

Theo (Sato 1990), một hệ thống EBMT đặc trưng thường có nhữnơ thành phần chinh sau đây:

12

Trang 14

Một cơ sở dữ liệu bao gồm các ví dụ, mỗi ví dụ là một cặp câu nguồn và câu đích đã được dóng hàng Thông thường thì cấu trúc câu phi được lưu

dưới dạng cấu trúc phụ thuộc

Một thuật toán tìm các ví dụ tương ứng với câu vào được hiểu là các ví dụ này sẽ phủ lên càu cằn dịch

- Một thuật toán kết hợp dùne để xây dựng lại cảu vào bang cách kết hợp các

thành phần con (các phằn phủ) tuơne ÚT12 với càu vào từ các ví dụ

- Một thuật toán chuyển đồi và kết hợp từ các thành phần dịch trons các ví

2.1.4 Tiep cận xây dựng hệ thông dịch của chúng tôi

rỏ m lại có hai ticp cận chính dê giãi quyêt bài roán dịch máv là liẻp cận dựa irèn luật mà điên hinh nhàt là phươrm pháp dịch chuyên đòi và tiẻp dựa trèn corpus mà tiêu biêu là hai phương pháp dịch dựa trẽn ví dụ và dịch thònơ kẻ Mỗi

ph ư ơ ns pháp dẽu có nhữnư điỏm mạnh và nnửrm nhược điẻm riêng Tiẻp cận dựa trên luật thè hiện tính tòna quát hoá của các qui rác nsòn n2ừ nhimơ làm này sinh nhièu nhập n hẳns và khó khăn trone xử lý một sô hiện tượns nsỏn naử Trong khi tiẻp cận dựa trèn corpus, đo khai thác nhửrm két quà dịch trẻn một sò lượns lớn các ví dụ nèn sẽ cho kết quà tòt néu gặp những càu có nhiẻu tiromơ đông với tập huân luvện và như vậv siài quvèt được nhièu trương hợp cụ thê cua ngòn ngừ Tuy nhièn đặc đièm này sẽ khòns còn ư ons trươnơ hợp dữ liệu thưa Mặt khác khi chúng ta cẩn dịch nhừnơ mién dừ liệu mới hệ thônơ dựa trẽn corpus phải được huấn luyện lại trèn tạp dừ liệu mới

Vì n hừns đặc điẻm đó mà da sô các hệ thònơ dịch thương mại hiện nav vần có kiến trúc dựa trẻn luật Tuv nhièn chúns thường khòns thuần tuý dựa ưẻn luật mà chứa một sổ thành phẩn sử dụns kỹ thuật thòng kê đê xử lý nhập nhầng Chính vì vạy trons V tươne xây đựn« hệ thòno dịch tự dộn2 Anh-Việt chú ns tòi lấy tiếp cận dựa trèn luật là tiẻp cận chinh và sử dụng các kỹ thuật thòns kẻ bô trợ

13

Trang 15

2.2 T ổ n g q u a n về tóm tắt văn bản

Với sự bùng nổ thông tin tri thức bàng văn bản hiện nay, tóm tắt văn bản, trích lọc thông tin, và tìm kiếm thông tin được xem như một trong nhừng vấn đề rất quan trọng được sự quan tâm nghiên cưu cùa các nhà khoa học và các chính phù như

M ỹ, Nhật, v.v Hiện tại ứng dụng của tóm tất văn bản rất phons phú, chúng ta có

thể kể một vài Cm2 dụns chính của tóm tắt văn bản như sau: Được sử dụng cùng

mật với một lượng k h ổn s lồ thòng tin hàng ngày Thu gọn kích thước vãn bản cho phép tích hợp vào các thiết bị cầm tay như điện thoại di dộnơ, máy Paml, PDA và nhiều thiết bị cầm tay khác nữa Trong đề tài này chúnơ tôi nghièn cứu các phương pháp tóm tất văn bàn đê áp dụng tích hợp vào một hệ thống dịch máy có sẵn Điêu đó rất hừu ích bơi một sự kết hợp 2Ĩừa tóm tắt và dịch vãn bản từ tiếng Anh sang tiếng Việt sẽ có rất nhiều ứng dụng và mang lại lợi ích thiết thực khi trợ ơiúp người sử dụng nãm được thông tin ngày càng lớn, nhàt là nhừng tài liệu tiẽna Anh đối với neười khônơ thạo tiêng Anh

Với nhu cầu và lý do như vậy tronơ đê tài nàv, nghiên cứu về tóm rát vãn bản được xem như một trona nhừns Cỏn2 việc chính trong dó chứne tòi xàv dựng một

hệ thone tóm tất văn bán ờ mức đon giản cho phép rút ơọn một vãn bản dài thành vãn ban cò đọna hơn Trước khi đi sâu vào chi tiết các phươne pháp tóm tất văn bàn thực hiện ở trong đề tài này chúng tỏi mô tả một cách tòng quan nhất về các

d ạn " tóm tất văn bán cũng như các phươns pháp tiẻp cận đê 2Ìải quvểt bài toán

2.2.1 T ổng quan về tóm tát văn bản

Mục đích chinh cùa tóm tắt vãn bàn là trìnlĩ bày ý chính của một văn bản dưới dạnơ cò đọng hơn dễ thấy rang nêu tát cả các càu trons văn bản là quan trọns như nhau, việc tóm tất vãn bản trơ nên ràt khó khăn và khòna có nhiẻu V nshĩa Tuy nhiên, th ỏns tin quan trọng thường phàn bô không đồng đểu ở các càu, ví dụ nội dung chính của một văn bản thường xuyèn được mô tà ở các câu đầu tiên Trước khi đi sâu vào chí tiết phằn nghiẻn cứu trong đê tài này, chủnơ tôi trinh bày một cách tóm tắt nhất về các thè loại văn bản và các cách tiêp cận tóm tắt vân bản gần đây (xem chi tiết trong (M ani và Maybury, 1999), ( N e g g e m e y e r , 1998))

Tóm tãt biẻu lộ [indicative summaries) cuno càp một hướns nshiẻn cứu về sự

mỏ tả nội d u n s của văn bản mà khòng đòi hỏi sự chuyèn đôi vê các nsừ cảnh xác

14

Trang 16

định Trong khi đó tóm tăt cung cap (informative sum m aries) một phiên bản ngăn

hơn của nội dung vãn ban Cuối cùng, tóm tất dựa ưẻn cảu hỏi tập trung vào mục đích của người đọc để xác định nội dune bản tóm tất

Trích lọc í extra ctio n ) là một quá trinh xác định các yèu tô quan trọng càu

thành nèn một văn ban cho trước, abstraction là quá trinh biểu diễn vãn ban vơi khuôn dạng cô đọng trong khi vẫn chuyền tải được nội dung chính của vãn bản Tóm tăt văn bàn là một vấn đề hết sửc khó khăn bời nó vêu cầu phải hiẻu cả nội dung của vãn ban và những thong tin liên quan đến vẩn đề naừ nshĩa tu từ học quan hệ giữa các câu trong một đoạn ván cho trước

2.2.2 Tóm Trích lọc (extraction)

Tronơ các phươna pháp trích lọc văn ban trích lọc càu được sư dụng đẻ xác định các càu hay mệnh dẻ quan trọns nhàt tronơ một vãn ban hay một tập các văn ban Các phươnơ pháp nshien cứu trước đây vẻ tóm tăt vãn bán có thẻ được chia thành các hướne chính sau đây:

a) P hương ph á p heurisctic

Dựa trẻn vị trí: Phương pháp đơn 2Ìàn nhàt là dựa trên vị trí với quan niệm rune các càu xuàt hiện ơ đâu vãn bàn thườna quan trọne hơn những càu xuàt hiện ơ ỉiiừa hay ừ cuỏi cùng cua văn ban Với phươníi phap nàv cách tóm íãt Jon iiã n nhàt dô tạo ra một ban tóm tãt là chunn ta chọn ra nhừns càu đâu tièn irons vãn ban tùv theo kích ihươc và <JỘ dãi ìnona muòn cua ban tóm tất VIặc dâu hiệu nãne cua phươnư phap này thav đôi ràt nhiêu

theo kiểu cua vãn ban (văn ban khoa học, tin tưc V.V.) tuv nhiên nó iuòn

luôn chứng to được vào khoảna 33% cảu quan trọnơ trons vãn bản thườn2 năm ừ các vị trí đâu tiên

Dựa trén tiêu đề: Edmunson chi ra rărre; nhữns từ trono tiêu đê thườnơ liên quan đèn những càu quan trọns irons văn bán hơn là nhừns càu không quan tronsz Do dỏ sứ đụng, tiêu dê dược xem như là một phươna pháp dẻ xác định các càu quan trọns đỏi với một vãn ban cho trước

Dựa trèn các cụm từ: Tronơ vãn bản chúng ta có thẻ sư dụno các cụm từ hay dùne dẻ xác định xem câu có chửa từ đó là quan trọns hay khôns quan trọng

Dựa trên tuần suất của từ: Chủng ta có thè sư đụnơ tàn suảt xuảt hiện cua từ

đ ê tính đ ộ quan trọnơ của một cdu bãng cách tòng hợp tất ca các từ tr o n s

càu dó

i5

Trang 17

b) P h ư ơ ng p h á p dựa trên cơ sở tri thức

Phương pháp dựa trẽn cơ sở tri thức liên quan đến việc tóm tát các văn bàn

theo một chủ đề xác định Phương pháp này sử dụng cơ sở tri thức phong phú về chủ đề để quyết định thành phần nào trong ván bản sẽ được đưa vào nội dung tóm tat Phương pháp này mặc dù là phù hợp cho một chủ đề nhất định nhưng sẽ rât khó áp dụng sang một chủ đề mới bời vì chúng ta phải chuvển đồi cơ sở trí thức phù hợp với chủ đê mới Công việc đó rất tốn công sức Hơn nửa, các phương

pháp này đòi hỏi phải hiểu ngôn ngừ sảu nên khỏng phải là phương pháp có lợi về

mặt tôc độ tính toán

c) P hư ơ ng p h á p dựa trên thống kê

Tièp cận thòng kẽ đà LhímR tò được tiềm nãne khi áp dụng vào nhiêu vàn đê trone xử lý neôn ngữ tự nhiên, như dịch máy, tim kiếm vãn bản, và trích thông tin Khá nhiều phương pháp thông kê đã được áp dụng cho tóm tắt văn bản Một trong những ứng dụng thành công của phương pháp này là kết hợp nhiều phương pháp khác nhau thò ns qua việc xem xét bài toán tóm tất văn bản như bài toán phân lớp

Cự thể hơn, một câu trong văn bản có thề được xem xét một trong 2 lớp, lớp quan trọns và lớp khòns quan trọno Phương pháp sử dụng học máy được áp dụng để xảy d ự ns các luật cho việc phân lớp kè trẻn Các phươns pháp học máy đà được

áp dune thành cõng cho việc tóm tãt vãn ban bao gòm m ans Bayes, support vector machines, maximum entropy models, v.v

2.2.3 Tóm tắt cô đọng (abstraction)

Các nghiên cứu sần đây đã tập trung vào các van đề về sinh càu tronơ tóm tẳt vãn bản Kỹ thuật sinh càu được xem như là chìa khóa đẽ có thề thu được một hệ

tóm tắt văn bản đúnơ naử pháp và bô cục chặt chẽ Trong khi xây dựng một bản

tóm tắt cô đọns là một còng việc hết sức khó khăn, các phương pháp sinh câu ở mức đơn giản horn đã thu được những kẽt quả nhât định Các phương pháp sinh câu ở đây bao gòm:

a) Rút gọn cảu

Đe tích hợp các kv thuật sinh cảu vào vẩn đề tóm tất vãn bàn, nhiều phương pháp đã được nơhiẻn cứu Trước hết, Jing (Jing, 2002) mô tả một phương pháp tóm tẩt vãn bản dựa trẻn các kỹ thuật cãt và dán, trong đó một vài phép toán cat dán bao 2ồm rút gọn kết hợp và đồng nghĩa đã được sử dụng như là nhừng kỷ thuật chinh cho việc nàng cao chât lượng của một hệ tóm tăt văn bản Knight và Marcu (K nisht và Marcu 2002) cùng trình bày một phương pháp rút gọn câu khác

16

Trang 18

trong đó bài toán rút gọn câu được mô tả như một dãv các phép toán nhàm chuyến đôi câu thành câu ngăn hơn.

Trong báo cáo này, việc rút gọn câu được xem như là một nhiệm vụ chính, trong đó chúne tôi đề xuất một phươne pháp rút ơọn càu mới là một phươne pháp

mờ rộng của Knight và Marcu (2002), cho phép rút 2ọn càu với độ chinh \ í c cao

2.3 Kết luận ch ư ơ n g

Trong chươnơ này, ờ phần đầu (mục 2.1) chúnơ tòi đã giới thiệu tổn2 quan về dịch máv sau đó chúnơ tòi đã đề cập đến tiếp cận xàv dim s hệ thốrm dịch của mình, đó là một hệ thòng dịch chuyển đối giàu tri thức trong đó tim s mòđun có thè

là (iựa trên luật hoặc học máy Chương 3 sẽ mò tả kỹ hơn về hệ thốrm dịch này ơ phàn sau (mục 2.2) ch ủns tòi đã 2ĨỚĨ thiệu tònơ quan vẻ tòm tăt vãn ban tronơ đó đáng chú V là hai kiêu tóm tăt văn bản: tóm tat trích lọc và tóm tất cô đọne

C hươns 4 sẽ trình bày một sô nghiên cứu mới cùa chúng tôi vê tóm tãt văn bàn sử dụng học máy

Đ A I H Ọ C Q U Ố C G IA HA I 'O I TRUNG TÂM TH Ò N G TIN THƯ VIỀN

D T ~ / 3 ^ M

Trang 19

CHƯƠNG 3 HỆ THÓNG DỊCH CHUYẺN ĐỎI

3.1 Kiên trúc hê thông• o

Sơ đồ hệ thốne dịch của chúng tôi như sau: -

Hình 3 ỉ Kiên [rúc hệ thông dịch chuvên đỏi

Theo sơ đồ trẻn văn ban vào trước tiên được tiền xử lý (lấy text loại bò nhiễu,

v.v.) sau đó sẽ được cãt câu, tách từ rỏi đây vào bộ p_hàn tích hình thái Môđun nàv

cỏ nhiệm vụ xác định dạng gôc từ loại và các thôna tin hình thái-cú pháp của từ

Kè tiếp, các càu vào sẽ dược nán nhãn từ loại nhăm ăiàm bớt nhập nhãniĩ vè phàn

loại từ Sau dó bộ phàn tích cú pháp sẻ xác định câu trúc cú pháp của các càu vào

và dưa ra các cây cú pháp Sau khi đã có kẻt quả phàn tích cú pháp, bộ phàn tích

n sừ nehĩa sẽ xử lý nhập n h àn s n s ử nơhĩa băne cách lựa chọn nơhĩa đúng hay loại

bo các nghĩa k h ò ns thích hợp cho các từ trong cảu Cưòi cùng lả bước sinh càu

tiếng Việt Cơ sở tri thức của hệ thốnơ này khá đa dạns với hai phần chính là từ điển sons nsòr Anh-Việt và bộ luật củ pháp tièng Anh

18

Trang 20

3.2 T ừ điển song ngữ

Từ điển song ngừ là cơ sờ dừ liệu rất quan trọng cùa một hệ thống dịch chuyển

đồi Từ điển này là từ điển dịch máy và khác với từ điển điện tử thône thườns dùng cho con người Nó bao gồm rất nhiều loại tri thức từ vựns; như hinh thái, cú pháp và naừ nghĩa Mỗi tư đẻníi Anh có một mục từ tươii2 ứna tron li lừ diên Mục

từ chứa các thông tin vê hình thái, từ loại, luật củ pháp đi với từ phản loại nsừ nahĩa nghĩa tiênơ Việt Dưới đây là hình chụp Cỏn2 cụ soạn thảo từ điển của chúng tôi:

FBEE

Pile 6úit '.V * Toots rtto

iWord 4 Rule ot Wofd

Scdaqxri

V jja q x ll

Scjhi SoJCTinil

* ỉ i n * /1 n r n n '

ỉia VS1 kn cn ia cBo '4

‘a i u pr.\r i ó a ve s u a '' '.lua ì 'v e ooá"

19

Trang 21

nhăng từ loại được thực hiện ờ các 2Ìai đoạn tiẽp sau Một ví dụ về kết quà trả về của mô đun hình thái:

Mô hình hình thái hai mức được Kimmo Koskenniemi đưa ra vào năm 1983

C hú ns ta xem xét một ví dụ biến đồi hình thái sau: từ chased dược xem như là dần xuất từ chase bang việc thèm hậu tô -ed Tuv nhiên, néu thèm -ed vào chase thì sẽ dần đến việc sẽ phải loại bớt đi một kí tự e Do đó chase và chas được xem như là các dạng khác nhau của cùng một hình vị Một từ được biểu diễn như một tươno ứng trực tièp giữa dạng từ vựnơ của nó và chính từ đó hay còn 2ỌÌ là dạnư bên dưới và dạne bề mật Đây cùng chính là lý do vi sao mò hinh này dược gọi là mò hình hai mức Ví dụ từ chased dược xem như !à biêu diễn hai mức sau:

Dạno bèn dươi: chas e ^ ed

Dạne bè mặt: chas 0 0 ed

Trorm đó kí hiệu - là biên của hình vị 0 là kí hiệu cho kí tự tròng

Một bộ phàn tích hình thái theo mỏ hình hai mức có hai thành phàn dừ liệu chinh

là thành phần luật và thành phàn từ diên Thanh phàn luật bao 2ÒIĨ1 các luật hìnhthái hai mức thành phàn từ điẻn bao £ỏm tât cả các hình vị ( từ «ốc và phụ tố) Bộphàn tích có hai hoạt động là "sinh đạnơ” từ (Generator) và "nhận d a n s ” cừ (Recognizer) Hoạt độna sinh dạng từ sẽ chàp nhận đâu vào là một khuòn dạns tư vựnơ, hay là dạns bèn dưới và tra vè dạnơ bẻ mặt của nó ví dụ: nhận vào spv - s

và trả về spies Trong khi hoạt độns nhận dạne có đâu vào là dạns bè mặt và trả về dạng từ v u n 2 bèn đưỡi ví dụ: nhận vào spies và trả vẻ spv - s và kèt qua nàv có V nghĩa như Danh từ - s ỏ nhiều Sơ đồ các thanh phàn của một bộ phân tích hình thái hai mức như ở hinh 2.3 Chi tiẻt vé khuòn dạnơ luật hinh thái hai mức và các

kỹ thuật được sử dụng trong phàn tích hình thái hai mức xin xem trono I Graeme 1992)

:o

Trang 22

R u l e s L e x i c a l

H inh 3.3 S ơ đô các thành phản cùa một bộ phà n tích hình thái hai mức

Giai đoạn này còn gọi là xử lý nhập nhẩng từ loại Có nhiều cách để giải quyết bài toán này (M annine và Schutze, 1999) Chúng tôi xày dựng mòđun gán nhăn từ loại sử dụng kết hợp mò hình H M M bậc hai (M anning và Schutze 1999) và mò hình văn phạm ràng buộc (Voutilainen, 1997) Mô hình H M M này có các trạng thái àn là các từ loại càn được xác định, mỗi trạng thái phụ thuộc vào hai trạng thái trước đó các trạna thái phát ra các quan sát là các từ Chúns tòi thưc hiện việc huân luvện mô hình trẻn corpus Penn TreeBank II (Marcus 1993) Mô hình văn phạm ràng buộc sư dụne các luật IF THEN dê xư lý nhập nhảns Câu vào trươc tiên được đưa qua bộ sán nhãn từ loại HMM, nèu xác suất dày từ loại dược chọn lớn hơn ngưỡng cho trước thi chàp nhận kèt qua này trái lại càu vào được dưa qua

bộ gán nhãn từ loại dựa trèn luật Vi bộ nhãn của Penn TreeBank ÍI khác với bộ nhãn của hệ thône dịch này nẻn chứng tỏi cũng càn xâv dựng bans ánh xạ giữa chúns Việc chuyên đôi nhãn được thực hiện trước và sau khi sán nhãn từ loại ■

21

Trang 23

nhiều cây phàn tích Để xử lý các nhập nhằne này, người ta nshién cứu các heuristics mà điển hình là ưu tiên từ vựng, iru tiên các cặp từ cỏ quan hệ ngữ pháp

(như V -0 , S-V, v.v.) hay ưu tiên liên kết phải nhất Cùng theo tiếp cận dựa trẽn

luật, còn có nhiều vãn phạm khác như HPSG hay LTAG So với văn phạm phi n2ử cánh thi các văn phạm nàv có khả năna mò tá ròt hơn tuy nhiên viéc xàv 'Jựnn bộ luật công phu hơn vì chúne vẻu cầu được mò tả rất chặt chẽ Nhược điẻm cua phàn tích củ pháp dựa vào luật là việc xây dựng bộ luật vãn phạm rất tốn kém độ chính xác của phân tích cú pháp lại khòna cao

và Schutze, 1999) Tiếp cận này khai thác các kỹ thuật trons lĩnh vực học máy hay xác suẩt thống kẻ như cây quyết định, HMM ME, v.v Tiếp cận này chi yêu cầu tài nsuvèn là corpus, có thẻ dã được gán nhãn hoặc chưa Nhìn chunơ việc xảy dựn2 corpus ít tốn kém hơn xày dựns bộ luật cú pháp, hơn nữa nó có thẻ dược sử dụne dê nshièn cứu nhièu mô hinh phàn tích khác nhau

Tiẻp cận thứ ba có thẻ kê đên là incremental parsing Lây ví dụ phưcms pháp

increm ental deep p a rsin g chia quá trình phàn tích cú pháp ra thánh nhiêu siai

doạn bẳt đẩu là phản tích hình thái, ròi dẽn xử lý nhập nhăna từ loại, nhận dạng thực thẻ tên phàn tích cú pháp nònơ ròi cuòi cùns mới là phàn tích cú phap Từnu

mỏ đun là dộc lập với nhau, có thè mô đun 2án nhãn từ loại là dựa tròn luật (CG chảna hạn) nhưns IT1Ỏ đun nhận dạne thực thẻ tẻn lại lã HMM v.v Nhiêu bộ phàn tích cu pháp rất mạnh dược xâv dựns theo tièp cận này

Chúng tòi thực hiện tièp cận dựa trên luật Thuật toán phàn tich cu phap dược chung tôi sử duns là Earlev (Jurafskv và Martin 2000), một thuật toan phàn tích

cú phap dựa vào bans hiệu quá Hai vàn đc khó của phàn tích củ pháp là nhập nhăns cú phap và thiếu luật Nhập nhầns cú pháp dược xử lý bans cách sư dụng một số heuristics như ưu tiẻn từ vựng, liên kẻt tòi thiêu, ưu tiên quan hẻ nsữ phap Tron s đó dừ liệu về quan hệ nsữ pháp được rút ra từ các corpus lớn Vàn đề thiêu luật dược xử lý bans cách phàn tích sần đúnơ muỏn vậy mọi thành phàn cú pháp tronư càu đều được phàn tích sau đó chọn ra các thành phàn tòt nhài phu lèn Làu vào Dưới dây là hinh chụp một cày cú pháp:

Trang 24

Input sentence: He has a lot of books

>SVP

I—> Sdgtn_dt[pre, Sg3] ("has")

—> SObj ' —> Scdt' —> SDetHead I—> SDeterminer

nhằng về naừ nghĩa Ví dụ như trong tiêng Anh, tử bank có thê là danh từ hoặc

động từ Trong chức năng danh từ từ bank lại có thẻ m ans V nehĩa là ngân hàng,

bờ, đóng Thuật n eừ WSD chúng ta đề cặp ở đây chi nói đên nhảp nhãno về mặt

Trang 25

ngữ nghĩa của từ vựng Các phương pháp xử lý nhập nhăng nsừ nghĩa dựa trên

ngữ cảnh thường chì thực hiện trên ngòn ngừ mà nỏ định xử lý Đièu này khi áp

dụng vào dịch Anh Việt vẫn còn một số vắn đề chưa giải quyết được:

- Thử nhất là khi đã được xử lý ngừ nghĩa, mỗi một từ vựnơ được xác định một phản loại và một nghĩa duy nhàt ưong tiếng Anh thì nỏ vẫn còn cỏ thẻ có nhièu

khả năng tương ứng trong tiếng Việt Ví dụ như danh từ bank với nghĩa là

"m ound" thì tương ứng với nó ưong tiếng Việt vẫn bị nhập nhàns bởi bờ,

đỏng, bãi,

- Thứ hai là khi muốn áp dụng các kết quả xử lý nsữ nshĩa trên tiếns Anh thì chúnơ ta phái xây dựng một từ điến dịch Anh - Anh - Việt với mỗi một n2hĩa (sense) trons tiẻnơ Anh phải được dịch tươns ứns với các trườns hợp trone tiêng Việt Trong khi các từ diên của chúns ta hiện nav không có sự đối sánh tươ ns ứng này Mặt khác sự đối sánh về mật nsừ nshĩa này nhièu khi khòng tương ứng ví dụ như một nsữ nehĩa xác định trong tiếna Anh lại có thẻ tươnơ ime với nhiêu n«ừ nsh ĩa trons tiẻns Việt và ngược lại

Chính hai lý do trèn và muôn khône phải bò quá nhiỏu côna sức đê xâv dựng lại một từ diên tươns úm 2 n2ử niihĩa Anh - Việt như vậy mà chúns tòi nìihiên cứu xứ

lv nhập nhãns naừ nshĩa trons các hệ thôn2 dịch tự độns Anh - Việt theo hưcms

từ một từ \ựniì dà dược xác định phàn loại chún2 ta có thê xác định !uòn imử nizhTa cua từ đỏ (mà chính xác hơn là từ dịch tươne ứns) trona tiẽna Việt dựa vào nuử canh ma khonsz qua việc xác định n«ừ nơhĩa trons nsòn n2ữ nuuỏn

Nhấc lại rẩrm cỏ hai tiếp cận chính tron" dịch máy là tiẻp cận dựa trèn luật và tièp cận thống kè Tuy nhiên các hệ thông dịch máv hiện nav đêu khònsĩ được thièt kè thuần túy theo một tiếp cận nào cả Đe bỏ suns các điẻm mạnh của cà hai tiẻp cận các hệ thốns dịch máv hiện nay đều là các hệ thòns lai phàn tích n2Òn ngừ nsuòn dựa trẽn các luật hình thái, cú pháp, nsừ nghĩa và áp dụng phương pháp thòng kè trons xử lý nhập nhẳnơ Sau đâv chúng tôi trinh bày một sơ đô tỏna quát của một

hệ dịch máy mà chi tiết hơn vào phần xử lý nhập nhăng ngừ nghĩa:

Trang 26

từ diến luật hình thái luật cú phap corpus (PO S, cú pháp)

xử lý ràng ngừ nghĩa ràng buộc

xử lý ngừ nghĩa thống kê

constraint rule

nghĩa dịch xác định

nguon y

Hình 2.5 Mô hình một hệ dịch Anh Việt

Quá trình thực hiện xử lý nhập nhẳnơ neừ nghĩa được bắt đầu sau khi hệ thốna đã phàn tích văn bản vào ờ mặt hình thái và cú pháp Trước tiẻn chúns ta sẽ tìm kiếm các luật ràns buộc ơắn với từng từ vựng thuộc ván bản và thực hiện các luật ràng

buộc này Tại bước này, không gian nehĩa dịch sẽ được thu hẹp lại (nehĩa dịch

được xác định duy nhảt hoặc dược loại bo bớt) Sau đó bước tiêp theo là sử dụns corpus tiếng Việt để chọn nghĩa dịch có khả năng nhất dựa vào collocation của các cặp củ pháp hoặc tân suât đông xuât hiện của các từ trone cửa sô n2ử cảnh Chi tiết xin xem trone (Lê Anh Cường, 2003)

3 7 Sinh câu tiếng Việt

Giai đoạn sinh cảu tiếng Việt về cơ bản thực hiện chuyên đôi câu trúc ngừ pháp từ

ngôn ngừ nguồn (tiếng Anh) sang ngôn nsừ đích (tiếns Việt) Việc này là cân thiết

vì các ngỏn ngừ khác nhau thường có cách thè hiện ngừ nghĩa theo cú pháp là

Trang 27

không giống nhau Ví dụ như trong tiếng Anh thì tính từ đứng trước danh từ còn với tiếng Việt thì ngược lại Hơn thế nửa, nhiều khi do sự khác nhau về cấu trúc

mà khi chuvển đồi từ ngôn ngữ này sang ngôn naữ khác thườne phát sinh ra thành phần mới hoặc làm mất đi thành phan nào đó Việc chuyển đôi cấu trúc dựa trẻn bièu diễn cày, do đó công việc chuyên dôi cú pháp ừ đây liên quan đến cac phép toán trên cây: đảo nhánh; xoá nhánh; chèn nhánh Thuật toán được thực hiện đệ qui theo kiểu top-down Tuv theo việc chuvèn đôi giữa hai nsòn ngữ cụ thể nào

mà đỗi với mỗi luật cú pháp sẽ có các điẻu khiẻn chuyèn đôi đi kèm Sau đâv ta sẽ chi ra một số trườno hợp trong việc chuyển đôi từ cày cú pháp tiếne Anh sans tiếng Việt

aj Đào nhánh:

Ví dụ: She likes the blue book

^ Cô ấy thích một quvến sách màu xanh

Trong đó có cấu trúc cụm danh từ: Adj N => N Adj

Ví dụ: She is as tall as him

26

Trang 28

■=> Cô ây cao như anh ẩy

Trong đó cỏ cấu trúc: “as” Adj “as" NP => Adj “như'* NP

Khuòn dạng điều khiển chuyển đổi cấu trúc: như chúng ta đã thấy mỗi nút trong cày bao gồm nút cha và các nút con chính là thế hiện của một luật cú pháp tuomơ ứng Mỗi chuyển đồi của nút câv đê sinh cảy tương ứng trong ngôn nsử đích tương ứng với việc chuyển đôi các nút trone luật để tạo luật tươnơ íme tronơ nsôn ngữ đích

3.8 X ây d ự n g d ữ liệu dịch

Xảy dựng dữ liệu dịch là quá trình rắt quan trọng trong dịch máy (Mannine và Schutze, 1999), đặc biệt là đối với các hệ dịch chuyền đổi Có hai cách làm dữ liệu phổ biến, cách thứ nhẩt là làm hoàn toàn bang tay, cách thứ hai là làm bán tự dộns tức là máy sẽ khám phá ra dử liệu thò trons corpus, sau đó ngươi dùn<z sẻ chọn lựa vào hiệu chinh trên đôrm dữ liệu mà máy đưa ra như vậy sè giúp giảm còng sức đáng kể Chúng tôi đi theo tiếp cận thứ hai với sự hỗ trợ cùa một số cône

3.9 M ộ t số công cụ

Việc làm dữ liệu sẽ hiệu quả hơn rât nhiều nếu có các công cụ tốt hỗ trợ Trons khuòn khô của dự án, chúng tôi đã phát triẻn công cụ thống kê tự động các collocation từ corpus thô Đôi với dữ liệu tièng Anh trước tiên chúna được máy gán nhãn từ loại, sau đó lọc ra các cụm từ với tần suất xuất hiện cao và có mẫu từ loại thuộc dạng cho trước Đối với corpus tiêng Việt, 2Ĩai đoạn phân đoạn từ tiếne Việt được thực hiện đẩu tiẻn, sau đó máy sẽ thống kê các cụm từ có tần suất cao

kế tiếp lọc theo mẫu cú pháp dựa vào từ điên Công cụ này đã 2Ĩúp tăng tốc độ làm

mẫu dịch theo cụm từ và eiúp xử lv nơữ nehĩa tốt hơn.

27

Trang 29

Chúng tôi sử dụne hai bộ test sau:

Streamline A Streamline B và Streamline c

b) Đánh g iả

Kèt quả dịch của máy được một nhỏm nhừrm rmười chuvên dịch tiếne Anh đánh giá và phân ra các loại sau:

Kèt quả dịch là tôt, cả vẻ cú pháp, nsử nshĩa và văn Việt

Kẻt quả dịch là hièu dược nhưnơ chưa tinh về neừ nshĩa hoặc vãn ViệtKêt quả dịch là hièu dược với sự sửa đôi nhò

Kèt quà dịch là khòns hiẻu dược (sai v)

B ảng ỉ Bàng đánh giá kẻt quả dịch mảy’

Báng kết quà trẽn cho thảy máy dịch tòt các càu hội thoại tiẻnơ Anh thòn2 dụns và dịch chưa tòt các bán tin tièns Anh Ta lý siài kêt quả nàv như sau: Đa sò các cáu hội thoại tiếns Anh thônơ dụns có càu trúc cú pháp chuàn hoặc đơn 2Ìàn va tù

v ự n s thòng dụng do đó máv dịch tòt rrái lại các cảu trong ban tin thươno có càu trúc cú pháp phức tạp thậm chí là xấu và từ vạmơ có tính chuyên nsành do đó máv dịch khôns tốt khi ta kh ò n s sử dụns từ điên chuyèn ngành

3.12 Kết luận ch ư ơ n g

Troníỉ chươne này chuns tòi dã mỏ tả vê một hệ thỏrm dịch c h in èn đỏi cụ thẻ Hệ thống này cỏ kha nănơ khai thác nhiêu loại tri thưc ngôn neừ và dược tích hợp các

28

Trang 30

công nghệ x ử lý ngôn ngữ hiện đại, bao gôm cả dựa trên luật và học máy thòng kẻ Chúng tôi khòng trình bày sàu vào các kỳ thuật cụ thể, mà chi nẻu đu để neười dọc hiểu được kiến trúc hệ thống, vai trò và chức năng của từng môđun tiếp cận để xử

lv các vấn đề ở mỗi môđun và trích dẫn đầy đủ các tài liệu tham khảo sâu Chúne tôi đà đưa ra các sò liệu thực nshiệm ờ phản phàn tích cú phap và chất íượng dịch của hệ thống

Trang 31

CHƯƠNG 4 MỘT SỐ PHƯƠNG PHÁP TÓM TẮT VĂN

BẢN iMỚI

4.1 i\Iô tả hệ thống

Hệ thông tóm tất vãn bản của chúng tôi gồm hai phần chính được mò tả một cách vắn tắt như sau: Phần thứ nhắt có nhiệm vụ trích ra tập các cảu quan trọns từ một văn bán cho trước Phương pháp cúa chúng tôi là xem xét bài toán trích ra tập câu quan trọng như bài toán phân lớp sừ dụns mô hình entropv cực đai (MEM) Phần thứ hai có nhiệm vụ rút sọn các càu dài thành các câu nsẩn hơn trons khi rmừ nghĩa chính cua chúns vẫn khòns thay đôi Trons phần nàv chủns tòi đề xuất một cách tiếp cận thốns kè cho việc rút gọn càu thông qua việc ươc lượnơ dựa trẻn tập dữ liệu bao ơỏm các câu và các rút ngọn của chúnơ Hình 2 mò tả một cách tons quan hệ thông tóm tãt văn bản được thực hiện tron2 đề tài nàv

4.2 Tóm tat vãn bán dựa trên iMEIVl

Phươns pháp tóm tăt văn bủn của chúrm tòi sư (iuníỉ phương phap học máv bans mỏ hình entropv cực đại (maximum entropv models) (Manning và Sehutze 1999) irorm đỏ dừ liệu học máv dược sư dụng từ dừ liệu chuàn Chúng lỏi sư dụns một tập bao 2ÒIĨ1 200 văn ban cho việc học máy, trons dó trims bình mỏt văn ban vào khoảng 50 càu Sau khi sử dụns phương phap học máy barm mỏ hinh MEM chủng tôi thu dược mò hinh cho việc trích các càu quan trọng từ một vãn ban bất

kỳ khòns thuộc dừ liệu học

Dưới dày chủng tòi mò tả một cách văn tăt vè mò hình entropv cực đại trona

bài toán phản lớp như sau: Giả sử cho trước một tập dừ liệu Đ chuns ta cần tim một mò hình thõa măn n ràns buộc cho trước tronơ khi mô hình đó phai phù hơp

vơi phàn bô xác suàt từ dừ liệu Lý thuyẻt MEM cho phep chuns ta chọn dược mò hình thỏa màn các đièu kiện kẻ ĩrèn Đỏi với bài toán phàn !ớp chúna la phai xàv dựng được tập các hàm ràns buộc hay còn ơọi là các hàm thuộc tinh Một cách hình thức hàm thuộc tính trong bài toán trích câu quan trọns có thẻ được mò tà như sau:

C húns ta 2ỌĨ c là tập các nhãn, ở đây c chì bao sồm hai lớp (true, false) đẻ chì

ra một câu là quan irons hav khỏne quan trọns Hàm rànơ buộc là hàm chì ra mòi quan hệ cua một càu dôi với một nhãn cho trước (eonstrainst function), kí hiệu là f

30

Trang 32

(c,s), ví dụ, một hàm ràng buộc chỉ ra ràng một câu là quan trọnơ nếu nó chứa *‘in conclusion” có thê diễn tả như sau:

fl if "in conclusion" e S

10 otherwise

Sau khi xây dựng được các hàm ràng buộc, mối quan hệ giừa một câu và một nhãn

có thế được xác định nhờ các công thức sau đây:

! s) = ^ 7—e x p ( £ ị / X c s ) )

Z(s) = 2 ] e x p ( ^ Ả /( c s))

Đe xác định được một câu là quan trọng hay không quan trọng chúnơ ta cằn xác

định xác suất Pícịs) nêu P ftrue\s)> P (false\s) ta thu được một càu quan trọng và nsược lại s là câu không quan trọng Đê xác định xác suất P(cỊs) điều cần thiết là phái ước lượng được các tham số Ả ; với lý do đó chúne tôi sử dụng thuật toán

GIS để xác định các tham sô cho các hàm ràng buộc

Như vậy, vàn đê quan trọng của MEiM là làm thẻ nào xảy dựns được tập các hàm thuộc tính, với 1Ý do đó chúng tôi đã sử dụng các hàm thuộc tính như sau:

Hàm ràng buộc vê vị trí: Nhừng câu ờ dâu tiên hoặc ơ cuôi cùnơ vãn ban thường

dược xem như là nhữns cảu quan trọng

Hàm ràng buỏc vẻ độ dài: Một càu ngán thi thươno được xem như là một cảu

quan trọna C hú ns tôi sử đụnơ các siá trị sau đây đê xác định một càu nsãn: càu nho hưn 6 từ càu lớn hơn 6 từ và nhò hơn 20 từ, câu lớn hơn 20 từ

Hàm ràns buộc liên quan đên tiẽu đê của văn bàn: Một càu liên quan đên tiêu đê cùa văn bàn được xem như là một càu quan trọns

quan trọnơ và khỏnơ quan trọng đê xây đựng hàm rànơ buộc

K hoang cách giữa các càu: Khoảng cách 2Ìừa c^c tù’ irons văn bản với các từ xuât

hiện ở trước nó

Câu trúc về chương mục: Các cấu trúc về chươnơ mục cũng được sử dụns đẻ xây

dự n s hàm ràng buộc

4.3 Tóm tắt văn bản dựa trên Co-iMEM

Phươns pháp Co-M EM là một mô hình áp dụ n s co-trainirm với hàm học máy

cơ sở là MEM Phương pháp Co-leaming được áp dụng rất thành công vào các bài loan xư lý nsỏn n sừ tự nhiên troníỉ đó dừ liệu học máy khỏrm đủ lởn Trons bài toán phàn tích cú pháp, nhận dạng tèn riêng, v.v (P ire c e , 2 0 0 1 ) (S arkar,

31

Trang 33

2 0 0 1 ) Trong bài toán trich tập càu quan trọng, nghièn cứu của chúng tỏi là đánh

giá hiệu năng của mô hinh co-leaming cho M EM khi so sánh với phương Dháp

MEM thuần túy.

Phần tiếp theo trình bày phương pháp rút 2ọn càu theo đó mỗi câu dài trona tập các câu quan trọng sẽ dược thu ơọn đề trư thảnh một câu naán hơn sao cho I12Ừ nghĩa chĩnh của các câu là không thay đồi

4.4 Rút gọn câu

Phương pháp rút gọn câu của chúns tôi dựa trên mò hình học thỏno kè là chủ vếu trons đó chúng tòi đề cập tới sử dụns SVM và MEM dề học từ tập dừ liệu có sẵn bao gôm các càu dài và các rút gọn cua chúng

a) Mô hình cùa việc rút gọn câu.

Mô hình của việc rút gọn càu của chúnơ tòi dược xày đựrm dựa trèn kiến trúc shift-reduce trước hèt một cdu được phàn tích thành cày cú pháp, sau đó câv cú pháp này sử dụnơ một qua trinh chuyên đôi đê chuvén một cây thành cày n2ẳn hom

Đè tiện cho việc 2Ìài thích cơ chè của phương pháp rút gọn càu chúrm tôi đưa ra một số định nghĩa hinh thức dưới dây:

Một InputList (danh sách dâu vào) bao 2Òm một dãv các từ được iíộp vào một eàv cú pháp biễu diễn cho càu ơ đây mỗi một tư tronìi InputList dược mã hoa như một ki hiệu ngừ pháp cua các thành phàn trorm cà\ cú pháp CSTACK là một ngăn xỏp bao iZ Ò m tát ca các cày con (sub-tree) dẻ chuvén dôi thanh cà\ nho hơn Cuối cun RSTACK là một nsán xèp bao 20m cac cà\ con dược loại bo từ InputList trons quá trình chuvèn đôi từ càv dài thành càv níiãn

Đầu vào là càu (a.b.c.d.e) sau khi chuyên dôi chủns tòi thu được càu nsãn hơn (b,e.a) Quá trinh chuyền đôi dựa trên một dãy các "hành độns'*: các hành độns ờ đây bao aỏm:

- SHIFT REDUCE DROP, and RESTORE Chung ta có thẻ mỏ tà một cách tom tất các phương thức hoạt dộng của các hành dộng này như sau:

• SHIFT: là các hành động dịch chuyèn các từ từ trons danhsách vào một ngăn kéo Được ký hiệu như là SHIFT

• RED U C E (Ik X) lav ra Ik cây cú pháp ờ đâu của n2ãn kéo

vã kết họp chúnơ tạo thanh một cà\ mới iron2 dó Ik là một

số rmuyèn và X là một ký hiệu neừ pháp

Trang 34

• D R O P X: dịch chuyển một dãy các từ liên quan đến cấu

trúc ngữ pháp từ danh sách đẩu vào đến RSTACK Cả

R ED U C E và DROP được sử dụne để suy dẫn cho cây được

rút eọn

• A SSIGN TYPE X: thay đồi ký hiệu của cà> ờ đầu

CSTACK.

• RESTORE Ik: lấy Ik phần tử từ RSTACK cho vào danh

sách đầu vào (InputList).

Đe tiện lợi chủng tôi giả sử một “cấu trúc” là một trạng thái của InputList, CSTACK và RSTACK; một neừ cành hiện thời là các thôns tin quan trọne của một "cảu trúc?\ Các thông tin quan trọng được khai báo như một vector của các thuộc tính sử dụng các phương pháp heuristic

b) Thuật toán rút gọn càu băng câv quvêt định (Kinght và Xíarcu, 2002).

Ý tườne chính của thuật toán nàv là học một cách tự độnơ các luật từ corpus,

và sừ đụnơ các luật đó để chuyên đôi một câu dài thành một càu ngan hơn Quá trình áp dụne các luật được lặp lại cho đên khi điêu kiện dừrm xuàt hiện Điẻu kiện

dừnơ xuất hiện khi chỉ có một cây củ pháp xuất hiện ờ CSTACK và ínputList là

rồng, về chi tiết của thuật toán xin tham khao (Minh và cộns sự 2004)

Xét một thí dụ đơn giản sau đâv đê chưvèn một càu dài thành một càu ngân hơn sử dụne mỏ hình của chúng tôi

33

Trang 35

RSTACK INPUT LIST

c

RED U CE 2 F ste p 7

Hĩnh 4 1 \ ỉ ò ỉa một quả trình chuvên đôi một càu dài thành một càu ngán hơn

Hình 4.1 biêu diên một ví dụ mò ta một qua trinh chuvèn dôi câu dài thành càu ngẳn hơn bans việc áp đụn s một dãy các hành độnơ Ví dụ ở <iòn2 dâu tiẻn DROP

H xóa inột cày con với nút gổc là H ờ trong InputList va lưu nó vào RSTACK InputList sẽ chuyền tới một trạng thái mới vơi cày con có nhãn A như ở dòng thứ

2 Như vậy cây rút gọn s có thê thu được bãns cách áp đụ n2 một dày các hành dộng như sau: DROP H: SHIFT: ASSIGN TYPE K: DROP B: SHIFT; ASSIGN TYPE H: REDUCE 2 F: RESTORE H; SHIFT: ASSIGN TYPE D: REDUCE 2 G

C) Hoc các lu ậ t r ú t g ọ n

34

Trang 36

N hư đã đề cập ở trên, các hành động đối với mỗi **cấu trúc,? có thề được đoán nhận

bới sử dụng các luật học, đê ánh xạ các ngữ canh và các hành động Đe có được

các luật học máy như vậy, các “cấu trúc” được biễu diễn dứoi dạng các vector với

một số lượng lớn các thuộc tính Chúns tôi sử dụ ns mô hình SVM để học các luật

rút uọn bời vi phương pháp nàv thẻ hiện khả năng phản lớp với độ chính xac cao

với một không gian rất lớn các thuộc tính Giống như phương pháp MEM, các

hàm thuộc tính là các đặc điềm quan trọnơ bậc nhảt của phươnơ pháp học bần2

SVM Cho bài toán rút gọn cảu chúng tòi thiẻt kẻ các hàm thuộc tính như sau:

Các thuộc tính điều khiển (operation features)

Các thuộc tính này phản ánh số lưọme các cày tronơ c STACK và RSTACK và

kiều của 5 hành động liền kề trước đó Chúng tôi cùnơ sử dụng các thuộc tính biểu

diễn cho các thông tin trạng thái của CSTACK và RSTACK, bao gồm thòng tin

của nút gốc của các cây con Chúng tôi cũns xét các thông tin của 10 cây con đầu

tiẻn trong C STA C K và RSTACKvới các thông tin về nút gốc và các thône tin về

chức năng ngừ pháp của các nút lá.

Các thuộc tính của cây gố c

Các thuộc tính của cày ơôc xác định các thành phàn nsừ pháp hăt n«uỏn từ phản

tư đầu tiên cùa InputList Thí dụ trorm hinh 1 lài ca các thành phàn n°ữ phap là

các kí hiệu ngừ pháp của phan tử hiện tại của Inputlist từ "N P ” cho dên dộns từ

"convince"

35

Trang 37

Input List

Hình 4.2 Các thuộc tinh ngữ nghĩa

Các t/tuộc tính n g ừ ng/tĩa

Các thuộc tính sau đây được sử dụng trons mò hình của chủns tôi bao sòm:

- Thòng tin vẻ ngừ nghĩa về các từ ờ thừi diêm hiện tại; các kiểu nsừ nghĩa này

bao sòm các kiêu của tên riẻne bao ơỏm: Vị tri Neười Tô chức, và Thừi aian dôi với càu đàu vào Đẻ xác định các kiêu tên riêng này chúrm tôi xàv dựns một mô hình dựa trẻn MEM chi tiết dược trinh bàv trong (Borthiwich 1994)

- Thông tin ve n£ử nghĩa chi ra liệu một từ dâu vào có phai là tư quan trọns trons một đơn vị ngừ pháp (head word)

- Thòna tin ngừ nohĩa xác định mòi quan hệ ơiừa các từ trons càu dê xác định các môi quan hệ này chúna tòi dựa trẻn tư điên COMMLEX

Sử dụns các thònơ tin vê ngữ nghĩa chún2 ta có thè tránh được việc xóa các thành phần quan trọn2 trons càu Ví dụ các độnơ từ chính (main verb), chủ ngừ (subject) và vị n2ừ (object) là càn thièt trong một càu Đôi với các cụm danh tư danh từ chính thườnơ m ans V chính cua danh từ đó Hình 2 mò tả một "câu true" trons dó độnơ từ ”convince"có thẻ dược theo sau bời một cụm danh tử hav một cụm giới từ bất đầu bang giới từ “o f '

H ọc bằng S V M h ai bước sử dụng các cặp đôi

Sử dụng các thuộc tinh kề trèn chúng ta có thẻ thu được dử liệu học cho SVMs 0 dây một mẫu học bao £»ồm một cập các vector tươn" úms với một hanh đôns (action) Thuật toán dẻ trích ra các mẫu học từ dừ liệu có săn dược mỏ ta một

36

Trang 38

cách đầy đủ trong (Minh và cộng sự, 2004) Bởi vì phương pháp SVM cơ bản là

phương pháp phàn lớp nhị phàn (binary classification) ưong khi đó bài toán rúi

gọn câu được xem xét như là bài toán cho nhiều lớp Với lý do đó, chúng tôi sử

dụng phương pháp các cặp đôi để áp dụng cho bài toán rút gọn câu v ắ n đề của bài toàn phản lớp nhiều lớp liẻn quan đến việc xác định mỗi quan sát vào một lớp

ở trong k lớp cho trước

Đối với bài toán rút gọn câu sỏ lượng lớp vào khoảnơ cỡ vài trăm, việc sử dụns

phương pháp cặp đôi có thể làm thời gian rút gọn chậm đi dáng kể Tuv vậy, các lớp trong bài toán này có thề chia thành 5 loại: SHIFT, REDUCE, DROP

A SSIG N TYPE, và RESTORE Chúng ta có thể sử dụng phương pháp cặp đôi đểxác định kiểu của một hành động cho trước sử dụnơ 5 lớp SHIFT, REDUCE RESTORE Sau đó chúng ta sẽ xác định hành động cụ thể của mỗi lớp Như vậy chứng ta đã áp dụng phương pháp cặp đối 2 mức Mức thứ nhất xác định loại hành độne và mức thứ 2 xác định hành động cụ thê Bảng 2 chỉ ra sự phàn bố siừa các mẫu học đối với các kiểu của các hành động

Báng 2 Sự phản bỏ của dữ liệu học đỏi với các kiêu lớp

4.5 Kết quả thực nghiệm

Đề dánh giá độ chính xác của phương pháp trích tập câu quan trọng, chủng tòi dựa trèn tặp dừ liệu chuẩn bao gồm DUC và Comp-lang IT e fe ư l9 7 !I T ro n s đó có 80 bài báo được biêu diễn dưới dạng XML, trung bình mỗi bài báo có độ dài 174 càu

Trang 39

và tập các câu quan trọng của mỗi bài báo lấ'8 câu Chúng tòi lấy n<zầu nhiên 70

vãn bàn đê sinh đừ liệu học máy, số còn lại sử dụng cho việc thực nshiệm so sánh

kết quả của phương pháp MEM đối với phương pháp đơn dàn nhầt là lấy ra tập

các câu đâu tiên trons ván bản (Lead-based) Chúng tôi thực nshiệm với kích thước của các bán tóm tã tv ă n hãn thay đỏi từ 6 cho đẽn 20 càu

Chúng tôi xây dựnơ 2 thí nghiệm như sau: Trong thí nghiệm đầu tiên, chúns tòi dùng Co-M EM với một số lượng nhò các mẫu học có nhãn cùns với một số lượnư lớn các mầu khòna có nhãn đẻ so sánh với phương pháp MEM với một số lượns lớn các mẫu có nhãn Trons thí nehiệm thứ 2, chúnơ tòi đánh 2Ĩá các dừ liệu

kh ò n s có nhãn sẽ anh hườno thẻ nào đỏn các hiệu nãns của trích các càu quan trọns sử dụ ns một sò lượns nhỏ các mầu học có nhãn

Trone thí nghiệm dâu tiên, chúns tôi chọn naẵu nhiên một tập bao 2 0m 6.000 các mẫu có nhàn trong tòng sò 11.077 mẫu như là dừ liệu học Các mẫu còn lại sẽ được \e m như là mầu khòns có nhãn cho phương pháp Co-MEM Với các dữ liệu như vậv chúng tòi ước lượns MEM và CO-MEM cho bài toán trích càu quan trọns dựa trèn thuật toán GIS

Mình vè mỏ la F-measure cua CO-MEM và MEM cho bài toán trích càu quan trọnv! với sự thav đôi cua kích thước tóm tãt Kèt quà thu đươc cho thà\ Co-MEM tõt

hon chut ít so vứi phưưnii phap V1EM sử dụng toan bộ dữ liệu làm dữ liệu học

máy fc)ièu đo 2Íai thích rẳns sử dụng Co-MEM Chuns lỏi cỏ thè xỏa bỏ inột vãi

dữ liệu học nhiễu mà khòns phù hợp dôi với mò hình MEM

Trang 40

Hình 4.3 Mô tà hiệu năng của Co-M EM sử dụng m ột phan của d ữ liệu học và

M E M sử dụng toàn bộ dữ liệu học.

Đối với thí nehiệm thứ 2 chúng tôi thu thập dừ liệu học máy từ Dưc với 6.000 mẫu học chúrm tôi sử dụne 20,000 mẫu không có nhãn với mone muốn nàns: cao hiệu suàt của việc trích các tập càu quan t r ọ n ơ , Hình 4.3 mò tả một cách rõ rànơ ràna Co-M EM tôt hơn MEM với kích thước tòm tất thay dôi Nó cùng chi ra rảne hiệu suất cua M EM tòt hơn so với Leading-based

59

Định dạng
Số trang	101
Dung lượng	41,86 MB