canh lề văn bản song ngữ và ứng dụng giải quyết những trường hợp đặc thù của ngôn ngữ anh - việt

Để khai thác được tính hữudụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề hay đối sánh văn bảnđể tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn n

Trang 1

LÊ NGỌC SƠN

CANH LỀ VĂN BẢN SONG NGỮ

VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP

ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT

Chuyên ngành : Công Nghệ Thông Tin

Mã số ngành : 01.02.10

LUẬN VĂN TỐT NGHIỆP

TP HỒ CHÍ MINH, THÁNG 12 NĂM 2006

Trang 2

Cán bộ hướng dẫn khoa học:

Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI

Cán bộ chấm nhận xét 1:

Cán bộ chấm nhận xét 2:

Luận văn thạc sĩ được bảo vệ tại:

HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Ngày tháng năm 2006

Trang 3

Tp Hồ Chí Minh, ngày … tháng … năm 2006

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179

đặc thù của ngôn ngữ Anh - Việt

 Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ

 Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và LSSA

 Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề vănbản song ngữ Anh - Việt

 Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại theo lĩnh vực

IV NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006

CÁN BỘ HƯỚNG DẪN

PGS., TS Phan Thị TươiNội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

Ngày … tháng … năm 2006

Trang 4

PGS., TS Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu vàthực hiện luận văn này Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong nhữnglúc khó khăn nhất.

Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP

Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi nhữngkiến thức nền tảng và khả năng nghiên cứu

Thầy TS Võ Văn Huy, cô ThS Huỳnh Ngọc Liễu, KS Nguyễn Hoàng ThanhNhàn, KS Nguyễn Ngọc Bình Phương, CN Thái Kim Phụng, các anh chị em trongTrung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tôitrong suốt thời gian thực hiện luận văn

Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi họctập và phấn đấu

Trang 5

và bản dịch (translation) của nó ở một ngôn ngữ khác Để khai thác được tính hữudụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản

để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ

Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều Nhiều phươngpháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đốichính xác Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng Việc áp dụng vàocanh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểmcủa ngôn ngữ tiếng Việt

Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuậtcanh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật LongestSorted Sequence (LSSA) Điểm mới trong luận văn là xử lý một trường hợp đặc biệttrong dịch thuật cũng rất thường xảy ra là dịch chéo Khi đó, chương trình phải xử lýtrường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợpnày

Độ chính xác của giải thuật tương đối cao Nó tạo ra một kho ngữ liệu gồmcác cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản Ngoài ra,chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu Nó sẽ là mộttập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủlớn

Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cáchhiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt

Trang 6

language They are available sources of information for bilingual lexicography,machine translation In order to achieve this, they must be aligned first, i.e thevarious pieces of the text must be put into correspondence.

Recently, text alignment has been taken interest in very much Many methodsand algorithm have been brought out into open and applied The result were relativelyaccurate However, any pair of languages have their characteristics, the application ofVietnamese- English bittext alignment needs to be adjusted in accordance with theVietnamese characteristics

In this study, I am constructing a new alignment procedure which applied thealgorithm of length- based alignment, dictionary- based word alignment and LongestSorted Sequence Algorithm (LSSA) The interesting thing in this composition istaking the notice of a commonly special problem- cross translation Then, thealgorithm must solve the cross translation problem which is often bypassed by manyprevious algorithms

The degree of accuracy is relatively high It creates a corpus inncludingaligned pairs of sentences and devided in the field of text In addition, the algorithmwill mark map points between words in sentences It will be an useful data file formachine translation and automically create a specialist dictionary when the datawarehouse is large enough

In this composition, I present in detail algorithms using and the realization ofapplied algorithms in Vietnamese- English bitext alignment

Trang 7

Giới thiệu 1

1.1 Bối cảnh thực hiện luận văn 1

1.2 Thực trạng – Vấn đề 1

1.3 Hướng giải quyết vấn đề 2

1.4 Mục tiêu của luận văn 2

1.5 Đóng góp của luận văn 2

1.6 Hướng phát triển 5

1.7 Cấu trúc của luận văn 5

Phần 2 7

Các công trình nghiên cứu liên quan 7

2.1 Phương pháp canh lề văn bản dựa vào chiều dài câu 7

2.1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8

2.1.2 Phương pháp của Peter F.Brown [17]: 9

2.2 Phương pháp canh lề dựa vào từ vựng 10

2.2.1 Phương pháp của Michel Simard, George F Foster, P Isabelle [15]:.10 2.2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11

2.2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12

2.2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13

2.2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] 14

2.2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 16

2.3 Kết hợp các phương pháp 16

2.3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16

2.3.2 Phương pháp của Stanley F.Chen:[14] 17

2.3.3 Phương pháp SIMR và GSA, tác giả I Dan Melamed: [10] 18

Trang 8

Phần 3 22

Cơ sở lý thuyết 22

3.1 Các định nghĩa 22

3.1.1 Phép canh lề: 22

3.1.2 Phép canh lề chéo 23

3.2 Đánh giá mức độ chính xác của phép canh lề 24

3.3 Hệ số Dice (D) 24

3.4 Xác suất có điều kiện: 24

3.5 Phân tích hồi qui tuyến tính: 25

Phần 4 28

Phân tích giải thuật 28

4.1 Giải thuật Stemming: 28

4.2 Giải thuật phân đoạn câu: 32

4.3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34

4.3.1 Khung lập trình động (A Dynamic Programming Framework): 34

4.3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37

4.4 Phương pháp canh lề sử CBA [8]: 37

4.5 Phương pháp canh lề sử dụng LSSA [1]: 40

4.6 So sánh phương pháp LSSA với CBA: 41

4.7 Những khó khăn gặp phải khi áp dụng SIRM và GSA [10] 46

4.8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50

Phần 5 52

Hiện thực 52

5.1 Stemming: Dùng giải thuật Porter 54

5.2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55

Trang 9

5.6 Canh lề chéo: 65

5.7 Canh lề từ: 66

5.8 Phân loại văn bản: 68

Phần 6 69

Kết quả thực nghiệm 69

6.1 Giới thiệu chương trình: 69

6.2 Kết quả sau bước canh lề câu (Bước 1): 70

6.3 Kết quả sau bước canh lề chéo (Bước 2): 75

6.4 Kết quả canh lề từ: 76

6.5 Các chức năng khác: 80

6.5.1 Lưu kết quả canh lề: 80

6.5.2 Mở lại một qui trình canh lề: 80

6.5.3 Chạy từng bước giải thuật: 80

Phần 7 81

Kết luận 81

7.1 Tổng kết: 81

7.2 Hướng mở rộng và phát triển đề tài: 83

7.2.1 Hoàn chỉnh luận văn: 83

7.2.2 Phát triển theo hướng nghiên cứu: 83

7.2.3 Phát triển theo hướng ứng dụng: 83

BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85

BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87

TÀI LIỆU THAM KHẢO 89 PHỤ LỤC

Trang 10

Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6] 13

Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6] 13

Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] 14

Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] 15

Hình 2-5 Không gian văn bản song ngữ 19

Hình 3-1 Canh lề chéo trong văn bản song ngữ 23

Hình 4-1 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức 34

Hình 4-2 Đường thẳng hồi qui tuyến tính 38

Hình 4-3 Biểu đồ khoảng cách 39

Hình 4-4 Dãy giới hạn (CB) 39

Hình 4-5 Kết quả thu được khi sử dụng CBA 42

Hình 4-6 Kết quả thu được khi sử dụng LSSA 42

Hình 4-7 Tính khoảng cách trong CBA 43

Hình 4-8 Kết quả canh lề sử dụng CBA 43

Hình 4-9 Kết quả canh lề sử dụng CBA 44

Hình 4-10 Kết quả canh lề dùng CBA 44

Hình 4-11 Kết quả canh lề dùng LSSA 45

Hình 4-12 Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm 47

Hình 4-13 Phát hiện những đoạn canh lề sót trong giải thuật SIRM 48

Hình 4-14 Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM 49

Hình 5-1 Sơ đồ khối cho quá trình canh lề 53

Hình 5-2 Cấu trúc CSDL từ điển song ngữ Anh-Việt 54

Hình 5-3 Từ điển từ ghép tiếng Việt 55

Hình 5-4 Từ điển cụm từ tiếng Anh 56

Hình 5-5 Danh sách từ viết tắt trong tiếng Anh 58

Hình 5-6 Tương quan chiều dài câu Anh-Việt 60

Hình 5-7 Kết quả canh lề câu theo chiều dài câu 62

Hình 6-1 Giao diện chính của chương trình 69

Hình 6-2 Giao diện hiển thị kết quả 79

Trang 12

Bảng 2-1 Kết quả canh lề của giải thuật [14] 11

Bảng 2-2 Kết quả canh lề của phương pháp [6] 14

Bảng 2-3 Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2] 17

Bảng 2-4 Kết quả của phương pháp [2] 17

Bảng 4-1 Giá trị các vector trong LSSA 41

Bảng 5-1 Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn 59

Bảng 5-2 Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh 60

Bảng 5-3 Xác suất của các phép canh lề theo [16] 61

Bảng 5-4 Xác suất của các phép canh lề Anh-Việt 61

Bảng 5-5 Đánh giá trọng số các điểm tương ứng 63

Bảng 5-6 Thống kê  trung bình theo chiều dài block 65

Bảng 6-1 Kết quả canh lề câu trong luận văn 71

Bảng 6-2 Phát hiện các phép canh lề 1-2 71

Bảng 6-3 Phát hiện các phép canh lề 1-2, 2-1 72

Bảng 6-4 Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng 73

Bảng 6-5 Canh lề 1-0 được xác định trong canh lề 2-1 74

Bảng 6-6 Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu 75

Bảng 6-7 Ví dụ minh họa - Kết quả canh lề chéo 76

Bảng 6-8 Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77

Bảng 6-9 Ví dụ kết quả canh lề chéo cụm từ 78

Trang 17

6 Hướng phát triển:

 Hoàn chỉnh ứng dụng: Cải tiến giải thuật phân đoạn câu, chạy thử nghiệm

và cập nhật các thông số hệ thống Thu thập các văn bản song ngữ thuộcnhiều lĩnh vực, canh lề và lưu lại để mở rộng kho ngữ liệu

 Phân loại lĩnh vực của văn bản tự động, cập nhật cụm từ tiếng Việt vàtiếng Anh (collocation) tự động theo mô hình n-grams, xây dựng từ điểnchuyên ngành

 Ứng dụng thực tế vào quản lý kho tri thức tại trung tâm BR&T (trình bày

Phần 2 Các công trình nghiên cứu liên quan

Trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ trên thếgiới và trong nước

Phần 3 Cơ sở lý thuyết

Trình bày một số định nghĩa, các công thức toán học, một số hệ số đánh giáphép canh lề, và các lý thuyết xác suất có liên quan

Phần 4 Phân tích giải thuật

Các giải thuật sẽ sử dụng trong luận văn sẽ được trình bày chi tiết trong phầnnày Bên cạnh đó phần này cũng đưa ra lý do chọn lựa giải thuật áp dụngtrong luận văn thông qua một số phân tích và so sánh

Trang 18

Phần 7 Kết luận

Tổng kết lại toàn bộ quá trình thực hiện luận văn, những cái đã thực hiện,những điểm còn yếu Và phần này cũng trình bày một số hướng phát triển vàứng dụng,

- Bảng thuật ngữ tiếng Anh và tiếng Việt được sử dụng trong quyển luận văn

- Danh mục sách và các báo cáo khoa học đã tham khảo để thực hiện đề tài

- Phụ lục A: Hướng dẫn sử dụng chương trình canh lề văn bản song ngữAnh-Việt

- Phụ lục B: Cài đặt và phục hồi Cơ sở dữ liệu SQL Server

Trang 19

Phần 2

Các công trình nghiên cứu liên quan

Phần này trình bày một số công trình nghiên cứu về canh lề văn bản song ngữtrên thế giới và trong nước Các phương pháp được áp dụng chủ yếu phân vào cácloại sau:

Phương pháp canh lề văn bản dựa vào chiều dài câu là một trong nhữngphương pháp xuất hiện tương đối sớm Phương pháp này không quan tâm đến yếu tố

từ vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu trong văn bản Ý tưởngchính của phương pháp này là: các câu ngắn thường được dịch thành những câu ngắn,các câu dài thường được dịch thành những câu dài Chiều dài của câu có thể đượctính bằng số lượng từ hoặc số lượng kí tự trong câu

Trong phương pháp này, để canh lề chính xác, văn bản cần được canh lề theođoạn trước Có thể thực hiện công đoạn này theo phương pháp thủ công bằng tay.Nếu văn bản không được phân đoạn trước, giải thuật cũng có thể canh lề nhưng độchính xác thấp hơn, và thời gian thực thi lâu hơn Phương pháp này tỏ ra hữu hiệu đốivới cặp ngôn ngữ cùng họ, ví dụ như Anh-Pháp Nhưng lại kém chính xác đối vớinhững cặp ngôn ngữ khác họ, ví dụ như Anh-Nhật, Anh-Hoa, Anh-Việt

Lợi điểm của phương pháp này là đơn giản Phương pháp này có thể áp dụngcho văn bản ngắn với độ chính xác khá cao, trong khi phương pháp dựa vào từ vựngkhông thể canh lề cho những văn bản ngắn, vì số lần xuất hiện của các từ trong vănbản không đủ lớn để xác định các cặp từ tương ứng về nghĩa

Trong phương pháp canh lề dựa vào chiều dài câu, có hai cách xác định chiềudài câu: tính chiều dài câu dựa trên số lượng ký tự, và tính chiều dài câu dựa trên sốlượng từ Ở phương pháp này, các tác giả: William A.Gale và Kenneth W.Church

Trang 20

(1991) là các tác giả được nhiều người biết đến Hầu như tất cả các nghiên cứu sau đóđều có sự tham khảo công trình nghiên cứu của họ.

1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]:

Theo phương pháp của tác giả Gale và Church thì chiều dài câu được tínhbằng số lượng ký tự có trong câu Tác giả cho rằng một ký tự có trong ngôn ngữ S sẽtương ứng với một số ngẫu nhiên ký tự có trong ngôn ngữ T Biến ngẫu nhiên nàyđộc lập và có phân bố chuẩn với kỳ vọng là  và phương sai 2

Mục đích của giải thuật là đi tìm một tổ hợp các phép canh lề khả dĩ sao chotổng khoảng cách của chúng là nhỏ nhất Các phép canh lề khả dĩ bao gồm:

 câu thứ i+1 của S và  (1-0), hoặc

 câu thứ i+1 của S và câu thứ j+1 của T (1-1), hoặc

 câu thứ i+1 của S và câu thứ j+1 và j+2 của T (1-2), hoặc

 câu thứ i+1 và i+2 của S và câu thứ j+1 của T (2-1), hoặc

 câu thứ i+1 và i+2 của S và câu thứ j+1 và j+2 của T (2-2)

Tác giả sử dụng lập trình động để tạo ra một tổ hợp các phép canh lề sao cho tổngkhoảng cách của chúng là nhỏ nhất

Kết quả: Canh lề các báo cáo kinh tế của Union Bank of Switzerland, gồm 3

thứ tiếng: Anh, Pháp, Đức Với mỗi phép canh lề khả dĩ, giá trị khoảng cách được

tính toán và lưu lại Tỷ lệ canh lề sai: 4%

Nếu chọn 80% phép canh lề tốt nhất (là phép canh lề có khoảng cách nhỏ nhất

trong các phép canh lề kết quả)  Tỷ lệ canh lề sai: 0.7%.

Trang 21

Ưu điểm:

 Đơn giản, tốc độ thực thi nhanh,

 Độ chính xác khá cao,

 Không yêu cầu từ điển dữ liệu,

 Có thể áp dụng cho cặp ngôn ngữ mới

Nhược điểm:

 Canh lề sai khi chiều dài câu trong hai ngôn ngữ quá khác biệt so vớithống kê ban đầu,

 Cần canh lề đoạn trước

1.2 Phương pháp của Peter F.Brown [17]:

Theo phương pháp của tác giả này thì chiều dài câu được tính bằng số lượng

từ có trong câu Ngoài ra tác giả còn phân chia văn bản thành các phân đoạn (bead).Bead là một phân đoạn gồm 0, 1 hoặc 2 câu Cũng giống như phương pháp của tácgiả Gale, Brown tiến hành canh lề các đoạn giữa hai văn bản song ngữ trước khi tiếnhành canh lề các bead Để canh lề đoạn, tác giả dùng các ghi chú và kí hiệu đặc biệt

có sẵn trong văn bản

Kết quả: Canh lề một phần của Canadian Hansard (Canadian Hansard là văn

bản chính thức của các cuộc họp nghị viện quốc hội Canada

Độ chính xác: 96%, cho các đoạn đã được canh lề trước.

Ưu điểm:

 Đơn giản, tốc độ thực thi nhanh,

 Không cần từ điển song ngữ,

 Dễn dàng áp dụng được cho các cặp ngôn ngữ khác

 Phải canh lề đoạn trước,

 Độ chính xác có thể thấp hơn nhiều nếu cho canh lề toàn bộ văn bản màkhông được canh lề đoạn trước

Trang 22

2 Phương pháp canh lề dựa vào từ vựng:

Với phương pháp canh lề theo chiều dài câu thì cần thiết phải canh lề đoạntrước thì giải thuật mới cho ra kết quả tốt Trong khi đó, phương pháp canh lề theo từvựng thì không cần phải canh lề theo đoạn trước Ngoài ra, phương pháp canh lề theochiều dài câu thì có thể gây nhập nhằng Ví dụ, thay vì canh lề 1-1 là chính xác thìphép canh lề 1-2 lại cho khoảng cách nhỏ hơn Hay ngược lại thay vì canh lề 1-2 làđúng thì giải thuật lại quyết định 1-1 Đây là những quyết định khó khăn của giảithuật Khi đó, phương pháp canh lề theo từ vựng lại tỏ ra hữu hiệu

2.1 Phương pháp của Michel Simard, George F Foster, Pierre Isabelle [15]:

Cải tiến giả thuật canh lề dựa vào chiều dài câu của Gale và Church, tác giả sửdụng yếu tố từ vựng là cognates Cognates là những từ cùng nguồn gốc Ví dụ trongtiếng Anh và tiếng Pháp: generation/génération và error/erreur, hay mở rộng hơn cóthể là danh từ riêng (Paris, London/Londres), biểu thức toán học, hoặc ngay cả những

ký hiệu đặc biệt (dấu chấm hỏi, dấu ngoặc,…)

Cho hai đoạn văn bản thuộc 2 ngôn ngữ khác nhau, chúng ta tính được độtương tự giữa chúng là:  = 2c/(n+m), với m,n: số từ trong mỗi đoạn, c: số lượngcognates trong đoạn

Tuy nhiên sử dụng cognate không thể tạo nên kết quả canh lề tốt hơn canh lềtheo chiều dài câu Tác giả kết hợp canh lề theo chiều dài câu và canh lề sử dụngcognates Phương pháp canh lề này được tiến hành qua 2 bước Đầu tiên canh lề theochiều dài câu Thay vì cho ra được phép canh lề tốt nhất, phương pháp này cho ra mộttập các phép canh lề tốt Nếu kết quả này có niều hơn một phép canh lề tốt, chươngtrình tiếp tục bước canh lề thứ 2, sử dụng cognates để chọn ra phép canh lề tốt nhất

Kết quả so sánh khi áp dụng canh lề theo chiều dài câu, canh lề theo chiều dàicâu, canh lề kết hợp 2 bước như sau:

Trang 23

Canh lề theo chiềudài câu Canh lề dùngCognates Canh lề kết hợp 2phương pháp

Số cặp câu

Bảng 2-1 Kết quả canh lề của giải thuật [14]

2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]:

Tác giả nhận xét thấy rằng: câu đầu tiên trong văn bản nguồn S sẽ có nhiềukhả năng được canh lề với câu đầu tiên trong văn bản đích T Câu cuối cùng trongvăn bản S sẽ có nhiều khả năng được canh lề với câu cuối cùng trong văn bản T (Giảthiết không có canh lề chéo) Giải thuật canh lề như sau:

 Giả sử câu đầu tiên (câu cuối cùng) của văn bản S được canh lề với câuđầu tiên (câu cuối cùng) của văn bản T Khi đó ta được Anchor đầu tiên

 Trong khi các câu trong văn bản chưa được canh lề toàn bộ:

a) Tạo ra các cặp câu có nhiều khả năng được canh lề với nhau AST (Alignable Sentence Table) Khi tạo ra AST, ta loại đi các cặp câu có phép canh lề vượt qua các điểm neo (Anchor), hoặc khoảng cách so với các neo tương ứng trong văn bản nguồn S và văn bản đích T quá chênh lệch.

b) Dựa vào AST, tính mức độ giống nhau giữa các cặp từ trong hai ngôn ngữ Danh sách các cặp từ này gọi là WAT ( Word Alignment Table) Với mỗi cặp từ, ta tính mức độ giống nhau dựa vào phân bố của chúng trong các cặp câu thuộc AST Sau đó, trong WAT, ta chọn ra các cặp từ có nhiều khả năng là tương ứng nhất dựa vào mức độ giống nhau và tần suất xuất hiện của chúng Cặp từ nào có độ giống nhau lớn và tần suất xuất hiện cao thì độ tin cậy càng cao.

c) Tìm cặp câu trong AST có chứa nhiều cặp từ tương ứng nhất Đây có thể là cặp câu tương ứng trong kết quả cuối cùng Một khi hai câu đã được canh lề, chúng đuợc xem như là những Anchor mới, ta thêm các Anchor này vào danh sách các Anchor và lặp lại bước a) ở trên.

 Sau mỗi vòng lặp, ta được nhiều Anchor hơn, số lượng các cặp câu trongAST giảm đi, các cặp từ trong WAT có độ tin cậy cao hơn

Trang 24

Kết quả: Tác giả không đưa ra độ chính xác và độ hoàn toàn Chỉ đưa ra một

ví dụ với độ chính xác đến 99.7%

Ưu điểm:

 Giải quyết nhập nhằng trong canh lề theo chiều dài câu

 Không yêu cầu từ điển song ngữ

 Tốc độ chậm hơn so với canh lề theo chiều dài câu

 Không canh lề được cho các văn bản có kích thước ngắn

2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]:

Dùng giải thuật canh lề dựa vào từ vựng để canh lề cho văn bản song ngữAnh-Hindi Tác giả nhận thấy sự khác biệt giữa tiếng Anh và tiếng Hindi là: tiếngAnh là ngôn ngữ có thứ tự cố định (fixed-word order), trong khi tiếng Hindi thì cóthứ tự tự do (free-word order), nghĩa là nếu thay đổi trật tự các từ thì không làm thayđổi nghĩa Ngoài ra, chiều dài câu trong hai ngôn ngữ không cân xứng nên phươngpháp canh lề theo chiều dài câu gặp nhiều khó khăn

Quá trình xử lý gồm 3 giai đoạn: Chunking, Scoring, Alignment

 Chunking: phân những câu trong hai ngôn ngữ thành các cụm từ Có hailoại: cụm danh từ và cụm động từ Đồng thời cũng xác định được từ mangnghĩa chính trong cụm từ

 Scoring: tính điểm cho các cụm từ, để biết được mức độ giống nhau củachúng

 Alignment : canh lề dựa vào điểm số và những tiêu chí khác

Kết quả: Dữ liệu dùng để kiểm tra giải thuật là tạp chí song ngữ

“India-Today” gồm 140 văn bản của nhiều kỳ xuất bản, canh lề được 3021 câu, trong đóchính xác là 2849 câu, đạt tỉ lệ 94.3% Nếu sử dụng giải thuật canh lề của Gale vàChurch thì đạt độ chính xác là 62%

Trang 25

2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]:

Nhóm tác giả này sử dụng phương pháp canh lề theo từ và cụm từ, trên cơ sởkết hợp thông tin từ vựng và cú pháp để canh lề cho văn bản Anh-Hàn Tác giả đưa ra

3 mô hình: (1) Canh lề từ, (2) Canh lề theo cụm từ, và (3) Canh lề kết hợp haiphương pháp kia

Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6]

Khó khăn của mô hình 1 (Canh lề từ) là đôi khi không thể ánh xạ từ sang từ(word-to-word) Ví dụ một cụm danh từ (NP) tiếng Hàn có thể tương ứng với cụmgiới từ (PP) trong tiếng Anh Nhưng một giới từ trong cụm giới từ tiếng Anh không

có một từ tương ứng trong tiếng Hàn Hoặc một cụm từ trong tiếng Anh, chỉ dịchthành một từ trong tiếng Hàn Do đó, mô hình canh lề cụm từ là cần thiết

Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6]

Trong mô hình 2 (canh lề theo cụm từ), để canh lề theo cụm từ, vấn đề xácđịnh và phân loại cụm từ là hết sức quan trọng và khó khăn Một giới từ trước mộtcụm danh từ phát triển thành cụm giới từ Ngoài ra cần tách những cụm từ lồng nhau

Trang 26

Ví dụ: “by the first word in the string” được tách thành “by the first word” và “in thestring”.

Kết quả: Tiến hành canh lề cho văn bản Anh-Hàn, được lấy từ trang Web

“Korea Times” Kho DL gồm có 13958 cặp câu, trong đó có 200 cặp câu dùng đểkiểm tra Tỉ lệ sai được ghi lại trong bảng dưới đây khi áp dụng mô hình 1, mô hình 2hoặc kết hợp cả ba mô hình:

Mô hình Tỉ lệ sai (AER)

Bảng 2-2 Kết quả canh lề của phương pháp [6]

2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8]

Tác giả giới thiệu một phương pháp canh lề song ngữ độc lập với ngôn ngữ là

sử dụng lại tri thức học được sử dụng thuật toán dãy giới hạn (Confidence BandsAlgorithm – CBA) Hệ thống trích ra những cặp từ tương đồng và sử dụng nó để tạo

ra những điểm mốc mới Những điểm gây nhiễu (noisy points) có thể được lọc radùng biểu đồ khoảng cách:

Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8]

Những điểm mà có thể dẫn đến canh lề sai cũng sẽ được lọc đi dùng dãy giớihạn (Confidence Bands - CB) với phân tích hồi qui tuyến tính, thay vì dùng các quyếtđịnh cảm tính (heuristics) mà heuristics này không dựa trên một cơ sở lý thuyết nào

Trang 27

Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8]

Ví dụ: điểm A nằm ngoài CB, nên nó được lọc ra khỏi những điểm có thểcanh lề

Giải thuật được mô tả như sau:

1) Nhận vào văn bản song ngữ A và B.

2) Định nghĩa điểm đầu point(0,0), và điểm cuối point(length(A),length(B)).

Nó xác định nên đoạn văn bản canh lề đầu tiên (initial segment).

3) Phát hiện ra những điểm tương ứng nhau là những từ viết giống nhau (homoggraph), và những từ có nghĩa giống nhau (equivalent word) có trong từ điển mà có tần suất xuất hiện giống nhau trong đoạn văn bản 4) Lọc ra những điểm ở xa dùng kỹ thuật biểu đồ.

5) Lọc ra những điểm nằm ngoài Confidence Band.

6) Với mỗi một đoạn nhỏ xác định bởi 2 điểm mốc liên tiếp nhau, lặp lại thao tác từ bước 3 đến bước 6.

7) Trích ra những điểm dịch giống nhau cho vào kho ngữ liệu.

8) Lặp lại từ bước 2.

Như vậy tại mỗi bước lặp thì kho ngữ liệu mở rộng, để bước lặp tới tốt hơn

2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]:

Trên cơ sở nghiên cứu phương pháp canh lề dùng Confidence Bands của cáctác giả Antonio Ribeiro, Gabriel Lopes và Joao Mexia, nhóm của Tiago Ildefono andGabtiel Pereira Lopes nhận thấy nhiều vấn đề chưa giải quyết được của phương phápdùng Confidence Bands Do đó, sự thay thế phương pháp Confidence Bands bằng

Trang 28

giải thuật Longest Sorted Sequence (LSSA) là cải tiến của tác giả Giải thuật dựa trên

ý tưởng chọn phép canh lề có số lượng những từ được canh lề là lớn nhất trong cácphép canh lề

Với sự thay thế này, ứng dụng vào canh lề văn bản song ngữ Bồ Đào

Nha-Pháp, giải thuật đã giảm được 35% thời gian xử lý, và tăng 18% số lượng câu

được canh lề Giải thuật cho kết quả tương tự khi canh lề văn bản song ngữ Bồ Đào

Nha-Anh

Phương pháp canh lề văn bản dựa vào chiều dài câu có ưu điểm là đơn giản,tốc độ thực thi nhanh, không cần kho ngữ liệu ban đầu Tuy nhiên, đôi khi nó khôngchính xác, và nhập nhằng trong việc quyết định Phương pháp canh lề dựa vào từvựng có thể giải quyết một số khuyết điểm của phương pháp canh lề theo chiều dàicâu, nhưng nó yêu cầu phải có kho ngữ liệu đủ lớn và chính xác cho từng cặp ngônngữ canh lề Ngoài ra, tốc độ thực thi chậm, xử lý phức tap Để có thể tận dụng đượcnhững ưu điểm của cả hai phương pháp, nhiều tác giả đã phối hợp sử dụng cả haiphương pháp trong từng giai đoạn xử lý của giải thuật

3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2]

Là sự kết hợp phương pháp canh lề dựa vào chiều dài câu, thống kê dấu chấmcâu, và từ vựng Họ sử dụng để canh lề cho văn bản song ngữ Trung Quốc-Anh, sửdụng Chinese-English LEGCO corpus

Đây là bảng liệt kê sự tương ứng trong việc sử dụng ký hiệu kết thúc ở tiếngTrung Quốc, và tiếng Anh:

, ’ 1-1 541 0.8098  1-1 336 0.6575

”  1-1 131 0.3420 ’ 1-1 113 0.2211

”  1-1 112 0.2924

”  1-1 65 0.1697

”  1-1 59 0.1540 , ` 1-1 56 0.0838

Trang 29

Bảng 2-3 Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2]

Kết quả đạt khi áp dụng kết hợp một, hai hoặc ba yếu tố như sau:

matches Precision

Average length

Punctuation only 100 529 332 63% 90.73 Length only 100 389 284 73% 123.74 Punctuation+Lexicon 100 508 425 84% 94.52 Lengh+Lexicon 100 334 246 74% 144.28 Punctuation+Length 100 476 435 91% 100.94 Punctuation+Length+Lexicon 100 454 437 96% 105.88

Bảng 2-4 Kết quả của phương pháp [2]

3.2 Phương pháp của Stanley F.Chen:[14]

Tác giả kết hợp giữa phương pháp dựa vào chiều dài câu và phương pháp dựavào từ vựng Về cơ bản, giải thuật vẫn dùng lập trình động để tính khoảng cách củacác phép canh lề giống như phương pháp của tác giả Gale[16] Tuy nhiên, thay vì tínhxác suất của một phép canh lề dựa vào chiều dài câu, tác giả tính xác suất dựa vào môhình dịch từ sang từ (word to word translation model) Mô hình dịch từ sang từ đượctính toán và cập nhật liên tục trong quá trình canh lề Do đó, tại thời điểm canh lề cáccâu đầu tiên của văn bản, khi chưa có mô hình dịch, giải thuật phải dựa vào mộtcorpus nhỏ các cặp câu đã được canh lề trước

Trang 30

 Yêu cầu có một corpus nhỏ các cặp câu song ngữ.

3.3 Phương pháp canh lề theo giải thuật SIMR và GSA Nghiên cứu của tác giả I Dan Melamed [10] :

SIMR (Smooth Injective Map Recognizer): Thuật toán SIMR dùng để ánh xạcác thành phần tương ứng của văn bản song ngữ Các thành phần tương ứng này cóthể là các từ có cùng nguồn gốc (cognates), các dấu phân cách đoạn và câu, các từ làphiên dịch của nhau

GSA (Geometric Segment Alignment): Thuật toán GSA dùng để canh lề đoạn

và câu, với đầu vào chính là kết quả cảu SIMR

SIMR là một giải thuật tham lam, phụ thuộc vào sự tương quan chiều dài củacác văn bản thành phần trong văn bản song ngữ Nó tìm ra một bản đồ ánh xạ dựatrên những điểm giống nhau trên mặt phẳng xác suất của văn bản song ngữ Dùnggiải thuật SIMR và GSA ta có thể tận dụng những ưu thế của hai xu hướng dựa vàochiều dài câu và dựa vào từ vựng

Vì ưu điểm của SIMR và GSA trong việc áp dụng vào canh lề khối văn bản,

có rất nhiều tác giả trên thế giới tìm hiểu và áp dụng Có thể kể đến:

Văn bản song ngữ với nội dung văn bản gồm hai ngôn ngữ khác nhau, đượcbiểu diễn bằng một hình chữ nhật thể hiện không gian của văn bản song ngữ

Hình 2-5 Không gian văn bản song ngữ

Trang 31

Chiều cao và chiều rộng của hình chữ này chính là chiều dài của hai văn bảnthành phần được tính bằng số lượng các ký tự Gốc thấp bên trái gọi là điểm gốc(origin), nó biểu thị điểm bắt đầu của hai văn bản Góc cao bên phải gọi là điểm kếtthúc (terminus), nó biểu thị điểm cuối của hai văn bản.

Trong không gian của văn bản song ngữ ngoài điểm gốc và điểm kết thúc cònchứa những điểm tương ứng thực sự (TCPs – true oints of correspondence) Ví dụ,một từ ở vị trí p trên trục x và một từ ở vị trí trí q trên trục y là 2 từ dịch của nhau thìtoạ độ (p,q) là một TCP Ngoài những từ dịch của nhau thì TCP cũng có thể là sựtương ứng giữa các điểm kết thúc của câu, đoạn trong hai văn bản thành phần Nhómcủa một số điểm TCP nằm trên một đường thẳng hoặc gần thẳng được gọi là mộtchuỗi (chain) Tâp hợp đầy đủ các điểm TCP tạo nên bản đồ ánh xạ thực sự (TBM –true bitext map) của văn bản song ngữ Nhiệm vụ của SIMR là tạo ra một bản đồ ánh

xạ (bitext map) gần đúng nhất với TBM

Giải thuật SIMR gồm các giai đoạn:

 Tạo điểm

 Nhận dạng chuỗi

 Lọc nhiễu

 Chọn điểm

 Thu giảm không gian tìm kiếm

SIMR không có ý tưởng đối sánh những câu trong văn bản song ngữ, nó chỉxuất ra một tập hợp các điểm mà ở đó có sự tương ứng về nghĩa trong văn bản songngữ Để tạo ra sự tương ứng lớn hơn như sự tương ứng về câu, về đoạn thì cần sự hỗtrợ của các thuật toán khác Ở đây, tác giả sử dụng thuật toán GSA GSA có thể sửdụng để canh lề câu đoạn, chương…Tác giả không xét phép canh lề chéo Tác giả đã

sử dụng để canh lề cho văn bản Anh-Pháp, dung lượng văn bản lên đến 200 MB

Trang 32

 Hỗ trợ phương pháp canh lề theo chiều dài câu trong việc canh lề đoạntrước.

 Phức tạp

 Cần từ điển song ngữ

4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004):

Tác giả này đã sử dụng hai phương pháp khác nhau: phương pháp canh lề dựavào chiều dài câu, và phương pháp canh lề dựa vào từ vựng Để sử dụng phương phápcanh lề dựa vào chiều dài câu, tác giả tính chiều dài câu dựa vào số lượng từ Ngoài

ra, còn thực hiện một số giải thuật phụ trợ: phân đoạn câu, phát hiện hình vị và chuẩnhóa văn bản

Kết quả: Tiến hành thử nghiệm trên 8 văn bản song ngữ Anh-Việt (số lượng

khá ít) Kho ngữ liệu chỉ khoảng 3000 cặp câu song ngữ Anh-Việt Do kho ngữ liệucòn nhỏ nên kết quả canh lề còn nhiều hạn chế

 Độ chính xác cho canh lề dựa trên chiều dài câu: 98%

 Độ chính xác cho canh lề dựa trên từ vựng: 96%

4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh-Việt dựa trên giải thuật SIMR và GSA.

Tác giả đã kế thừa những kết quả nghiên cứu trước đó trên thế giới có sửa đổicho phù hợp với tính chất của tiếng Việt Ngoài ra còn phải dùng thêm một số giảithuật phụ trợ: giải thuật phân đoạn câu để phân đoạn văn bản thành câu; dựa thêm vàocanh lề văn bản theo chiều dài câu để tạo ra phép canh lề mịn cho các câu trong mộtkhối văn bản canh lề

Trang 33

 Canh lề từ, tạo ra từ điển song ngữ Anh-Việt.

Trang 34

Phần 3

Cơ sở lý thuyết

Phần này trình bày một số định nghĩa, các công thức toán học, một số hệ sốđánh giá phép canh lề Ngoài ra, phần này cũng cung cấp một số lý thuyết cơ bản vềxác suất thống kê, là cơ sở để phân tích giải thuật ở những phần sau

1.1 Phép canh lề:

Phép canh lề là quan hệ hai ngôi giữa các thực thể ngôn ngữ (linguisticentities) Cho một văn bản song ngữ thì văn bản thành phần A, B của văn bản songngữ được coi như chuỗi các thực thể A={a1, a2, …, an}, B={b1, b2, …, bm} Chúng

ta có thể định nghĩa phép canh lề XAB như là một quan hệ hai ngôi trên tập AB:

Mục đích của việc canh lề câu là tìm ra nhóm câu của ngôn ngữ này (thôngthường mỗi nhóm sẽ có một câu) tương ứng với nhóm câu nào đó trong ngôn ngữ kia.Những nhóm câu này được gọi là một bead hay block

Một câu tiếng Anh thường được dịch ra một câu tương ứng trong tiếng Việt,

ta gọi phép canh lề này là phép canh lề một-một (1-1) Phép canh lề này có xác suấtlớn nhất trong các phép canh lề

Trang 35

Nếu một câu tiếng Anh được dịch ra hai câu tiếng Việt thì ta gọi phép canh lềnày là phép canh lề một-hai (1-2) Trường hợp ngược lại gọi là phép canh lề hai-một(2-1).

Cũng có khi một câu tiếng Anh vì lý do gì đó không được dịch hoặc bị xoá, do

đó không có câu nào trong văn bản tiếng Việt Ta gọi phép canh lề này là phép canh

lề một-không (1-0), ngược lại là phép canh lề không một (0-1)

Về mặt lý thuyết còn có phép canh lề ba-một (3-1) hoặc phép canh lề một-ba(1-3), nhưng với xác suất vô cùng thấp

1.2 Phép canh lề chéo.

Một văn bản thường được dịch từ trên xuống Nếu một câu thứ i trong văn bànnguồn được dịch thành câu thứ j trong văn bản đích thì câu thứ i+1 trong văn bảnnguồn được dịch thành câu thứ j+1, hoặc có thể được dịch thành câu thứ j+1 và câuthứ j+2 (trường hợp một câu trong văn bản nguồn được dịch thành 2 câu trong vănbản đích) Nếu vi phạm điều đó là canh lề chéo

Hình 3-6 Canh lề chéo trong văn bản song ngữ

Điều này hoàn toàn có thể xảy ra trong dịch thuật Nhưng khi quan sát các vănbản song ngữ, sự xuất hiện canh lề chéo là rất ít, gần như không có các câu dịch theothứ tự chéo Do đó trong các thuật toán người ta ít khảo sát canh lề chéo

Giả sử chúng ta có phép canh lề văn bản song ngữ (S,T,Ar)

Trong đó: S: là văn bản nguồn

T: là văn bản đích

Trang 36

Ar: là một sự canh lề văn bản.

Gọi A: là phép canh lề lý tưởng (tất cả các câu đều được canh lề chính xác)

Mức độ hoàn toàn (recall):

recall = AA r /A

Độ chính xác (precision):

precision = AA r / A r

Giá trị recall và precision từ 0 đến 1

Phép canh lề hoàn hảo khi: recall=1.0 và precision=1.0 Khi đó: A=Ar

Ví dụ: trong văn bản song ngữ có 100 cặp nhóm câu Nếu giải thuật chỉ canh

lề được 98 cặp, thì mức độ hoàn toàn (recall) =98% Trong 100 cặp được canh lề, chỉ

có 95 cặp được canh lề chính xác thì độ chính xác (precision) =95% Nếu tỉ lệ chínhxác là 95% thì tỉ lệ sai là: 100% - 95% =5%

Số câu được canh lề chính xác được tính như sau:

Số câu được canh lề đúng = recall*precision

B A D





 2

(0 D 1)

Xác suất để biến cố A xảy ra khi biến cố B đã xảy ra với xác suất P(B) (và

P(B)>0) được tính theo công thức:

) (

B P

B A P B

A

Xác suất để biến cố A và biến cố B cùng xảy ra:

) ( ).

( ) ( ).

( ) (A B P B P A B P A P B A

P   

Trang 37

Nếu biến cố A và biến cố B độc lập với nhau:

) ( ).

( ) (A B P A P B

Độc lập có điều kiện: nếu biến cố A và B độc lập với nhau với điều kiện biến

cố C đã xảy ra, ta có:

) ( ).

( ) (A B C P A C P B C

P  

Công thức xác suất Bayes:

) (

) ( ) ( )

(

) (

A P

B P B A P A

P

A B P A

B

Trung bình và độ lệch chuẩn:

Gọi X: là biến nhận giá trị ngẫu nhiên thuộc R

P(x)=P(X=x) là xác suất để biến X nhận giá trị x Khi dó ta có:

Độ lệch (variance):

) ( ) ( ) )) ( ((

)

X E X E X

E X E X

Phân tích hồi qui sẽ giúp chúng ta thiết lập cấu trúc của mối liên hệ phụ thuộccủa một biến (gọi là biến phụ thuộc) với một hay nhiều biến khác (gọi là biến độclập); chúng ta muốn thể hiện mối liên hệ phụ thuộc giữa các biến dưới dạng toán họcbằng một phương trình nối các biến đó Phương trình đó cho phép chúng ta dự đoán

về một biến phụ thuộc trên cơ sở đã biết về các biến độc lập

Giả sử X là biến ngẫu nhiên độc lập và Y là biến ngẫu nhiên phụ thuộc vào X.Nếu chúng ta muốn ước lượng giá trị của Y bằng giá trị của biến ngẫu nhiên oX, với

 là một hàm thực nào đó, thì chúng ta mắc một sai số

Trang 38

S() = E[(Y - oX)2], gọi là Độ sai dự báo Vấn đề đặt ra là chọn  như thếnào để cho sự ước lượng là tốt nhất, theo nghĩa S() đạt giá trị nhỏ nhất.

Định nghĩa: Nếu S() đạt giá trị nhỏ nhất khi =, nghĩa là: S()=minS(),

thì  được gọi là Hàm hồi qui của Y trên X, đồ thị của  được gọi là Đường hồi quicủa Y trên X

Hàm hồi qui  có thể là hàm đa thức hoặc hàm hữu tỉ, hàm mũ, v.v Khi  làhàm bậc nhất thì (x)=ax+b,  được gọi là Hàm hồi qui tuyến tính của Y theo X, a và

b được gọi là các hệ số hồi qui tuyến tính y = ax + b còn được gọi là Phương trìnhđường thẳng hồi qui của Y theo X Khi đó, người ta nói rằng Y có hồi qui tuyến tínhtheo X

Định nghĩa: Giả sử X và Y là hai biến ngẫu nhiên trên cùng không gian mẫu

 có hàm mật độ đồng thời f Với mọi xX() sao cho fX(x) > 0, đặt:

Y

E( / ) Y/x( ) Nếu X và Y liên tục,

với điều kiện chuỗi hay tích phân ở vế phải hội tụ tuyệt đối

E(Y/x) được gọi là Kỳ vọng có điều kiện của Y khi X lấy giá trị x

Biến ngẫu nhiên E(Y/X), có giá trị E(Y/x) khi X lấy giá trị x, được gọi là Kỳvọng có điều kiện của Y dối với X

Định lý: Nếu các biến ngẫu nhiên E(Y/X),Y,X,E(Y/X) và X,Y có kỳ vọng thì:

i) E[E(Y/X)] = E(Y)

ii) E[X E(Y/X)] = E(X.Y)

iii) E[Y E(Y/X)] = E([E(Y/X)] 2)

iv) Hàm : x E(Y/x) là hàm hồi qui của Y trên X

Định lý: Giả sử X và Y là hai biến ngẫu nhiên có hệ số tương quan  Nếu Y

có hồi qui tuyến tính theo X thì hàm hồi qui của Y theo X là

y = (x) = E(Y/x) = ax + b,

Trang 39

với:

X

Y a

Trang 40

Phần 4

Phân tích giải thuật

Phần này giới thiệu những phương pháp sẽ sử dụng trong luận văn, và nhữnggiải thuật có liên quan như: cắt lấy gốc từ tiếng Anh (stemming), phân đoạn câu, canh

lề văn bản dựa vào chiều dài câu, phân đoạn từ, giải thuật Longest Sorted Sequence(LSSA), phương pháp canh lề chéo Bên cạnh đó, phần này còn giới thiệu những giảithuật khác (giải thuật canh lề dùng Confidence Band - CBA, các quyết định cảm tính(heuristics) trong giải thuật SIRM và GSA) để so sánh làm rõ tại sao lại quyết định chọnphương pháp mới Chi tiết triển khai giải thuật sẽ trình bày trong phần sau

Trong văn bản đôi khi tồn tại những từ về mặt hình thức thì chúng khác nhauchút ít (ví dụ như keyword và keywords) nhưng về ý nghĩa sử dụng trong việc đánhgiá nội dung của document thì chúng được sử dụng như nhau Những từ này thường ởdạng số nhiều (plural), danh động từ (gerund form), hay dạng hậu tố của thì quá khứ(past tense suffixes) Vấn đề đặt ra là chuyển những từ này về dạng gốc (stem) củanó

Một từ gốc (stem) là một phần của một từ (word) mà sau khi được loại bỏ cácphụ tố (affixes) (ví dụ như tiền tố-prefixes hay hậu tố-suffixes) của nó Ví dụ như mộtgốc từ “connect” có thể tồn tại ở các dạng sau: connected, connecting, connection, vàconnections

Có 4 phương cách để thực hiện stemming gồm: affix removal, table lookup,successor variety, và n-grams Table lookup là một cách đơn giả để stemming bằngcách tra một từ (word) trong bảng (table) để tìm ra từ gốc (stem) Phương pháp nàyrất đơn giản, tuy nhiên nó phụ thuộc vào dữ liệu (data) của các từ gốc (stem).Successor variety dựa vào kiến thức về ngôn ngữ học và phức tạp hơn nhiều so vớicác phương pháp khác N-grams thì dựa vào những định nghĩa về digrams và trigrams

Tiêu đề	Canh Lề Văn Bản Song Ngữ Và Ứng Dụng Giải Quyết Những Trường Hợp Đặc Thù Của Ngôn Ngữ Anh - Việt
Tác giả	Lê Ngọc Sơn
Người hướng dẫn	PGS., TS. Phan Thị Tươi
Trường học	Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2006
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	101
Dung lượng	1,73 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Tiago Ildefonso and Gabriel Pereira Lopes, Longest Sorted Sequence Algorithm for Parallel Text Alignment, CITI, 2005	Khác
[2] Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang, Bilingual Sentence Alignment Based on Punctual Statistical and Lexicon, 224-232, 2005	Khác
[3] Ismael Garcia Varea, Daniel Ortiz, Francisco Nevado, Pedro A.Gomez, and Francisco Casacuberta, Automatic Segmentation of Bilingual Corpora: A Comparison of Different Techniques, pp. 614-621, 2005	Khác
[4] Trần Giang Sơn, Canh lề văn bản song ngữ Anh Việt và ứng dụng, trường Đại học Bách Khoa Tp. Hố Chí Minh, 06/2005	Khác
[6] Seonho Kim, Juntae Yoon, Dong-Yul Ra, Two-Level Alignment by Words and Phrases Based on Syntactic Information, Springer-Verlag Berlin Heidelberge 2004, 2004	Khác
[7] Chirstopher D.Manning, Hinrich Schutze, Foundations of Statistical Natural Language Processing, The MIT Pres, Cambridge, Massachusetts, London, England, 2000	Khác
[8] Antonio Ribeiro, Gabriel Lopes, and Joao Mexia, A Self_Learning Method of Parallel Texts Alignment, Quinta da Torre, Portual, 2000	Khác
[9] Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre, An Algorithm for Aligning Sentences in Bilingual Corpora Using Lexical Information, International Institue of Information Technology, Hyderabad	Khác
[10] I. Dan Melamed, Bitext maps and Alignment via Pattern Recognition, Association for Computational Linguistics, 1999	Khác
[11] Martin Kay, Martin Roscheisen, Text-Translation Alignment, Computational Linguistics Volume 19, 1996	Khác
[12] James Allen, Natural Language Understanding, The Benjamin/Cummings Publishing Company, Inc, 1995	Khác
[13] Mark W.Davis, Ted E.Dunningand Willim C.Ogden, Text Alignment in the Real Work: Improving Alignments of Noisy Translations Using Common Lexical Feature, String Matching Strategies and N-Gram Comparisons, New Mexico State University, 1994	Khác
[14] Stanley F.Chen, Alignment Sentences in Bilingual Corporal Using Lexical Information, Proceeding of the 31 st Annual Meeting of the Association for Computation Linguistics, 1993	Khác
[15] Michel Simard, George F. Foster, Pierre Isabelle, Using cognates to align sentences in bilingual corpora, 1993	Khác
[16] William A.Gale, Kenneth W.Church, A Program for aligning sentences in biligual corpora, 1991	Khác
[17] Peter F.Brown, Jennifer C.Lai, Robert L.Mercer, Aligning sentences in parallel corpora, 1991	Khác
[18] Nguyễn Thị Thu Hương, Lê Ngọc Minh Trị, Phát triển động cơ thu thập tự động các bài báo khoa học trên www, Luận văn tốt nghiệp đại học, ĐH Bách Khoa Tp. HCM, 2004	Khác