Để khai thác được tính hữudụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề hay đối sánh văn bảnđể tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn n
Trang 1LÊ NGỌC SƠN
CANH LỀ VĂN BẢN SONG NGỮ
VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP
ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành : 01.02.10
LUẬN VĂN TỐT NGHIỆP
TP HỒ CHÍ MINH, THÁNG 12 NĂM 2006
Trang 2Cán bộ hướng dẫn khoa học:
Phó Giáo sư, Tiến sĩ PHAN THỊ TƯƠI
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Ngày tháng năm 2006
Trang 3Tp Hồ Chí Minh, ngày … tháng … năm 2006
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Chuyên ngành : Công Nghệ Thông Tin MSHV : 00704179
đặc thù của ngôn ngữ Anh - Việt
Tìm hiểu các công trình nghiên cứu trước đây về canh lề văn bản song ngữ
Nghiên cứu giải thuật phân đoạn từ, phân đoạn câu, canh lề theo chiều dài câu và LSSA
Ứng dụng các giải thuật này để giải quyết những trường hợp đặc thù trong canh lề vănbản song ngữ Anh - Việt
Xây dựng một kho ngữ liệu (corpus) chứa các cặp câu song ngữ Anh - Việt phân loại theo lĩnh vực
IV NGÀY HOÀN THÀNH NHIỆM VỤ : / / 2006
CÁN BỘ HƯỚNG DẪN
PGS., TS Phan Thị TươiNội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
Ngày … tháng … năm 2006
Trang 4PGS., TS Phan Thị Tươi đã tận tình chỉ bảo, hướng dẫn tôi nghiên cứu vàthực hiện luận văn này Cám ơn Cô đã theo dõi, hỗ trợ và động viên tôi trong nhữnglúc khó khăn nhất.
Các thầy cô của Khoa Công Nghệ Thông Tin trường đại học Bách khoa TP
Hồ Chí Minh đã tận tâm giảng dạy trong suốt quá trình học, trang bị cho tôi nhữngkiến thức nền tảng và khả năng nghiên cứu
Thầy TS Võ Văn Huy, cô ThS Huỳnh Ngọc Liễu, KS Nguyễn Hoàng ThanhNhàn, KS Nguyễn Ngọc Bình Phương, CN Thái Kim Phụng, các anh chị em trongTrung tâm nghiên cứu và hỗ trợ đào tạo Quản trị doanh nghiệp (BR&T) đã hỗ trợ tôitrong suốt thời gian thực hiện luận văn
Gia đình và những bạn bè thân thiết đã luôn động viên khuyến khích tôi họctập và phấn đấu
Trang 5và bản dịch (translation) của nó ở một ngôn ngữ khác Để khai thác được tính hữudụng của nguồn dữ liệu này, việc đầu tiên là tiến hành canh lề (hay đối sánh) văn bản
để tìm được bản dịch tương ứng của một đoạn, một câu, một từ trong hai ngôn ngữ
Gần đây, canh lề văn bản đã và đang được quan tâm rất nhiều Nhiều phươngpháp và giải thuật được đưa ra, áp dụng, và cũng đạt được những kết quả tương đốichính xác Tuy nhiên, mỗi cặp ngôn ngữ có những đặc điểm riêng Việc áp dụng vàocanh lề văn bản song ngữ Anh – Việt cần được điều chỉnh cho phù hợp với đặc điểmcủa ngôn ngữ tiếng Việt
Trong đề tài này, tôi xây dựng một qui trình canh lề mới, áp dụng giải thuậtcanh lề theo chiều dài câu, giải thuật canh lề từ dựa vào từ điển và giải thuật LongestSorted Sequence (LSSA) Điểm mới trong luận văn là xử lý một trường hợp đặc biệttrong dịch thuật cũng rất thường xảy ra là dịch chéo Khi đó, chương trình phải xử lýtrường hợp canh lề chéo, mà hầu hết các giải thuật trước đây đều bỏ qua trường hợpnày
Độ chính xác của giải thuật tương đối cao Nó tạo ra một kho ngữ liệu gồmcác cặp câu được canh lề và được phân chia theo lĩnh vực của văn bản Ngoài ra,chương trình cũng đánh dấu các điểm tương ứng giữa các từ trong câu Nó sẽ là mộttập dữ liệu bổ ích cho dịch máy, tạo tự động từ điển chuyên ngành khi kho ngữ liệu đủlớn
Trong quyển luận văn này, tôi trình bày chi tiết các giải thuật sử dụng và cáchhiện thực giải thuật ứng dụng vào canh lề văn bản song ngữ Anh – Việt
Trang 6language They are available sources of information for bilingual lexicography,machine translation In order to achieve this, they must be aligned first, i.e thevarious pieces of the text must be put into correspondence.
Recently, text alignment has been taken interest in very much Many methodsand algorithm have been brought out into open and applied The result were relativelyaccurate However, any pair of languages have their characteristics, the application ofVietnamese- English bittext alignment needs to be adjusted in accordance with theVietnamese characteristics
In this study, I am constructing a new alignment procedure which applied thealgorithm of length- based alignment, dictionary- based word alignment and LongestSorted Sequence Algorithm (LSSA) The interesting thing in this composition istaking the notice of a commonly special problem- cross translation Then, thealgorithm must solve the cross translation problem which is often bypassed by manyprevious algorithms
The degree of accuracy is relatively high It creates a corpus inncludingaligned pairs of sentences and devided in the field of text In addition, the algorithmwill mark map points between words in sentences It will be an useful data file formachine translation and automically create a specialist dictionary when the datawarehouse is large enough
In this composition, I present in detail algorithms using and the realization ofapplied algorithms in Vietnamese- English bitext alignment
Trang 7Giới thiệu 1
1.1 Bối cảnh thực hiện luận văn 1
1.2 Thực trạng – Vấn đề 1
1.3 Hướng giải quyết vấn đề 2
1.4 Mục tiêu của luận văn 2
1.5 Đóng góp của luận văn 2
1.6 Hướng phát triển 5
1.7 Cấu trúc của luận văn 5
Phần 2 7
Các công trình nghiên cứu liên quan 7
2.1 Phương pháp canh lề văn bản dựa vào chiều dài câu 7
2.1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]: 8
2.1.2 Phương pháp của Peter F.Brown [17]: 9
2.2 Phương pháp canh lề dựa vào từ vựng 10
2.2.1 Phương pháp của Michel Simard, George F Foster, P Isabelle [15]:.10 2.2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]: 11
2.2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]: 12
2.2.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]: 13
2.2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes, Joao Mexia:[8] 14
2.2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]: 16
2.3 Kết hợp các phương pháp 16
2.3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2] 16
2.3.2 Phương pháp của Stanley F.Chen:[14] 17
2.3.3 Phương pháp SIMR và GSA, tác giả I Dan Melamed: [10] 18
Trang 8Phần 3 22
Cơ sở lý thuyết 22
3.1 Các định nghĩa 22
3.1.1 Phép canh lề: 22
3.1.2 Phép canh lề chéo 23
3.2 Đánh giá mức độ chính xác của phép canh lề 24
3.3 Hệ số Dice (D) 24
3.4 Xác suất có điều kiện: 24
3.5 Phân tích hồi qui tuyến tính: 25
Phần 4 28
Phân tích giải thuật 28
4.1 Giải thuật Stemming: 28
4.2 Giải thuật phân đoạn câu: 32
4.3 Giải thuật canh lề văn bản theo chiều dài câu [16]: 34
4.3.1 Khung lập trình động (A Dynamic Programming Framework): 34
4.3.2 Thuật toán lập trình động (A Dynamic Programming Algorithm): 37
4.4 Phương pháp canh lề sử CBA [8]: 37
4.5 Phương pháp canh lề sử dụng LSSA [1]: 40
4.6 So sánh phương pháp LSSA với CBA: 41
4.7 Những khó khăn gặp phải khi áp dụng SIRM và GSA [10] 46
4.8 Giải thuật giải quyết canh lề chéo (sử dụng trong luận văn): 50
Phần 5 52
Hiện thực 52
5.1 Stemming: Dùng giải thuật Porter 54
5.2 Xác định từ ghép tiếng Việt và cụm từ tiếng Anh: 55
Trang 95.6 Canh lề chéo: 65
5.7 Canh lề từ: 66
5.8 Phân loại văn bản: 68
Phần 6 69
Kết quả thực nghiệm 69
6.1 Giới thiệu chương trình: 69
6.2 Kết quả sau bước canh lề câu (Bước 1): 70
6.3 Kết quả sau bước canh lề chéo (Bước 2): 75
6.4 Kết quả canh lề từ: 76
6.5 Các chức năng khác: 80
6.5.1 Lưu kết quả canh lề: 80
6.5.2 Mở lại một qui trình canh lề: 80
6.5.3 Chạy từng bước giải thuật: 80
Phần 7 81
Kết luận 81
7.1 Tổng kết: 81
7.2 Hướng mở rộng và phát triển đề tài: 83
7.2.1 Hoàn chỉnh luận văn: 83
7.2.2 Phát triển theo hướng nghiên cứu: 83
7.2.3 Phát triển theo hướng ứng dụng: 83
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH - VIỆT 85
BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ VIỆT - ANH 87
TÀI LIỆU THAM KHẢO 89 PHỤ LỤC
Trang 10Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6] 13
Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6] 13
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8] 14
Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8] 15
Hình 2-5 Không gian văn bản song ngữ 19
Hình 3-1 Canh lề chéo trong văn bản song ngữ 23
Hình 4-1 Đồ thị tương quan chiều dài giữa tiếng Anh và tiếng Đức 34
Hình 4-2 Đường thẳng hồi qui tuyến tính 38
Hình 4-3 Biểu đồ khoảng cách 39
Hình 4-4 Dãy giới hạn (CB) 39
Hình 4-5 Kết quả thu được khi sử dụng CBA 42
Hình 4-6 Kết quả thu được khi sử dụng LSSA 42
Hình 4-7 Tính khoảng cách trong CBA 43
Hình 4-8 Kết quả canh lề sử dụng CBA 43
Hình 4-9 Kết quả canh lề sử dụng CBA 44
Hình 4-10 Kết quả canh lề dùng CBA 44
Hình 4-11 Kết quả canh lề dùng LSSA 45
Hình 4-12 Quá trình tạo điểm và mở rộng hình chữ nhật tìm kiếm 47
Hình 4-13 Phát hiện những đoạn canh lề sót trong giải thuật SIRM 48
Hình 4-14 Sự biến đổi độ nghiêng cục bộ trong giải thuật SIRM 49
Hình 5-1 Sơ đồ khối cho quá trình canh lề 53
Hình 5-2 Cấu trúc CSDL từ điển song ngữ Anh-Việt 54
Hình 5-3 Từ điển từ ghép tiếng Việt 55
Hình 5-4 Từ điển cụm từ tiếng Anh 56
Hình 5-5 Danh sách từ viết tắt trong tiếng Anh 58
Hình 5-6 Tương quan chiều dài câu Anh-Việt 60
Hình 5-7 Kết quả canh lề câu theo chiều dài câu 62
Hình 6-1 Giao diện chính của chương trình 69
Hình 6-2 Giao diện hiển thị kết quả 79
Trang 12Bảng 2-1 Kết quả canh lề của giải thuật [14] 11
Bảng 2-2 Kết quả canh lề của phương pháp [6] 14
Bảng 2-3 Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2] 17
Bảng 2-4 Kết quả của phương pháp [2] 17
Bảng 4-1 Giá trị các vector trong LSSA 41
Bảng 5-1 Tỷ lệ của các từ đơn, từ ghép đôi, từ ghép ba, từ ghép bốn 59
Bảng 5-2 Tỷ lệ giữa số từ tiếng Việt và số từ tiếng Anh 60
Bảng 5-3 Xác suất của các phép canh lề theo [16] 61
Bảng 5-4 Xác suất của các phép canh lề Anh-Việt 61
Bảng 5-5 Đánh giá trọng số các điểm tương ứng 63
Bảng 5-6 Thống kê trung bình theo chiều dài block 65
Bảng 6-1 Kết quả canh lề câu trong luận văn 71
Bảng 6-2 Phát hiện các phép canh lề 1-2 71
Bảng 6-3 Phát hiện các phép canh lề 1-2, 2-1 72
Bảng 6-4 Ví dụ trường hợp phân đoạn câu sai, nhưng canh lề đúng 73
Bảng 6-5 Canh lề 1-0 được xác định trong canh lề 2-1 74
Bảng 6-6 Một ví dụ canh lề câu sai do xuất hiện dịch chéo câu 75
Bảng 6-7 Ví dụ minh họa - Kết quả canh lề chéo 76
Bảng 6-8 Ví dụ kết quả canh lề từ sau khi áp dụng LSSA 77
Bảng 6-9 Ví dụ kết quả canh lề chéo cụm từ 78
Trang 176 Hướng phát triển:
Hoàn chỉnh ứng dụng: Cải tiến giải thuật phân đoạn câu, chạy thử nghiệm
và cập nhật các thông số hệ thống Thu thập các văn bản song ngữ thuộcnhiều lĩnh vực, canh lề và lưu lại để mở rộng kho ngữ liệu
Phân loại lĩnh vực của văn bản tự động, cập nhật cụm từ tiếng Việt vàtiếng Anh (collocation) tự động theo mô hình n-grams, xây dựng từ điểnchuyên ngành
Ứng dụng thực tế vào quản lý kho tri thức tại trung tâm BR&T (trình bày
Phần 2 Các công trình nghiên cứu liên quan
Trình bày một số công trình nghiên cứu về canh lề văn bản song ngữ trên thếgiới và trong nước
Phần 3 Cơ sở lý thuyết
Trình bày một số định nghĩa, các công thức toán học, một số hệ số đánh giáphép canh lề, và các lý thuyết xác suất có liên quan
Phần 4 Phân tích giải thuật
Các giải thuật sẽ sử dụng trong luận văn sẽ được trình bày chi tiết trong phầnnày Bên cạnh đó phần này cũng đưa ra lý do chọn lựa giải thuật áp dụngtrong luận văn thông qua một số phân tích và so sánh
Trang 18Phần 7 Kết luận
Tổng kết lại toàn bộ quá trình thực hiện luận văn, những cái đã thực hiện,những điểm còn yếu Và phần này cũng trình bày một số hướng phát triển vàứng dụng,
- Bảng thuật ngữ tiếng Anh và tiếng Việt được sử dụng trong quyển luận văn
- Danh mục sách và các báo cáo khoa học đã tham khảo để thực hiện đề tài
- Phụ lục A: Hướng dẫn sử dụng chương trình canh lề văn bản song ngữAnh-Việt
- Phụ lục B: Cài đặt và phục hồi Cơ sở dữ liệu SQL Server
Trang 19Phần 2
Các công trình nghiên cứu liên quan
Phần này trình bày một số công trình nghiên cứu về canh lề văn bản song ngữtrên thế giới và trong nước Các phương pháp được áp dụng chủ yếu phân vào cácloại sau:
Phương pháp canh lề văn bản dựa vào chiều dài câu là một trong nhữngphương pháp xuất hiện tương đối sớm Phương pháp này không quan tâm đến yếu tố
từ vựng trong văn bản mà chỉ quan tâm đến chiều dài của câu trong văn bản Ý tưởngchính của phương pháp này là: các câu ngắn thường được dịch thành những câu ngắn,các câu dài thường được dịch thành những câu dài Chiều dài của câu có thể đượctính bằng số lượng từ hoặc số lượng kí tự trong câu
Trong phương pháp này, để canh lề chính xác, văn bản cần được canh lề theođoạn trước Có thể thực hiện công đoạn này theo phương pháp thủ công bằng tay.Nếu văn bản không được phân đoạn trước, giải thuật cũng có thể canh lề nhưng độchính xác thấp hơn, và thời gian thực thi lâu hơn Phương pháp này tỏ ra hữu hiệu đốivới cặp ngôn ngữ cùng họ, ví dụ như Anh-Pháp Nhưng lại kém chính xác đối vớinhững cặp ngôn ngữ khác họ, ví dụ như Anh-Nhật, Anh-Hoa, Anh-Việt
Lợi điểm của phương pháp này là đơn giản Phương pháp này có thể áp dụngcho văn bản ngắn với độ chính xác khá cao, trong khi phương pháp dựa vào từ vựngkhông thể canh lề cho những văn bản ngắn, vì số lần xuất hiện của các từ trong vănbản không đủ lớn để xác định các cặp từ tương ứng về nghĩa
Trong phương pháp canh lề dựa vào chiều dài câu, có hai cách xác định chiềudài câu: tính chiều dài câu dựa trên số lượng ký tự, và tính chiều dài câu dựa trên sốlượng từ Ở phương pháp này, các tác giả: William A.Gale và Kenneth W.Church
Trang 20(1991) là các tác giả được nhiều người biết đến Hầu như tất cả các nghiên cứu sau đóđều có sự tham khảo công trình nghiên cứu của họ.
1.1 Phương pháp của William A.Gale và Kenneth W.Church [16]:
Theo phương pháp của tác giả Gale và Church thì chiều dài câu được tínhbằng số lượng ký tự có trong câu Tác giả cho rằng một ký tự có trong ngôn ngữ S sẽtương ứng với một số ngẫu nhiên ký tự có trong ngôn ngữ T Biến ngẫu nhiên nàyđộc lập và có phân bố chuẩn với kỳ vọng là và phương sai 2
Mục đích của giải thuật là đi tìm một tổ hợp các phép canh lề khả dĩ sao chotổng khoảng cách của chúng là nhỏ nhất Các phép canh lề khả dĩ bao gồm:
câu thứ i+1 của S và (1-0), hoặc
câu thứ i+1 của S và câu thứ j+1 của T (1-1), hoặc
câu thứ i+1 của S và câu thứ j+1 và j+2 của T (1-2), hoặc
câu thứ i+1 và i+2 của S và câu thứ j+1 của T (2-1), hoặc
câu thứ i+1 và i+2 của S và câu thứ j+1 và j+2 của T (2-2)
Tác giả sử dụng lập trình động để tạo ra một tổ hợp các phép canh lề sao cho tổngkhoảng cách của chúng là nhỏ nhất
Kết quả: Canh lề các báo cáo kinh tế của Union Bank of Switzerland, gồm 3
thứ tiếng: Anh, Pháp, Đức Với mỗi phép canh lề khả dĩ, giá trị khoảng cách được
tính toán và lưu lại Tỷ lệ canh lề sai: 4%
Nếu chọn 80% phép canh lề tốt nhất (là phép canh lề có khoảng cách nhỏ nhất
trong các phép canh lề kết quả) Tỷ lệ canh lề sai: 0.7%.
Trang 21Ưu điểm:
Đơn giản, tốc độ thực thi nhanh,
Độ chính xác khá cao,
Không yêu cầu từ điển dữ liệu,
Có thể áp dụng cho cặp ngôn ngữ mới
Nhược điểm:
Canh lề sai khi chiều dài câu trong hai ngôn ngữ quá khác biệt so vớithống kê ban đầu,
Cần canh lề đoạn trước
1.2 Phương pháp của Peter F.Brown [17]:
Theo phương pháp của tác giả này thì chiều dài câu được tính bằng số lượng
từ có trong câu Ngoài ra tác giả còn phân chia văn bản thành các phân đoạn (bead).Bead là một phân đoạn gồm 0, 1 hoặc 2 câu Cũng giống như phương pháp của tácgiả Gale, Brown tiến hành canh lề các đoạn giữa hai văn bản song ngữ trước khi tiếnhành canh lề các bead Để canh lề đoạn, tác giả dùng các ghi chú và kí hiệu đặc biệt
có sẵn trong văn bản
Kết quả: Canh lề một phần của Canadian Hansard (Canadian Hansard là văn
bản chính thức của các cuộc họp nghị viện quốc hội Canada
Độ chính xác: 96%, cho các đoạn đã được canh lề trước.
Ưu điểm:
Đơn giản, tốc độ thực thi nhanh,
Không cần từ điển song ngữ,
Dễn dàng áp dụng được cho các cặp ngôn ngữ khác
Nhược điểm:
Phải canh lề đoạn trước,
Độ chính xác có thể thấp hơn nhiều nếu cho canh lề toàn bộ văn bản màkhông được canh lề đoạn trước
Trang 222 Phương pháp canh lề dựa vào từ vựng:
Với phương pháp canh lề theo chiều dài câu thì cần thiết phải canh lề đoạntrước thì giải thuật mới cho ra kết quả tốt Trong khi đó, phương pháp canh lề theo từvựng thì không cần phải canh lề theo đoạn trước Ngoài ra, phương pháp canh lề theochiều dài câu thì có thể gây nhập nhằng Ví dụ, thay vì canh lề 1-1 là chính xác thìphép canh lề 1-2 lại cho khoảng cách nhỏ hơn Hay ngược lại thay vì canh lề 1-2 làđúng thì giải thuật lại quyết định 1-1 Đây là những quyết định khó khăn của giảithuật Khi đó, phương pháp canh lề theo từ vựng lại tỏ ra hữu hiệu
2.1 Phương pháp của Michel Simard, George F Foster, Pierre Isabelle [15]:
Cải tiến giả thuật canh lề dựa vào chiều dài câu của Gale và Church, tác giả sửdụng yếu tố từ vựng là cognates Cognates là những từ cùng nguồn gốc Ví dụ trongtiếng Anh và tiếng Pháp: generation/génération và error/erreur, hay mở rộng hơn cóthể là danh từ riêng (Paris, London/Londres), biểu thức toán học, hoặc ngay cả những
ký hiệu đặc biệt (dấu chấm hỏi, dấu ngoặc,…)
Cho hai đoạn văn bản thuộc 2 ngôn ngữ khác nhau, chúng ta tính được độtương tự giữa chúng là: = 2c/(n+m), với m,n: số từ trong mỗi đoạn, c: số lượngcognates trong đoạn
Tuy nhiên sử dụng cognate không thể tạo nên kết quả canh lề tốt hơn canh lềtheo chiều dài câu Tác giả kết hợp canh lề theo chiều dài câu và canh lề sử dụngcognates Phương pháp canh lề này được tiến hành qua 2 bước Đầu tiên canh lề theochiều dài câu Thay vì cho ra được phép canh lề tốt nhất, phương pháp này cho ra mộttập các phép canh lề tốt Nếu kết quả này có niều hơn một phép canh lề tốt, chươngtrình tiếp tục bước canh lề thứ 2, sử dụng cognates để chọn ra phép canh lề tốt nhất
Kết quả so sánh khi áp dụng canh lề theo chiều dài câu, canh lề theo chiều dàicâu, canh lề kết hợp 2 bước như sau:
Trang 23Canh lề theo chiềudài câu Canh lề dùngCognates Canh lề kết hợp 2phương pháp
Số cặp câu
Bảng 2-1 Kết quả canh lề của giải thuật [14]
2.2 Phương pháp của Martin Kay và Martin Roscheisen [11]:
Tác giả nhận xét thấy rằng: câu đầu tiên trong văn bản nguồn S sẽ có nhiềukhả năng được canh lề với câu đầu tiên trong văn bản đích T Câu cuối cùng trongvăn bản S sẽ có nhiều khả năng được canh lề với câu cuối cùng trong văn bản T (Giảthiết không có canh lề chéo) Giải thuật canh lề như sau:
Giả sử câu đầu tiên (câu cuối cùng) của văn bản S được canh lề với câuđầu tiên (câu cuối cùng) của văn bản T Khi đó ta được Anchor đầu tiên
Trong khi các câu trong văn bản chưa được canh lề toàn bộ:
a) Tạo ra các cặp câu có nhiều khả năng được canh lề với nhau AST (Alignable Sentence Table) Khi tạo ra AST, ta loại đi các cặp câu có phép canh lề vượt qua các điểm neo (Anchor), hoặc khoảng cách so với các neo tương ứng trong văn bản nguồn S và văn bản đích T quá chênh lệch.
b) Dựa vào AST, tính mức độ giống nhau giữa các cặp từ trong hai ngôn ngữ Danh sách các cặp từ này gọi là WAT ( Word Alignment Table) Với mỗi cặp từ, ta tính mức độ giống nhau dựa vào phân bố của chúng trong các cặp câu thuộc AST Sau đó, trong WAT, ta chọn ra các cặp từ có nhiều khả năng là tương ứng nhất dựa vào mức độ giống nhau và tần suất xuất hiện của chúng Cặp từ nào có độ giống nhau lớn và tần suất xuất hiện cao thì độ tin cậy càng cao.
c) Tìm cặp câu trong AST có chứa nhiều cặp từ tương ứng nhất Đây có thể là cặp câu tương ứng trong kết quả cuối cùng Một khi hai câu đã được canh lề, chúng đuợc xem như là những Anchor mới, ta thêm các Anchor này vào danh sách các Anchor và lặp lại bước a) ở trên.
Sau mỗi vòng lặp, ta được nhiều Anchor hơn, số lượng các cặp câu trongAST giảm đi, các cặp từ trong WAT có độ tin cậy cao hơn
Trang 24Kết quả: Tác giả không đưa ra độ chính xác và độ hoàn toàn Chỉ đưa ra một
ví dụ với độ chính xác đến 99.7%
Ưu điểm:
Giải quyết nhập nhằng trong canh lề theo chiều dài câu
Không yêu cầu từ điển song ngữ
Nhược điểm:
Tốc độ chậm hơn so với canh lề theo chiều dài câu
Không canh lề được cho các văn bản có kích thước ngắn
2.3 Phương pháp của nhóm tác giả Akshar Bharati, Sriram V, Vamshi Krishna A, Rajev Sangal, Sushma Bendre [9]:
Dùng giải thuật canh lề dựa vào từ vựng để canh lề cho văn bản song ngữAnh-Hindi Tác giả nhận thấy sự khác biệt giữa tiếng Anh và tiếng Hindi là: tiếngAnh là ngôn ngữ có thứ tự cố định (fixed-word order), trong khi tiếng Hindi thì cóthứ tự tự do (free-word order), nghĩa là nếu thay đổi trật tự các từ thì không làm thayđổi nghĩa Ngoài ra, chiều dài câu trong hai ngôn ngữ không cân xứng nên phươngpháp canh lề theo chiều dài câu gặp nhiều khó khăn
Quá trình xử lý gồm 3 giai đoạn: Chunking, Scoring, Alignment
Chunking: phân những câu trong hai ngôn ngữ thành các cụm từ Có hailoại: cụm danh từ và cụm động từ Đồng thời cũng xác định được từ mangnghĩa chính trong cụm từ
Scoring: tính điểm cho các cụm từ, để biết được mức độ giống nhau củachúng
Alignment : canh lề dựa vào điểm số và những tiêu chí khác
Kết quả: Dữ liệu dùng để kiểm tra giải thuật là tạp chí song ngữ
“India-Today” gồm 140 văn bản của nhiều kỳ xuất bản, canh lề được 3021 câu, trong đóchính xác là 2849 câu, đạt tỉ lệ 94.3% Nếu sử dụng giải thuật canh lề của Gale vàChurch thì đạt độ chính xác là 62%
Trang 252.4 Phương pháp của Seonho Kim, Juntae Yoon, Dong-Yul Ra [6]:
Nhóm tác giả này sử dụng phương pháp canh lề theo từ và cụm từ, trên cơ sởkết hợp thông tin từ vựng và cú pháp để canh lề cho văn bản Anh-Hàn Tác giả đưa ra
3 mô hình: (1) Canh lề từ, (2) Canh lề theo cụm từ, và (3) Canh lề kết hợp haiphương pháp kia
Hình 2-1 Ví dụ trong mô hình (1) của phương pháp [6]
Khó khăn của mô hình 1 (Canh lề từ) là đôi khi không thể ánh xạ từ sang từ(word-to-word) Ví dụ một cụm danh từ (NP) tiếng Hàn có thể tương ứng với cụmgiới từ (PP) trong tiếng Anh Nhưng một giới từ trong cụm giới từ tiếng Anh không
có một từ tương ứng trong tiếng Hàn Hoặc một cụm từ trong tiếng Anh, chỉ dịchthành một từ trong tiếng Hàn Do đó, mô hình canh lề cụm từ là cần thiết
Hình 2-2 Ví dụ trong mô hình (2) của phương pháp [6]
Trong mô hình 2 (canh lề theo cụm từ), để canh lề theo cụm từ, vấn đề xácđịnh và phân loại cụm từ là hết sức quan trọng và khó khăn Một giới từ trước mộtcụm danh từ phát triển thành cụm giới từ Ngoài ra cần tách những cụm từ lồng nhau
Trang 26Ví dụ: “by the first word in the string” được tách thành “by the first word” và “in thestring”.
Kết quả: Tiến hành canh lề cho văn bản Anh-Hàn, được lấy từ trang Web
“Korea Times” Kho DL gồm có 13958 cặp câu, trong đó có 200 cặp câu dùng đểkiểm tra Tỉ lệ sai được ghi lại trong bảng dưới đây khi áp dụng mô hình 1, mô hình 2hoặc kết hợp cả ba mô hình:
Mô hình Tỉ lệ sai (AER)
Bảng 2-2 Kết quả canh lề của phương pháp [6]
2.5 Phương pháp của Antonio Ribeiro, Gabriel Lopes và Joao Mexia:[8]
Tác giả giới thiệu một phương pháp canh lề song ngữ độc lập với ngôn ngữ là
sử dụng lại tri thức học được sử dụng thuật toán dãy giới hạn (Confidence BandsAlgorithm – CBA) Hệ thống trích ra những cặp từ tương đồng và sử dụng nó để tạo
ra những điểm mốc mới Những điểm gây nhiễu (noisy points) có thể được lọc radùng biểu đồ khoảng cách:
Hình 2-3 Biểu đồ khoảng cách trong phương pháp [8]
Những điểm mà có thể dẫn đến canh lề sai cũng sẽ được lọc đi dùng dãy giớihạn (Confidence Bands - CB) với phân tích hồi qui tuyến tính, thay vì dùng các quyếtđịnh cảm tính (heuristics) mà heuristics này không dựa trên một cơ sở lý thuyết nào
Trang 27Hình 2-4 Dãy giới hạn (CB) trong phương pháp [8]
Ví dụ: điểm A nằm ngoài CB, nên nó được lọc ra khỏi những điểm có thểcanh lề
Giải thuật được mô tả như sau:
1) Nhận vào văn bản song ngữ A và B.
2) Định nghĩa điểm đầu point(0,0), và điểm cuối point(length(A),length(B)).
Nó xác định nên đoạn văn bản canh lề đầu tiên (initial segment).
3) Phát hiện ra những điểm tương ứng nhau là những từ viết giống nhau (homoggraph), và những từ có nghĩa giống nhau (equivalent word) có trong từ điển mà có tần suất xuất hiện giống nhau trong đoạn văn bản 4) Lọc ra những điểm ở xa dùng kỹ thuật biểu đồ.
5) Lọc ra những điểm nằm ngoài Confidence Band.
6) Với mỗi một đoạn nhỏ xác định bởi 2 điểm mốc liên tiếp nhau, lặp lại thao tác từ bước 3 đến bước 6.
7) Trích ra những điểm dịch giống nhau cho vào kho ngữ liệu.
8) Lặp lại từ bước 2.
Như vậy tại mỗi bước lặp thì kho ngữ liệu mở rộng, để bước lặp tới tốt hơn
2.6 Phương pháp của Tiago Ildefonso and Gabtiel Pereira Lopes[1]:
Trên cơ sở nghiên cứu phương pháp canh lề dùng Confidence Bands của cáctác giả Antonio Ribeiro, Gabriel Lopes và Joao Mexia, nhóm của Tiago Ildefono andGabtiel Pereira Lopes nhận thấy nhiều vấn đề chưa giải quyết được của phương phápdùng Confidence Bands Do đó, sự thay thế phương pháp Confidence Bands bằng
Trang 28giải thuật Longest Sorted Sequence (LSSA) là cải tiến của tác giả Giải thuật dựa trên
ý tưởng chọn phép canh lề có số lượng những từ được canh lề là lớn nhất trong cácphép canh lề
Với sự thay thế này, ứng dụng vào canh lề văn bản song ngữ Bồ Đào
Nha-Pháp, giải thuật đã giảm được 35% thời gian xử lý, và tăng 18% số lượng câu
được canh lề Giải thuật cho kết quả tương tự khi canh lề văn bản song ngữ Bồ Đào
Nha-Anh
Phương pháp canh lề văn bản dựa vào chiều dài câu có ưu điểm là đơn giản,tốc độ thực thi nhanh, không cần kho ngữ liệu ban đầu Tuy nhiên, đôi khi nó khôngchính xác, và nhập nhằng trong việc quyết định Phương pháp canh lề dựa vào từvựng có thể giải quyết một số khuyết điểm của phương pháp canh lề theo chiều dàicâu, nhưng nó yêu cầu phải có kho ngữ liệu đủ lớn và chính xác cho từng cặp ngônngữ canh lề Ngoài ra, tốc độ thực thi chậm, xử lý phức tap Để có thể tận dụng đượcnhững ưu điểm của cả hai phương pháp, nhiều tác giả đã phối hợp sử dụng cả haiphương pháp trong từng giai đoạn xử lý của giải thuật
3.1 Phương pháp của nhóm tác giả Thomas C.Chuang, Jian-Cheng Wu, Tracy Lin, Wen_Chie Shei, and Jason S.Chang:[2]
Là sự kết hợp phương pháp canh lề dựa vào chiều dài câu, thống kê dấu chấmcâu, và từ vựng Họ sử dụng để canh lề cho văn bản song ngữ Trung Quốc-Anh, sửdụng Chinese-English LEGCO corpus
Đây là bảng liệt kê sự tương ứng trong việc sử dụng ký hiệu kết thúc ở tiếngTrung Quốc, và tiếng Anh:
, ’ 1-1 541 0.8098 1-1 336 0.6575
” 1-1 131 0.3420 ’ 1-1 113 0.2211
” 1-1 112 0.2924
” 1-1 65 0.1697
” 1-1 59 0.1540 , ` 1-1 56 0.0838
Trang 29Bảng 2-3 Thống kê tần suất xuất hiện các ký hiệu trong phương pháp [2]
Kết quả đạt khi áp dụng kết hợp một, hai hoặc ba yếu tố như sau:
matches Precision
Average length
Punctuation only 100 529 332 63% 90.73 Length only 100 389 284 73% 123.74 Punctuation+Lexicon 100 508 425 84% 94.52 Lengh+Lexicon 100 334 246 74% 144.28 Punctuation+Length 100 476 435 91% 100.94 Punctuation+Length+Lexicon 100 454 437 96% 105.88
Bảng 2-4 Kết quả của phương pháp [2]
3.2 Phương pháp của Stanley F.Chen:[14]
Tác giả kết hợp giữa phương pháp dựa vào chiều dài câu và phương pháp dựavào từ vựng Về cơ bản, giải thuật vẫn dùng lập trình động để tính khoảng cách củacác phép canh lề giống như phương pháp của tác giả Gale[16] Tuy nhiên, thay vì tínhxác suất của một phép canh lề dựa vào chiều dài câu, tác giả tính xác suất dựa vào môhình dịch từ sang từ (word to word translation model) Mô hình dịch từ sang từ đượctính toán và cập nhật liên tục trong quá trình canh lề Do đó, tại thời điểm canh lề cáccâu đầu tiên của văn bản, khi chưa có mô hình dịch, giải thuật phải dựa vào mộtcorpus nhỏ các cặp câu đã được canh lề trước
Trang 30 Yêu cầu có một corpus nhỏ các cặp câu song ngữ.
3.3 Phương pháp canh lề theo giải thuật SIMR và GSA Nghiên cứu của tác giả I Dan Melamed [10] :
SIMR (Smooth Injective Map Recognizer): Thuật toán SIMR dùng để ánh xạcác thành phần tương ứng của văn bản song ngữ Các thành phần tương ứng này cóthể là các từ có cùng nguồn gốc (cognates), các dấu phân cách đoạn và câu, các từ làphiên dịch của nhau
GSA (Geometric Segment Alignment): Thuật toán GSA dùng để canh lề đoạn
và câu, với đầu vào chính là kết quả cảu SIMR
SIMR là một giải thuật tham lam, phụ thuộc vào sự tương quan chiều dài củacác văn bản thành phần trong văn bản song ngữ Nó tìm ra một bản đồ ánh xạ dựatrên những điểm giống nhau trên mặt phẳng xác suất của văn bản song ngữ Dùnggiải thuật SIMR và GSA ta có thể tận dụng những ưu thế của hai xu hướng dựa vàochiều dài câu và dựa vào từ vựng
Vì ưu điểm của SIMR và GSA trong việc áp dụng vào canh lề khối văn bản,
có rất nhiều tác giả trên thế giới tìm hiểu và áp dụng Có thể kể đến:
Văn bản song ngữ với nội dung văn bản gồm hai ngôn ngữ khác nhau, đượcbiểu diễn bằng một hình chữ nhật thể hiện không gian của văn bản song ngữ
Hình 2-5 Không gian văn bản song ngữ
Trang 31Chiều cao và chiều rộng của hình chữ này chính là chiều dài của hai văn bảnthành phần được tính bằng số lượng các ký tự Gốc thấp bên trái gọi là điểm gốc(origin), nó biểu thị điểm bắt đầu của hai văn bản Góc cao bên phải gọi là điểm kếtthúc (terminus), nó biểu thị điểm cuối của hai văn bản.
Trong không gian của văn bản song ngữ ngoài điểm gốc và điểm kết thúc cònchứa những điểm tương ứng thực sự (TCPs – true oints of correspondence) Ví dụ,một từ ở vị trí p trên trục x và một từ ở vị trí trí q trên trục y là 2 từ dịch của nhau thìtoạ độ (p,q) là một TCP Ngoài những từ dịch của nhau thì TCP cũng có thể là sựtương ứng giữa các điểm kết thúc của câu, đoạn trong hai văn bản thành phần Nhómcủa một số điểm TCP nằm trên một đường thẳng hoặc gần thẳng được gọi là mộtchuỗi (chain) Tâp hợp đầy đủ các điểm TCP tạo nên bản đồ ánh xạ thực sự (TBM –true bitext map) của văn bản song ngữ Nhiệm vụ của SIMR là tạo ra một bản đồ ánh
xạ (bitext map) gần đúng nhất với TBM
Giải thuật SIMR gồm các giai đoạn:
Tạo điểm
Nhận dạng chuỗi
Lọc nhiễu
Chọn điểm
Thu giảm không gian tìm kiếm
SIMR không có ý tưởng đối sánh những câu trong văn bản song ngữ, nó chỉxuất ra một tập hợp các điểm mà ở đó có sự tương ứng về nghĩa trong văn bản songngữ Để tạo ra sự tương ứng lớn hơn như sự tương ứng về câu, về đoạn thì cần sự hỗtrợ của các thuật toán khác Ở đây, tác giả sử dụng thuật toán GSA GSA có thể sửdụng để canh lề câu đoạn, chương…Tác giả không xét phép canh lề chéo Tác giả đã
sử dụng để canh lề cho văn bản Anh-Pháp, dung lượng văn bản lên đến 200 MB
Trang 32 Hỗ trợ phương pháp canh lề theo chiều dài câu trong việc canh lề đoạntrước.
Nhược điểm:
Phức tạp
Cần từ điển song ngữ
4.1 Nghiên cứu của tác giả Lê Hoài Nhân (2004):
Tác giả này đã sử dụng hai phương pháp khác nhau: phương pháp canh lề dựavào chiều dài câu, và phương pháp canh lề dựa vào từ vựng Để sử dụng phương phápcanh lề dựa vào chiều dài câu, tác giả tính chiều dài câu dựa vào số lượng từ Ngoài
ra, còn thực hiện một số giải thuật phụ trợ: phân đoạn câu, phát hiện hình vị và chuẩnhóa văn bản
Kết quả: Tiến hành thử nghiệm trên 8 văn bản song ngữ Anh-Việt (số lượng
khá ít) Kho ngữ liệu chỉ khoảng 3000 cặp câu song ngữ Anh-Việt Do kho ngữ liệucòn nhỏ nên kết quả canh lề còn nhiều hạn chế
Độ chính xác cho canh lề dựa trên chiều dài câu: 98%
Độ chính xác cho canh lề dựa trên từ vựng: 96%
4.2 Nghiên cứu của tác giả Trần Giang Sơn (2005) [3]: Canh lề văn bản Anh-Việt dựa trên giải thuật SIMR và GSA.
Tác giả đã kế thừa những kết quả nghiên cứu trước đó trên thế giới có sửa đổicho phù hợp với tính chất của tiếng Việt Ngoài ra còn phải dùng thêm một số giảithuật phụ trợ: giải thuật phân đoạn câu để phân đoạn văn bản thành câu; dựa thêm vàocanh lề văn bản theo chiều dài câu để tạo ra phép canh lề mịn cho các câu trong mộtkhối văn bản canh lề
Trang 33 Canh lề từ, tạo ra từ điển song ngữ Anh-Việt.
Trang 34Phần 3
Cơ sở lý thuyết
Phần này trình bày một số định nghĩa, các công thức toán học, một số hệ sốđánh giá phép canh lề Ngoài ra, phần này cũng cung cấp một số lý thuyết cơ bản vềxác suất thống kê, là cơ sở để phân tích giải thuật ở những phần sau
1.1 Phép canh lề:
Phép canh lề là quan hệ hai ngôi giữa các thực thể ngôn ngữ (linguisticentities) Cho một văn bản song ngữ thì văn bản thành phần A, B của văn bản songngữ được coi như chuỗi các thực thể A={a1, a2, …, an}, B={b1, b2, …, bm} Chúng
ta có thể định nghĩa phép canh lề XAB như là một quan hệ hai ngôi trên tập AB:
Mục đích của việc canh lề câu là tìm ra nhóm câu của ngôn ngữ này (thôngthường mỗi nhóm sẽ có một câu) tương ứng với nhóm câu nào đó trong ngôn ngữ kia.Những nhóm câu này được gọi là một bead hay block
Một câu tiếng Anh thường được dịch ra một câu tương ứng trong tiếng Việt,
ta gọi phép canh lề này là phép canh lề một-một (1-1) Phép canh lề này có xác suấtlớn nhất trong các phép canh lề
Trang 35Nếu một câu tiếng Anh được dịch ra hai câu tiếng Việt thì ta gọi phép canh lềnày là phép canh lề một-hai (1-2) Trường hợp ngược lại gọi là phép canh lề hai-một(2-1).
Cũng có khi một câu tiếng Anh vì lý do gì đó không được dịch hoặc bị xoá, do
đó không có câu nào trong văn bản tiếng Việt Ta gọi phép canh lề này là phép canh
lề một-không (1-0), ngược lại là phép canh lề không một (0-1)
Về mặt lý thuyết còn có phép canh lề ba-một (3-1) hoặc phép canh lề một-ba(1-3), nhưng với xác suất vô cùng thấp
1.2 Phép canh lề chéo.
Một văn bản thường được dịch từ trên xuống Nếu một câu thứ i trong văn bànnguồn được dịch thành câu thứ j trong văn bản đích thì câu thứ i+1 trong văn bảnnguồn được dịch thành câu thứ j+1, hoặc có thể được dịch thành câu thứ j+1 và câuthứ j+2 (trường hợp một câu trong văn bản nguồn được dịch thành 2 câu trong vănbản đích) Nếu vi phạm điều đó là canh lề chéo
Hình 3-6 Canh lề chéo trong văn bản song ngữ
Điều này hoàn toàn có thể xảy ra trong dịch thuật Nhưng khi quan sát các vănbản song ngữ, sự xuất hiện canh lề chéo là rất ít, gần như không có các câu dịch theothứ tự chéo Do đó trong các thuật toán người ta ít khảo sát canh lề chéo
Giả sử chúng ta có phép canh lề văn bản song ngữ (S,T,Ar)
Trong đó: S: là văn bản nguồn
T: là văn bản đích
Trang 36Ar: là một sự canh lề văn bản.
Gọi A: là phép canh lề lý tưởng (tất cả các câu đều được canh lề chính xác)
Mức độ hoàn toàn (recall):
recall = AA r /A
Độ chính xác (precision):
precision = AA r / A r
Giá trị recall và precision từ 0 đến 1
Phép canh lề hoàn hảo khi: recall=1.0 và precision=1.0 Khi đó: A=Ar
Ví dụ: trong văn bản song ngữ có 100 cặp nhóm câu Nếu giải thuật chỉ canh
lề được 98 cặp, thì mức độ hoàn toàn (recall) =98% Trong 100 cặp được canh lề, chỉ
có 95 cặp được canh lề chính xác thì độ chính xác (precision) =95% Nếu tỉ lệ chínhxác là 95% thì tỉ lệ sai là: 100% - 95% =5%
Số câu được canh lề chính xác được tính như sau:
Số câu được canh lề đúng = recall*precision
B A D
2
(0 D 1)
Xác suất để biến cố A xảy ra khi biến cố B đã xảy ra với xác suất P(B) (và
P(B)>0) được tính theo công thức:
) (
) (
) (
B P
B A P B
A
Xác suất để biến cố A và biến cố B cùng xảy ra:
) ( ).
( ) ( ).
( ) (A B P B P A B P A P B A
P
Trang 37Nếu biến cố A và biến cố B độc lập với nhau:
) ( ).
( ) (A B P A P B
Độc lập có điều kiện: nếu biến cố A và B độc lập với nhau với điều kiện biến
cố C đã xảy ra, ta có:
) ( ).
( ) (A B C P A C P B C
P
Công thức xác suất Bayes:
) (
) ( ) ( )
(
) (
) (
A P
B P B A P A
P
A B P A
B
Trung bình và độ lệch chuẩn:
Gọi X: là biến nhận giá trị ngẫu nhiên thuộc R
P(x)=P(X=x) là xác suất để biến X nhận giá trị x Khi dó ta có:
Độ lệch (variance):
) ( ) ( ) )) ( ((
)
X E X E X
E X E X
Phân tích hồi qui sẽ giúp chúng ta thiết lập cấu trúc của mối liên hệ phụ thuộccủa một biến (gọi là biến phụ thuộc) với một hay nhiều biến khác (gọi là biến độclập); chúng ta muốn thể hiện mối liên hệ phụ thuộc giữa các biến dưới dạng toán họcbằng một phương trình nối các biến đó Phương trình đó cho phép chúng ta dự đoán
về một biến phụ thuộc trên cơ sở đã biết về các biến độc lập
Giả sử X là biến ngẫu nhiên độc lập và Y là biến ngẫu nhiên phụ thuộc vào X.Nếu chúng ta muốn ước lượng giá trị của Y bằng giá trị của biến ngẫu nhiên oX, với
là một hàm thực nào đó, thì chúng ta mắc một sai số
Trang 38S() = E[(Y - oX)2], gọi là Độ sai dự báo Vấn đề đặt ra là chọn như thếnào để cho sự ước lượng là tốt nhất, theo nghĩa S() đạt giá trị nhỏ nhất.
Định nghĩa: Nếu S() đạt giá trị nhỏ nhất khi =, nghĩa là: S()=minS(),
thì được gọi là Hàm hồi qui của Y trên X, đồ thị của được gọi là Đường hồi quicủa Y trên X
Hàm hồi qui có thể là hàm đa thức hoặc hàm hữu tỉ, hàm mũ, v.v Khi làhàm bậc nhất thì (x)=ax+b, được gọi là Hàm hồi qui tuyến tính của Y theo X, a và
b được gọi là các hệ số hồi qui tuyến tính y = ax + b còn được gọi là Phương trìnhđường thẳng hồi qui của Y theo X Khi đó, người ta nói rằng Y có hồi qui tuyến tínhtheo X
Định nghĩa: Giả sử X và Y là hai biến ngẫu nhiên trên cùng không gian mẫu
có hàm mật độ đồng thời f Với mọi xX() sao cho fX(x) > 0, đặt:
Y
E( / ) Y/x( ) Nếu X và Y liên tục,
với điều kiện chuỗi hay tích phân ở vế phải hội tụ tuyệt đối
E(Y/x) được gọi là Kỳ vọng có điều kiện của Y khi X lấy giá trị x
Biến ngẫu nhiên E(Y/X), có giá trị E(Y/x) khi X lấy giá trị x, được gọi là Kỳvọng có điều kiện của Y dối với X
Định lý: Nếu các biến ngẫu nhiên E(Y/X),Y,X,E(Y/X) và X,Y có kỳ vọng thì:
i) E[E(Y/X)] = E(Y)
ii) E[X E(Y/X)] = E(X.Y)
iii) E[Y E(Y/X)] = E([E(Y/X)] 2)
iv) Hàm : x E(Y/x) là hàm hồi qui của Y trên X
Định lý: Giả sử X và Y là hai biến ngẫu nhiên có hệ số tương quan Nếu Y
có hồi qui tuyến tính theo X thì hàm hồi qui của Y theo X là
y = (x) = E(Y/x) = ax + b,
Trang 39với:
X
Y a
Trang 40Phần 4
Phân tích giải thuật
Phần này giới thiệu những phương pháp sẽ sử dụng trong luận văn, và nhữnggiải thuật có liên quan như: cắt lấy gốc từ tiếng Anh (stemming), phân đoạn câu, canh
lề văn bản dựa vào chiều dài câu, phân đoạn từ, giải thuật Longest Sorted Sequence(LSSA), phương pháp canh lề chéo Bên cạnh đó, phần này còn giới thiệu những giảithuật khác (giải thuật canh lề dùng Confidence Band - CBA, các quyết định cảm tính(heuristics) trong giải thuật SIRM và GSA) để so sánh làm rõ tại sao lại quyết định chọnphương pháp mới Chi tiết triển khai giải thuật sẽ trình bày trong phần sau
Trong văn bản đôi khi tồn tại những từ về mặt hình thức thì chúng khác nhauchút ít (ví dụ như keyword và keywords) nhưng về ý nghĩa sử dụng trong việc đánhgiá nội dung của document thì chúng được sử dụng như nhau Những từ này thường ởdạng số nhiều (plural), danh động từ (gerund form), hay dạng hậu tố của thì quá khứ(past tense suffixes) Vấn đề đặt ra là chuyển những từ này về dạng gốc (stem) củanó
Một từ gốc (stem) là một phần của một từ (word) mà sau khi được loại bỏ cácphụ tố (affixes) (ví dụ như tiền tố-prefixes hay hậu tố-suffixes) của nó Ví dụ như mộtgốc từ “connect” có thể tồn tại ở các dạng sau: connected, connecting, connection, vàconnections
Có 4 phương cách để thực hiện stemming gồm: affix removal, table lookup,successor variety, và n-grams Table lookup là một cách đơn giả để stemming bằngcách tra một từ (word) trong bảng (table) để tìm ra từ gốc (stem) Phương pháp nàyrất đơn giản, tuy nhiên nó phụ thuộc vào dữ liệu (data) của các từ gốc (stem).Successor variety dựa vào kiến thức về ngôn ngữ học và phức tạp hơn nhiều so vớicác phương pháp khác N-grams thì dựa vào những định nghĩa về digrams và trigrams