TÓM TẮTTiếng Anh đóng vai trò quan trọng trong giao tiếp quốc tế, tuy nhiênsoạn thảo văn bản tiếng Anh một cách chuyên nghiệp là một côngviệc không hề dễ dàng với những người không sử dụ
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
_¯_
DƯƠNG THỊ PHƯƠNG MAI
LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
TP HỒ CHÍ MINH - 2017
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
_¯_
DƯƠNG THỊ PHƯƠNG MAI
LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYỄN LƯU THUỲ NGÂN
TP HỒ CHÍ MINH – 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm
ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc
Trang 4ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC MÁY TÍNH
KHOÁ LUẬN TỐT NGHIỆPTHẠC SĨ KHOA HỌC MÁY TÍNH
LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC
TIẾNG ANH
GIẢNG VIÊN HƯỚNG DẪN:
TS NGUYỄN LƯU THUỲ NGÂN
SINH VIÊN THỰC HIỆN:
DƯƠNG THỊ PHƯƠNG MAI
11, 2016
Trang 5LỜI CÁM ƠN
Tôi xin chân thành cám ơn gia đình và bạn bè đã hỗ trợ và động viêntôi rất nhiều trong thời gian thực hiện luận văn Đặc biệt, tôi xin gửilời cảm ơn chân thành nhất đến tiến sĩ Nguyễn Lưu Thùy Ngân vàtiến sĩ Nghiêm Quốc Minh đã tận tình hướng dẫn và giúp đỡ tôi hoànthành luận văn này
Trang 6TÓM TẮT
Tiếng Anh đóng vai trò quan trọng trong giao tiếp quốc tế, tuy nhiênsoạn thảo văn bản tiếng Anh một cách chuyên nghiệp là một côngviệc không hề dễ dàng với những người không sử dụng tiếng Anh nhưtiếng mẹ đẻ hoặc ngôn ngữ thứ hai, đặc biệt là viết văn bản khoa học.Nhu cầu có một hệ thống để hỗ trợ viết và học tiếng Anh là rất lớn.Xây dựng hệ thống học tiếng Anh bao gồm nhiều bước: xây dựng ngữliệu chuẩn để phục vụ nghiên cứu, nghiên cứu kỹ thuật phân tích lỗi
tự động, nghiên cứu kỹ thuật phát hiện lỗi văn phong, lỗi chính tả,lỗi ngữ pháp , xây dựng hệ thống hỗ trợ học tiếng Anh Luận vănnày tập trung nghiên cứu bước xây dựng ngữ liệu và phân tích, phânloại lỗi, một trong những bước quan trọng làm tiền đề cho việc pháttriển toàn bộ hệ thống
Trang 7Mục lục
1.1 Giới thiệu bài toán 7
1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu 8
1.2.1 Mục tiêu 8
1.2.2 Đối tượng 9
1.2.3 Phạm vi nghiên cứu 9
1.3 Ý nghĩa 9
2 CƠ SỞ LÝ THUYẾT 11 2.1 Tình hình nghiên cứu 11
2.2 METEOR 12
2.2.1 Giới thiệu 12
2.2.2 Liên kết từ trong Meteor 13
2.2.3 Chuẩn hoá ngữ liệu 14
2.2.4 Xây dựng bảng Paraphrase 15
2.2.5 Nhận xét 16
2.3 MANLI 16
2.3.1 Giới thiệu 16
2.3.2 Kiến trúc hệ thống MANLI 16
2.3.3 Nhận xét 17
2.4 GIZA++ 17
Trang 8MỤC LỤC
2.4.1 Giới thiệu 17
2.4.2 GIZA++ refined 17
2.4.3 Nhận xét 18
2.5 Nhận diện lỗi tiếng Anh của Huichao Xue và Rebecca Hwa 18
2.5.1 Giới thiệu 18
2.5.2 Phương pháp 18
2.5.3 Nhận xét 22
2.6 Support Vector Machine 22
2.6.1 Giới thiệu 22
2.6.2 Nhận xét 22
2.7 Naive Bayes 23
2.7.1 Giới thiệu 23
2.7.2 Nhận xét 23
2.8 Decision Tree 23
2.8.1 Giới thiệu 23
2.8.2 Nhận xét 24
3 XÂY DỰNG NGỮ LIỆU 25 3.1 Ngữ liệu SWA 25
3.2 Đề xuất bộ nhãn mới 27
3.3 Xây dựng ngữ liệu SWA-2 31
3.4 Ngữ liệu NUCLE 31
3.5 Ngữ liệu FCE 31
4 PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN LOẠI LỖI 36 4.1 Kiến trúc hệ thống 36
4.2 Liên kết từ 37
4.3 Phân lớp liên kết từ 37
5 THỬ NGHIỆM 39 5.1 Giới thiệu 39
5.2 Liên kết từ tự động 40
5.2.1 Thiết kế thử nghiệm 40
5.2.2 Thử nghiệm 40
Trang 9MỤC LỤC
5.2.3 Phân tích lỗi liên kết từ 41
5.3 Phân lớp liên kết từ 43
5.3.1 Thiết kế thử nghiệm 43
5.3.2 Kết quả thử nghiệm 44
5.4 So sánh với METEOR 45
5.4.1 Thiết kế thử nghiệm 45
5.4.2 Kết quả thử nghiệm 45
5.5 Thử nghiệm trên bộ ngữ liệu khác 47
6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 6.1 Những kết quả thu được 50
6.1.1 Ý nghĩa khoa học 50
6.1.2 Ý nghĩa thực tiễn 51
6.2 Hướng phát triển 51
Trang 10Danh sách hình vẽ
2.1 Ví dụ về liên kết từ trong METEOR E=Exact, S=Stem, P=Paraphrase 14
2.2 Ví dụ về nhận diện lỗi tiếng Anh 20
2.3 Ví dụ về nhập nhằng trong bước nhận diện những phép biến đổi
3.1 Ví dụ về một cặp câu được gán nhãn lỗi trong ngữ liệu SWA 25
3.2 Bộ nhãn được sử dụng trong ngữ liệu SWA 27
5.3 Liên kết từ trong NUCLE - Ví dụ 1 48
5.4 Liên kết từ trong NUCLE - Ví dụ 2 48
Trang 11Chương 1
TỔNG QUAN
1.1 Giới thiệu bài toán
Tiếng Anh hiện nay đóng một vai trò quan trọng trong giao tiếp quốc tế, đâycũng là một điều kiện quan trọng để tiếp cận, cập nhật các nguồn tri thức từkhắp nơi trên thế giới Trong hầu hết các hội nghị quốc tế ở tất cả các lĩnh vực,tiếng Anh là ngôn ngữ bắt buộc trong việc viết bài báo khoa học và trình bày.Tuy nhiên đối với người không bản xứ (non-native speakers) việc viết tiếng Anhmột cách mạch lạc luôn là một thách thức không nhỏ
Một số chương trình máy tính hiện nay có thể hỗ trợ sửa lỗi chính tả và lỗingữ pháp tự động (Microsoft Word), tuy nhiên vẫn chưa đáp ứng được nhu cầucủa người dùng chuyên nghiệp Nguyên nhân là do những lỗi của người viết rất
đa dạng, trong khi máy tính chỉ có thể nhận diện được một phần nhỏ Một số lỗimáy tính chỉ ra không hẳn là lỗi mà có thể do người dùng sử dụng một từ mới,không có trong từ điển mà phần mềm đó dùng Ví dụ: requisitioner (người đặtđơn hàng) bị phần mềm Microsoft Word đánh dấu là một từ lỗi
Để tránh những lỗi như trên thì thường những bài viết trước khi gửi đi sẽqua một bước gọi là đọc sửa lỗi (proofread) Đây là một bước cần thiết để nângcao chất lượng cho bài viết, bước này được thực hiện bởi người bản xứ (nativespeakers) Tuy nhiên, chi phí của việc đọc sửa lỗi thường rất cao, do đó nhu cầu
có chương trình hỗ trợ viết và sửa lỗi tiếng Anh một cách tự động là rất lớn Xâydựng chương trình này bao gồm nhiều bước: xây dựng ngữ liệu chuẩn để phục
Trang 12vụ nghiên cứu, nghiên cứu kỹ thuật phân tích lỗi tự động, nghiên cứu kỹ thuậtphát hiện lỗi văn phong, lỗi chính tả, lỗi ngữ pháp , tích hợp và xây dựng toàn
bộ hệ thống
Bước xây dựng ngữ liệu và phân tích, phân loại lỗi là bước quan trọng, và kếtquả của bước này có thể ảnh hưởng đến độ chính xác của toàn bộ chương trình.Việc phân tích và phân loại lỗi có thể cung cấp những số liệu thống kê có ích chongười viết, ví dụ: phân loại lỗi, các lỗi thường gặp, tỉ lệ các lỗi thường gặp Đểlàm được những số liệu thống kê như trên đòi hỏi phải có kĩ thuật so khớp giữavăn bản gốc và văn bản đã sửa lỗi, từ đó phân loại và gán nhãn các điểm khácbiệt Các bộ dữ liệu được liên kết và gán nhãn này nếu được xây dựng tốt sẽ giúpcho việc phát triển các phương pháp mô hình hóa và tự động hóa các luật chỉnhsửa lỗi cú pháp hoặc lỗi văn phong Từ đó, các luật này sẽ được tích hợp vào hệthống hỗ trợ học tiếng Anh Đồng thời, việc kết hợp sử dụng tập ngữ liệu chuẩn
và các kỹ thuật xử lý ngôn ngữ sẽ cho phép chúng ta đánh giá được mức độ hữuích của các luật chỉnh sửa trong thực tế
Về việc so khớp hai văn bản, luận văn này sử dụng phương pháp liên kết từ
tự động, sau đó phân loại liên kết từ bằng các bộ phân lớp dựa trên máy họcthống kê Bài toán có thể được phát biểu như sau:
• Input: hai văn bản
– Văn bản gốc được viết bởi người không bản xứ
– Văn bản được chỉnh sửa bởi chuyên gia là người bản xứ
• Output: hai văn bản đã được liên kết từ (word aligned) và phân lớp liênkết từ (alignment classified)
1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.2.1 Mục tiêu
• Mục tiêu 1: Mục tiêu tổng quát của đề tài hướng đến việc xây dựng bộ ngữliệu để dùng trong việc nghiên cứu các phương pháp / kĩ thuật sửa lỗi tựđộng hoặc hỗ trợ học tiếng Anh
Trang 13• Mục tiêu 2: Mục tiêu cụ thể là nghiên cứu phương pháp liên kết từ và phânloại liên kết từ tự động trong ngữ cảnh hỗ trợ học tiếng Anh.
Việc nghiên cứu các phương pháp sửa lỗi tự động hoặc xây dựng hệ thống hỗtrợ học tiếng Anh dựa trên thống kê đòi hỏi phải có bộ ngữ liệu được liên kết từ
đủ lớn Những bộ ngữ liệu hiện đang có sẵn trên thế giới chưa đáp ứng đủ nhucầu nghiên cứu toàn diện cho mục đích sửa lỗi tự động cho các bài báo khoa họchoặc hỗ trợ học tiếng Anh Trong khi đó, do tốn nhiều chi phí nên bộ ngữ liệuđược liên kết bằng tay không đủ lớn, điều này đòi hỏi cần phải có phương phápliên kết và phân lớp từ tự động để có thể xây dựng một bộ ngữ liệu lớn phục vụđược nhu cầu nghiên cứu
1.2.2 Đối tượng
• Các công cụ liên kết từ và các phương pháp phân lớp bằng máy học
• Văn bản khoa học được viết bằng tiếng Anh, gồm hai bản: bản chưa chỉnhsửa và bản được chỉnh sửa bằng tay bởi chuyên gia người bản xứ
1.2.3 Phạm vi nghiên cứu
Nội dung đề tài tập trung vào các bài báo khoa học được viết bằng tiếng Anhtrong hai lĩnh vực nghiên cứu là thị giác máy tính (computer vision) và xử lýngôn ngữ tự nhiên (natural language processing)
1.3 Ý nghĩa
Việc xây dựng được bộ ngữ liệu chuẩn để phục vụ nghiên cứu, ngoài việc sử dụngtrong ứng dụng hỗ trợ viết và học tiếng Anh, nó còn có thể được sử dụng trongcác ứng dụng sửa lỗi tự động và có thể dùng cho việc so sánh các công cụ này vớinhau Hiện nay trên thế giới có một số ngữ liệu được xây dựng để phục vụ chonghiên cứu bắt lỗi ngữ pháp, chính tả như bộ ngữ liệu NUCLE, và NICT CLE.Tuy nhiên chưa có bộ ngữ liệu cho các bài báo khoa học đáp ứng nhu cầu nghiêncứu toàn diện các kỹ thuật hỗ trợ cho việc học tiếng Anh
Trang 14Về bài toán liên kết từ, có khá nhiều các nghiên cứu và công cụ có sẵn, tuynhiên dành cho mục đích xây dựng hệ thống hỗ trợ học tiếng Anh thì đây còn làmột vấn đề khá mới Hơn nữa, việc nghiên cứu, tổng hợp và phân tích các phươngpháp phần nào sẽ giúp hệ thống hóa các phương pháp liên kết từ hiện có.Kết quả của đề tài này sẽ giúp xây dựng được bộ dữ liệu tốt phục vụ nghiêncứu trên những ứng dụng như sửa lỗi tự động, hỗ trợ viết và học tiếng Anh.
Trang 15My Word).
Về bài toán liên kết từ cho tiếng Anh, có khá nhiều công trình nghiên cứu vềvấn đề này Có một số công cụ liên kết từ tự động đã được xây dựng và sử dụngrộng rãi như GIZA++ ([4]), Berkeley Aligner ([5]) Tuy nhiên, tùy theo loại ứngdụng cụ thể muốn xây dựng mà bài toán liên kết từ có thể khác nhau ít haynhiều Ví dụ, bài toán liên kết từ trong dịch máy thống kê có thể khác hoàn toànvới bài toán liên kết từ sử dụng trong suy diễn ngôn ngữ tự nhiên (NLI - naturallanguage inference)
Liên quan đến bài toán liên kết từ trên dữ liệu đơn ngữ (monolingual ment) có bài báo của Bouamor ([6]), tác giả sử dụng 3 kĩ thuật: liên kết từ dựa
Trang 16align-trên máy học thống kê và không sử dụng kiến thức về ngôn ngữ học, liên kết từdựa trên ngữ nghĩa có sử dụng kiến thức ngôn ngữ học, và liên kết từ dựa trên
sự tương đồng về cấu trúc cú pháp Bài báo của X.Yao và Durme (MANLI, [7])
sử dụng những kỹ thuật đơn giản như part-of-speech tags và từ điển WordNetnhưng hiệu quả trong việc liên kết từ trên dữ liệu đơn ngữ, đặc biệt là hiệu suấtrất cao, thích hợp sử dụng cho khối lượng dữ liệu lớn Ngoài ra, còn một số công
cụ được xây dựng với mục đích khác nhưng có tích hợp tính năng liên kết từ tựđộng Ví dụ METEOR ([8]) là một độ đo để đánh giá chất lượng các bản dịchmáy bằng cách liên kết bản dịch máy và bản dịch tham khảo, sau đó tính điểmdựa trên các liên kết này
Sau đây chúng tôi tóm tắt và phân tích một số phương pháp liên kết từ vàphân lớp liên kết từ được tham khảo đến trong luận văn
2.2.1 Giới thiệu
METEOR, viết tắt của Metric for Evaluation of Translation with Explicit ORdering,
là một công cụ được xây dựng như một độ đo để đánh giá chất lượng các bảndịch máy
Meteor đánh giá chất lượng bản dịch máy bằng cách liên kết các câu trongbản dịch máy với bản dịch tham khảo (reference translation) do người dịch, sau
đó tính điểm tương đồng (lexical similarity score) giữa các câu trong hai bản dịchnày Nếu có nhiều hơn một bản dịch tham khảo, điểm này sẽ được tính trên từngbản dịch máy và bản dịch tham khảo, và điểm cao nhất sẽ được ghi nhận Chấtlượng của toàn bộ bản dịch máy được tính dựa trên điểm của từng câu trong bảndịch máy đó
Như mô tả ở trên, việc đánh giá chất lượng bản dịch máy sẽ được thực hiệnqua hai bước: bước một là liên kết từ giữa bản dịch máy và bản dịch tham khảo,bước hai là tính điểm tương đồng giữa hai bản dịch này dựa vào các liên kết từ ởbước một Với mục đích là nghiên cứu các phương pháp liên kết từ có liên quan,luận văn này chỉ tập trung nghiên cứu bước một là bước liên kết từ giữa bản dịchmáy và bản dịch tham khảo
Trang 17Phần dưới sẽ trình bày phương pháp liên kết từ trong Meteor, riêng phần thửnghiệm và đánh giá kết quả thử nghiệm đối với Meteor sẽ được trình bày trongChương 6.
2.2.2 Liên kết từ trong Meteor
Cho mỗi cặp dịch máy - dịch tham khảo, Meteor xây dựng các liên kết từ dựatrên các loại so sánh tương đồng sau:
Exact: Các từ giữa hai văn bản được khớp (match) khi từ loại dạng đã chia(surface form) là giống nhau
Stem: Các từ được đưa về dạng nguyên mẫu (stem) bằng Snowball Stemmer
và khớp khi dạng nguyên mẫu của chúng giống nhau
Synonym: Các từ được khớp nếu chúng cùng là từ đồng nghĩa của một bộ
từ đồng nghĩa dựa theo cơ sở dữ liệu WordNet
Paraphrase: Các từ được khớp nếu chúng được liệt kê là paraphrase với nhautrong bảng paraphrase Bảng paraphrase này sẽ được mô tả rõ hơn ở phần sau.Mỗi kiểu so sánh tương đồng như trên sẽ được cài đặt thành một bước khớp
từ (word matcher) trong Meteor, theo đúng thứ tự ở trên: Exact, Stem, Synonym
và cuối cùng là Paraphrase Tại mỗi bước, Meteor sẽ xác định tất cả các từ có thểkhớp với nhau giữa hai bản dịch dựa trên những từ không khớp nhau từ nhữngbước trước Sau đó, liên kết từ sẽ được xác định bằng cách tìm ra tập con lớnnhất của các cặp từ mà thoả những tiêu chí như sau:
1 Mỗi từ trong từng câu có từ 0-1 matches
2 Số lượng từ được match trong cả hai câu là lớn nhất
3 Số lượng chunk là nhỏ nhất Một chunk được định nghĩa là một dãy cácliên kết từ liên tiếp nhau và có thứ tự giống như nhau trong cả hai câu
4 Tổng khoảng cách giữa các từ match với nhau trong hai câu là nhỏ nhất.Nghĩa là nếu một từ/ngữ trong câu này có thể match với nhiều từ/ngữtrong câu kia thì từ/ngữ nào xuất hiện tại vị trí gần với từ kia hơn sẽ ưutiên được chọn
Trang 18Sau khi chạy Meteor để liên kết từ ta được kết quả như Hình2.1, riêng từ we,
will và the không liên kết với từ nào khác và được xem là Unaligned Lưu ý, câu
trong bản dịch máy có chứa 2 từ we, theo tiêu chí số 4 thì từ we thứ 2 (nằm ở
vị trí số 6) gần với vị trí của từ we trong câu dịch tham khảo hơn nên Meteor sẽ
liên kết hai từ này với nhau
As we will describe below , we additionally use QuestionBank in experiments
As described below , we also use QuestionBank in the experiments
Hình 2.1: Ví dụ về liên kết từ trong METEOR E=Exact, S=Stem, P=Paraphrase
2.2.3 Chuẩn hoá ngữ liệu
Để tăng tính chính xác khi liên kết các từ giữa hai bản dịch với nhau, Meteor
có một bước chuẩn hoá ngữ liệu trước khi liên kết từ Bước chuẩn hoá này làm
những việc như sau:
• Tách từ và đưa tất cả các từ về dạng chữ in thường (non-capitalized)
• Xoá các dấu gạch nối trong các từ nối
Ví dụ: far-off → far off
• Xoá dấu chấm trong các từ viết tắt
Ví dụ: U.N → UN
Xem xét cụm từ "U.S.-based organization", khi chạy qua bước chuẩn
hoá ngữ liệu này sẽ thành "US based organization" Sau bước tiền xử
Trang 19lý này, tất cả các cụm từ ở dưới sẽ khớp với nhau, do đó làm tăng độchính xác khi mà các câu trong hai bản dịch có phong cách viết khác nhau.U.S.-based organization
mà cùng là bản dịch của ngữ f thì được xem là paraphrase của e1 với xác suất
P (f |e1).P (e2|f ) Xác suất e2 là paraphrase của e1 sẽ là:
P (e2|e1) = X
f
P (f |e1).P (e2|f )
Để tăng độ chính xác cho việc rút trích paraphrase này, có nhiều kĩ thuật được
áp dụng Những kĩ thuật sau được áp dụng cho từng mẫu paraphrase (e1, f, e2):
• Loại những paraphrase có xác suất rất thấp (P (f |e1).P (e2|f ) < 0.001)
• Loại những paraphrase mà e1, f , hay e2 có chứa dấu câu
• Loại những paraphrase mà e1, f , hay e2 chỉ chứa từ chức năng (functionwords)
Những kĩ thuật sau được áp dụng cho mỗi cặp paraphrase (e1, e2) sau khi tínhtổng xác suất tất cả các mẫu trong ngữ liệu:
• Loại những paraphrase có xác suất rất thấp (P (e2|e1) < 0.01)
• Loại những paraphrase mà e2 chứa trong e1
Trang 202.2.5 Nhận xét
Bộ liên kết từ trong Meteor được xây dựng cho liên kết từ đơn ngữ (monolingualalignment), có tính tới các yếu tố về hình thái từ và paraphrase, đặc biệt là chongôn ngữ tiếng Anh Do đó, Meteor khá phù hợp cho bài toán liên kết từ màchúng tôi đang nghiên cứu
2.3.1 Giới thiệu
MANLI là một công cụ liên kết từ được xây dựng để giải quyết vấn đề liên kết
từ trong Suy diễn Ngôn ngữ tự nhiên (Natural Language Inference - NLI).Vấn đề của Suy diễn Ngôn ngữ tự nhiên có thể tóm tắt lại đó là xác định mộtngữ giả thuyết H có phải được suy diễn ra từ một ngữ tiền đề P hay không
Ví dụ: Để nhận ra rằng câu Kennedy was killed có thể được suy diễn từ câuJFK was assassinated thì cần nhận ra mối quan hệ giữa Kennedy và JFK, giữakilled và assassinated
Do đó, hầu hết những cách tiếp cận cho bài toán này đều dựa vào liên kết từ,nghĩa là thiết lập những liên kết giữa những từ tương ứng với nhau nằm trong
H và P Để làm được điều này, MANLI sử dụng biểu diễn liên kết dựa trên cụm
từ, khai thác những kiến thức ngôn ngữ học có liên quan, và sử dụng bộ dữ liệuhuấn luyện có giám sát được xây dựng dành cho liên kết từ trong lĩnh vực NLI
2.3.2 Kiến trúc hệ thống MANLI
Để giải quyết vấn đề như trên, hệ thống MANLI được xây dựng bao gồm bốnthành phần:
1 Hàm biểu diễn liên kết dựa trên cụm từ
2 Hàm tính điểm cho các liên kết dựa trên các đặc trưng
3 Bộ giải mã sử dụng phương pháp mô phỏng để tìm ra những liên kết từ cóđiểm cao
Trang 214 Perceptron learning để tối ưu hoá các trọng số đặc trưng
MANLI được ghi nhận có kết quả tốt hơn các công cụ liên kết từ hiện tại, cụthể là GIZA++, trên dữ liệu Recognizing Textual Entailment (RTE2)
2.3.3 Nhận xét
MANLI được xây dựng để giải quyết vấn đề cho bài toán Suy diễn Ngôn ngữ
tự nhiên (NLI), vốn cũng có một số điểm tương đồng với bài toán mà chúng tôiđang nghiên cứu nên MANLI cũng là một công cụ khá phù hợp để sử dụng chobài toán này
2.4.1 Giới thiệu
GIZA++ là công cụ phổ biến nhất để liên kết từ trong lĩnh vực dịch máy thống
kê Nó được sử dụng để huấn luyện Mô hình IBM 1-5 và mô hình liên kết từHidden Markov Nó được xây dựng cho trường hợp đa ngôn ngữ và không có xuhướng thiên về liên kết các chuỗi giống nhau
2.4.2 GIZA++ refined
Khi sử dụng GIZA++ để liên kết từ, kết quả xuất ra chỉ là các liên kết từ 1 − n,trong khi kết quả cần có là tạo ra được các liên kết m × n Do đó, chúng tôi làmcác bước sau đây:
Đầu tiên, chúng tôi sử dụng phương pháp liên kết từ mặc định 1 − n khi huấnluyện mô hình Sau đó, để tạo ra các liên kết m × n, chúng tôi tiếp tục các bướcsau:
• Chạy mô hình hai lần riêng biệt trên hai hướng: một hướng là liên kết từvăn bản gốc tới văn bản chỉnh sửa, và ngược lại, liên kết từ văn bản chỉnhsửa tới văn bản gốc
• Sử dụng heuristics grow-diag-final của Moses để tổng hợp hai kết quả ởbước trên lại với nhau
Trang 22Kết quả cuối cùng được gọi là GIZA++ refined và chúng tôi sẽ dùng thuật ngữnày từ đoạn này trở về sau.
2.4.3 Nhận xét
GIZA++ là công cụ liên kết từ được xây dựng cho lĩnh vực dịch máy thống kê vàcho trường hợp đa ngôn ngữ Tuy nó không được xây dựng nhằm để giải quyếtbài toán mà luận văn đang nghiên cứu nhưng đây là công cụ liên kết từ phổ biếnnhất hiện nay và để có thể so sánh toàn diện, chúng tôi cũng chạy thử nghiệmvới GIZA++ Kết quả thử nghiệm sẽ được trình bày trong Chương 6 bên dưới
2.5 Nhận diện lỗi tiếng Anh của Huichao Xue
và Rebecca Hwa
2.5.1 Giới thiệu
Công trình này được trình bày trong bài báo Improved Correction Detection inRevised ESL Sentences ([9]), nghiên cứu và cải tiến phương pháp nhận diện lỗitiếng Anh, nó được phát triển từ bài báo Correction Detection and Error TypeSelection as an ESL Educational Aid ([10]) Nghiên cứu này tập trung vào haiviệc chính: một là phát hiện lỗi tiếng Anh và hai là phân loại các lỗi tiếng Anhnày từ những bài luận tiếng Anh của những sinh viên sử dụng tiếng Anh như làngoại ngữ Hai bài báo trích dẫn ở trên đều dùng bộ ngữ liệu Cambridge LearnerCorpus (CLC) ([11]) Bộ ngữ liệu này gồm khoảng 1,200 bài luận tiếng Anh cùngvới các lỗi đã được chỉnh sửa và phân loại bởi những giáo viên người bản ngữ
Bộ ngữ liệu này hiện có 75 nhãn lỗi, bao gồm lỗi về chia thì động từ, thứ tự từ,lỗi chính tả, etc
2.5.2 Phương pháp
Khi so sánh một câu tiếng Anh gốc do sinh viên viết và câu đã được sửa lỗi,người ta nhận thấy rằng mỗi lỗi được sửa có thể được phân tích ra thành một bộ
Trang 23Description (Code) Sample and Correction
Unnecessary (U) July is the period of time that suits me best.
July is the time that suits me best.
Incorrect verb tense (TV) She gave me autographs and talk really nicely
She gave me autographs and talked really nicely.
Countability error (C) Please help them put away their stuffs.
Please help them put away their stuff.
Incorrect word order (W) I would like to know what kind of clothes should I bring.
I would like to know what kind of clothes I should bring Incorrect negative (X) We recommend you not to go with your friends.
We recommend you don’t go with your friends.
Spelling error (S) Our music lessons are speccial.
Our music lessons are special.
Wrong form used (F) In spite of think I did well, I had to reapply.
In spite of thinking I did well, I had to reapply.
Agreement error (AG) I would like to take some picture of beautiful scenery.
I would like to take some pictures of beautiful scenery Replace (R) The idea about going to Maine is common.
The idea of going to Maine is common.
Missing (M) Sometimes you surprised when you check the balance.
Sometimes you are surprised when you check the balance Incorrect argument structure (AS) How much do I have to bring the money?
How much money do I have to bring?
Wrong Derivation (D) The arrive of every student is a new chance.
The arrival of every student is a new chance.
Wrong inflection (I) I enjoyded it a lot.
I enjoyed it a lot.
Inappropriate register (L) The girls’d rather play table tennis or badminton.
The girls would rather play table tennis or badminton Idiomatic error (ID) The level of life in the USA is similar to the UK.
The cost of living in the USA is similar to the UK.
Bảng 2.1: Bộ nhãn lỗi của bài báo
gồm những phép biến đổi cơ bản (basic edits) như là: thêm từ (word insertions),xoá từ (word deletion) và thế từ (word substitutions)
Ví dụ: Xem Hình2.2 bên dưới, lỗi "to change"→ "changing" là tổng hợp củaviệc xoá từ to và thế từ change thành changing, lỗi "moment"→ "minute" là mộtphép thế từ Do đó, chúng ta có thể xây dựng hệ thống để nhận diện lỗi bằngcách thực hiện hai bước sau: (1) nhận diện những phép biến đổi cơ bản (basicedits) trong câu sửa lỗi, và (2) tổng hợp những phép biến đổi cơ bản mà chúngđều sửa cùng một lỗi
Tuy nhiên, trong thực tế cách tiếp cận hai bước như thế này có thể gây ranhận diện sai do sự nhập nhằng Sự nhập nhằng này có thể từ một trong hai
Trang 24Hình 2.2: Ví dụ về nhận diện lỗi tiếng Anh
bước Ví dụ về sự nhập nhằng ở bước một, xem Hình 2.3 bên dưới Các phépbiến đổi cơ bản được chương trình nhận diện ra ở đây là thế từ (because → for),thế từ (of → repairs) và thêm từ (reparations), trong khi các phép biến đổi nàyđúng ra phải được nhận diện là thêm từ (because), thế từ (of → for) và thế từ(reparations → repairs) Lỗi này xảy ra do thuật toán Levenshtein chỉ cố gắnggiảm thiểu số lượng phép biến đổi, mà không quan tâm các phép biến đổi này cómang ý nghĩa trong ngôn ngữ học hay không
Hình 2.3: Ví dụ về nhập nhằng trong bước nhận diện những phép biến đổi cơ bản
Ví dụ về sự nhập nhằng ở bước hai, xem Hình2.4 và 2.5 bên dưới Hình2.4
mô tả những trường hợp lỗi khi mà các phép biến đổi cơ bản cùng sửa một lỗi,nhưng bước tổng hợp lại không nhận diện ra được, và không thể gom nhóm cácphép biến đổi này được Hình 2.5 mô tả trường hợp lỗi ngược lại, khi các phépbiến đổi cơ bản không cùng sửa một lỗi, nhưng bước tổng hợp lại xem chúngcùng sửa một lỗi và gom nhóm chúng lại với nhau Lỗi này là do trong bước tổnghợp những phép biến đổi cơ bản, công trình nghiên cứu trước đó của Swanson
và Yamangilapplied đã áp dụng một heuristic về khoảng cách - những phép biếnđổi nào mà gần nhau sẽ được gom nhóm lại với nhau
Theo bước phân tích lỗi, những lỗi như trên làm cho bước nhận diện lỗi sai30% và 75% việc nhận diện sai tới từ bước hai: bước tổng hợp các phép biến đổi
Trang 25Hình 2.4: Ví dụ về nhập nhằng trong bước tổng hợp những phép biến đổi cơ bản
Hình 2.5: Ví dụ về nhập nhằng trong bước tổng hợp những phép biến đổi cơ bản
cơ bản Do đó, để tăng độ chính xác của toàn bộ hệ thống, nghiên cứu này tậptrung vào xây dựng một bộ phân lớp cho bước tổng hợp các phép biến đổi cơbản
Dựa vào việc phân tích lỗi, việc quyết định những phép biến đổi cơ bản cóliên quan với nhau hay không sẽ phụ thuộc vào ngữ cảnh Từ nhận xét đó, tác giảhuấn luyện bộ phân lớp nhị phân Maximum Entropy dựa trên những đặc trưngrút trích được từ những ngữ cảnh có liên quan cho các phép biến đổi cơ bản.Bảng bên dưới mô tả cho các đặc trưng trong bộ phân lớp này Những đặctrưng này dùng để xác định: (A) việc tổng hợp hai phép biến đổi cơ bản có trùngkhớp với một lỗi thông thường hay không và (B) một phép biến đổi cơ bản cóchỉ ra một lỗi đơn lẻ hay không
Type Name Description
Bộ từ trong câu gốc của những phép biến đổi cơ bản này có giống bộ từ trong câu chỉnh sửa hay không.
Nếu câu gốc và câu chỉnh sửa có chung một bộ từ, thì có thể là tất cả những phép biến đổi này nhằm để sửa lỗi thứ tự từ (word order).
Cụm từ này bao gồm hai từ được chỉnh sửa.
Bảng 2.2: Các đặc trưng được sử dụng trong bộ phân lớp
Những lỗi được gán nhãn một cách rõ ràng được rút trích từ một vài mẫutrong bộ ngữ liệu sẽ được dùng để huấn luyện cho bộ phân lớp này Đầu tiên,
Trang 26những phép biến đổi cơ bản sẽ được rút trích ra, sau đó nếu hai phép biến đổiliên tiếp nhau cần được gom nhóm lại, nó sẽ được đánh dấu là True, ngược lại làFalse.
2.5.3 Nhận xét
Bài toán của Rebecca và Huichao Xue đang giải quyết tương tự như bài toánđược nghiên cứu trong luận văn này, tuy nhiên phương pháp thực hiện khácnhau Điều này chứng tỏ đây là một vấn đề được nhiều người quan tâm nghiêncứu và cũng đã đạt được một số kết quả nhất định Như có đề cập trong Chương
2, chúng tôi thực hiện một số thử nghiệm trên bộ ngữ liệu NUCLE mà Rebecca
đã sử dụng để so sánh kết quả của hai phương pháp với nhau Kết quả này sẽđược trình bày chi tiết trong Chương 6
2.6 Support Vector Machine
2.6.1 Giới thiệu
Support Vector Machine (SVM) là một mô hình phân lớp có giám sát trong lĩnhvực máy học SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng thành hailớp khác nhau Cho một bộ dữ liệu huấn luyện, mỗi phần tử được gán vào mộttrong hai lớp, thuật toán SVM sẽ xây dựng một mô hình để gán những phần tửmới vào một trong hai lớp đó
Về ý tưởng thì SVM sử dụng thủ thuật để ánh xạ tập dữ liệu ban đầu vàokhông gian nhiều chiều hơn Khi đã ánh xạ sang không gian nhiều chiều, SVM
sẽ xem xét và chọn ra siêu phẳng phù hợp nhất để phân lớp tập dữ liệu đó Mộtcách trực quan để phân loại tốt nhất thì phải xác định siêu phẳng nằm ở càng
xa các điểm dữ liệu của tất cả các lớp càng tốt (gọi là hàm lề), vì nói chung lềcàng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé
2.6.2 Nhận xét
Support Vector Machine là một trong những mô hình phân lớp tiên tiến nhấthiện nay, cho kết quả phân lớp khá cao trên nhiều bài toán Tuy nhiên theo như
Trang 27ghi nhận thì nhược điểm của SVM là tốc độ xử lý khá chậm, nên trên dữ liệu lớnthì thời gian chờ rất lâu.
2.7 Naive Bayes
2.7.1 Giới thiệu
Naive Bayes là mô hình phân lớp xác suất dựa vào các định lý Bayes với giả thiếtcác đặc trưng hoàn toàn độc lập nhau, nghĩa là giá trị của một đặc trưng cụ thểnào đó sẽ độc lập với giá trị của những đặc trưng khác Ví dụ: một loại trái cây
có thể được xem là một trái cam nếu nó màu cam, tròn và đường kính khoảng10cm Mô hình Naive Bayes xem mỗi đặc trưng này đóng góp một cách độc lậpvào xác suất để xác định loại trái cây này là cam, không quan tâm tới việc cóthể có sự tương quan giữa màu sắc, hình dạng hay đường kính của trái cây
2.7.2 Nhận xét
Ưu điểm của Naive Bayes là đơn giản, chỉ yêu cầu dữ liệu huấn luyện nhỏ, thờigian thực hiện nhanh và có kết quả khá tốt trong phần lớn các trường hợp Tuynhiên nhược điểm của nó là độ chính xác sẽ giảm nếu thực sự các đặc trưng phụthuộc lẫn nhau chứ không hoàn toàn độc lập
2.8 Decision Tree
2.8.1 Giới thiệu
Decision Tree (Cây quyết định) là một phương pháp được sử dụng rộng rãi trongdata mining Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dựbáo (predictive model), mục đích là để tạo ra một mô hình mà có thể dự đoánđược giá trị mục tiêu dựa vào nhiều giá trị input ban đầu Mỗi một nút trong(interior node) tương ứng với một biến đầu vào, đường nối giữa nó với nút concủa nó thể hiện một giá trị cụ thể cho biến đó, mỗi nút lá đại diện cho giá trị dựđoán của biến mục tiêu
Trang 28Học bằng cây quyết định cũng là một phương pháp thông dụng trong datamining Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các nút lá đạidiện cho các phân lớp còn nhánh đại diện cho các kết hợp của các thuộc tínhdẫn tới phân lớp đó Một cây quyết định có thể được học bằng cách chia tập hợpnguồn thành các tập con dựa vào giá trị của thuộc tính Quá trình này được lặplại một cách đệ quy cho mỗi tập con được sinh ra Quá trình đệ quy hoàn thànhkhi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loạiđơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Quá trình quy nạptop-down này là một ví dụ của thuật toán tham lam, và hiện nay nó là chiến lượcphổ biến nhất cho việc học cây quyết định từ dữ liệu.
2.8.2 Nhận xét
Cây quyết định là một mô hình dễ hiểu, có thể xử lý tốt dữ liệu lớn trong thờigian ngắn Tuy nhiên nhược điểm của cây quyết định là đôi khi nó có thể tạo ranhững cây quá phức tạp mà lại không tổng quát hoá được bộ dữ liệu huấn luyện(overfitting)