LIÊN kết từ tự ĐỘNG CHO mục ĐÍCH hỗ TRỢ học TIẾNG ANH

TÓM TẮTTiếng Anh đóng vai trò quan trọng trong giao tiếp quốc tế, tuy nhiênsoạn thảo văn bản tiếng Anh một cách chuyên nghiệp là một côngviệc không hề dễ dàng với những người không sử dụ

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

_¯_

DƯƠNG THỊ PHƯƠNG MAI

LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

TP HỒ CHÍ MINH - 2017

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

_¯_

DƯƠNG THỊ PHƯƠNG MAI

LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC TIẾNG ANH

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYỄN LƯU THUỲ NGÂN

TP HỒ CHÍ MINH – 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm

ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

Trang 4

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC MÁY TÍNH

KHOÁ LUẬN TỐT NGHIỆPTHẠC SĨ KHOA HỌC MÁY TÍNH

LIÊN KẾT TỪ TỰ ĐỘNG CHO MỤC ĐÍCH HỖ TRỢ HỌC

TIẾNG ANH

GIẢNG VIÊN HƯỚNG DẪN:

TS NGUYỄN LƯU THUỲ NGÂN

SINH VIÊN THỰC HIỆN:

DƯƠNG THỊ PHƯƠNG MAI

11, 2016

Trang 5

LỜI CÁM ƠN

Tôi xin chân thành cám ơn gia đình và bạn bè đã hỗ trợ và động viêntôi rất nhiều trong thời gian thực hiện luận văn Đặc biệt, tôi xin gửilời cảm ơn chân thành nhất đến tiến sĩ Nguyễn Lưu Thùy Ngân vàtiến sĩ Nghiêm Quốc Minh đã tận tình hướng dẫn và giúp đỡ tôi hoànthành luận văn này

Trang 6

TÓM TẮT

Tiếng Anh đóng vai trò quan trọng trong giao tiếp quốc tế, tuy nhiênsoạn thảo văn bản tiếng Anh một cách chuyên nghiệp là một côngviệc không hề dễ dàng với những người không sử dụng tiếng Anh nhưtiếng mẹ đẻ hoặc ngôn ngữ thứ hai, đặc biệt là viết văn bản khoa học.Nhu cầu có một hệ thống để hỗ trợ viết và học tiếng Anh là rất lớn.Xây dựng hệ thống học tiếng Anh bao gồm nhiều bước: xây dựng ngữliệu chuẩn để phục vụ nghiên cứu, nghiên cứu kỹ thuật phân tích lỗi

tự động, nghiên cứu kỹ thuật phát hiện lỗi văn phong, lỗi chính tả,lỗi ngữ pháp , xây dựng hệ thống hỗ trợ học tiếng Anh Luận vănnày tập trung nghiên cứu bước xây dựng ngữ liệu và phân tích, phânloại lỗi, một trong những bước quan trọng làm tiền đề cho việc pháttriển toàn bộ hệ thống

Trang 7

Mục lục

1.1 Giới thiệu bài toán 7

1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu 8

1.2.1 Mục tiêu 8

1.2.2 Đối tượng 9

1.2.3 Phạm vi nghiên cứu 9

1.3 Ý nghĩa 9

2 CƠ SỞ LÝ THUYẾT 11 2.1 Tình hình nghiên cứu 11

2.2 METEOR 12

2.2.1 Giới thiệu 12

2.2.2 Liên kết từ trong Meteor 13

2.2.3 Chuẩn hoá ngữ liệu 14

2.2.4 Xây dựng bảng Paraphrase 15

2.2.5 Nhận xét 16

2.3 MANLI 16

2.3.2 Kiến trúc hệ thống MANLI 16

2.4 GIZA++ 17

Trang 8

MỤC LỤC

2.4.2 GIZA++ refined 17

2.5 Nhận diện lỗi tiếng Anh của Huichao Xue và Rebecca Hwa 18

2.5.2 Phương pháp 18

2.6 Support Vector Machine 22

2.7 Naive Bayes 23

2.8 Decision Tree 23

3 XÂY DỰNG NGỮ LIỆU 25 3.1 Ngữ liệu SWA 25

3.2 Đề xuất bộ nhãn mới 27

3.3 Xây dựng ngữ liệu SWA-2 31

3.4 Ngữ liệu NUCLE 31

3.5 Ngữ liệu FCE 31

4 PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN LOẠI LỖI 36 4.1 Kiến trúc hệ thống 36

4.2 Liên kết từ 37

4.3 Phân lớp liên kết từ 37

5 THỬ NGHIỆM 39 5.1 Giới thiệu 39

5.2 Liên kết từ tự động 40

5.2.1 Thiết kế thử nghiệm 40

5.2.2 Thử nghiệm 40

Trang 9

MỤC LỤC

5.2.3 Phân tích lỗi liên kết từ 41

5.3 Phân lớp liên kết từ 43

5.3.2 Kết quả thử nghiệm 44

5.4 So sánh với METEOR 45

5.4.2 Kết quả thử nghiệm 45

5.5 Thử nghiệm trên bộ ngữ liệu khác 47

6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50 6.1 Những kết quả thu được 50

6.1.1 Ý nghĩa khoa học 50

6.1.2 Ý nghĩa thực tiễn 51

6.2 Hướng phát triển 51

Trang 10

Danh sách hình vẽ

2.1 Ví dụ về liên kết từ trong METEOR E=Exact, S=Stem, P=Paraphrase 14

2.2 Ví dụ về nhận diện lỗi tiếng Anh 20

2.3 Ví dụ về nhập nhằng trong bước nhận diện những phép biến đổi

3.1 Ví dụ về một cặp câu được gán nhãn lỗi trong ngữ liệu SWA 25

3.2 Bộ nhãn được sử dụng trong ngữ liệu SWA 27

5.3 Liên kết từ trong NUCLE - Ví dụ 1 48

5.4 Liên kết từ trong NUCLE - Ví dụ 2 48

Trang 11

Chương 1

TỔNG QUAN

1.1 Giới thiệu bài toán

Tiếng Anh hiện nay đóng một vai trò quan trọng trong giao tiếp quốc tế, đâycũng là một điều kiện quan trọng để tiếp cận, cập nhật các nguồn tri thức từkhắp nơi trên thế giới Trong hầu hết các hội nghị quốc tế ở tất cả các lĩnh vực,tiếng Anh là ngôn ngữ bắt buộc trong việc viết bài báo khoa học và trình bày.Tuy nhiên đối với người không bản xứ (non-native speakers) việc viết tiếng Anhmột cách mạch lạc luôn là một thách thức không nhỏ

Một số chương trình máy tính hiện nay có thể hỗ trợ sửa lỗi chính tả và lỗingữ pháp tự động (Microsoft Word), tuy nhiên vẫn chưa đáp ứng được nhu cầucủa người dùng chuyên nghiệp Nguyên nhân là do những lỗi của người viết rất

đa dạng, trong khi máy tính chỉ có thể nhận diện được một phần nhỏ Một số lỗimáy tính chỉ ra không hẳn là lỗi mà có thể do người dùng sử dụng một từ mới,không có trong từ điển mà phần mềm đó dùng Ví dụ: requisitioner (người đặtđơn hàng) bị phần mềm Microsoft Word đánh dấu là một từ lỗi

Để tránh những lỗi như trên thì thường những bài viết trước khi gửi đi sẽqua một bước gọi là đọc sửa lỗi (proofread) Đây là một bước cần thiết để nângcao chất lượng cho bài viết, bước này được thực hiện bởi người bản xứ (nativespeakers) Tuy nhiên, chi phí của việc đọc sửa lỗi thường rất cao, do đó nhu cầu

có chương trình hỗ trợ viết và sửa lỗi tiếng Anh một cách tự động là rất lớn Xâydựng chương trình này bao gồm nhiều bước: xây dựng ngữ liệu chuẩn để phục

Trang 12

vụ nghiên cứu, nghiên cứu kỹ thuật phân tích lỗi tự động, nghiên cứu kỹ thuậtphát hiện lỗi văn phong, lỗi chính tả, lỗi ngữ pháp , tích hợp và xây dựng toàn

bộ hệ thống

Bước xây dựng ngữ liệu và phân tích, phân loại lỗi là bước quan trọng, và kếtquả của bước này có thể ảnh hưởng đến độ chính xác của toàn bộ chương trình.Việc phân tích và phân loại lỗi có thể cung cấp những số liệu thống kê có ích chongười viết, ví dụ: phân loại lỗi, các lỗi thường gặp, tỉ lệ các lỗi thường gặp Đểlàm được những số liệu thống kê như trên đòi hỏi phải có kĩ thuật so khớp giữavăn bản gốc và văn bản đã sửa lỗi, từ đó phân loại và gán nhãn các điểm khácbiệt Các bộ dữ liệu được liên kết và gán nhãn này nếu được xây dựng tốt sẽ giúpcho việc phát triển các phương pháp mô hình hóa và tự động hóa các luật chỉnhsửa lỗi cú pháp hoặc lỗi văn phong Từ đó, các luật này sẽ được tích hợp vào hệthống hỗ trợ học tiếng Anh Đồng thời, việc kết hợp sử dụng tập ngữ liệu chuẩn

và các kỹ thuật xử lý ngôn ngữ sẽ cho phép chúng ta đánh giá được mức độ hữuích của các luật chỉnh sửa trong thực tế

Về việc so khớp hai văn bản, luận văn này sử dụng phương pháp liên kết từ

tự động, sau đó phân loại liên kết từ bằng các bộ phân lớp dựa trên máy họcthống kê Bài toán có thể được phát biểu như sau:

• Input: hai văn bản

– Văn bản gốc được viết bởi người không bản xứ

– Văn bản được chỉnh sửa bởi chuyên gia là người bản xứ

• Output: hai văn bản đã được liên kết từ (word aligned) và phân lớp liênkết từ (alignment classified)

1.2 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.2.1 Mục tiêu

• Mục tiêu 1: Mục tiêu tổng quát của đề tài hướng đến việc xây dựng bộ ngữliệu để dùng trong việc nghiên cứu các phương pháp / kĩ thuật sửa lỗi tựđộng hoặc hỗ trợ học tiếng Anh

Trang 13

• Mục tiêu 2: Mục tiêu cụ thể là nghiên cứu phương pháp liên kết từ và phânloại liên kết từ tự động trong ngữ cảnh hỗ trợ học tiếng Anh.

Việc nghiên cứu các phương pháp sửa lỗi tự động hoặc xây dựng hệ thống hỗtrợ học tiếng Anh dựa trên thống kê đòi hỏi phải có bộ ngữ liệu được liên kết từ

đủ lớn Những bộ ngữ liệu hiện đang có sẵn trên thế giới chưa đáp ứng đủ nhucầu nghiên cứu toàn diện cho mục đích sửa lỗi tự động cho các bài báo khoa họchoặc hỗ trợ học tiếng Anh Trong khi đó, do tốn nhiều chi phí nên bộ ngữ liệuđược liên kết bằng tay không đủ lớn, điều này đòi hỏi cần phải có phương phápliên kết và phân lớp từ tự động để có thể xây dựng một bộ ngữ liệu lớn phục vụđược nhu cầu nghiên cứu

1.2.2 Đối tượng

• Các công cụ liên kết từ và các phương pháp phân lớp bằng máy học

• Văn bản khoa học được viết bằng tiếng Anh, gồm hai bản: bản chưa chỉnhsửa và bản được chỉnh sửa bằng tay bởi chuyên gia người bản xứ

1.2.3 Phạm vi nghiên cứu

Nội dung đề tài tập trung vào các bài báo khoa học được viết bằng tiếng Anhtrong hai lĩnh vực nghiên cứu là thị giác máy tính (computer vision) và xử lýngôn ngữ tự nhiên (natural language processing)

1.3 Ý nghĩa

Việc xây dựng được bộ ngữ liệu chuẩn để phục vụ nghiên cứu, ngoài việc sử dụngtrong ứng dụng hỗ trợ viết và học tiếng Anh, nó còn có thể được sử dụng trongcác ứng dụng sửa lỗi tự động và có thể dùng cho việc so sánh các công cụ này vớinhau Hiện nay trên thế giới có một số ngữ liệu được xây dựng để phục vụ chonghiên cứu bắt lỗi ngữ pháp, chính tả như bộ ngữ liệu NUCLE, và NICT CLE.Tuy nhiên chưa có bộ ngữ liệu cho các bài báo khoa học đáp ứng nhu cầu nghiêncứu toàn diện các kỹ thuật hỗ trợ cho việc học tiếng Anh

Trang 14

Về bài toán liên kết từ, có khá nhiều các nghiên cứu và công cụ có sẵn, tuynhiên dành cho mục đích xây dựng hệ thống hỗ trợ học tiếng Anh thì đây còn làmột vấn đề khá mới Hơn nữa, việc nghiên cứu, tổng hợp và phân tích các phươngpháp phần nào sẽ giúp hệ thống hóa các phương pháp liên kết từ hiện có.Kết quả của đề tài này sẽ giúp xây dựng được bộ dữ liệu tốt phục vụ nghiêncứu trên những ứng dụng như sửa lỗi tự động, hỗ trợ viết và học tiếng Anh.

Trang 15

My Word).

Về bài toán liên kết từ cho tiếng Anh, có khá nhiều công trình nghiên cứu vềvấn đề này Có một số công cụ liên kết từ tự động đã được xây dựng và sử dụngrộng rãi như GIZA++ ([4]), Berkeley Aligner ([5]) Tuy nhiên, tùy theo loại ứngdụng cụ thể muốn xây dựng mà bài toán liên kết từ có thể khác nhau ít haynhiều Ví dụ, bài toán liên kết từ trong dịch máy thống kê có thể khác hoàn toànvới bài toán liên kết từ sử dụng trong suy diễn ngôn ngữ tự nhiên (NLI - naturallanguage inference)

Liên quan đến bài toán liên kết từ trên dữ liệu đơn ngữ (monolingual ment) có bài báo của Bouamor ([6]), tác giả sử dụng 3 kĩ thuật: liên kết từ dựa

Trang 16

align-trên máy học thống kê và không sử dụng kiến thức về ngôn ngữ học, liên kết từdựa trên ngữ nghĩa có sử dụng kiến thức ngôn ngữ học, và liên kết từ dựa trên

sự tương đồng về cấu trúc cú pháp Bài báo của X.Yao và Durme (MANLI, [7])

sử dụng những kỹ thuật đơn giản như part-of-speech tags và từ điển WordNetnhưng hiệu quả trong việc liên kết từ trên dữ liệu đơn ngữ, đặc biệt là hiệu suấtrất cao, thích hợp sử dụng cho khối lượng dữ liệu lớn Ngoài ra, còn một số công

cụ được xây dựng với mục đích khác nhưng có tích hợp tính năng liên kết từ tựđộng Ví dụ METEOR ([8]) là một độ đo để đánh giá chất lượng các bản dịchmáy bằng cách liên kết bản dịch máy và bản dịch tham khảo, sau đó tính điểmdựa trên các liên kết này

Sau đây chúng tôi tóm tắt và phân tích một số phương pháp liên kết từ vàphân lớp liên kết từ được tham khảo đến trong luận văn

2.2.1 Giới thiệu

METEOR, viết tắt của Metric for Evaluation of Translation with Explicit ORdering,

là một công cụ được xây dựng như một độ đo để đánh giá chất lượng các bảndịch máy

Meteor đánh giá chất lượng bản dịch máy bằng cách liên kết các câu trongbản dịch máy với bản dịch tham khảo (reference translation) do người dịch, sau

đó tính điểm tương đồng (lexical similarity score) giữa các câu trong hai bản dịchnày Nếu có nhiều hơn một bản dịch tham khảo, điểm này sẽ được tính trên từngbản dịch máy và bản dịch tham khảo, và điểm cao nhất sẽ được ghi nhận Chấtlượng của toàn bộ bản dịch máy được tính dựa trên điểm của từng câu trong bảndịch máy đó

Như mô tả ở trên, việc đánh giá chất lượng bản dịch máy sẽ được thực hiệnqua hai bước: bước một là liên kết từ giữa bản dịch máy và bản dịch tham khảo,bước hai là tính điểm tương đồng giữa hai bản dịch này dựa vào các liên kết từ ởbước một Với mục đích là nghiên cứu các phương pháp liên kết từ có liên quan,luận văn này chỉ tập trung nghiên cứu bước một là bước liên kết từ giữa bản dịchmáy và bản dịch tham khảo

Trang 17

Phần dưới sẽ trình bày phương pháp liên kết từ trong Meteor, riêng phần thửnghiệm và đánh giá kết quả thử nghiệm đối với Meteor sẽ được trình bày trongChương 6.

2.2.2 Liên kết từ trong Meteor

Cho mỗi cặp dịch máy - dịch tham khảo, Meteor xây dựng các liên kết từ dựatrên các loại so sánh tương đồng sau:

Exact: Các từ giữa hai văn bản được khớp (match) khi từ loại dạng đã chia(surface form) là giống nhau

Stem: Các từ được đưa về dạng nguyên mẫu (stem) bằng Snowball Stemmer

và khớp khi dạng nguyên mẫu của chúng giống nhau

Synonym: Các từ được khớp nếu chúng cùng là từ đồng nghĩa của một bộ

từ đồng nghĩa dựa theo cơ sở dữ liệu WordNet

Paraphrase: Các từ được khớp nếu chúng được liệt kê là paraphrase với nhautrong bảng paraphrase Bảng paraphrase này sẽ được mô tả rõ hơn ở phần sau.Mỗi kiểu so sánh tương đồng như trên sẽ được cài đặt thành một bước khớp

từ (word matcher) trong Meteor, theo đúng thứ tự ở trên: Exact, Stem, Synonym

và cuối cùng là Paraphrase Tại mỗi bước, Meteor sẽ xác định tất cả các từ có thểkhớp với nhau giữa hai bản dịch dựa trên những từ không khớp nhau từ nhữngbước trước Sau đó, liên kết từ sẽ được xác định bằng cách tìm ra tập con lớnnhất của các cặp từ mà thoả những tiêu chí như sau:

1 Mỗi từ trong từng câu có từ 0-1 matches

2 Số lượng từ được match trong cả hai câu là lớn nhất

3 Số lượng chunk là nhỏ nhất Một chunk được định nghĩa là một dãy cácliên kết từ liên tiếp nhau và có thứ tự giống như nhau trong cả hai câu

4 Tổng khoảng cách giữa các từ match với nhau trong hai câu là nhỏ nhất.Nghĩa là nếu một từ/ngữ trong câu này có thể match với nhiều từ/ngữtrong câu kia thì từ/ngữ nào xuất hiện tại vị trí gần với từ kia hơn sẽ ưutiên được chọn

Trang 18

Sau khi chạy Meteor để liên kết từ ta được kết quả như Hình2.1, riêng từ we,

will và the không liên kết với từ nào khác và được xem là Unaligned Lưu ý, câu

trong bản dịch máy có chứa 2 từ we, theo tiêu chí số 4 thì từ we thứ 2 (nằm ở

vị trí số 6) gần với vị trí của từ we trong câu dịch tham khảo hơn nên Meteor sẽ

liên kết hai từ này với nhau

As we will describe below , we additionally use QuestionBank in experiments

As described below , we also use QuestionBank in the experiments

Hình 2.1: Ví dụ về liên kết từ trong METEOR E=Exact, S=Stem, P=Paraphrase

2.2.3 Chuẩn hoá ngữ liệu

Để tăng tính chính xác khi liên kết các từ giữa hai bản dịch với nhau, Meteor

có một bước chuẩn hoá ngữ liệu trước khi liên kết từ Bước chuẩn hoá này làm

những việc như sau:

• Tách từ và đưa tất cả các từ về dạng chữ in thường (non-capitalized)

• Xoá các dấu gạch nối trong các từ nối

Ví dụ: far-off → far off

• Xoá dấu chấm trong các từ viết tắt

Ví dụ: U.N → UN

Xem xét cụm từ "U.S.-based organization", khi chạy qua bước chuẩn

hoá ngữ liệu này sẽ thành "US based organization" Sau bước tiền xử

Trang 19

lý này, tất cả các cụm từ ở dưới sẽ khớp với nhau, do đó làm tăng độchính xác khi mà các câu trong hai bản dịch có phong cách viết khác nhau.U.S.-based organization

mà cùng là bản dịch của ngữ f thì được xem là paraphrase của e1 với xác suất

P (f |e1).P (e2|f ) Xác suất e2 là paraphrase của e1 sẽ là:

P (e2|e1) = X

f

P (f |e1).P (e2|f )

Để tăng độ chính xác cho việc rút trích paraphrase này, có nhiều kĩ thuật được

áp dụng Những kĩ thuật sau được áp dụng cho từng mẫu paraphrase (e1, f, e2):

• Loại những paraphrase có xác suất rất thấp (P (f |e1).P (e2|f ) < 0.001)

• Loại những paraphrase mà e1, f , hay e2 có chứa dấu câu

• Loại những paraphrase mà e1, f , hay e2 chỉ chứa từ chức năng (functionwords)

Những kĩ thuật sau được áp dụng cho mỗi cặp paraphrase (e1, e2) sau khi tínhtổng xác suất tất cả các mẫu trong ngữ liệu:

• Loại những paraphrase có xác suất rất thấp (P (e2|e1) < 0.01)

• Loại những paraphrase mà e2 chứa trong e1

Trang 20

2.2.5 Nhận xét

Bộ liên kết từ trong Meteor được xây dựng cho liên kết từ đơn ngữ (monolingualalignment), có tính tới các yếu tố về hình thái từ và paraphrase, đặc biệt là chongôn ngữ tiếng Anh Do đó, Meteor khá phù hợp cho bài toán liên kết từ màchúng tôi đang nghiên cứu

MANLI là một công cụ liên kết từ được xây dựng để giải quyết vấn đề liên kết

từ trong Suy diễn Ngôn ngữ tự nhiên (Natural Language Inference - NLI).Vấn đề của Suy diễn Ngôn ngữ tự nhiên có thể tóm tắt lại đó là xác định mộtngữ giả thuyết H có phải được suy diễn ra từ một ngữ tiền đề P hay không

Ví dụ: Để nhận ra rằng câu Kennedy was killed có thể được suy diễn từ câuJFK was assassinated thì cần nhận ra mối quan hệ giữa Kennedy và JFK, giữakilled và assassinated

Do đó, hầu hết những cách tiếp cận cho bài toán này đều dựa vào liên kết từ,nghĩa là thiết lập những liên kết giữa những từ tương ứng với nhau nằm trong

H và P Để làm được điều này, MANLI sử dụng biểu diễn liên kết dựa trên cụm

từ, khai thác những kiến thức ngôn ngữ học có liên quan, và sử dụng bộ dữ liệuhuấn luyện có giám sát được xây dựng dành cho liên kết từ trong lĩnh vực NLI

2.3.2 Kiến trúc hệ thống MANLI

Để giải quyết vấn đề như trên, hệ thống MANLI được xây dựng bao gồm bốnthành phần:

1 Hàm biểu diễn liên kết dựa trên cụm từ

2 Hàm tính điểm cho các liên kết dựa trên các đặc trưng

3 Bộ giải mã sử dụng phương pháp mô phỏng để tìm ra những liên kết từ cóđiểm cao

Trang 21

4 Perceptron learning để tối ưu hoá các trọng số đặc trưng

MANLI được ghi nhận có kết quả tốt hơn các công cụ liên kết từ hiện tại, cụthể là GIZA++, trên dữ liệu Recognizing Textual Entailment (RTE2)

2.3.3 Nhận xét

MANLI được xây dựng để giải quyết vấn đề cho bài toán Suy diễn Ngôn ngữ

tự nhiên (NLI), vốn cũng có một số điểm tương đồng với bài toán mà chúng tôiđang nghiên cứu nên MANLI cũng là một công cụ khá phù hợp để sử dụng chobài toán này

GIZA++ là công cụ phổ biến nhất để liên kết từ trong lĩnh vực dịch máy thống

kê Nó được sử dụng để huấn luyện Mô hình IBM 1-5 và mô hình liên kết từHidden Markov Nó được xây dựng cho trường hợp đa ngôn ngữ và không có xuhướng thiên về liên kết các chuỗi giống nhau

2.4.2 GIZA++ refined

Khi sử dụng GIZA++ để liên kết từ, kết quả xuất ra chỉ là các liên kết từ 1 − n,trong khi kết quả cần có là tạo ra được các liên kết m × n Do đó, chúng tôi làmcác bước sau đây:

Đầu tiên, chúng tôi sử dụng phương pháp liên kết từ mặc định 1 − n khi huấnluyện mô hình Sau đó, để tạo ra các liên kết m × n, chúng tôi tiếp tục các bướcsau:

• Chạy mô hình hai lần riêng biệt trên hai hướng: một hướng là liên kết từvăn bản gốc tới văn bản chỉnh sửa, và ngược lại, liên kết từ văn bản chỉnhsửa tới văn bản gốc

• Sử dụng heuristics grow-diag-final của Moses để tổng hợp hai kết quả ởbước trên lại với nhau

Trang 22

Kết quả cuối cùng được gọi là GIZA++ refined và chúng tôi sẽ dùng thuật ngữnày từ đoạn này trở về sau.

2.4.3 Nhận xét

GIZA++ là công cụ liên kết từ được xây dựng cho lĩnh vực dịch máy thống kê vàcho trường hợp đa ngôn ngữ Tuy nó không được xây dựng nhằm để giải quyếtbài toán mà luận văn đang nghiên cứu nhưng đây là công cụ liên kết từ phổ biếnnhất hiện nay và để có thể so sánh toàn diện, chúng tôi cũng chạy thử nghiệmvới GIZA++ Kết quả thử nghiệm sẽ được trình bày trong Chương 6 bên dưới

2.5 Nhận diện lỗi tiếng Anh của Huichao Xue

và Rebecca Hwa

Công trình này được trình bày trong bài báo Improved Correction Detection inRevised ESL Sentences ([9]), nghiên cứu và cải tiến phương pháp nhận diện lỗitiếng Anh, nó được phát triển từ bài báo Correction Detection and Error TypeSelection as an ESL Educational Aid ([10]) Nghiên cứu này tập trung vào haiviệc chính: một là phát hiện lỗi tiếng Anh và hai là phân loại các lỗi tiếng Anhnày từ những bài luận tiếng Anh của những sinh viên sử dụng tiếng Anh như làngoại ngữ Hai bài báo trích dẫn ở trên đều dùng bộ ngữ liệu Cambridge LearnerCorpus (CLC) ([11]) Bộ ngữ liệu này gồm khoảng 1,200 bài luận tiếng Anh cùngvới các lỗi đã được chỉnh sửa và phân loại bởi những giáo viên người bản ngữ

Bộ ngữ liệu này hiện có 75 nhãn lỗi, bao gồm lỗi về chia thì động từ, thứ tự từ,lỗi chính tả, etc

2.5.2 Phương pháp

Khi so sánh một câu tiếng Anh gốc do sinh viên viết và câu đã được sửa lỗi,người ta nhận thấy rằng mỗi lỗi được sửa có thể được phân tích ra thành một bộ

Trang 23

Description (Code) Sample and Correction

Unnecessary (U) July is the period of time that suits me best.

July is the time that suits me best.

Incorrect verb tense (TV) She gave me autographs and talk really nicely

She gave me autographs and talked really nicely.

Countability error (C) Please help them put away their stuffs.

Please help them put away their stuff.

Incorrect word order (W) I would like to know what kind of clothes should I bring.

I would like to know what kind of clothes I should bring Incorrect negative (X) We recommend you not to go with your friends.

We recommend you don’t go with your friends.

Spelling error (S) Our music lessons are speccial.

Our music lessons are special.

Wrong form used (F) In spite of think I did well, I had to reapply.

In spite of thinking I did well, I had to reapply.

Agreement error (AG) I would like to take some picture of beautiful scenery.

I would like to take some pictures of beautiful scenery Replace (R) The idea about going to Maine is common.

The idea of going to Maine is common.

Missing (M) Sometimes you surprised when you check the balance.

Sometimes you are surprised when you check the balance Incorrect argument structure (AS) How much do I have to bring the money?

How much money do I have to bring?

Wrong Derivation (D) The arrive of every student is a new chance.

The arrival of every student is a new chance.

Wrong inflection (I) I enjoyded it a lot.

I enjoyed it a lot.

Inappropriate register (L) The girls’d rather play table tennis or badminton.

The girls would rather play table tennis or badminton Idiomatic error (ID) The level of life in the USA is similar to the UK.

The cost of living in the USA is similar to the UK.

Bảng 2.1: Bộ nhãn lỗi của bài báo

gồm những phép biến đổi cơ bản (basic edits) như là: thêm từ (word insertions),xoá từ (word deletion) và thế từ (word substitutions)

Ví dụ: Xem Hình2.2 bên dưới, lỗi "to change"→ "changing" là tổng hợp củaviệc xoá từ to và thế từ change thành changing, lỗi "moment"→ "minute" là mộtphép thế từ Do đó, chúng ta có thể xây dựng hệ thống để nhận diện lỗi bằngcách thực hiện hai bước sau: (1) nhận diện những phép biến đổi cơ bản (basicedits) trong câu sửa lỗi, và (2) tổng hợp những phép biến đổi cơ bản mà chúngđều sửa cùng một lỗi

Tuy nhiên, trong thực tế cách tiếp cận hai bước như thế này có thể gây ranhận diện sai do sự nhập nhằng Sự nhập nhằng này có thể từ một trong hai

Trang 24

Hình 2.2: Ví dụ về nhận diện lỗi tiếng Anh

bước Ví dụ về sự nhập nhằng ở bước một, xem Hình 2.3 bên dưới Các phépbiến đổi cơ bản được chương trình nhận diện ra ở đây là thế từ (because → for),thế từ (of → repairs) và thêm từ (reparations), trong khi các phép biến đổi nàyđúng ra phải được nhận diện là thêm từ (because), thế từ (of → for) và thế từ(reparations → repairs) Lỗi này xảy ra do thuật toán Levenshtein chỉ cố gắnggiảm thiểu số lượng phép biến đổi, mà không quan tâm các phép biến đổi này cómang ý nghĩa trong ngôn ngữ học hay không

Hình 2.3: Ví dụ về nhập nhằng trong bước nhận diện những phép biến đổi cơ bản

Ví dụ về sự nhập nhằng ở bước hai, xem Hình2.4 và 2.5 bên dưới Hình2.4

mô tả những trường hợp lỗi khi mà các phép biến đổi cơ bản cùng sửa một lỗi,nhưng bước tổng hợp lại không nhận diện ra được, và không thể gom nhóm cácphép biến đổi này được Hình 2.5 mô tả trường hợp lỗi ngược lại, khi các phépbiến đổi cơ bản không cùng sửa một lỗi, nhưng bước tổng hợp lại xem chúngcùng sửa một lỗi và gom nhóm chúng lại với nhau Lỗi này là do trong bước tổnghợp những phép biến đổi cơ bản, công trình nghiên cứu trước đó của Swanson

và Yamangilapplied đã áp dụng một heuristic về khoảng cách - những phép biếnđổi nào mà gần nhau sẽ được gom nhóm lại với nhau

Theo bước phân tích lỗi, những lỗi như trên làm cho bước nhận diện lỗi sai30% và 75% việc nhận diện sai tới từ bước hai: bước tổng hợp các phép biến đổi

Trang 25

Hình 2.4: Ví dụ về nhập nhằng trong bước tổng hợp những phép biến đổi cơ bản

Hình 2.5: Ví dụ về nhập nhằng trong bước tổng hợp những phép biến đổi cơ bản

cơ bản Do đó, để tăng độ chính xác của toàn bộ hệ thống, nghiên cứu này tậptrung vào xây dựng một bộ phân lớp cho bước tổng hợp các phép biến đổi cơbản

Dựa vào việc phân tích lỗi, việc quyết định những phép biến đổi cơ bản cóliên quan với nhau hay không sẽ phụ thuộc vào ngữ cảnh Từ nhận xét đó, tác giảhuấn luyện bộ phân lớp nhị phân Maximum Entropy dựa trên những đặc trưngrút trích được từ những ngữ cảnh có liên quan cho các phép biến đổi cơ bản.Bảng bên dưới mô tả cho các đặc trưng trong bộ phân lớp này Những đặctrưng này dùng để xác định: (A) việc tổng hợp hai phép biến đổi cơ bản có trùngkhớp với một lỗi thông thường hay không và (B) một phép biến đổi cơ bản cóchỉ ra một lỗi đơn lẻ hay không

Type Name Description

Bộ từ trong câu gốc của những phép biến đổi cơ bản này có giống bộ từ trong câu chỉnh sửa hay không.

Nếu câu gốc và câu chỉnh sửa có chung một bộ từ, thì có thể là tất cả những phép biến đổi này nhằm để sửa lỗi thứ tự từ (word order).

Cụm từ này bao gồm hai từ được chỉnh sửa.

Bảng 2.2: Các đặc trưng được sử dụng trong bộ phân lớp

Những lỗi được gán nhãn một cách rõ ràng được rút trích từ một vài mẫutrong bộ ngữ liệu sẽ được dùng để huấn luyện cho bộ phân lớp này Đầu tiên,

Trang 26

những phép biến đổi cơ bản sẽ được rút trích ra, sau đó nếu hai phép biến đổiliên tiếp nhau cần được gom nhóm lại, nó sẽ được đánh dấu là True, ngược lại làFalse.

2.5.3 Nhận xét

Bài toán của Rebecca và Huichao Xue đang giải quyết tương tự như bài toánđược nghiên cứu trong luận văn này, tuy nhiên phương pháp thực hiện khácnhau Điều này chứng tỏ đây là một vấn đề được nhiều người quan tâm nghiêncứu và cũng đã đạt được một số kết quả nhất định Như có đề cập trong Chương

2, chúng tôi thực hiện một số thử nghiệm trên bộ ngữ liệu NUCLE mà Rebecca

đã sử dụng để so sánh kết quả của hai phương pháp với nhau Kết quả này sẽđược trình bày chi tiết trong Chương 6

2.6 Support Vector Machine

Support Vector Machine (SVM) là một mô hình phân lớp có giám sát trong lĩnhvực máy học SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng thành hailớp khác nhau Cho một bộ dữ liệu huấn luyện, mỗi phần tử được gán vào mộttrong hai lớp, thuật toán SVM sẽ xây dựng một mô hình để gán những phần tửmới vào một trong hai lớp đó

Về ý tưởng thì SVM sử dụng thủ thuật để ánh xạ tập dữ liệu ban đầu vàokhông gian nhiều chiều hơn Khi đã ánh xạ sang không gian nhiều chiều, SVM

sẽ xem xét và chọn ra siêu phẳng phù hợp nhất để phân lớp tập dữ liệu đó Mộtcách trực quan để phân loại tốt nhất thì phải xác định siêu phẳng nằm ở càng

xa các điểm dữ liệu của tất cả các lớp càng tốt (gọi là hàm lề), vì nói chung lềcàng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé

2.6.2 Nhận xét

Support Vector Machine là một trong những mô hình phân lớp tiên tiến nhấthiện nay, cho kết quả phân lớp khá cao trên nhiều bài toán Tuy nhiên theo như

Trang 27

ghi nhận thì nhược điểm của SVM là tốc độ xử lý khá chậm, nên trên dữ liệu lớnthì thời gian chờ rất lâu.

2.7 Naive Bayes

Naive Bayes là mô hình phân lớp xác suất dựa vào các định lý Bayes với giả thiếtcác đặc trưng hoàn toàn độc lập nhau, nghĩa là giá trị của một đặc trưng cụ thểnào đó sẽ độc lập với giá trị của những đặc trưng khác Ví dụ: một loại trái cây

có thể được xem là một trái cam nếu nó màu cam, tròn và đường kính khoảng10cm Mô hình Naive Bayes xem mỗi đặc trưng này đóng góp một cách độc lậpvào xác suất để xác định loại trái cây này là cam, không quan tâm tới việc cóthể có sự tương quan giữa màu sắc, hình dạng hay đường kính của trái cây

2.7.2 Nhận xét

Ưu điểm của Naive Bayes là đơn giản, chỉ yêu cầu dữ liệu huấn luyện nhỏ, thờigian thực hiện nhanh và có kết quả khá tốt trong phần lớn các trường hợp Tuynhiên nhược điểm của nó là độ chính xác sẽ giảm nếu thực sự các đặc trưng phụthuộc lẫn nhau chứ không hoàn toàn độc lập

2.8 Decision Tree

Decision Tree (Cây quyết định) là một phương pháp được sử dụng rộng rãi trongdata mining Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dựbáo (predictive model), mục đích là để tạo ra một mô hình mà có thể dự đoánđược giá trị mục tiêu dựa vào nhiều giá trị input ban đầu Mỗi một nút trong(interior node) tương ứng với một biến đầu vào, đường nối giữa nó với nút concủa nó thể hiện một giá trị cụ thể cho biến đó, mỗi nút lá đại diện cho giá trị dựđoán của biến mục tiêu

Trang 28

Học bằng cây quyết định cũng là một phương pháp thông dụng trong datamining Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các nút lá đạidiện cho các phân lớp còn nhánh đại diện cho các kết hợp của các thuộc tínhdẫn tới phân lớp đó Một cây quyết định có thể được học bằng cách chia tập hợpnguồn thành các tập con dựa vào giá trị của thuộc tính Quá trình này được lặplại một cách đệ quy cho mỗi tập con được sinh ra Quá trình đệ quy hoàn thànhkhi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loạiđơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Quá trình quy nạptop-down này là một ví dụ của thuật toán tham lam, và hiện nay nó là chiến lượcphổ biến nhất cho việc học cây quyết định từ dữ liệu.

2.8.2 Nhận xét

Cây quyết định là một mô hình dễ hiểu, có thể xử lý tốt dữ liệu lớn trong thờigian ngắn Tuy nhiên nhược điểm của cây quyết định là đôi khi nó có thể tạo ranhững cây quá phức tạp mà lại không tổng quát hoá được bộ dữ liệu huấn luyện(overfitting)

Định dạng
Số trang	57
Dung lượng	5,71 MB