1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin

151 6 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Tác giả Ts. Nguyễn Lưu Thùy Ngân
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo cáo
Năm xuất bản 2017
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 151
Dung lượng 4,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ngữ liệu được xây dựng từ ít nhất 40 bài báo khoa học, gồm khoảng 7000 câu tiếng Anh được viết bởi người không bản xứ, được liên kết từ và gán nhãn phân loại lỗi.. Sản phẩm cần đạt của đ

Trang 1

ỦY BAN NHÂN DÂN TP.HCM ĐẠI HỌC QUỐC GIA TP.HCM

SỞ KHOA HỌC CÔNG NGHỆ TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN

BÁO CÁO NGHIỆM THU

Trang 2

BÁO CÁO NGHIỆM THUTên đề tài: Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng Anh chobáo cáo khoa học lĩnh vực Công nghệ Thông tin

Chủ nhiệm đề tài: TS Nguyễn Lưu Thùy Ngân

Cơ quan chủ trì: Trường Đại học Công Nghệ Thông Tin, ĐH Quốc giaTP.HCM

Thời gian thực hiện đề tài: 24 tháng

Kinh phí được duyệt: 500 triệu đồng

Kinh phí đã cấp: 450 triệu đồng, theo thông báo số 109/TB-SKHCN ngày29/6/2015 và thông báo số 174/TB-SKHCN ngày 16/8/2016

Mục tiêu: (Theo đề cương đã duyệt)

Đề tài hướng đến việc xây dựng một công cụ hỗ trợ người nước ngoài viếttiếng Anh, đặc biệt là viết bài báo khoa học bằng tiếng Anh Công cụ này sẽđược cho phép sử dụng rộng rãi cho mục đích học thuật, nghiên cứu Đối tượng

sử dụng công cụ hướng đến là học sinh, sinh viên, nhà nghiên cứu Việt Nam

mà có thể có cả người nước ngoài ở những nước không nói tiếng Anh Công

cụ này cũng có thể sử dụng cho các lớp học về kỹ năng viết báo cáo khoa học(academic writing)

Đề tài này xây dựng nền tảng cho việc nghiên cứu và chuyển giao công nghệcủa nhiều lĩnh vực: Xử lý ngôn ngữ tự nhiên, Trí tuệ nhân tạo, và Dạy/họctiếng Anh ứng dụng công nghệ thông tin Công cụ hỗ trợ viết tiếng Anh đượcxây dựng theo đề tài có khả năng tích hợp nhiều chức năng hỗ trợ cho việc viếttiếng Anh nói riêng và việc học tiếng Anh nói chung Ứng dụng này sử dụngnhiều kỹ thuật liên quan đến nhiều vấn đề nghiên cứu từ đơn giản đến phức tạpcủa những lĩnh vực nghiên cứu nói trên

Trang 3

Nội dung thực hiện (Theo đề cương đã duyệt) : Xem Bảng 1.

Bảng 1: Nội dung (theo đề cương đã duyệt)

Nội dung 1: Xây dựng ngữ liệu

chuẩn phục vụ nghiên cứu

1 Ngữ liệu được xây dựng từ ít nhất 40 bài báo khoa học, gồm khoảng 7000 câu tiếng Anh được viết bởi người không bản xứ, được liên kết từ và gán nhãn phân loại lỗi Chất lượng của ngữ liệu thể hiện qua độ nhất quán inter- annotator agreement đạt trên 70%.

2 Tài liệu hướng dẫn gán nhãn phân loại lỗi.

Nội dung 2: Nghiên cứu kỹ thuật

phân tích lỗi tự động

1 Công cụ phân tích lỗi tự động Input: 2 văn bản, văn bản gốc và văn bản sau khi sửa lỗi Output: thống kê số lỗi sai của mỗi loại.

2 Kết quả thử nghiệm đánh giá trên bộ ngữ liệu chuẩn được xây dựng ở mục 1 Chất lượng tự động liên kết từ và phân loại liên kết từ (ngữ) đạt trên 50% F-score.

3 Báo cáo kỹ thuật, có thể phát triển thành bài báo khoa học.

Nội dung 3: Nghiên cứu kỹ thuật

tự động phát hiện lỗi văn phong

1 Công cụ phát hiện lỗi văn phong tự động Input: Văn bản gốc Output: Những câu trong văn bản cần phải viết lại vì có thể có lỗi văn phong.

2 Kết quả thử nghiệm đánh giá trên bộ ngữ liệu chuẩn được xây dựng ở mục 1 Độ phủ (recall) của kỹ thuật tự động phát hiện lỗi đạt trên 30%.

3 Báo cáo kỹ thuật, có thể phát triển thành bài báo khoa học.

4 Có thể đăng ký thành giải pháp hữu ích.

Nội dung 4: Nghiên cứu cải tiến

3 Báo cáo kỹ thuật, có thể phát triển thành bài báo khoa học.

Nội dung 5: Xây dựng công cụ

hỗ trợ sửa lỗi viết Tiếng Anh

1 Công cụ tích hợp một số chức năng được thực hiện trong

đề tài và có khả năng tích hợp các chức năng khác.

2 Báo cáo kỹ thuật.

3 Có thể đăng ký thành giải pháp hữu ích.

Nội dung 6: Viết báo cáo tổng

kết

Báo cáo việc thực hiện tất cả các nội dung trên.

Trang 4

Sản phẩm cần đạt của đề tài:

Bảng 2: Sản phẩm cần đạt của đề tài

01 bộ ngữ liệu chuẩn phục vụ nghiên cứu Hoàn thành

01 bài báo khoa học đăng trên tạp chí chuyên ngành Hoàn thành

(01 bài báo tạp chí quốc tế Data and edge Engineering - DKE 2017, SCI-indexed)

Knowl-01 bài báo khoa học đăng trên kỷ yếu của hội nghị

chuyên ngành

Hoàn thành vượt chỉ tiêu (02 bài báo hội nghị quốc tế KSE 2015, 2016,

01 bài báo hội nghị trong nước FAIR 2017)

(Quyết định chấp nhận đơn hợp lệ ngày 26/5/2017)

Đào tạo 01 thạc sĩ (luận văn tốt nghiệp) Hoàn thành vượt chỉ tiêu

(02 thạc sĩ, 01 cử nhân đã bảo vệ thành công)

01 công cụ hỗ trợ sửa lỗi trong văn bản khoa học

tiếng Anh cho lĩnh vực công nghệ thông tin

Hoàn thành

Trang 5

Mục lục

1.1 Giới thiệu 2

1.2 Mục tiêu của đề tài 5

1.2.1 Mục tiêu tổng quát 5

1.2.2 Mục tiêu cụ thể 6

2 NỘI DUNG, PHƯƠNG PHÁP VÀ KẾT QUẢ THỬ NGHIỆM 8 2.1 Nội dung 1: Xây dựng ngữ liệu chuẩn phục vụ nghiên cứu 8

2.1.1 Tổng quan về xây dựng ngữ liệu chuẩn phục vụ nghiên cứu hỗ trợ viết tiếng Anh 8

2.1.2 Mô tả nội dung 9

2.1.3 Mô hình xây dựng ngữ liệu chuẩn cơ sở 10

2.1.4 Mô hình xây dựng ngữ liệu chuẩn mở rộng 12

2.1.5 Thu thập và xử lý dữ liệu 16

2.1.6 Kết quả gán nhãn 17

Trang 6

2.1.7 Phân tích đánh giá ngữ liệu chuẩn 18

2.1.8 Kết luận 23

2.2 Nội dung 2: Kỹ thuật phân tích lỗi tự động 23

2.2.1 Tổng quan về phân tích lỗi tự động 23

2.2.2 Mô hình phân tích lỗi tự động dựa trên kỹ thuật dịch máy 28 2.2.3 Kết quả, phân tích đánh giá 31

2.3 Nội dung 3: Kỹ thuật tự động phát hiện lỗi văn phong 40

2.3.1 Tổng quan về kỹ thuật phát hiện lỗi văn phong 40

2.3.2 Mô hình phát hiện lỗi văn phong dựa trên luật 41

2.3.3 Thử nghiệm đánh giá 44

2.3.4 Mô hình phát hiện lỗi văn phong dựa trên thống kê - nhằm phát hiện những phần không quan trọng trong câu 46

2.3.5 Phân tích đánh giá Mô hình phát hiện phát hiện phần không quan trọng trong câu 49

2.4 Nội dung 4: Kỹ thuật tự động phát hiện và sửa lỗi chính tả, ngữ pháp 55

2.4.1 Mô hình sửa lỗi ngữ pháp cho loại lỗi danh từ số ít, số nhiều 55 2.4.2 Thử nghiệm, đánh giá mô hình sửa lỗi danh từ số ít, số nhiều 56

2.4.3 Mô hình sửa lỗi chính tả 58

2.4.4 Tra cứu cụm từ viết báo cáo khoa học 60

2.5 Nội dung 5: Xây dựng phần mềm trực tuyến hỗ trợ viết và sửa văn bản khoa học tiếng Anh 66

2.5.1 Mô tả yêu cầu - Thiết kế chức năng (use-case) 66

2.5.2 Thiết kế giao diện 67

2.5.3 Cài đặt phần mềm 68

3 KẾT QUẢ VÀ THẢO LUẬN 75 3.1 Tóm tắt kết quả chung 75

3.2 Nhận xét và thảo luận 76

Trang 7

4 KẾT LUẬN VÀ ĐỀ NGHỊ 784.1 Kết luận 784.2 Đề nghị 80

PHỤ LỤC 2 - HƯỚNG DẪN SỬ DỤNG CÔNG CỤ GÁN NHÃN 89

Trang 8

Danh sách hình

2.1 Quá trình xây dựng ngữ liệu 9

2.2 Bộ nhãn phân loại lỗi cơ sở 10

2.3 Hai cặp câu được gán nhãn sử dụng Mô hình cơ sở, câu ở trên là câu gốc, câu ở dưới là câu được chỉnh sửa 11

2.4 Bộ nhãn phân loại lỗi mở rộng 13

2.5 Ví dụ về liên kết từ trong Meteor 26

2.6 Cấu trúc tổng quan hệ thống 28

2.7 Ví dụ về nhóm lỗi (1): Các từ có liên quan không được liên kết với nhau 34

2.8 Ví dụ về nhóm lỗi (2): Các từ không liên quan được liên kết với nhau 34

2.9 Liên kết từ trong NUCLE - Ví dụ 1 38

2.10 Liên kết từ trong NUCLE - Ví dụ 2 39

2.11 Ví dụ về lỗi văn phong (trước khi sửa: 1b, sau khi sửa: 1c) 40

2.12 Kiến trúc hệ thống 46

2.13 Cấu trúc tập tin câu ví dụ sau khi chuẩn hóa 62

2.14 Mô hình rút trích cụm từ 62

2.15 Phương pháp tìm kiếm câu ví dụ 65

2.16 Thiết kế giao diện chính của công cụ 68

2.17 Thiết kế giao diện của chức năng: Sửa lỗi văn phong 69

2.18 Thiết kế giao diện của chức năng: Sửa lỗi chính tả/ngữ pháp 69

2.19 Thiết kế giao diện của chức năng: Phân tích lỗi 70

2.20 Thiết kế giao diện của chức năng: Tra cứu cụm từ 70

Trang 9

2.21 Màn hình chức năng phát hiện lỗi văn phong 71

2.22 Màn hình chức năng sửa lỗi chính tả và ngữ pháp 72

2.23 Màn hình chức năng phân tích lỗi 73

2.24 Màn hình chức năng tra cứu cụm từ 74

4.1 Tagset used in the SWA corpus 81

Trang 10

Danh sách bảng

1 Nội dung (theo đề cương đã duyệt) 2

2 Sản phẩm cần đạt của đề tài i

2.1 Thống kê số lượng gióng hàng từ lỗi được gán nhãn 18

2.2 Bảng ánh xạ các nhãn trong 3 bộ nhãn KJ, NUCLE và SWA, dùng để so sánh 3 bộ ngữ liệu 19

2.3 Thống kê các lỗi ngữ pháp (Grammar), so sánh với KJ và NUCLE α = TOTALSWA/ TOTALKJ, β = TOTALSWA/ TOTALNUCLE 20

2.4 Những loại lỗi con của loại Paraphrase cho thấy nhiều kiểu lỗi sai khác nhau của người viết 21

2.5 Các đặc trưng cho phân lớp liên kết từ 30

2.6 Kết quả liên kết từ 32

2.7 Kết quả liên kết từ phân loại theo nhãn 33

2.8 Phân tích lỗi liên kết từ 34

2.9 Kết quả phân lớp (5-fold cross validation) 35

2.10 Ánh xạ giữa bộ nhãn SWA và METEOR 37

2.11 Kết quả chạy thử nghiệm METEOR trên ngữ liệu SWA 37

2.12 Kết quả phân lớp trên bộ nhãn METEOR 38

2.13 Thống kê ngữ liệu 39

2.14 Kết quả phân lớp trên SWA, NUCLE và FCE 39

2.15 Lựa chọn đặc trưng cho mô hình huấn luyện CRF 49

2.16 Tỉ lệ nén (theo %) của các hệ thống nén câu sử dụng bộ dữ liệu tiếng Việt 53

Trang 11

2.18 Kết quả (theo %) của các hệ thống rút gọn câu trên bộ dữ liệutiếng Anh 552.19 Những thuộc tính sử dụng để sửa lỗi ngữ pháp số ít-nhiều trongtiếng Anh 56

Trang 12

5 Người gán nhãn (annotator) - Người gán nhãn cho ngữ liệu

6 Quá trình sửa lỗi (proofreading)

7 Cách gán nhãn dựa trên gióng hàng từ (alignment-based annotation scheme)

8 Người học trình độ cao (advanced learner)

9 Bộ nhãn phân loại lỗi (tag set)

10 Tính gắn kết của văn bản (coherence)

11 Biên tập văn bản tự động (automatic proofreading)

12 Liên kết từ/Gióng hàng từ (alignment)

Trang 13

TÓM TẮT NỘI DUNG NGHIÊN CỨU

Tiếng Anh hiện nay đã trở thành một ngôn ngữ quốc tế, giữ vai trò quan trọnggiao tiếp quốc tế, đặc biệt là trong việc công bố các công trình khoa học Tuynhiên, viết tiếng Anh lưu loát luôn là một thách thức với người không bản xứ,gồm cả người Việt Nam và những nước không nói tiếng Anh khác trên thế giới.Làm thế nào để máy tính có thể hỗ trợ người không bản xứ sửa lỗi tiếng Anh

đã và đang là một chủ đề nghiên cứu quan trọng của lĩnh vực xử lý ngôn ngữ

tự nhiên và khoa học máy tính nói chung

Có nhiều kỹ thuật khác nhau để máy tính có thể hỗ trợ người không bản xứviết tiếng Anh Các kỹ thuật này được chia thành hai nhóm chính: (1) Nhómcác kỹ thuật phát hiện và sửa lỗi tự động, (2) Nhóm các kỹ thuật hỗ trợ viếttiếng Anh Tuy nhiên, chất lượng của những kỹ thuật này hiện vẫn còn nhiềuhạn chế Đề tài này nghiên cứu các kỹ thuật hỗ trợ phát hiện và sửa lỗi viếttiếng Anh cho lĩnh vực công nghệ thông tin, giúp tăng khả năng cạnh tranhtrong thời đại toàn cầu hóa cho nhà nghiên cứu và sinh viên xuất thân từ nhữngnước không nói tiếng Anh

Về mặt khoa học, dữ liệu chuẩn và công cụ hỗ trợ viết tiếng Anh, hai trong sốnhững sản phẩm của đề tài, sẽ là nền tảng thúc đẩy các nghiên cứu trên nhiềulĩnh vực, đặc biệt là lĩnh vực Xử lý ngôn ngữ tự nhiên Về mặt phát triển kinh

tế xã hội, đề tài của chúng tôi góp phần giải quyết một vấn đề rất quan trọng

để nâng cao trình độ tiếng Anh của người Việt Nam Mục tiêu của đề tài nàyphù hợp với nhu cầu của xã hội và của quốc gia

Trang 14

Người không bản xứ mắc nhiều loại lỗi sai khi viết tiếng Anh Ta có thể chialỗi sai này thành những loại sau đây:

everage

không phù hợp với cộng đồng độc giả mà văn bản đó hướng đến Chữ vănphong trong đề tài này ám chỉ đến văn phong kỹ thuật (technical style),phân biệt với các loại văn phong khác như: văn phong giao tiếp, văn phongthương mại, Đặc điểm của văn phong kỹ thuật là tính rõ ràng và tínhchính xác

Làm thế nào để máy tính có thể hỗ trợ người không bản xứ sửa lỗi tiếng Anh

đã và đang là một chủ đề nghiên cứu quan trọng của lĩnh vực xử lý ngôn ngữ

Trang 15

tự nhiên và khoa học máy tính nói chung.

Có nhiều kỹ thuật khác nhau để máy tính có thể hỗ trợ người không bản xứviết tiếng Anh Các kỹ thuật này được chia thành hai nhóm chính: (1) Nhómcác kỹ thuật phát hiện và sửa lỗi tự động, (2) Nhóm các kỹ thuật hỗ trợ viếttiếng Anh Sau đây, chúng tôi giới thiệu tổng quan về những nghiên cứu trong

và ngoài nước về các kỹ thuật này

Nhóm các kỹ thuật phát hiện và sửa lỗi tự động

Nhu cầu dễ thấy nhất trong hỗ trợ viết tiếng Anh là làm sao chương trình máytính có thể phát hiện và sửa lỗi chính tả và lỗi ngữ pháp một cách tự động Tuynhiên, độ chính xác của các kỹ thuật này còn thấp (ví dụ phần mềm MicrosoftWord, iSpell), chưa đáp ứng được yêu cầu của người dùng Một trong nhữngnguyên nhân là do các lỗi của người viết rất đa dạng, trong khi máy tính chỉ cóthể nhận diện được một phần nhỏ số lỗi Nhiều lỗi do máy tính chỉ ra khôngthực sự là lỗi mà có thể do người dùng sử dụng một từ mới không có trong tựđiển mà các phần mềm thường dùng

Các công trình nghiên cứu về kỹ thuật tự động phát hiện và sửa lỗi ngữpháp hiện nay chủ yếu tập trung sửa lỗi sử dụng mạo từ (a, an, the) và giới

từ (preposition) [88], một vài công trình nghiên cứu sửa lỗi chia thì tiếng Anh(thì hiện tại, quá khứ, ) Để giải quyết bài toán dạng này, trước đây người tathường sử dụng kết quả phân tích cú pháp câu kết hợp với tập luật được xâydựng sẵn Gần đây, Phương pháp sử dụng bộ phân lớp được huấn luyện bằngcác phương pháp máy học trên dữ liệu có gán nhãn và không gán nhãn trở nênphổ biến Kết quả nghiên cứu gần đây cho thấy cách tiếp cận sử dụng bộ phânlớp cho kết quả khá khả quan [87, 74]

Một số nhà nghiên cứu sử dụng mô hình ngôn ngữ được huấn luyện trên dữliệu lớn được viết bởi người bản xứ để phát hiện và sửa lỗi chính tả lẫn lỗi ngữpháp Hình 2 minh họa mô hình được đề xuất bởi Park và Levy [16] kết hợpmột mô hình ngôn ngữ cơ sở được huấn luyện trên ngữ liệu được viết bởi ngườibản xứ và những mô hình khác được huấn luyện trên ngữ liệu được viết bởi

Trang 16

người không phải bản xứ.

Mô hình ngôn ngữ còn có thể sử dụng kết hợp với các bộ phân lớp tạo thànhnhững mô hình lai Nhóm tác giả Whitelaw đề xuất mô hình sửa lỗi chính tả[92], mô hình này sử dụng mô hình ngôn ngữ để cho điểm các phiên bản sửa lỗikhác nhau của cùng một câu gốc được viết bởi người không bản xứ Sau đó,các phiên bản sửa lỗi được đưa vào một bộ phân lớp để xác định xem kết quảsửa lỗi có đáng tin cậy hay không Kết quả thử nghiệm của các tác giả cũngcho thấy việc kết hợp giữa mô hình ngôn ngữ và các mô hình phân lớp tự độngcho hiệu quả tốt [34]

Tuy nhiên, hiệu quả thực tiễn của các phương pháp phát hiện và sửa lỗi ngữpháp tự động nhìn chung vẫn chưa cao (khoảng 40% F1) Bài toán phát hiện

và sửa lỗi ngữ pháp cần được tiếp tục nghiên cứu và cải tiến

Nhóm các kỹ thuật hỗ trợ viết tiếng Anh

Một trong những cách hỗ trợ học viết tiếng Anh khác là xây dựng các nguồntài liệu tham khảo điện tử, tuy nhiên, những nguồn tài liệu này chỉ có hiệu quảnhất định Thực tế là con người không thể nhớ hết tất cả các luật ngữ pháp và

từ vựng để vận dụng hiệu quả trong quá trình viết báo cáo khoa học bằng tiếngAnh

Để có thể tìm kiếm nguồn học liệu nhanh chóng hơn, các thuật toán tìm kiếmthông tin (information retrieval) thường được ứng dụng cho lĩnh vực này Cụthể, hệ thống sẽ tìm kiếm trên các những ví dụ liên quan đến một cụm từ nào

đó do người học tiếng Anh nhập vào [83, 65, 62] Những ví dụ có chứa các cụm

từ sẽ giúp cho người học tiếng Anh hiểu được ngữ cảnh sử dụng cụm từ, từ đó

có thể sử dụng cụm từ cho bài viết của họ

Tuy nhiên những kỹ thuật tìm kiếm thông tin nói trên không giúp ích chongười học phát hiện ra lỗi về văn phong mà họ mắc phải Lỗi văn phong khiếncho câu trở nên khó hiểu đối với người đọc hoặc không phù hợp với loại văn màngười viết hướng đến (ví dụ ở phần sau) Một câu không có lỗi chính tả, ngữpháp vẫn có thể có lỗi văn phong Làm thế nào để viết cho đúng văn phong là

Trang 17

một vấn đề khó đối với người không bản xứ nhưng lại hết sức quan trọng trongviết tiếng Anh [93] Tại Việt Nam, các nghiên cứu về lĩnh vực hỗ trợ viết tiếngAnh này chỉ dừng lại ở mức độ các luận văn đại học, thạc sĩ Hiện nay chưa cónhiều công trình được công bố trên các tạp chí trong nước về đề tài này.

Vì những lý do nêu trên, người không bản xứ cần những kỹ thuật tiên tiếnhơn để hỗ trợ viết tiếng Anh Đề tài này nghiên cứu các kỹ thuật hỗ trợ pháthiện và sửa lỗi viết tiếng Anh cho lĩnh vực công nghệ thông tin, giúp tăng khảnăng cạnh tranh trong thời đại toàn cầu hóa cho nhà nghiên cứu và sinh viênxuất thân từ những nước không nói tiếng Anh Đây không phải là nhu cầu củariêng Việt Nam mà còn của nhiều quốc gia khác

Về mặt khoa học, công nghệ và đào tạo, dữ liệu chuẩn và công cụ hỗ trợ viếttiếng Anh, sản phẩm của đề tài, sẽ là nền tảng thúc đẩy các nghiên cứu trênnhiều lĩnh vực, đặc biệt là lĩnh vực Xử lý ngôn ngữ tự nhiên Chẳng hạn, sinhviên/nhà nghiên cứu có thể lựa chọn một chức năng hỗ trợ viết tiếng Anh màmình thực sự có hứng thú để nghiên cứu Thành quả của những nghiên cứu đócũng có thể được tích hợp vào phần mềm này Ngoài ra, ngữ liệu chuẩn có thểđược sử dụng để đánh giá và so sánh các phương pháp hỗ trợ viết tiếng Anh

Về mặt phát triển kinh tế xã hội, đề tài của chúng tôi góp phần giải quyếtmột vấn đề rất quan trọng để nâng cao trình độ tiếng Anh của người Việt Nam.Mục tiêu của đề tài này phù hợp với nhu cầu của xã hội và mục tiêu của Quốcgia (Đề án Ngoại ngữ Quốc gia 2020 của Bộ giáo dục và Đào tạo)

1.2.1 Mục tiêu tổng quát

Về mặt học thuật, nghiên cứu của chúng tôi xây dựng nền tảng (dữ liệu, côngcụ), tạo tiền đề cho việc nghiên cứu và chuyển giao công nghệ của nhiều lĩnhvực nghiên cứu: Xử lý ngôn ngữ tự nhiên, Trí tuệ nhân tạo, và Dạy/học tiếngAnh ứng dụng công nghệ thông tin Công cụ hỗ trợ viết tiếng Anh có khả năngtích hợp nhiều chức năng hỗ trợ thông minh cho việc viết tiếng Anh nói riêng

Trang 18

và việc học tiếng Anh nói chung Ứng dụng này sử dụng nhiều kỹ thuật liênquan đến nhiều vấn đề nghiên cứu từ đơn giản đến phức tạp của những lĩnh vựcnghiên cứu nói trên.

Về mặt thực tiễn, nghiên cứu của chúng tôi hướng đến việc xây dựng mộtcông cụ hỗ trợ người không bản xứ viết tiếng Anh, đặc biệt là viết bài báo khoahọc bằng tiếng Anh Công cụ này sẽ được cho phép sử dụng rộng rãi cho mụcđích học thuật, nghiên cứu Đối tượng được thụ hưởng không chỉ là học sinh,sinh viên, nhà nghiên cứu Việt Nam mà có thể có cả người không bản xứ ởnhững nước không nói tiếng Anh khác Do đó sẽ góp phần tạo uy tín cho cộngđồng nghiên cứu Xử lý ngôn ngữ tự nhiên tại Việt Nam

1.2.2 Mục tiêu cụ thể

Đề tài có những mục tiêu chính sau đây:

1 Xây dựng ngữ liệu phục vụ nghiên cứu: nhằm tập hợp những bài báo

đã được sửa bởi người bản xứ hoặc chuyên gia ngôn ngữ để làm dữ liệuphục vụ cho nghiên cứu

2 Nghiên cứu kỹ thuật phân tích lỗi tự động: nhằm nghiên cứu kỹthuật so khớp và phân loại những sai khác giữa văn bản gốc và văn bản đãchỉnh sửa Những thống kê này cung cấp phân tích đầy đủ và chính xáchơn về khả năng của người viết, từ đó công cụ có thể đề xuất cho ngườiviết cần phải trau dồi thêm những kỹ năng nào Ngoài ra, công cụ này còncho phép tận dụng những bài báo đã được sửa lỗi viết tiếng Anh làm tàiliệu học tập tiếng Anh cho những người học trình độ cao

3 Nghiên cứu kỹ thuật tự động phát hiện lỗi văn phong: nghiên cứu

kỹ thuật phát hiện những câu viết không trôi chảy một cách tự động bằngmáy tính là một bài toán chưa được nhiều người quan tâm Trong đề tàinày, chúng tôi muốn thử nghiệm việc ứng dụng thành quả nghiên cứu vềdạy và học tiếng Anh để tự động hóa việc phát hiện lỗi văn phong khiếncâu văn không trôi chảy

Trang 19

4 Nghiên cứu cải tiến một số kỹ thuật bắt lỗi chính tả, ngữ pháp:nhằm khai thác tri thức về loại văn bản khoa học và lĩnh vực của văn bản(công nghệ thông tin) để tăng độ chính xác cho các kỹ thuật bắt lỗi chính

tả, ngữ pháp hiện có

5 Xây dựng công cụ hỗ trợ sửa lỗi viết tiếng Anh cho báo cáo khoahọc trong lĩnh vực Công nghệ thông tin: Công cụ này đóng vai tròtích hợp, thử nghiệm các kỹ thuật đã nghiên cứu của đề tài Đồng thời,công cụ được thiết kế có khả năng mở rộng để tích hợp các chức năng hỗtrợ học tiếng Anh khác trong tương lai

Trang 20

Chương 2

NỘI DUNG, PHƯƠNG PHÁP VÀ KẾT QUẢ THỬ NGHIỆM

2.1.1 Tổng quan về xây dựng ngữ liệu chuẩn phục vụ nghiên cứu hỗ trợ

viết tiếng Anh

Hiện nay trên thế giới có một số ngữ liệu được xây dựng để phục vụ cho nghiêncứu bắt lỗi ngữ pháp, chính tả như bộ ngữ liệu NUCLE, và NICT CLE Tuynhiên chưa có bộ ngữ liệu cho các bài báo khoa học đáp ứng nhu cầu nghiên cứutoàn diện các kỹ thuật hỗ trợ cho viết báo cáo khoa học bằng tiếng Anh Mộtmục tiêu của đề tài là tập hợp những bài báo đã được sửa bởi người bản xứ hoặcchuyên gia ngôn ngữ để làm dữ liệu phục vụ cho nghiên cứu Bằng cách này,kết quả nghiên cứu sẽ gần với thực tế hơn, nâng cao tính khả dụng của nghiêncứu

Dự kiến, khoảng 40 bài báo khoa học về lĩnh vực Công nghệ thông tin với tổng

số câu khoảng 7000 câu để xây sẽ được thu thập cho tập ngữ liệu này, phục vụcho thử nghiệm các kỹ thuật Một số công trình khoa học trên thế giới đã chứngminh kích thước ngữ liệu 7000 câu là đủ cho mục đích tương tự Chẳng hạn như

bộ ngữ liệu Microsoft Research Paraphrase Corpus có kích thước khoảng 5800cặp câu Tuy giới hạn ở lĩnh vực Công nghệ thông tin, nhưng những kỹ thuậtđược phát triển có thể ứng dụng theo cách tương tự cho những lĩnh vực khác

Trang 21

SWA corpus

Scientific written work

Proofreading

Hình 2.1: Quá trình xây dựng ngữ liệu

2.1.2 Mô tả nội dung

Chúng tôi xây dựng một bộ ngữ liệu để phục vụ nghiên cứu về hỗ trợ viết tiếngAnh Ngữ liệu này được đặt tên là SWA Nó được thiết kế nhằm mục đích gánnhãn tất cả các loại lỗi: ngữ pháp, chính tả và lỗi diễn đạt lại (paraphrasing).Điều này khác những ngữ liệu trước đây chỉ được gãn nhãn lỗi ngữ pháp hoặclỗi chính tả

Hình 2.1 minh họa quá trình xây dựng bộ ngữ liệu Đầu tiên, chúng tôi thuthập những bài báo được viết bởi những nhà nghiên cứu hoặc học viên cao họckhông bản xứ Tiếp theo những bài báo này được sửa lỗi tiếng Anh bởi chuyêngia viết tiếng Anh (proofreader) Những bài báo này sau đó sẽ được tiền xử lý

để chuyển sang định dạng máy tính có thể đọc được để sẵn sàng cho việc gánnhãn Những người gán nhãn (annotators) thực hiện việc gán nhãn cho ngữ liệubằng phần mềm gán nhãn đúng theo hướng dẫn trong Tài liệu hướng dẫn gánnhãn (annotation guidelines)

So với những ngữ liệu phục vụ cho nghiên cứu về hỗ trợ viết tiếng Anh đã đượcxây dựng như NUCLE [20], NICT_JLE [50] và ngữ liệu KJ [68], ngữ liệu củachúng tôi có một số ưu điểm Thứ nhất, đó là quá trình sửa lỗi (proofreading)

Trang 22

được tách biệt hoàn toàn khỏi quá trình gán nhãn để tạo ngữ liệu nghiên cứu.Bằng cách này, cả người viết lẫn người chỉnh sửa lỗi không biết về việc xâydựng ngữ liệu, do đó chúng ta có thể thu được dữ liệu được sửa lỗi gần với thực

tế nhất Ưu điểm thứ hai là việc dùng cách gán nhãn dựa trên gióng hàng từ(alignment-based annotation scheme) để đánh dấu các loại lỗi Cách gãn nhãnnày cho phép chúng ta dánh dấu những đoạn văn bản được diễn đạt lại Nhữngcách gán nhãn trước đây không phù hợp cho việc đánh dấu loại lỗi này Lỗi diễnđạt lại cũng là loại lỗi mà người học trình độ cao (advanced learners) dễ mắcnhất

2.1.3 Mô hình xây dựng ngữ liệu chuẩn cơ sở

Chúng tôi dựa trên cách thức gãn nhãn cho ngữ liệu được đề xuất bởi Cohn et

al [17] để gán nhãn cho ngữ liệu SWA Để có thể phân biệt và gán nhãn đượctất cả các loại lỗi, chúng tôi phân loại các gióng hàng từ thành những loại mịnhơn Cấu trúc của các nhãn được thể hình qua Hình 2.2, trong đó các nhãnmàu trắng được sử dụng trong quá trình gán nhãn Các gióng hàng từ đượcchia thành 2 loại lớn: Preserved, Inarticulation Bi-alignment và InarticulationMono-alignment Hình 2.3 minh họa cách thức gán nhãn này cho một số đoạnvăn bản ví dụ

Alignment Inarticulation

Bi-alignment

Inarticulation Mono- alignment Preserved

Unaligned Grammar Duplicate

Typo / Spelling Paraphrase Grammar

Others Agreement Word form Verb tense Determiner Preposition

Determiner

Preposition

Hình 2.2: Bộ nhãn phân loại lỗi cơ sở

Trang 23

Hình 2.3: Hai cặp câu được gán nhãn sử dụng Mô hình cơ sở, câu ở trên là câu gốc, câu ở dưới là câu được chỉnh sửa.

Loại Preserved được sử dụng cho những từ không bị thay đổi trong quá trìnhchỉnh sửa, chẳng hạn như những từ: the, efficiency, various, methodologies trongHình 2.3(A) Tuy nhiên, những từ có hình thức như nhau nhưng giữ chức năngkhác nhau trong 2 câu trước và sau chỉnh sửa như từ in không được gán nhãnPreserved Từ in trong câu gốc bổ nghĩa cho từ approach, nhưng trong câu thứhai nó bổ nghĩa cho từ methodologies

Inarticulation được chia ra thành 2 loại Monoalignments và Bi-alignments đểgán nhãn cho lỗi diễn đạt lại Những gióng hàng từ có loại là Grammar khôngbao gồm tất cả những loại lỗi ngữ pháp theo định nghĩa của các ngữ liệu khác.Trong SWA, lỗi ngữ pháp bao gồm những lỗi rõ ràng, được giải thích thêm trongphần sau Những loại còn lại là Duplicate, Spelling, Typo, và Unaligned được

mô tả như dưới đây

Duplicate: Gióng hàng từ loại Duplicate liên kết những từ xuất hiện mộtlần trong câu gốc nhưng lặp lại nhiều lần ở câu sau khi chỉnh sửa hoặc ngượclại Chẳng hạn như từ learning ở ví dụ trong Hình 2.3(B)

Spelling: được sử dụng để gán nhãn cho những từ bị sai chính tả như occured

và occurred, hay state of the art và state-of-the-art

Typo: viết tắt của chữ typographical error, là loại lỗi gây ra bởi gõ nhầm.Unaligned: đây là một lỗi thuộc phân loại mono-alignment Unaligned được

sử dụng để gãn nhãn cho những từ xuất hiện trong câu gốc nhưng không xuất

Trang 24

hiện trong câu chỉnh sửa.

Những từ có trật tự thay đổi thì được thể hiện bởi những gióng hàng từ bắtchéo nhau cho nên không cần phải gán nhãn riêng biệt Chúng tôi không gánnhãn cho dấu câu

Grammar

Những gióng hàng từ được gán nhãn Grammar bao gồm lỗi sai về định từ(determiner), giới từ (preposition), thì của động từ (verb tense), hình thức từ(word form), agreement và loại others Others được sử dụng để gán nhãn chonhững lỗi sau: noun number, verb number, wh-word choice, hoặc conjunctionchoice Lưu ý loại Others không được sử dụng để gãn nhãn cho tất cả những loạilỗi còn lại Trừ loại Aggreement, những loại khác cũng dễ dàng tương thích với

hệ thống phân loại lỗi của những ngữ liệu hiện nay Loại nhãn Agreement được

sử dụng để gãn nhãn cho sự agreement giữa determiner và noun, giữa genitive

và noun, noun và verb

Paraphrase

Loại lỗi Paraphrase (lỗi diễn đạt lại) để gán cho những ngữ có ý nghĩa tươngđồng nhưng Loại này áp dụng cho những cụm từ trong câu gốc được viết đúngngữ pháp, người đọc có thể hiểu được ý khi đọc nhưng cách viết chưa trôi chảy,

tự nhiên Chúng tôi đề ra hai quy tắc chủ yếu để gán nhãn Paraphrase, đó là:(1) Ưu tiên paraphrase ngắn, do đó người gán nhãn cần chia nhỏ paraphase dàithành các cụm từ ngắn hơn và (2) Gióng hàng từ được gán nhãn Paraphrasekhông được chứa gióng hàng từ loại khác

2.1.4 Mô hình xây dựng ngữ liệu chuẩn mở rộng

Mô hình xây dựng ngữ liệu chuẩn cơ sở được trình bày ở Mục 2.1.3 có hạn chế

là lỗi Paraphrase chưa nói lên được lý do phải viết lại những cụm từ là gì, do

đó không giúp ích được nhiều cho người học tiếng Anh Ngoài ra, lỗi sử dụngsai hình thức số ít, số nhiều của danh từ được gộp chung với loại lỗi ngữ phápOthers, do đó loại lỗi Others không mang nhiều thông tin hữu ích cho ngườihọc

Trang 25

Để khắc phục những hạn chế này, chúng tôi đề xuất thêm Mô hình xây dựngngữ liệu chuẩn mở rộng, trong đó có thêm một số loại nhãn lỗi mới cho lỗi vềhình thức danh từ, và phân chia loại lỗi Paraphrase thành nhiều loại con hữuích hơn cho người học tiếng Anh Cụ thể về các loại lỗi con của Paraphraseđược giải thích rõ hơn sau đây.

Alignment Inarticulation

Bi-alignment

Inarticulation Mono- alignment Preserved

Unaligned Grammar Duplicate

Typo / Spelling Paraphrase Grammar

Lexical

Phrasal

Sentential

Collocation Free word

Active

Passive-Plagiarism

Others Agreement Noun number Word form Verb tense Determiner Preposition

Determiner

Preposition

Hình 2.4: Bộ nhãn phân loại lỗi mở rộng

Lexical paraphrase: Gồm những trường hợp sau đây:

Loại 1 : Từ trong câu gốc và từ trong câu viết lại là hai từ đồng nghĩa(synonym)

Trang 26

hoặc phù hợp hơn với ngữ cảnh Từ trong văn bản gốc chưa thực sự phù hợpchứ không sai.

Loại 3 : Một ngữ trong câu gốc có thể được viết lại bằng một từ trong câuviết lại và ngược lại Điều này xảy ra khi người viết dùng cách diễn đạt dài dòng(ngữ) vì không biết có từ tương đương tồn tại do giới hạn về vốn từ vựng.Lưu ý 1: Có những từ được thay đổi dạng thức (chẳng hạn từ động từ sangtính từ), nhưng sự thay đổi này đi kèm với những thay đổi của từ khác thì đượccoi là phrasal paraphrase chứ không phải lexical paraphrase

Ví dụ:

“the wireless mesh network has emerged as a very attractive technologyamong academics and industries to flexibly and inexpensively realize a large-scale WLAN.”

attractive and praised by academics and industries as a flexible and inexpensivelarge-scale WLAN.”

Lưu ý 2: Nếu một từ đơn được thêm những từ bổ ngữ tạo thành một ngữ mớithì chỉnh sửa này được phân loại là phrasal paraphrase chứ không phải lexicalparaphrase

“I booked for certain people but now more people are coming, can they stillcome?”

coming, can they still come?”

Phrasal paraphrase: Là paraphrase của hai từ trở lên Loại này bao gồmnhững trường hợp sau:

Loại 1 - Collocation: Những từ thường xuất hiện cùng với nhau Chỉnh sửanày làm cho câu văn trở nên tự nhiên hơn (giống người bản xứ hơn)

Có 7 loại collocation sau đây:

un-derstanding, launch a missile

Trang 27

• Verb + Direct Object (VERB-noun): reject an appeal

(powerful tea), house arrest

Loại 2 - Free-word combination: Những từ không nhất thiết phải xuất hiệncùng nhau trong ngữ cảnh Mục đích của chỉnh sửa chủ yếu nhằm để bài viết

the tree construction in the greedy algorithm.”

Một số trường hợp đặc biệt của free-word combination:

Loại 2.1 - Relative clauses:

Loại 2.1 - Reduced phrase:

“As ABC is described in , it is a .” → “as described in , it is a ”

“As we will describe , ABC is a ” → “as described in , ABC is ”Cần phân biệt lỗi paraphrase với trường hợp người viết có thể mắc lỗi trong

Trang 28

phrasal verb, lỗi spelling như as as → such as Những trường hợp nàykhông phân loại vào paraphrase mà phân loại vào những loại lỗi grammar.

2.1.5 Thu thập và xử lý dữ liệu

Chúng tôi thu thập những bản thảo báo cáo nghiên cứu viết bởi sinh viên vànhững nhà nghiên cứu mới người Việt Nam và người Nhật Bản Những bài báonày thuộc các thể loại như: luận văn thạc sĩ, tiến sĩ, chương sách, bài báo gửihội nghị khoa học quốc tế Chủ đề của những bài báo này đều thuộc lĩnh vựcCông nghệ thông tin: Xử lý ngôn ngữ tự nhiên, Thị giác máy tính, Tất cảcác bản thảo báo cáo này đều được chuyên gia ngôn ngữ chỉnh sửa tất cả cáclỗi viết bao gồm lỗi chính tả, lỗi ngữ pháp và lỗi văn phong

Những văn bản được thu thập có nhiều định dạng khác nhau: pdf, latex,word, Do đó, bước đầu tiên, chúng phải được chuẩn hóa và tiền xử lý đểchuyển văn bản thô thành dạng chuẩn để chuẩn bị cho quá trình gán nhãn.Công đoạn này được thực hiện theo quy trình dưới đây:

thay thế bằng các tag </CITE>, </Eq> và </Fig>, giữ lại toàn bộ phầnchữ Thêm các tag mở và đóng để đánh dấu <document></document>,

<abstract></abstract>, <subsection></subsection>, <textbf></textbf>,

Trang 29

• Bước 5 Chạy chương trình tiền xử lý trên file 1 và file 2 để tạo file crp vàfile aln theo đúng định dạng của phần mềm gán nhãn.

2.1.6 Kết quả gán nhãn

Bộ dữ liệu SWA được gán nhãn theo Mô hình cơ sở gồm 22 bài báo (4340 câu).Chúng tôi thu thập thêm 18 bài báo và gán nhãn theo Mô hình mở rộng cho 18bài báo (2946 câu) này và gán nhãn lại cho 22 bài báo của bộ dữ liệu SWA, tạo

ra bộ dữ liệu SWA-2 Như vậy, bộ dữ liệu SWA-2 bao gồm 40 bài báo (7286câu), đạt mục tiêu mà đề tài đặt ra

Những bài báo được thu thập được tiền xử lý và gióng hàng tự động bằngchương trình máy tính sử dụng một thuật toán so khớp chuỗi Sau đó, nhữngbài báo này được gán nhãn sử dụng phần mềm gán nhãn đã xây dựng

Mỗi văn bản trong ngữ liệu được gán nhãn bởi 2 người gán nhãn khác nhau

Độ nhất quán giữa hai người gán nhãn được đo bởi độ đo F1 Độ đo này cũngđược sử dụng bởi Cohn và các cộng sự [17] để đánh giá chất lượng gán nhãn

hàng từ loại preserved vì những gióng hàng từ loại này rất nhiều nhưng không

có nhiều ý nghĩa trong việc đo sự nhất quán giữa hai người gán nhãn (vì khảnăng rất cao là họ sẽ gán nhãn preserved cho chúng) Như vậy, sau bước tiền

tiếp theo, chúng tôi coi gióng hàng từ của người thứ nhất là gióng hàng chuẩn

và tính độ chính xác (precision), độ phủ (recall) và F1

Với cách đo như trên, độ nhất quán của ngữ liệu SWA được xây dựng theo

mô hình gán nhãn cơ sở đạt 0.72 nếu không xét đến loại nhãn của gióng hàng từ

và đạt 0.64 nếu xét đến loại nhãn Kết quả này cũng tương đương với kết quả

đo được bởi Cohn [17] trên ba bộ ngữ liệu MTC, Leagues và News là 0.71, 0.74

và 0.76 tương ứng với từng bộ ngữ liệu Khi xét đến loại nhãn của gióng hàng

từ, nghĩa là nhãn gióng hàng từ của cả hai người gán nhãn phải giống nhau mớiđược tính là nhất quán, thì kết quả thấp hơn khi không xét đến loại nhãn, điều

Trang 30

Bảng 2.1: Thống kê số lượng gióng hàng từ lỗi được gán nhãn

Alignment Type Count Ratio (% )

này là hiển nhiên vì khi xem xét đến loại nhãn, bài toán trở nên khó hơn

Có 4,686 gióng hàng từ lỗi (Inarticulation alignments) được gán nhãn cho2,516 cặp câu trong 18 văn bản 69,738 từ trên tổng số 75,968 từ được gánnhãn Preserved, chiếm tỉ lệ 91.8% Bảng 2.1 liệt kê tỉ lệ các loại lỗi trong ngữliệu Có thể thấy, lỗi ngữ pháp Grammar chiếm tỉ lệ 58.1% trên tổng số lỗi LỗiParaphrase chiếm một tỉ lệ khá lớn là 29.3% cho thấy lỗi Paraphrase là mộtloại lỗi phổ biến trong viết văn bản khoa học, do đó nghiên cứu về hỗ trợ viếtcần tập trung vào việc phát hiện và chỉnh sửa loại lỗi này

Bảng 2.3 thống kê tỉ lệ của từng loại lỗi con của loại lỗi ngữ pháp Grammar.Trong số những loại lỗi ngữ pháp, lỗi về sử dụng sai mạo từ là loại lỗi phổ biếnnhất đối với người Việt Nam và người Nhật, mặc dù tác giả của những bài viếtnày có trình độ tiếng Anh khá tốt Điều này có thể lý giải do sự khác biệt trongđặc điểm ngôn ngữ châu Á so với tiếng Anh Tiếng Việt và tiếng Nhật không

sử dụng mạo từ a, an và the như trong tiếng Anh

2.1.7 Phân tích đánh giá ngữ liệu chuẩn

So sánh với những ngữ liệu khác

Trong phần này chúng tôi so sánh những lỗi ngữ pháp được gán nhãn trongngữ liệu được xây dựng - SWA với những loại lỗi tương ứng trong hai bộ ngữ liệuthông dụng KJ và NUCLE để biết được sự giống và khác trong các bộ ngữ liệu,

từ đó xác định được những bài toán hỗ trợ viết cần được giải quyết cho từngloại đối tượng người học tiếng Anh Lỗi ngữ pháp trong mô hình của chúng tôibao gồm những loại lỗi được định nghĩa rõ ràng, dễ nhận biết Người viết những

Trang 31

Bảng 2.2: Bảng ánh xạ các nhãn trong 3 bộ nhãn KJ, NUCLE và SWA, dùng để so sánh 3 bộ ngữ liệu

aj, v_lxc Wform Word form

văn bản tiếng Anh của SWA có thể coi là những người học tiếng Anh trình độcao vì họ là những sinh viên sau đại học và nghiên cứu viên trẻ Còn người viếtnhững văn bản trong ngữ liệu KJ là sinh viên đại học người Nhật, đối với ngữliệu NUCLE là sinh viên năm nhất của các trường đại học Singapore

Ba bộ ngữ liệu này sử dụng những bộ nhãn phân loại lỗi khác nhau, do đóchúng tôi phải xây dựng một bảng ánh xạ cho ba bộ nhãn này trước khi cóthể so sánh lỗi được đánh dấu Bảng ánh xạ này được thể hiện trong Bảng2.10 Cách gán nhãn sử dụng cho ngữ liệu KJ là một phiên bản thu gọn của bộnhãn NICT_ JLE [68], do đó có sự giống nhau về định nghĩa các loại lỗi đượcgán nhãn Tuy nhiên trong KJ, một số loại lỗi được gom lại chung thành mộtloại Chẩng hạn như, loại biến cách danh từ (noun inflection), cách của danh từ(noun case), danh từ số ít và số nhiều (noun countability) và complement củadanh từ được gộp lại thành một loại là Noun lexical Bộ nhãn KJ có 19 nhãn,

ít hơn số lượng nhãn của NICT_JLE là 45 nhãn [50] Có thể thấy bộ nhãn củaNUCLE được chia mịn hơn bộ nhãn thu gọn trong KJ

Bốn loại lỗi Determiner, Preposition, Verb tense, and Agreement trong bộnhãn của chúng tôi có nhãn tương đồng trong bộ nhãn KJ, đó là các nhãn:

at (article), prp (preposition), v tns (verb tense) và v agr (verb agreement)tags Các nhãn tương đồng trong bộ nhãn của NUCLE là ArtOrDet (article

or determiner), Wcip (wrong collocation/idiom/preposition), Vt (verb tense) vàSVA (subject-verb agreement) Lưu ý rằng trong phân loại lỗi của chúng tôiloại lỗi Agreement còn bao gồm những kiểu agreement khác bên cạnh sự tươnghợp giữa chủ từ-động từ (subject-verb agreement) Số lượng lỗi loại Others làtổng của những loại n num (noun number) và rel (relative)trong ngữ liệu KJ và

Trang 32

Bảng 2.3: Thống kê các lỗi ngữ pháp (Grammar), so sánh với KJ và NUCLE α = TOTAL SWA / TOTALKJ, β = TOTAL SWA / TOTALNUCLE

Loại KJ (×α) KJ (%) NUCLE (×β) NUCLE (%) SWA SWA (%) Determiner 543 (726) 18.7 6,004 (641) 12.9 1,176 25.1 Preposition 377 (504) 13.0 7,312 (781) 15.7 547 11.7 Others 404 (540) 13.9 5,486 (543) 10.9 427 9.1 Verb tense 249 (333) 8.6 3,288 (351) 7.1 369 7.9 Word form 317 (423) 10.9 2,241 (239) 4.8 151 3.2 Agreement 146 (195) 5.0 1,578 (168) 3.4 53 1.1 Tổng 2,036 (2,723) 70.0 25,509 (2,723) 54.7 2,723 58.1

trong ngữ liệu NUCLE là tổng của các loại Nn (noun number) và Vform (verbform) Số lượng lỗi Word-form của ngữ liệu KJ được tính bằng tổng số lượnglỗi các loại: aj(adjective) v lxc (verb lexical) Ngữ liệu NUCLE cũng có loạilỗi tương ứng với loại lỗi Word-form trong phân loại lỗi của SWA gọi là Wform(word form), do đó chúng tôi đếm số lượng của lỗi loại này cho Word-form

Bảng 2.3 thống kê so sánh lỗi của ba bộ ngữ liệu Trong bảng này, chúng tathấy ở cả ba ngữ liệu, những lỗi ngữ pháp cơ bản này chiếm tỉ lệ lớn nhất trêntổng số lỗi của mỗi ngữ liệu với những tỉ lệ là 70.0%, 54.7% và 58.1% tương ứngvới ngữ liệu KJ, NUCLE và SWA Tuy nhiên, tỉ lệ lỗi ngữ pháp của KJ lớn hơnnhiều so với tỉ lệ lỗi ngữ pháp trong hai bộ ngữ liệu còn lại Điều này có thểđược giải thích như sau Người học tiếng Anh của KJ và NUCLE đều là sinhviên năm nhất, tuy nhiên người học tiếng Anh của KJ học ở Nhật trong môitrường không nói tiếng Anh, còn người học của NUCLE trong môi trường nóitiếng Anh (vì Singapore là nước sử dụng tiếng Anh khá nhiều trong đời sốnghàng ngày) Người học của SWA mặc dù không sống trong môi trường nói tiếngAnh nhưng lại có trình độ tiếng Anh tốt, do đó mắc ít lỗi ngữ pháp cơ bản hơn

so với KJ

Để có thể so sánh trực tiếp 3 ngữ liệu này, chúng tôi chuẩn hóa lại số lượngtừng loại lỗi theo kích thước của ngữ liệu SWA bằng cách nhân thêm các hệ

người học của SWA mặc dù có trình độ tiếng Anh tốt vẫn mắc nhiều lỗi mạo

từ so với hai ngữ liệu kia Sinh viên của KJ mắc ít lỗi mạo từ hơn Điều này

Trang 33

Bảng 2.4: Những loại lỗi con của loại Paraphrase cho thấy nhiều kiểu lỗi sai khác nhau của người viết

Type Examples of

annota-tion

Count % 1.Short-form

↔ Long-form

PCA → principle component analysis

2 0.6 2.Verb ↔

Prepositional phrase

to collect → of lecting

col-13 3.6

3.Relative clause ↔ Participle

needed → that need 5 1.4

4.Active ↔ Passive

has not studied → has not been

studied

13 3.6

5.Anaphoric pronoun ↔ Referent

this → the result 22 6.1

6.Selection have → provide

on the contrary → on the other hand

Simplification

good point → tage

advan-32 8.9 9.Complex It is better if are

used → Using is better

87 24.2

có thể do sự khác biệt trong cấu trúc câu được viết bởi ba đối tượng Sinh viêncủa KJ thường viết những câu ngắn, trong khi người học trình độ cao thườngviết những câu dài và phức tạp hơn Để khẳng định nhận định này, chúng tacần tiến hành thêm một số phân tích sâu hơn trong tương lai

Phân tích lỗi diễn đạt lại

Chúng tôi cũng tiến hành phân tích những lỗi viết lại Paraphrase để hiểuthêm về loại lỗi này nhằm đưa ra những giải pháp hỗ trợ viết tốt hơn cho ngườihọc trình độ cao Chúng tôi lựa chọn ngẫu nhiên 20 lỗi Paraphrase từ mỗi vănbản và phân loại chúng thành 9 loại con dựa trên kiểu viết lại Việc phân loạinày được thực hiện bằng tay Kết quả phân tích được trình bày trong Bảng 4.Năm loại đầu tiên trong bảng 4 là những loại khá rõ ràng, liên quan đếnviệc chuyển đổi giữa dạng thức dài và ngắn của những từ viết tắt, từ ký hiệu;hoặc sự chuyển đổi giữa dạng rút gọn và dạng đầy đủ của mệnh đề quan hện, Những loại paraphrase này chiếm 20.8% trên tổng số mẫu được sử dụngcho phân tích Việc chuyển đổi giữa dạng chủ động và thụ động, chuyển đổi

Trang 34

giữa dạng đầy đủ và đại từ (cho hiện tượng đồng tham chiếu) là dạng viết lạirất khó đối với máy tính nếu muốn thực hiện tự động vì chương trình máy tínhcần biết rõ những cụm từ này chỉ đến đối tượng nào trong văn bản Những loạiparaphrase còn lại được phân loại dựa vào số lượng từ mà chúng chứa, từ loại

và những từ được chứa trong đó

Loại con Selection dùng để chỉ việc thay thế một từ bằng một từ khác vớicùng từ loại hoặc thay thế bằng thành ngữ này bằng một thành ngữ khác Cómột số nguyên nhân gây ra lỗi sai dạng này mà người học cần chú ý Một trongnhững nguyên nhân là người viết sử dụng những từ không phù hợp với sự chuẩnmực của văn phong khoa học hoặc những từ nhập nhằng về nghĩa trong khi vănbản khoa học cần sự rõ nghĩa Một nguyên nhân khác là người viết đã sử dụng

từ mô tả không chính xác nghĩa mà họ muốn nói do sự ảnh hưởng của ngôn ngữ

mẹ đẻ hoặc những lý do khác Dạng này rất khó để có thể tái hiện bằng máytính, nói cách khác, máy tính khó có thể viết lại câu mắc những lỗi này vì máytính cần hiểu được nghĩa muốn nói của người viết

Loại Mis-use/Addition được dùng khi một từ trong câu gốc được thay thếbằng một cụm từ dài hơn trong văn bản chỉnh sửa Hiện tượng này xảy ra khi

từ trong câu gốc không thể hiện ý nghĩa đủ chi tiết Unknown/Simplification làloại ngược lại của Mis-use/Addition, loại này xảy ra khi người viết dùng những

mô tả dài dòng để diễn đạt ý muốn nói mặc dù có thể diễn đạt bằng những từngắn gọn hơn do họ không biết từ đó; ví dụ như sử dụng từ good point thay vìadvantage Kết quả phân tích cho thấy bên cạnh những kỹ thuật thêm thôngtin, chúng ta cần những kỹ thuật rút gọn câu, bỏ đi những phần dư thừa hoặcthay thế bằng từ gọn hơn

Loại Complex được sử dụng cho những liên kết từ nhiều-nhiều Trong khinhững loại chỉnh sửa khác xảy ra khá cục bộ, liên quan đến một vài từ đứngcạnh nhau thì loại này rất phức tạp vì có thể liên quan đến những cấu trúcđục lỗ, chẳng hạn như it is better if are used được viết lại thành using isbetter Những công trình nghiên cứu trước đây đã đề xuất rằng những kiểu viếtlại này là cần thiết để làm cho bài viết trở nên gắn kết hơn (coherence) để tạo

Trang 35

thành một diễn ngôn (discourse) lớn hơn như đoạn văn và văn bản [93] Làmthế nào để sử dụng thông tin diễn ngôn trong bài toán biên tập văn bản tự độngautomatic proofreading là một vấn đề thú vị trong NLP Ngữ liệu của chúng tôi

có thể được sử dụng để nghiên cứu thêm về vấn đề này

2.1.8 Kết luận

Trong phần này chúng tôi đã mô tả cách xây dựng ngữ liệu SWA để phục vụnhững nghiên cứu về kỹ thuật hỗ trợ viết văn bản khoa học bằng tiếng Anh.Khi xây dựng ngữ liệu SWA, chúng tôi đề xuất 2 mô hình phân loại lỗi và gánnhãn cho ngữ liệu lỗi tiếng Anh mới (mô hình cơ sở và mô hình mở rộng) gánnhãn cho những cặp câu được gióng hàng từ, phương pháp này thích hợp hơnkhi dữ liệu đầu vào gồm 2 văn bản: văn bản gốc và văn bản chỉnh sửa Chúngtôi cũng so sánh ngữ liệu được xây dựng với hai bộ ngữ liệu thông dụng khác.Kết quả so sánh cho thấy lỗi tiếng Anh của đối tượng mà chúng tôi hướng đến

là những người có trình độ tiếng Anh cao (advanced) và có sự khác biệt lớn sovới hai đối tượng học tiếng Anh mà hai bộ dữ liệu kia hướng đến Người họctrình độ cao có xu hướng mắc nhiều lỗi viết không tự nhiên và cần những công

cụ hỗ trợ phát hiện và sửa lỗi theo hướng viết lại (paraphrasing) hơn là sửa lỗiđơn thuần như những công cụ hiện có

Ngữ liệu SWA có thể được sử dụng như một bộ ngữ liệu chuẩn dùng để đánhgiá (benchmark data) cho nhiều bài toán khác nhau với mục đích hỗ trợ viếttiếng Anh như: sửa lỗi ngữ pháp, sửa lỗi chính tả, paraphrase, gióng hàng từ tựđộng Những nghiên cứu tiếp theo sẽ tiếp tục phát triển theo hướng này

2.2.1 Tổng quan về phân tích lỗi tự động

Một trong những nhu cầu của người viết là phân tích so sánh văn bản gốc vớivăn bản đã sửa lỗi, và cung cấp những số liệu thống kê có ích cho người viết,chẳng hạn như: tỉ lệ lỗi căn bản, tỉ lệ những lỗi phức tạp hơn, Làm thế nào

Trang 36

để so khớp hai văn bản và phân loại các điểm khác biệt là một thách thức vềmặt kỹ thuật xử lý văn bản Tuy nhiên bài toán so khớp, liên kết phục vụ choứng dụng hỗ trợ viết tiếng Anh này chưa được giới khoa học quan tâm nghiêncứu Do đó, một trong những mục tiêu của đề tài là nghiên cứu kỹ thuật sokhớp và phân loại những sai khác giữa văn bản gốc và văn bản đã chỉnh sửa.Những thống kê này cung cấp phân tích đầy đủ và chính xác hơn về khả năngcủa người viết, từ đó công cụ có thể đề xuất cho người viết cần phải trau dồithêm những kỹ năng nào.

Để so khớp hai văn bản, có thể sử dụng nhiều thuật toán khác nhau Mộttrong những phương pháp có thể sử dụng là dùng các thuật toán so khớp chuỗi.Cách tiếp cận khác là sử dụng phương pháp liên kết từ tự động, sau đó phân loạiliên kết từ bằng các bộ phân lớp dựa trên máy học thống kê [5, 59, 9] Chúngtôi nghiêng về cách tiếp cận thứ hai Tuy nhiên, so sánh hiệu quả của cả haicách tiếp cận cũng là một vấn đề khá thú vị, do đó trong đề tài này chúng tôinghiên cứu và thử nghiệm hai mô hình phân tích lỗi: dựa trên so khớp chuỗi vàdựa trên thống kê

Phương pháp phân tích lỗi dự động dựa trên so khớp chuỗi - Meteor

METEOR, viết tắt của Metric for Evaluation of Translation with ExplicitORdering, là một công cụ được xây dựng như một độ đo để đánh giá chất lượngcác bản dịch máy Bản chất của phương pháp này là phân loại liên kết từ, cũnggiống như bản chất của bài toán phân tích lỗi hỗ trợ viết tiếng Anh mà chúngtôi cần giải quyết

Meteor đánh giá chất lượng bản dịch máy bằng cách liên kết các câu trongbản dịch máy với bản dịch tham khảo (reference translation) do người dịch, sau

đó tính điểm tương đồng (lexical similarity score) giữa các câu trong hai bảndịch này Nếu có nhiều hơn một bản dịch tham khảo, điểm này sẽ được tínhtrên từng bản dịch máy và bản dịch tham khảo, và điểm cao nhất sẽ được ghinhận Chất lượng của toàn bộ bản dịch máy được tính dựa trên điểm của từngcâu trong bản dịch máy đó

Trang 37

Như mô tả ở trên, việc đánh giá chất lượng bản dịch máy sẽ được thực hiệnqua hai bước: bước một là liên kết từ giữa bản dịch máy và bản dịch tham khảo,bước hai là tính điểm tương đồng giữa hai bản dịch này dựa vào các liên kết từ

ở bước một Với mục đích là nghiên cứu các phương pháp liên kết từ có liênquan, nghiên cứu này chỉ tập trung nghiên cứu bước một là bước liên kết từgiữa bản dịch máy và bản dịch tham khảo

Phần dưới sẽ trình bày phương pháp liên kết từ trong Meteor

Liên kết từ trong Meteor

Cho mỗi cặp dịch máy - dịch tham khảo, Meteor xây dựng các liên kết từ dựatrên các loại so sánh tương đồng sau:

Exact: Các từ giữa hai văn bản được khớp (match) khi từ loại dạng đã chia(surface form) là giống nhau

Stem: Các từ được đưa về dạng nguyên mẫu (stem) bằng Snowball Stemmer

và khớp khi dạng nguyên mẫu của chúng giống nhau

Synonym: Các từ được khớp nếu chúng cùng là từ đồng nghĩa của một bộ

từ đồng nghĩa dựa theo cơ sở dữ liệu WordNet

Paraphrase: Các từ được khớp nếu chúng được liệt kê là paraphrase vớinhau trong bảng paraphrase Bảng paraphrase này sẽ được mô tả rõ hơn ở phầnsau

Mỗi kiểu so sánh tương đồng như trên sẽ được cài đặt thành một bộ khớp từ(word matcher) trong Meteor, theo đúng thứ tự ở trên: Exact, Stem, Synonym

và cuối cùng là Paraphrase Tại mỗi bước, Meteor sẽ xác định tất cả các từ cóthể khớp với nhau giữa hai bản dịch dựa trên những từ không khớp nhau từnhững bước trước Sau đó, liên kết từ sẽ được xác định bằng cách tìm ra tậpcon lớn nhất của các cặp từ mà thoả những tiêu chí như sau:

1 Mỗi từ trong từng câu có từ 0-1 matches

2 Số lượng từ được match trong cả hai câu là lớn nhất

liên kết từ liên tiếp nhau và có thứ tự giống như nhau trong cả hai câu

Trang 38

4 Tổng khoảng cách giữa các từ match với nhau trong hai câu là nhỏ nhất.Nghĩa là nếu một từ/ngữ trong câu này có thể match với nhiều từ/ngữtrong câu kia thì từ/ngữ nào xuất hiện tại vị trí gần với từ kia hơn sẽ ưutiên được chọn.

Sau khi chạy Meteor để liên kết từ ta được kết quả như hình 2.1, riêng từ

"we", "will" và "the" không liên kết với từ nào khác và được xem là unaligned.Lưu ý, câu trong bản dịch máy có chứa 2 từ "we", theo tiêu chí số 4 thì từ "we"thứ 2 (nằm ở vị trí số 6) gần với vị trí của từ "we" trong câu dịch tham khảohơn nên Meteor sẽ liên kết hai từ này với nhau

Hình 2.5: Ví dụ về liên kết từ trong Meteor

Chuẩn hoá ngữ liệu

Để tăng tính chính xác khi liên kết các từ giữa hai bản dịch với nhau, Meteor

có một bước chuẩn hoá ngữ liệu trước khi liên kết từ Bước chuẩn hoá này làmnhững việc như sau:

Trang 39

P (f |e 1 ).P (e2|f) Xác suất e2 là paraphrase của e1 sẽ là:

• Loại những paraphrase có xác suất rất thấp (P (f |e 1 ).P (e2|f) < 0.001)

words)

tổng xác suất tất cả các mẫu trong ngữ liệu:

Trang 40

• Loại những paraphrase có xác suất rất thấp (P (e2|e 1 ) < 0.01).

2.2.2 Mô hình phân tích lỗi tự động dựa trên kỹ thuật dịch máy

Chúng tôi xây dựng một hệ thống gồm hai phần chính (xem Hình 2.6) Bộ liênkết từ tự động sẽ tự động rút trích những liên kết từ giữa văn bản gốc và vănbản đã được chỉnh sửa Bộ phân lớp liên kết từ sẽ gán mỗi liên kết từ vào mộttrong các nhãn trong bộ nhãn đã trình bày trong mô hình xây dựng ngữ liệu cơ

Phân Lớp Liên Kết Từ

Các Liên Kết Từ Được Phân Lớp

Hình 2.6: Cấu trúc tổng quan hệ thống

Trước khi đi vào chi tiết của thiết kế hệ thống, chúng tôi giới thiệu các thuậtngữ được sử dụng cho các liên kết từ:

Mô hình phân tích lỗi tự động dựa trên kỹ thuật dịch máy tận dụng phươngpháp liên kết từ thống kê sử dụng cho dịch máy Phần sau đây sẽ mô tả rõ hơn

về các phương pháp và công cụ được sử dụng cho hệ thống phân tích lỗi dựatrên dịch máy, đồng thời so sánh với các phương pháp dựa trên so khớp chuỗi

Bộ liên kết từ

Một bước quan trong trong việc sinh ra liên kết giữa văn bản gốc và văn bảnđược chỉnh sửa là việc liên kết từ giữa hai văn bản này Cho một bộ dữ liệu

Ngày đăng: 05/10/2023, 20:03

HÌNH ẢNH LIÊN QUAN

Bảng 2: Sản phẩm cần đạt của đề tài - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Bảng 2 Sản phẩm cần đạt của đề tài (Trang 4)
Hình 2.1: Quá trình xây dựng ngữ liệu - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.1 Quá trình xây dựng ngữ liệu (Trang 21)
Hình 2.2: Bộ nhãn phân loại lỗi cơ sở - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.2 Bộ nhãn phân loại lỗi cơ sở (Trang 22)
Hình 2.4: Bộ nhãn phân loại lỗi mở rộng - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.4 Bộ nhãn phân loại lỗi mở rộng (Trang 25)
Bảng 2.10: Ánh xạ giữa bộ nhãn SWA và METEOR - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Bảng 2.10 Ánh xạ giữa bộ nhãn SWA và METEOR (Trang 49)
Hình 2.12: Kiến trúc hệ thống. - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.12 Kiến trúc hệ thống (Trang 58)
Bảng 2.19: Những thuộc tính sử dụng để sửa lỗi ngữ pháp số ít-nhiều trong tiếng Anh - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Bảng 2.19 Những thuộc tính sử dụng để sửa lỗi ngữ pháp số ít-nhiều trong tiếng Anh (Trang 68)
Hình 2.13: Cấu trúc tập tin câu ví dụ sau khi chuẩn hóa - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.13 Cấu trúc tập tin câu ví dụ sau khi chuẩn hóa (Trang 74)
Hình 2.14: Mô hình rút trích cụm từ - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.14 Mô hình rút trích cụm từ (Trang 74)
Hình 2.15: Phương pháp tìm kiếm câu ví dụ - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.15 Phương pháp tìm kiếm câu ví dụ (Trang 77)
Bảng 2.22: Các từ khóa sử dụng để phân loại mục bài báo chứa câu ví dụ - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Bảng 2.22 Các từ khóa sử dụng để phân loại mục bài báo chứa câu ví dụ (Trang 78)
Hình 2.16: Thiết kế giao diện chính của công cụ - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.16 Thiết kế giao diện chính của công cụ (Trang 80)
Hình 2.17: Thiết kế giao diện của chức năng: Sửa lỗi văn phong - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.17 Thiết kế giao diện của chức năng: Sửa lỗi văn phong (Trang 81)
Hình 2.18: Thiết kế giao diện của chức năng: Sửa lỗi chính tả/ngữ pháp - Nghiên cứu xây dựng công cụ hỗ trợ sửa lỗi viết tiếng anh cho báo cáo khoa học lĩnh vực công nghệ thông tin
Hình 2.18 Thiết kế giao diện của chức năng: Sửa lỗi chính tả/ngữ pháp (Trang 81)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w