1. Trang chủ
  2. » Luận Văn - Báo Cáo

ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx

92 379 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 1,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả.. Luận văn sẽ tập trung khảo sát việc tích hợp thông tin hình thái từ vào d

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN THỊ NGỌC MAI

TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO

HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh - 2010

Trang 2

MỤC LỤC

MỤC LỤC 1

DANH SÁCH CÁC BẢNG 4

DANH SÁCH CÁC HÌNH 5

CHƯƠNG 1: GIỚI THIỆU 6

1.1 Đặt vấn đề 6

1.2 Hướng tiếp cận của đề tài 8

1.3 Nội dung của luận văn 9

CHƯƠNG 2: TỔNG QUAN 11

2.1 Dịch máy thống kê 11

2.1.1 Dịch máy thống kê dựa trên từ 11

2.1.2 Mô hình dịch máy thống kê dựa trên ngữ 19

2.1.3 Mô hình dịch thống kê factored (Factored SMT) 26

2.1.4 Mô hình dịch máy thống kê dựa trên cú pháp 29

2.2 Các tiêu chuẩn đánh giá chất lượng dịch 31

2.2.1 BLEU (Bilingual Evaluation Understudy) 32

2.2.2 NIST 32

2.2.3 TER (Translation Error Rate) 32

CHƯƠNG 3: 33

CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ 33

3.1 Sử dụng tri thức ngôn ngữ để tiền xử lý 33

3.1.1 Dùng thông tin cú pháp 34

Trang 3

3.1.2 Sử dụng thông tin từ loại 36

3.1.3 Sử dụng luật biến đổi hình thái từ 37

3.2 Tích hợp tri thức vào hệ thống dịch máy 39

3.2.1 Tích hợp thông tin hình thái vào mô hình dịch 39

3.2.2 Tích hợp thông tin cú pháp vào mô hình dịch 40

3.2.3 Tích hợp vào mô hình ngôn ngữ 41

CHƯƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI 42

4.1 Tích hợp thông tin hình thái từ tiếng Anh 43

4.1.1 Thông tin từ loại 43

4.1.2 Thông tin biến cách của từ 44

4.1.3 Sử dụng luật chuyển đổi trật tự 45

4.2 Thêm thông tin hình thái từ tiếng Việt 50

4.2.1 Thông tin ranh giới từ 50

4.2.2 Thông tin từ loại 51

4.3 Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt 52

CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 54

5.1 Ngữ liệu 54

5.2 Các công cụ 55

5.3 Thí nghiệm 55

5.3.1 Tích hợp thông tin hình thái từ trong câu tiếng Anh 55

4.4 Tóm tắt kết quả thí nghiệm 74

CHƯƠNG 6: KẾT LUẬN 76

TÀI LIỆU THAM KHẢO 78

PHỤ LỤC 82

Trang 4

A Đối chiếu hình thái từ Anh – Việt (biến cách) 82

B Kết quả dịch của một số mô hình 82

Trang 5

DANH SÁCH CÁC BẢNG

Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng 15 Bảng 5.1 Thông tin về ngữ liệu 59 Bảng 5.2 Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh 60 Bảng 5.3 Kết quả dịch của các hệ chuyển đổi trật tự từ 63 Bảng 5.4 Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt 64 Bảng 5.5 Số liên kết gióng hàng từ trong các mô hình 65 Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt 68 Bảng 5.7 Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh

và tiếng Việt 71

Trang 6

DANH SÁCH CÁC HÌNH

Hình 2.1 Mô hình dịch máy thống kê 12

Hình 2.2 Biểu diễn gióng hàng từ dạng liên kết 14

Hình 2.3 Hình minh hoạ quá trình cải tiến gióng hàng từ 19

Hình 2.4 Ví dụ về dịch thống kê dựa trên ngữ 20

Hình 2.5 Mô hình dịch factored SMT 27

Hình 4.1 Mô hình chung của luận văn 43

Hình 4.2 Mô hình ngôn ngữ từ vựng 49

Hình 4.3 Mô hình ngôn ngữ từ loại 49

Hình 4.4 Mô hình factored SMT tích hợp từ loại 50

Hình 4.5 Mô hình factored SMT tích hợp nguyên mẫu và từ loại 51

Hình 4.5 Mô hình factored SMT tích hợp các thông tin hình thái từ 51

Trang 7

CHƯƠNG 1: GIỚI THIỆU

1.1 Đặt vấn đề

Dịch máy hay còn gọi là dịch tự động đã và đang được con người quan tâm hiện nay Các nhà nghiên cứu đưa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy tính và tạo ra ứng dụng phục vụ con người trong thời đại công nghệ thông tin phát triển Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con người đi đến thành công, chương trình dịch tự động sẽ là công

cụ giúp họ vượt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thường hay có nhập nhằng Mặc khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu Việc xây dựng một hệ dịch máy

có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch được gần với con người vẫn đang là một thách thức lớn

Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tư vào các hệ dịch theo nhiều hướng tiếp cận khác nhau:

- Nhóm nghiên cứu của PGS TS Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ

- Nhóm nghiên cứu của PGS TS Phan Thị Tươi (Đại học Bách Khoa Thành phố Hồ Chí Minh): Nhóm sử dụng phương pháp phân tích cú pháp có xác suất để dịch văn bản Anh-Việt và Việt-Anh

- Nhóm nghiên cứu của TS Lê Khánh Hùng Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam):

hệ dịch đã được đưa vào sử dụng trong thực tế và thương mại hoá sản phẩm (http://vdict.com) EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử

Trang 8

dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt Từ năm 2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) có thể dịch được văn bản hai chiều Anh-Việt và Việt-Anh Do hệ dịch dựa trên luật nên kết quả của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã được thiết lập hay không

- Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên Hải (http://www.latl.unige.ch/vietnamese/) tại LATL

- Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao gồm cả tiếng Việt Sử dụng phương pháp dịch máy thống kê dựa trên kho ngữ liệu song ngữ Tốc độ dịch nhanh và có tính năng tương tác với người dùng nhằm tăng chất lượng dịch cho các lần sau

- Dịch máy trên Xalo.vn (www.dich.xalo.vn): đưa ra dịch vụ dịch trực tuyến một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép người dùng chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lượng dịch

- Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi người dùng

Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lượng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả Tuy nhiên, máy tính khó có thể phân tích cú pháp chính xác cho những câu có ngữ nghĩa phức tạp Mặc khác, việc xây dựng tập luật

cú pháp và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn, đòi hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ

Ngược lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ Kết quả trung gian của

Trang 9

hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ Với phương pháp này, ngữ liệu càng lớn và có chất lượng tốt thì hệ dịch sẽ càng hiệu quả

Ưu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có thể áp dụng được trên bất kì cặp ngôn ngữ nào Mặc khác, chúng ta có thể tiền xử lý trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và dịch Ngoài ra, những người cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông qua các bảng thống kê trung gian Chính vì những đặc điểm này mà

mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy Rất nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô hình này

Do đó, chúng tôi hướng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống

kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ Luận văn sẽ tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này

1.2 Hướng tiếp cận của đề tài

Đề tài sẽ tập trung vào khảo sát các hướng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên ngữ Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt Các tri thức được tập trung khảo sát bao gồm hình thái từ,

từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hưởng của các thông tin này lên hệ dịch

Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ Tiếng Việt là ngôn ngữ đơn lập, quan hệ ngữ pháp chỉ được diễn đạt bằng trật tự trước sau của từ và bằng các hư từ Trong tiếng Việt, từ không có hiện tượng biến hình, đơn vị cơ bản là hình tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thường trùng với âm tiết, có khả năng vừa dùng như từ vừa dùng như hình vị Ở loại hình này, người ta thường hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hư với yếu tố thực cũng như vấn đề mặt cấu tạo từ ít phát triển Trong khi tiếng Anh là

Trang 10

ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp như: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới được hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những

ý nghĩa từ vựng, như: lặp lại (re-), chống (anti-), người/vật thực hiện (-er/-or), Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố

Nhiều nghiên cứu đã tiếp cận theo hướng tập trung vào giải quyết sự khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt như nghiên cứu của nhóm Nguyễn Phương Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3]

và đạt được một số kết quả khả quan Tuy nhiên, sự khác nhau về hình thái từ giữa tiếng Anh và tiếng Việt vẫn chưa được quan tâm

Do đó, đề tài sẽ tiếp cận theo hướng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ Từ tiếng Anh sẽ được đưa về nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ được phân đoạn từ

và gán nhãn từ loại Đề tài cũng sẽ phân tích các từ loại có ảnh hưởng tích cực đến chất lượng dịch của hệ thống

1.3 Nội dung của luận văn

Phần còn lại của luận văn sẽ bao gồm các chương sau:

Chương 2 – TỔNG QUAN: Chương này sẽ trình bày hướng tiếp cận dịch máy thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này Chương 3 – CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ: Chương này sẽ khảo sát các hướng tiếp cận để đưa tri thức ngôn ngữ vào trong hệ máy thống kê, phân tích ưu khuyết điểm của các hướng tiếp cận này

Trang 11

Chương 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chương này sẽ mô tả mô hình được sử dụng trong đề tài, các tri thức được đưa vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ và lí do lựa chọn các tri thức này

Chương 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chương này sẽ mô tả chi tiết

về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của đề tài, đồng thời so sánh các tri thức ngôn ngữ khác nhau ảnh hưởng như thế nào trong dịch máy thống kê Anh - Việt

Chương 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt được và hướng phát triển trong tương lai

TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên quan và được sử dụng trong đề tài

CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã được công bố trong quá trình thực hiện đề tài

Trang 12

CHƯƠNG 2: TỔNG QUAN 2.1 Dịch máy thống kê

Dịch máy thống kê (Statistical Machine Translation - SMT) được nghiên cứu từ những năm 1980 trong dự án Candide của IBM Phương pháp được IBM sử dụng là dịch máy thống kê dựa trên từ (word based SMT), phương pháp này dịch từ một từ thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép thêm, xoá các từ trên câu đích

Sau này, nhiều nhóm nghiên cứu đã đạt được kết quả dịch tốt hơn nhờ phương pháp dịch máy thông kê dựa trên ngữ (phrase based SMT) Phương pháp này được đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình

Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google Các hệ thống dịch máy dựa trên ngữ đạt được những kết quả vượt trội trong các hội nghị đánh giá chất lượng dịch máy thời gian gần đây (DARPA TIDES Machine Translation Evaluation)

Ngoài phương pháp thống kê còn nhiều phương pháp khác được sử dụng trong dịch máy Đa số các hệ thống dịch thương mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú Cho tới gần đây, các nghiên cứu về dịch máy thường tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch

2.1.1 Dịch máy thống kê dựa trên từ

Mô hình dịch máy thống kê dựa trên từ [25] được đưa ra bởi Brown vào năm 1990

Mô hình này giả sử rằng câu 𝑒 ở ngôn ngữ nguồn có câu dịch là câu 𝑣 ở ngôn ngữ

Trang 13

đích Một câu e có thể dịch sang được nhiều câu v Trong dịch thống kê, ta chọn câu

v có khả năng là câu dịch của e là nhiều nhất Với mỗi cặp câu 𝑣 𝑒 ta gọi 𝑝 𝑣 𝑒 là xác suất mà 𝑒 có thể dịch thành 𝑣 Mục đích của dịch máy thống kê là tìm câu 𝑣 có xác suất 𝑝 𝑣 𝑒 là cao nhất

Tuy nhiên, việc tính xác suất 𝑝 𝑣 𝑒 không khả thi vì câu đích được tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp

Do đó, công thức Bayes được dùng để triển khai cho xác suất 𝑝 𝑣 𝑒 :

𝑝 𝑣 𝑒 =𝑝 𝑣 𝑝 𝑒 𝑣

𝑝 𝑒

(2.1)

Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) sẽ không ảnh hưởng đến việc chọn câu 𝑒, ta

có thể bỏ qua 𝑝(𝑒) Khi đó, câu dịch 𝑣 được chọn sẽ là câu có 𝑝 𝑣 𝑝 𝑒 𝑣 lớn nhất

𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑝 𝑒 𝑣

(2.2)

Hệ dịch máy thống kê gồm 3 phần:

- Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy của câu

dịch Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ

đích sẽ có giá trị xác suất 𝑝(𝑣) cao hơn Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ

- Mô hình dịch 𝑝(𝑣) (translation model): Đưa ra sự tương ứng giữa các từ, ngữ

trong các cặp ngôn ngữ Với câu e cho trước, câu dịch v nào có xác suất 𝑝(𝑣) cao hơn thì sẽ là câu dịch hợp lý hơn Mô hình này được huấn luyện dựa trên các cặp câu song ngữ

- Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để

thực hiện quá trình dịch

Trang 14

Hình 2.1 Mô hình dịch máy thống kê

2.1.1.1 Mô hình ngôn ngữ

Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu được phát sinh Từ chuỗi từ được phát sinh ra, hệ dịch tính tần suất dãy các từ này cùng xuất hiện trong ngôn ngữ đích Thông tin này sẽ được dùng trong quá trình giải mã để tìm ra câu dịch hay nhất Các hệ thống hiện nay thường tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram

Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên 𝑛 − 1 từ đứng trước nó trong câu Cho câu 𝑠 gồm chuỗi các từ 𝑤1, 𝑤2, … 𝑤𝑛, ta tính các xác suất trong mô hình ngôn ngữ như sau:

Xác suất unigram:

𝑝 𝑤1 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1

𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ

(2.3) Xác suất bigram:

𝑝 𝑤1|𝑤2 =𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1

(2.4)

Ngữ liệu song ngữ

Ngữ liệu đơn ngữ

Thống kê Thống kê

Mô hình dịch Mô hình ngôn ngữ

Quá trình giải mã Câu nguồn Câu đích

Trang 15

Xác suất trigram:

𝑝 𝑤3|𝑤1𝑤2 =𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2𝑤3

𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1𝑤2

(2.5) Xác suất xuất hiện của câu 𝑠 được tính bằng tích của tất cả các xác suất xuất hiện của từng từ có trong câu 𝑠 Dưới đây là ví dụ về cách tính xác suất xuất hiện của câu

“I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram

Ví dụ, gióng hàng từ giữa cặp câu song ngữ:

She takes a small green box

Cô ấy lấy một chiếc hộp nhỏ màu xanh

Trang 16

đƣợc biểu diễn nhƣ sau:

Hình 2.2 Biểu diễn gióng hàng từ dạng liên kết Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng nhƣ bảng 2.1

Bảng 2.1 Bảng biểu diễn gióng hàng từ dạng bảng

𝑒 = 𝑒1, 𝑒2, … 𝑒𝑚

𝑣 = 𝑣1, 𝑣2, … 𝑣𝑛

She takes a small green box

Cô ấy lấy một chiếc hộp nhỏ màu xanh

Trang 17

Gọi gióng hàng từ 𝑎𝑗: 𝑗 → 𝑖 liên kết từ tiếng Anh thứ 𝑗 sang từ tiếng Việt thứ 𝑖 và 𝑎

là tập các liên kết từ tất cả các từ trong câu e

𝑝 𝑎, 𝑒 𝑣 = 𝑡 𝑒𝑗 𝑣𝑖

𝑚

𝑗 =1

(2.7) Trong đó, 𝑡 𝑒𝑗 𝑣𝑖 được tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song ngữ Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức cho việc gán nhãn Do đó, thật toán Expectation Maximization (EM) đã được [24]

đề xuất để ước lượng các gióng hàng từ (ngữ) này

Ý tưởng của thuật toán EM như sau:

Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng hàng từ được khởi tạo giá trị ban đầu như nhau

Sau đó, qua mỗi lần lặp, các cặp từ thường gióng hàng với nhau nhất sẽ được xác định

… my house … small house … my mobile …

… nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Trang 18

Liên kết giữa “my” và “của tôi” được xác định:

Liên kết “house” và “nhà” được xác định:

Các liên kết khác được xác định:

Kết quả gióng hàng từ cuối cùng:

Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều Khi đó

ta được cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tương ứng

Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lượt là IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra gióng hàng từ trên các cặp câu song ngữ

… my house … small house … my mobile …

… nhà của tôi … nhà nhỏ … điện_thoại của tôi …

… my house … small house … my mobile …

… nhà của tôi … nhà nhỏ … điện_thoại của tôi …

… my house … small house … my mobile …

… nhà của tôi … nhà nhỏ … điện_thoại của tôi …

… my house … small house … my mobile …

… nhà của tôi … nhà nhỏ … điện_thoại của tôi …

Trang 19

Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++ Công cụ này đƣợc xây dựng dựa trên các mô hình IBM Tuy nhiên, công cụ này có hạn chế là chỉ cho phép gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ đích

[10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có đƣợc từ GIZA++ Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ đƣợc giữ lại và vùng gióng hàng từ đƣợc mở rộng tối đa không vƣợt quá vùng giao của hai gióng hàng từ

Đầu tiên, ngữ liệu song ngữ đƣợc gióng hàng từ cả hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn Quá trình này tạo ra hai gióng hàng từ Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng hàng từ với độ chính xác cao (high-precision) Ngƣợc lại, nếu lấy phần hợp của hai gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao

Hình 2.2 minh họa quá trình này Trong hình, các điểm nằm trong vùng giao có màu đen, các điểm mở rộng có màu xám

Trang 20

Hình 2.3 Hình minh hoạ quá trình cải tiến gióng hàng từ

2.1.1.3 Quá trình giải mã (decoding)

Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn

- Chia câu nguồn thành nhiều từ hoặc cụm từ

- Tra trong bảng ngữ để tìm các ngữ dịch tương ứng

- Kết hợp các ngữ tìm được lại thành câu và chọn những câu có xác suất

mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất

2.1.2 Mô hình dịch máy thống kê dựa trên ngữ

Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh

mà chỉ dựa trên các phân tích thống kê về từ Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ Điều này cho phép hệ thống có thể dịch các cụm từ tránh được dịch word-by-word

Trang 21

Trong hệ dịch máy thống kê dựa trên ngữ [26], câu ở ngôn ngữ nguồn e được tách

thành nhiều ngữ 𝑒 (là một dãy nhiều từ, không nhất thiết phải là ngữ đúng ngữ 𝑖pháp, dấu câu cũng được xem như là một từ) Mỗi ngữ 𝑒 được dịch thành ngữ 𝑖

𝑣 tương ứng dựa vào phân phối xác suất 𝜙(𝑒 𝑖 𝑖|𝑣 𝑖) Sau đó các ngữ 𝑣 sẽ được 𝑖chuyển đổi trật tự dựa trên mô hình chuyển đổi 𝑑(𝑎𝑖 − 𝑏𝑖−1), với 𝑎𝑖 là vị trí bắt đầu của ngữ 𝑒 và 𝑏𝑖 𝑖−1 là vị trí kết thúc của ngữ 𝑣 Do vậy, hệ dịch thống kê trên ngữ sẽ 𝑖học được các cặp cụm từ song ngữ, đặc biệt là các câu thành ngữ

Như vậy, câu dịch tốt nhất thoả công thức (2.1) sẽ được viết lại thành:

Hình 2.4 Ví dụ về dịch thống kê dựa trên ngữ

Do thống kê trên các cặp ngữ, hệ dịch này có thể chuyển đổi trật tự giữa các từ trong ngữ, nhưng vẫn chưa tự động chuyển đổi trật tự các cụm từ ở xa nhau trong câu

Có nhiều cách khác nhau để rút trích các cặp ngữ từ ngữ liệu song ngữ [16] đã thử nghiệm 3 phương pháp sau:

i Lấy ngữ dựa vào kết quả gióng hàng từ

She takes a small green box

Cô ấy lấy một chiếc hộp nhỏ màu xanh

Trang 22

Tác giả sử dụng công cụ GIZA++ để gióng hàng từ trong ngữ liệu song ngữ Sau

đó, Koehn dùng một số heuristic để cải tiến thêm kết quả gióng hàng và lấy toàn bộ các cặp ngữ chứa những từ có liên kết Khi đó, 𝜙(𝑒 𝑖|𝑣 𝑖) đƣợc tính nhƣ sau:

iii Dùng mô hình kết hợp do Marcu, D và Wong, W đề xuất: Hình thành

ngữ trực tiếp trên ngữ liệu song ngữ

Thông qua các thí nghiệm, tác giả kết luận rằng mô hình dựa trên gióng hàng từ cho kết quả tốt nhất trong 3 mô hình

Xét cặp câu song ngữ:

That girl is the highest pupil in the class

Cô bé đó là học sinh cao nhất trong lớp

Mô hình rút các cặp ngữ từ kết quả gióng hàng từ sau:

Từ kết quả gióng hàng từ của cặp câu:

Trang 23

Các cặp ngữ rút ra phải nhất quán nhƣ hình (a), những từ có liên kết với từ trong ngữ nguồn thì cũng đƣợc đƣa vào trong ngữ đích Cách rút ngữ trong hình (b) là sai

vì từ “là” có liên kết với từ “is” nhƣng không đƣợc đƣa vào ngữ

Ban đầu, ta có thể lấy các ngữ từ các liên kết gióng hàng từ

(That, ấy), (girl, cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., )

Trang 24

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong),

(class, lớp), (., ), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao

nhất), (the class, trong lớp)

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., ), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao

nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh

cao nhất trong), (in the class, trong lớp), (the class , trong lớp )

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., ), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh

cao nhất trong), (in the class, trong lớp), (the class , trong lớp ), (That girl is the,

Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp)

Trang 25

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., ), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class , trong lớp ), (That girl is the,

Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao

nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học

sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil in the class , học sinh cao nhất trong lớp )

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., ), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class , trong lớp ), (That girl is the,

Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao

Trang 26

nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil

in the class , học sinh cao nhất trong lớp ), (That girl is the highest pupil in the, Cô

bé ấy là học sinh cao nhất trong), (is the highest pupil in the class , là học sinh cao nhất trong lớp )

(That, ấy), (girl, Cô bé), (is, là), (highest, cao nhất), (pupil, học sinh), (in, trong), (class, lớp), (., ), (That girl, Cô bé ấy), (is the, là), (highest pupil, học sinh cao nhất), (the class, trong lớp), (That girl is, Cô bé ấy là), (highest pupil in, học sinh cao nhất trong), (in the class, trong lớp), (the class , trong lớp ), (That girl is the,

Cô bé ấy là), (is the highest pupil, là học sinh cao nhất), (highest pupil in the, cao nhất trong), (in the class, trong lớp), (That girl is the highest pupil, Cô bé ấy là học sinh cao nhất), (is the highest pupil in the, là học sinh cao nhất trong), (highest pupil

in the class., học sinh cao nhất trong lớp.), (That girl is the highest pupil in the, Cô

bé ấy là học sinh cao nhất trong), (is the highest pupil in the class., là học sinh cao

nhất trong lớp.) (That girl is the highest pupil in the class , Cô bé đó là học sinh

cao nhất trong lớp )

Từ các cặp ngữ rút ra được, mô hình dịch dựa trên ngữ sẽ lưu lại bảng ngữ table) chứa các cặp ngữ rút ra từ các cặp câu song ngữ cùng với xác suất 𝜙(𝑒 𝑖|𝑣 𝑖)

Trang 27

(phrase-2.1.3 Mô hình dịch thống kê factored (Factored SMT)

Một hạn chế của hệ dịch thống kê dựa trên ngữ là vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem các dạng biến cách như là những từ phân biệt, do hệ dịch chỉ nhận diện bề mặt chữ chứ không có thông tin liên hệ nào giữa các dạng biến cách

Ví dụ, trong tiếng Anh, houses (những ngôi nhà) là biến cách danh từ số nhiều của

house (ngôi nhà) Tuy nhiên, hệ dịch dựa trên ngữ sẽ xem đây là hai từ riêng biệt

Nếu trong quá trình huấn luyện, hệ thống đã gặp từ house nhưng chưa gặp từ houses

thì sẽ không dịch được từ này

Nhóm nghiên cứu của [27] đã đề xuất mô hình dịch factored (đại diện) tích hợp trực tiếp tri thức ngôn ngữ vào mô hình dịch Mô hình này được phát triển dựa trên cách tiếp cận dịch máy dựa trên ngữ Cải tiến của mô hình này là các thông tin về tri thức được tích hợp vào hệ thống ở mức độ từ Một từ trong mô hình này được xem như

là một vector đại diện chứa nhiều thông tin khác nhau

Ví dụ, mỗi từ trong câu nguồn và câu đích có thể thêm các factor: từ nguyên mẫu,

từ loại, biến cách

Hình 2.5 Mô hình dịch factored SMT

Mô hình này có quá trình huấn luyện và dịch giống mô hình dịch dựa trên trên ngữ Tuy nhiên, bước tạo mô hình dịch của hệ factored SMT sẽ được chia ra thành ba bước nhỏ

Ví dụ từ tiếng Đức häuse khi được dịch sang tiếng Anh sẽ được xử lý như sau:

Câu đích

Từ

Từ loại Hình thái

Câu nguồn

Từ

Từ loại Hình thái Nguyên mẫu Nguyên mẫu

Trang 28

Từ häuse được thêm các thông tin hình thái từ: Từ häuse | nguyên mẫu hause | từ loại NN | số đếm Plural và được dịch theo các bước:

- Dịch từ nguyên mẫu của câu đích sang từ nguyên mẫu của câu đích

haus → house, home, building, shell

- Dịch các factor nguyên mẫu, từ loại, hình thái

NN|plural → NN|singular, NN|plural

- Phát sinh từ từ kết quả dịch từ nguyên mẫu và các factor

house + NN|singular → house|house|NN|singular house + NN|plural → houses|house|NN|singular home + NN|singular → home|home|NN|singular home + NN|plural → homes|home|NN|singular

… Quá trình dịch từ nguyên mẫu và các factor giống như dịch dựa trên ngữ Hệ thống

sẽ rút các cặp ngữ từ kết quả gióng hàng từ và tính xác suất có điều kiện dựa bằng cách thống kê tầng suất xuất hiện của các ngữ Ứng với mỗi bước dịch, hệ thống sẽ tạo ra một bảng dịch

Bước phát sinh chỉ thực hiện trên mức độ từ và xử lý trên câu đích, không liên quan đến kết quả gióng hàng từ

Trong quá trình giải mã, tìm kiếm câu dịch thích hợp, thay vì chỉ sử dụng một bảng dịch ngữ như mô hình dịch máy dựa trên ngữ, mô hình factored phải sử dụng nhiều bảng, quá trình tính toán cũng phức tạp hơn Công thức tính xác suất 𝑝 𝑣 𝑒 như sau:

Trang 29

Trong đó, Z là hằng số chuẩn, có thể bỏ qua trong thí nghiệm Như vậy, để tính xác suất dịch từ câu 𝑒 sang câu 𝑣, ta phải tính từng hàm đặc trưng 𝑕𝑖 bao gồm hàm đặc trưng về mô hình ngôn ngữ, mô hình chuyển đổi trật tự, các bước dịch và phát sinh Hàm đặc trưng cho mô hình ngôn ngữ bigram sẽ là:

𝑕𝐿𝑀 𝑣 𝑒 = 𝑝 𝑣 = 𝑝 𝑣1 𝑝 𝑣2 𝑣1 … 𝑝 𝑣𝑚 𝑣𝑚−1

(2.9) Đối với các bước dịch, mỗi câu 𝑒, 𝑣 sẽ được tách ra nhiều cặp ngữ 𝑒 𝑗, 𝑣 Cách 𝑗tính xác suất cặp ngữ 𝜏 𝑒 𝑗, 𝑣 𝑗 cũng tương tự cho mô hình dịch trong dịch máy thống kê dựa trên ngữ Hàm đặc trưng cho bước dịch được tính như sau:

𝑕𝜏 𝑒, 𝑣 = 𝜏 𝑒 𝑗, 𝑣 𝑗

𝑗

(2.10) Hàm đặc trưng cho bước phát sinh như sau:

𝑕𝐺 𝑒, 𝑣 = 𝛾 𝑣𝑘

𝑘

(2.11)

𝛾 𝑣𝑘 là phân phối xác suất có điều kiện giữa factor đầu vào và factor đầu ra của từ

𝑣𝑘 Ví dụ, hệ thống phát sinh từ nguyên mẫu house và từ loại NN và số đếm Plural thành từ ở dạng đầy đủ houses sẽ học xác suất 𝑝 𝑕𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙|𝑕𝑜𝑢𝑠𝑒𝑠 và

𝑝 𝑕𝑜𝑢𝑠𝑒𝑠| 𝑕𝑜𝑢𝑠𝑒, 𝑁𝑁, 𝑃𝑙𝑢𝑟𝑎𝑙 Các giá trị phân phối này hệ thống thống kê từ ngữ liệu đơn ngữ của ngôn ngữ đích

Mô hình này thích hợp đối với hệ dịch cho cặp ngôn ngữ giàu hình thái, dạng của từ phụ thuộc vào các yếu tố hình thái như từ loại, số đếm, giới tính, thì (quá khứ, tương lai…)

Trang 30

2.1.4 Mô hình dịch máy thống kê dựa trên cú pháp

Mô hình dịch máy thống kê dựa trên cú pháp là một mô hình dịch kết hợp giữa thống kê và những tri thức, ràng buộc về ngữ pháp vào trong quá trình dịch

Dịch thống kê dựa trên cú pháp có nhiều mô hình, sau đây là một số mô hình tiêu biểu:

- Dịch từ cây cú pháp sang câu (tree-to-string ) [34]

o Quá trình học: Từ câu nguồn, tác giả phân tích thành cây cú pháp Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích

o Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích dựa vào xác suất chèn từ Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá

có thể dịch ra thành từ rỗng (NULL)

- Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer) [33]

Trang 31

o Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự

o Cây cú pháp của câu đích được đổi trật tự và kết hợp với cây cú pháp của câu nguồn

- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical transfer)

Trong mô hình này, tác giả tập trung biến đổi trật tự cho các ngữ có chứa ngữ con

- Dịch dựa trên mệnh đề (clause level restructuring)

Do cấu trúc câu của tiếng Đức khác các ngôn ngữ khác: không có trật tự, vị trí của trạng từ, mệnh đề phụ [7] phân tích câu ra thành các mệnh đề và áp dụng sáu bước chuyển đổi trật tự trên cây cú pháp của câu nguồn nhằm tạo sự tương đồng về trật từ từ giữa câu nguồn và câu đích

Đánh giá mô hình dịch dựa trên cú pháp, [18] đã chỉ ra ưu điểm của phương pháp này như sau:

Trang 32

- Có thể chuyển đổi trật tự dựa trên thông tin cú pháp Chẳng hạn như chuyển tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức

- Dịch những từ chức năng (giới từ, mạo từ, ) tốt hơn

- Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong câu Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và tân ngữ

- Có thể khai thác mô hình ngôn ngữ cú pháp:

o Cây cú pháp đúng sẽ tạo ra câu dịch đúng

o Cho phép chuyển đổi trật tự ở xa Chẳng hạn như chuyển động từ chính

về cuối câu

Tuy nhiên, [18] cũng cho rằng những mô hình hiện tại vẫn chưa khai thác hết thông tin cú pháp vì các mô hình về cơ bản vẫn là dịch dựa trên ngữ, nghĩa là xem các từ trong câu là chuỗi token Tác giả đưa ra lý do của thông tin cú pháp chưa thật sự có ích vì: hệ dịch cần công cụ phân tích cú pháp tốt, có độ chính xác cao Ngoài ra, thông tin cú pháp khá là phức tạp, khó để con người theo dõi khi huấn luyện cũng như khi dịch và ít có nhà nghiên cứu nào vừa nắm vững về các mô hình thống kê lại hiểu rõ về lý thuyết ngôn ngữ

2.2 Các tiêu chuẩn đánh giá chất lượng dịch

Việc đánh giá chất lượng dịch rất phức tạp vì mỗi câu nguồn thường có thể có nhiều câu dịch khác nhau Tuỳ theo cách chọn từ, văn phong mà ta có thể tạo ra câu dịch khác nhau cho cùng một câu nguồn

Phương pháp đáng tin cậy nhất là để con người đánh giá Tuy nhiên, để người đánh giá sẽ chậm và tốn nhiều chi phí Mặc khác, mỗi người sẽ có cách nhìn nhận chủ quan khác nhau Do vậy, đánh giá bằng máy được sử dụng vì khách quan và nhanh chóng, ít tốn chi phí

Để ước lượng hiệu quả của hệ dịch, phương pháp đánh giá tự động thường đo độ tương tự giữa câu máy dịch và câu dịch tham chiếu trong ngữ liệu

Trong khuôn khổ của đề tài, luận văn sử dụng ba độ đo để khảo sát kết quả dịch: BLEU, NIST và TER

Trang 33

2.2.1 BLEU (Bilingual Evaluation Understudy)

Điểm BLEU [28] là một trong những tiêu chuẩn đo hiệu quả dịch được sử dụng rộng rãi nhất hiện nay Để đo BLEU, người ta tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt

2.2.2 NIST

NIST [8] là độ đo có cách đánh giá tương tự như BLEU nhưng sử dụng trung bình

số học (arithmetic mean) thay vì (geometric mean) nhằm tăng tính chính xác khi đánh giá Ngoài ra NIST còn đánh số điểm cao hơn cho các n-gram chứa nhiều thông tin hơn trong khi đối với BLEU là như nhau nếu cùng số từ Với tiêu chuẩn này, số điểm cao thì hệ dịch được xem là tốt

2.2.3 TER (Translation Error Rate)

TER [31] là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ máy dịch thành câu tham chiếu Đây là độ đo được đánh giá là gần với con người nhất Tỉ lệ lỗi sẽ được tính theo công thức:

𝑠ố 𝑡ừ 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛𝑕 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑡𝑕𝑎𝑚 𝑐𝑕𝑖ế𝑢

Các bước chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu Với độ đo này, tỉ

lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt

Trang 34

CHƯƠNG 3: CÁC HƯỚNG TÍCH HỢP TRI THỨC NGÔN

NGỮ VÀO DỊCH MÁY THỐNG KÊ

Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là state-of-the-art trong dịch máy thống kê Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp hoặc ngữ nghĩa Những tri thức này đã được nghiên cứu tích hợp vào các hệ thống dịch máy dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt được một số kết quả nhất định Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia làm hai hướng chính là sử dụng tri thức để tiền xử lý và đưa tri thức ngôn ngữ vào

hệ dịch

3.1 Sử dụng tri thức ngôn ngữ để tiền xử lý

Hướng tiếp cận thứ nhất được tập trung nghiên cứu rất nhiều và đạt được một số kết quả khả quan Hướng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích

từ pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ Các tri thức để chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật chuyển đổi dựa trên sự khác biệt giữa hai ngôn ngữ Thông thường, quá trình biến đổi này được thực hiện ở bước tiền xử lý trên câu nguồn hay câu đích, hoặc cả hai phía và kết quả thu được sẽ được đem làm đầu vào cho hệ dịch Mặc dù áp dụng theo nhiều cách khác nhau, nhưng hầu hết các mô hình theo hướng này đều hiệu quả hơn so với mô hình baseline Do mục tiêu chính của những phương pháp này là hướng đến sự tương đồng giữa hai ngôn ngữ nên đã khắc phục được khá nhiều lỗi khi thực thi hệ dịch thống kê, gồm những lỗi về gióng hàng từ, chọn từ dịch tương ứng hay chuyển đổi trật tự Ngoài ra, việc phân tích hình thái từ còn làm giảm được

số từ chưa có trong ngữ liệu huấn luyện

Trang 35

3.1.1 Dùng thông tin cú pháp

Xia và McCord [11] sử dụng các luật đảo trật tự từ trong văn phạm phi ngữ cảnh Trong quá trình huấn luyện, hệ thống sẽ tự động rút luật từ cây cú pháp của câu nguồn và câu đích cùng với kết quả gióng hàng từ Khi thực thi, các luật này sẽ được sử dụng để sắp xếp lại trật tự câu nguồn nhằm tạo sự tương tự giữa hai ngôn ngữ Mô hình này đã cải tiến được hệ dịch máy thống kê Anh – Pháp

Nhóm nghiên cứu của Collins [7] đưa ra mô hình cũng áp dụng kết quả phân tích cú pháp vào hệ dịch thống kê Tuy nhiên, tác giả chỉ lấy thông tin cú pháp của câu nguồn Hệ thống sẽ tự động rút ra luật chuyển đổi từ cây cú pháp và câu đích, sau

đó áp dụng các luật chuyển đổi trật tự cho mệnh đề tiếng Đức để tạo sự tương tự về mặt cú pháp với tiếng Anh, áp dụng ở giai đoạn tiền xử lý trong hệ dịch dựa trên ngữ Kết quả thử nghiệm cho thấy hệ đã cải tiến được đáng kể, điểm BLEU từ 25,2% tăng lên 26,8%

Nhóm nghiên cứu của Zhang [35] đưa ra mô hình tương tự như Xia và McCord [11] Trước tiên, câu nguồn được gán nhãn từ loại, phân tích ranh giới ngữ Sau đó tác giả lấy kết quả gióng hàng và câu đã được phân tích để tự động rút luật chuyển đổi trật tự trong dịch máy thống kê Hoa – Anh Tuy nhiên, công trình này mới ở chỗ

họ chỉ phân tích cú pháp ở câu nguồn và sử dụng mọi khả năng đảo trật tự đã học trong quá trình huấn luyện và biểu diễn ở dạng lưới Kết quả tăng từ 0,5% đến 1,8% điểm BLEU, tốt hơn so với hệ dịch chỉ lấy thông tin POS

[12] sử dụng kết quả gióng hàng trong ngữ liệu song ngữ để rút ra các luật chuyển đổi trật tự từ dựa trên cú pháp Sau đó, các luật này được dùng để đảo cho ngôn ngữ nguồn trong cả hai quá trình huấn luyện và kiểm tra đánh giá

Khi có align giữa câu nguồn S và câu đích T, thêm vào cây cú pháp của câu nguồn

PS, với mỗi node N trong PS, Nizar Habash tìm những vị trí từ trên T mà N và tất

cả các con của N có liên kết đến Sau đó, dựa vào cây PS, tìm điều kiện (C) để đổi trật tự từ (R) tạo thành các luật chuyển đổi Những luật có phân phối điều kiện cao nhất sẽ được chọn Nizar Habash dịch từ tiếng Ả-rập sang tiếng Anh sử dụng ngữ

Trang 36

liệu NIST MTEval, sử dụng GIZA++ cho liên kết từ, sử dụng BLEU và NIST để đánh giá Kết quả tốt nhất tăng 25% điểm BLEU

Một hướng cải tiến gióng hàng từ do May và Knight [14] đề ra như sau: dùng những ràng buộc về cú pháp để gióng hàng lại ngữ liệu song ngữ đã được gióng bởi công cụ GIZA++ Từ cây cú pháp của câu đích và kết quả gióng hàng, họ rút ra luật biến đổi giữa câu và cây (string-to-tree) Với mỗi cặp string/tree (câu nguồn và cây

cú pháp của câu đích) trong ngữ liệu, họ sử dụng các luật này để xây dựng rừng dẫn xuất string-to-tree có thể có Sau đó, tác giả sử dụng mô hình EM để chọn cây dẫn xuất cho mỗi cặp Kết quả là các cặp câu được align lại từ cây dẫn xuất Viterbi

Sử dụng thuật toán trên, nhóm nghiên cứu của Victoria Fossum [33] đề xuất cải tiến gióng hàng từ bằng cách sử dụng hai đặc trưng của các luật được rút ra là kích thước của luật lớn nhất và số lượng luật để dò tìm tự động và xoá liên kết sai do GIZA++ gióng hàng Sau khi xoá liên kết này, kết quả gióng hàng và chất lượng dịch đã được cải thiện rất nhiều trong dịch Hoa – Anh và Ả Rập – Anh Điểm BLEU tăng từ 0,5 đến 1,4 và độ đo f-measure của gióng hàng từ tăng từ 1 đến 3% Thuật toán của các tác giả trên khác với May và Knight [14] ở chỗ tập các liên kết

từ mới mà họ phát sinh ra được chỉ giới hạn trong các liên kết mà GIZA++ gán ban đầu trong ngữ liệu huấn luyện Trong khi đó, thuật toán của Victoria Fossum [33] thì sẽ phát hiện được tất cả các gióng hàng bằng cách xoá đi một liên kết từ kết quả của GIZA++ ban đầu Ngoài ra, nếu sử dụng thuật toán của May và Knight sẽ tốn nhiều thời gian trong quá trình huấn luyện vì phải tìm gióng hàng nào tốt nhất cho mỗi cặp câu Đối với thuật toán của [33], họ sử dụng phương pháp tìm kiếm Greedy nên sẽ tìm ra liên kết cần xoá nhanh hơn, do đó thuật toán tiết kiệm được nhiều thời gian hơn

Phương pháp này không những cải thiện được kết quả gióng hàng mà còn làm tăng

độ chính xác của trật tự từ kết quả dịch Việc sử dụng thông tin cây cú pháp giúp hệ dịch xử lý trường hợp những từ ở xa có ràng buộc với nhau về mặt ngữ pháp Tuy nhiên, quá trình rút ra luật chuyển đổi phụ thuộc rất nhiều vào việc phân tích cây cú

Trang 37

pháp cho cả hai ngôn ngữ và kết quả gióng hàng từ Nếu những thông tin này không chính xác, dẫn đến luật học cũng sai và ảnh hưởng đến kết quả hệ dịch Và đó cũng

là trở ngại khi đem mô hình này áp dụng cho những cặp ngôn ngữ khác

3.1.2 Sử dụng thông tin từ loại

Bên cạnh đó, một số nhóm nghiên cứu khác tạo luật chuyển đổi trật tự dựa trên thông tin từ loại Tác giả khảo sát sự khác biệt về trật tự của các cặp ngôn ngữ và rút

ra các luật chuyển đổi

Nhóm nghiên cứu của Hermann Ney [20] đưa ra hai cách chuyển đổi trật tự tuỳ thuộc vào cặp ngôn ngữ và chiều dịch: đổi trật tự nội bộ trong các danh từ và tính từ khi dịch từ Tây Ban Nha và dịch sang Tây Ban Nha, đổi trật tự cho động từ khi dịch sang tiếng Đức Kết quả giảm được 2% WER và tăng 7% BLEU

- Chuyển đổi cục bộ: Trong tiếng Tây Ban Nha, tính từ đặt sau danh từ, trong khi tiếng Anh và hầu hết những ngôn ngữ không thuộc dòng Roman thì trật

tự ngược lại Nếu dịch từ tiếng Tây Ban Nha thì danh từ sẽ được đảo ra sau Nếu dịch sang tiếng Tây Ban Nha thì ở câu nguồn, tính từ chuyển ra sau danh từ

- Chuyển đổi xa: Trong tiếng Đức, động từ thường được đặt ở cuối câu nếu ở dạng nguyên mẫu (infinitive) hay quá khứ phân từ (past participle) Do đó, khi dịch sang tiếng Đức, hệ dịch sẽ chuyển các động từ ở dạng nguyên mẫu hay quá khứ phân từ về cuối câu

Một nghiên cứu khác cũng sử dụng luật chuyển đổi dựa trên sự khác biệt về trật tự

từ giữa tiếng Hoa và tiếng Anh Nhóm nghiên cứu của [6] đổi trật tự câu tiếng Hoa trước khi đưa vào hệ dịch Họ đưa ra hệ luật chuyển đổi bằng cách khảo sát thành phần của các loại ngữ trong Penn Chinese Treebank guidelines Những loại ngữ có thứ tự thành phần tương tự tiếng Anh thì sẽ được giữ nguyên, chẳng hạn như ngữ tính từ, ngữ trạng từ,… Tác giả rút luật chuyển đổi từ sự khác biệt trong các ngữ danh từ, ngữ động từ, ngữ định vị (tương ứng với ngữ giới từ trong tiếng Anh) Kết quả hệ được cải tiến từ 28,52 đến 30,86 điểm BLEU

Trang 38

Ưu điểm của phương pháp này là có thể đưa ra luật chuyển đổi bằng tay dựa trên khảo sát sự khác biệt của cặp ngôn ngữ, đặc biệt là những cặp khác nhau nhiều về trật tự từ

3.1.3 Sử dụng luật biến đổi hình thái từ

Ngoài thông tin từ loại, các nhà nghiên cứu còn sử dụng thông tin hình thái khác như dạng nguyên mẫu, phụ tố của từ Các tác giả dùng những tri thức này để biến đổi từ sang dạng mới, nhằm tạo sự tương đương giữa hai ngôn ngữ, giảm bớt các trường hợp gióng hàng không phải 1-1

Nicola Ueffing và Hermann Ney [23] đưa ra mô hình dịch từ ngôn ngữ ít biến đổi hình thái như tiếng Anh sang ngôn ngữ giàu hình thái Các dạng từ trong tiếng Anh thường không chứa đủ các thông tin cần thiết để hoàn chỉnh từ trong ngôn ngữ đích Tác giả đưa ra mô hình cải tiến chất lượng hệ dịch bằng cách sử dụng thông tin từ loại và mô hình maximum entropy Kết quả dịch từ tiếng Anh sang Tây Ban Nha và Catalan trên ngữ liệu LC-STAR bao gồm thể loại đàm thoại về kế hoạch công việc

và du lịch

Tác giả đưa ra cách dịch chuỗi tiếng Anh bao gồm cả thông tin từ loại

- Động từ: Trong tiếng Catalan và Tây Ban Nha, đại từ đứng trước động từ thường được bỏ qua và thay vào đó, người ta thể hiện thông qua đuôi của động từ Phần cuối này cho biết động từ đang ở thì tương lai hay là các dạng trợ động từ như “should”, “would” trong tiếng Anh Để giải quyết vấn đề này, tác giả đề ra phương pháp tạo dạng từ mới của tiếng Anh bằng cách nối động từ với đại từ và trợ động từ và thông tin từ loại sẽ hỗ trợ cho hệ thống dò tìm ra đại từ và trợ động từ Vd: “you will have” được nối thành “you_will_have” tương ứng với “tendrás” tiếng Tây Ban Nha và “tindràs” trong Catalan

- Đảo câu nghi vấn: Trong tiếng Anh, ngữ nghi vấn có trật tự từ khác với câu khẳng định: Trợ động từ được đảo ra trước đại từ và động từ chính chuyển về nguyên mẫu Trật từ này khác so với tiếng Catalan và Tây Ban

Trang 39

Nha, tác giả đưa ra trật tự mới trong tiếng Anh để tạo ra sự giống nhau giữa các cặp ngôn ngữ này Trong câu hỏi của tiếng Anh, thông tin trợ động từ “do” không có ích nên tác giả bỏ trợ động từ này đi và không gây ảnh hưởng đến kết quả dịch (như công bố của [27] khi dịch từ tiếng Đức sang Anh) Nhưng tác giả không bỏ trợ động từ ở thì quá khứ Khi

xử lý, hệ thống đảo trợ động từ ra sau đại từ Vd: “how are you” được chuyển thành “how_you_are”

Kết quả, tỉ lệ lỗi dịch Anh – Catalan giảm ~ 2% (WER), 3% (BLEU) và Anh – Tây Ban Nha giảm ~0,5% (WER), ~0,7% (BLEU) Tuy nhiên, tỉ lệ lỗi của hệ dịch Anh – Tây Ban Nha vẫn cao hơn Anh – Catalan Nguyên nhân chính là do từ vựng của tiếng Tây Ban Nha chứa nhiều nội dung hơn Hệ dịch này có thể cải tiến thêm bằng cách xử lý thêm các loại từ khác ngoài động từ

Trong bài báo của Nguyễn Phương Thái và Akira Shimazu [32], tác giả sử dụng các luật chuẩn đổi hình thái bằng tay, về cú pháp, họ sử dụng mô hình chuyển đổi dựa trên công thức Bayes Câu nguồn đã được chuyển đổi ở phần tiền xử lý Kết quả thử nghiệm trên ngữ liệu Anh – Việt, cải tiến được 3,28% so với phrase-base SMT bằng Pharaoh

Trong nghiên cứu này, tác giả đưa ra mô hình khác với [10] và [6] ở chỗ mô hình chuyển đổi dựa trên quyết định thống kê Mặt khác, tác giả chỉ phân tích cú pháp cho một phía là ngôn ngữ nguồn Một điểm khác nữa là tác giả ứng dụng trên cặp ngôn ngữ Anh – Việt (khác về đặc trưng ngôn ngữ) và kết hợp chuyển đổi cú pháp với chuyển đổi hình thái

Tác giả đưa ra các luật chuyển đổi dựa trên những điểm khác biệt giữa hai ngôn ngữ Tiếng Việt khác tiếng Anh ở chỗ tiếng Việt là ngôn ngữ đơn lập, không thể phân biệt ranh giới từ bằng khoảng trắng Mặt khác, từ tiếng Việt không có biến tố như tiếng Anh Tác giả phân tích từ tiếng Anh về nguyên mẫu và lấy thông tin các phụ tố và hình thái, từ đó chuyển thành chuỗi mới Vd: “books” được chuyển thành

“book_s”, “booking” chuyển thành “book_ing”

Trang 40

Về chuyển đổi cú pháp, tác giả phân tích cú pháp câu nguồn và lấy kết quả gióng hàng từ đưa vào huấn luyện Các luật chuyển đổi sẽ được rút ra khi cây cú pháp câu nguồn và chuỗi câu đích bị chéo nhau Sau đó, hệ thống tính xác suất của những luật này Khi thực thi, hệ thống sử dụng công thức Bayes để tìm luật chuyển đổi cú pháp cho cây cú pháp của câu nguồn Sau khi chuyển đổi cú pháp và phân tích hình thái cho câu nguồn, chuỗi nhận được cùng với câu đích sẽ là đầu vào của hệ dịch Kết quả thử nghiệm trên ngữ liệu Anh – Việt, điểm BLEU tăng lên ~4% với chủ đề máy tính và ~3% chủ đề đàm thoại Phương pháp này có thể áp dụng cho các cặp ngôn ngữ khác, đặc biệt là khi kích thước ngữ liệu nhỏ

Do phân tích hình thái từ và chuyển về nguyên mẫu, mô hình này giảm được phần nào trường hợp từ chưa gặp trong ngữ liệu huấn luyện Đồng thời, khi tách phụ tố

và đảo trật tự theo tiếng Việt, mô hình tăng cường gióng hàng 1-1 nên kết quả gióng hàng chính xác hơn Mô hình này khá hiệu quả đối với những cặp khác biệt nhau về mặt hình thái, mức độ biến hình của từ của hai ngôn ngữ

3.2 Tích hợp tri thức vào hệ thống dịch máy

Tương tự hướng tiếp cận thứ nhất, những mô hình trong hướng này cũng sử dụng các thông tin ngôn ngữ như: từ loại, hình thái từ, cây cú pháp, để cải tiến hệ dịch Chỉ khác ở chỗ, những tri thức này được đính kèm vào trong các cặp câu và đưa vào

mô hình dịch hoặc mô hình ngôn ngữ vào hệ factored SMT Đây là mở rộng của hệ dịch dựa trên ngữ, cho phép người dùng đưa những thông tin khác đi kèm với từ Những thông tin này có thể đưa vào mô hình dịch hoặc mô hình ngôn ngữ

3.2.1 Tích hợp thông tin hình thái vào mô hình dịch

Đối với một số ngôn ngữ (Tây Ban Nha, Anh,…), động từ có thể chia ở nhiều dạng khác nhau, dẫn đến khó có một ngữ liệu nào có thể chứa hết các dẫn xuất của các động từ [5] đưa ra mô hình phân lớp loại từ sẽ tạo một token tương ứng với tất cả các dẫn xuất của một động từ Làm cách này, các dạng động từ sẽ xuất hiện nhiều hơn và dễ ước lượng hơn Ngoài ra, có một mô hình tương tự đối với động từ của ngôn ngữ đích

Ngày đăng: 28/06/2014, 16:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đinh Điền (2001), So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Tạp chí Khoa học Xã hội và Nhân văn, Trường Đại học Khoa học Xã hội và Nhân văn Tp. Hồ Chí Minh Sách, tạp chí
Tiêu đề: Tạp chí Khoa học Xã hội và Nhân văn
Tác giả: Đinh Điền
Năm: 2001
[3] Vũ Ngọc Tú (1996), Nghiên cứu đối chiếu trật tự từ Anh-Việt trên một số cấu trúc cú pháp cơ bản, Luận án phó tiến sĩ khoa học ngữ văn.Tiếng Anh Sách, tạp chí
Tiêu đề: Luận án phó tiến sĩ khoa học ngữ văn
Tác giả: Vũ Ngọc Tú
Năm: 1996
[4] A. Stolcke, 2002, SRILM - An Extensible Language Modeling Toolkit, In Proceedings of Intl. Conf. Spoken Language Processing, Denver, Colorado, September 2002 Sách, tạp chí
Tiêu đề: In Proceedings of Intl. Conf. Spoken Language Processing
[5] Alexandra Birch, Miles Osborne, Philipp Koehn, 2007, CCG supertags in factored statistical machine translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 9-16 Sách, tạp chí
Tiêu đề: In Proceedings of the Second Workshop on Statistical Machine Translation (ACL)
[6] Chao Wang, Michael Collins, and Phillip Koehn, 2007. Chinese Syntactic Reordering for Statistical Machine Translation, in Proceeding of EMNLP, 2007 Sách, tạp chí
Tiêu đề: in Proceeding of EMNLP
[7] Collins, M., Koehn, P. and Kucerova, I. (2005), Clause restructuring for statistical machine translation, Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics (ACL), pp. 531-540 Sách, tạp chí
Tiêu đề: Proceedings of the 43rd Annual Meeting of the Assoc. for Computational Linguistics
Tác giả: Collins, M., Koehn, P. and Kucerova, I
Năm: 2005
[8] Doddington, G. (2002), Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics, Proceedings of the second international conference on Human Language Technology Research, pp. 138 – 145 Sách, tạp chí
Tiêu đề: Proceedings of the second international conference on Human Language Technology Research
Tác giả: Doddington, G
Năm: 2002
[9] Eugene Charniak, Kevin Knight, and Kenji Yamada, 2003. Syntax-based Language Models for Statistical Machine Translation. In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation, New Orleans, Louisiana, September 2003 Sách, tạp chí
Tiêu đề: In Proceedings of the Ninth Machine Translation Summit of the International Association for Machine Translation
[11] F. Xia and M. McCord. 2004. Improving a statistical MT system with automatically learned rewrite pat-terns. In Proceedings of COLING 2004 Sách, tạp chí
Tiêu đề: In Proceedings of COLING
[12] Habash, Nizar. Syntactic Preprocessing for Statistical Machine Translation, In Proceedings of the Machine Translation Summit (MT-Summit), Copenhagen, Denmark, 2007 Sách, tạp chí
Tiêu đề: In Proceedings of the Machine Translation Summit (MT-Summit)
[13] J. Giménez and L. Márquez, 2004, SVMTool: A general POS tagger generator based on Support Vector Machines, In Proceedings of the 4th International Conference on Language Resources and Evaluation, Lisbon, Portugal, 2004 [14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for MachineTranslation. In Proceeding EMNLP-CoNLL Sách, tạp chí
Tiêu đề: In Proceedings of the 4th International Conference on Language Resources and Evaluation", Lisbon, Portugal, 2004 [14] J. May and K. Knight, 2007. Syntactic Re-Alignment Models for Machine Translation
[17] Koehn, P., Och, F. J., and Marcu, D. (2003), Statistical phrase-based translation, Proceedings of the HLT-NAACL 2003 conference, pp. 127–133 Sách, tạp chí
Tiêu đề: Proceedings of the HLT-NAACL 2003 conference
Tác giả: Koehn, P., Och, F. J., and Marcu, D
Năm: 2003
[20] M. Popovic, H. Ney, 2006, POS-based Word Reorderings for Statistical Machine Translation, In Proceedings of the LREC 2006, Genova, Italy, May 2006 Sách, tạp chí
Tiêu đề: In Proceedings of the LREC 2006
[21] Maria Holmqvist, Sara Stymne, Lars Ahrenberg (2007). Getting to know Moses: initial experiments on German--English factored translation. In Proceedings of the Second Workshop on Statistical Machine Translation (ACL), Prague, Czech Republic, page 181-184 Sách, tạp chí
Tiêu đề: In Proceedings of the Second Workshop on Statistical Machine Translation (ACL)
Tác giả: Maria Holmqvist, Sara Stymne, Lars Ahrenberg
Năm: 2007
[22] Minnen, G., J. Carroll and D. Pearce, 2001, Applied morphological processing of English, Natural Language Engineering, 7(3), pages 207-223 Sách, tạp chí
Tiêu đề: Natural Language Engineering, 7(3)
[23] N. Ueffing, and H. Ney, 2003, Using POS Information for Statistical Machine Translation into Morphologically Rich Languages, In Conference of the European Chapter of the Association for Computational Linguistics (EACL), pages 347-354, Budapest, Hungary, April 2003 Sách, tạp chí
Tiêu đề: In Conference of the European Chapter of the Association for Computational Linguistics (EACL)
[25] P. F. Brown, S. A. D. Pietra, V. J. D. Pietra, and R. L. Mercer, 1993, The mathematics of statistical machine translation, Computational Linguistics.22(1): 39-69 Sách, tạp chí
Tiêu đề: Computational Linguistics. "22(1)
[26] P. Koehn, F. J. Och, and D. Marcu, 2003, Statistical phrase-based translation, In Proceedings of HLT-NAACL 2003 Sách, tạp chí
Tiêu đề: In Proceedings of HLT-NAACL
[27] P. Koehn, H. Hoang, 2007. Factored Translation Models. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL), pp. 868–876, Prague, June 2007 Sách, tạp chí
Tiêu đề: In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (ACL)
[29] S. NieBen and H. Ney, 2001, Morpho-syntactic analysis for reordering in statistical machine translation, In Proceedings of MT Summit VIII, pages 247- 252, Santiago de Compostela, Galicia, Spain, September 2001 Sách, tạp chí
Tiêu đề: In Proceedings of MT Summit VIII

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Mô hình dịch máy thống kê - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Hình 2.1. Mô hình dịch máy thống kê (Trang 14)
Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng  She  takes  a  small  green  box  .  Cô - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng She takes a small green box . Cô (Trang 16)
Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết (Trang 16)
Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ (Trang 20)
Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ (Trang 21)
Hình 2.5. Mô hình dịch factored SMT - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Hình 2.5. Mô hình dịch factored SMT (Trang 27)
Hình  4.1  mô  tả  hệ  dịch  máy  thống  kê  Anh  -  Việt  dựa  trên  ngữ  và  công  đoạn  can  thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
nh 4.1 mô tả hệ dịch máy thống kê Anh - Việt dựa trên ngữ và công đoạn can thiệp để tích hợp tri thức ngôn ngữ vào hệ thống này của luận văn (Trang 43)
Hình 4.4. Mô hình factored SMT tích hợp từ loại - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Hình 4.4. Mô hình factored SMT tích hợp từ loại (Trang 54)
Bảng 5.1 Thông tin về ngữ liệu - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 5.1 Thông tin về ngữ liệu (Trang 55)
Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 5.2. Kết quả dịch khi tích hợp thông tin hình thái từ vào câu nguồn (Trang 56)
Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ (Trang 63)
Bảng 5.3 hiển thị kết quả dịch của hệ dịch áp dụng luật chuyển đổi trật tự. Kết quả  cho thấy khi dùng luật chuyển đổi, hiệu quả dịch cao hơn so với hệ cơ sở - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 5.3 hiển thị kết quả dịch của hệ dịch áp dụng luật chuyển đổi trật tự. Kết quả cho thấy khi dùng luật chuyển đổi, hiệu quả dịch cao hơn so với hệ cơ sở (Trang 64)
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt (Trang 66)
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình - ĐỀ TÀI: TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH-VIỆT pptx
Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình (Trang 66)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w