1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê

92 533 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 1,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khái niệm về dịch máy,vai trò, vị trí của dịch máy 1.1.1 Khái niệm về dịch máy Định nghĩa: Các hệ dịch máy machine translation system-MT là các hệ thống sử dụng máy tính để dịch từ mộ

Trang 1

NGUYỄN VĂN VINH

Xây dựng chương trình dịch tự động Anh - Việt

bằng phương pháp thống kê

LUẬN VĂN THẠC SỸ

Người hướng dẫn: PGS.TS Đinh Mạnh Tường

Hà nội - 2005

Trang 2

MỤC LỤC

MỤC LỤC 1

DANH MỤC HÌNH 3

MỞ ĐẦU 4

Chương 1 - TỔNG QUAN 6

1.1 Khái niệm về dịch máy,vai trò, vị trí của dịch máy 6

1.1.1 Khái niệm về dịch máy 6

1.1.2 Vị trí, vai trò của dịch máy 6

1.2 Sơ đồ tổng quát của một hệ dịch máy 7

1.3 Phân loại dịch máy 8

1.3.1 Theo mức độ can thiệp của con người 8

1.3.2 Theo số ngữ và số chiều dịch 8

1.3.3 Theo cách lấy thông tin 9

1.3.4 Theo phạm vi ứng dụng 9

1.3.5 Theo người dùng 9

1.4 Các phương pháp dịch máy cơ bản 9

1.4.1 Các hệ dịch trực tiếp 10

1.4.2 Các hệ thống dịch chuyển đổi 10

1.4.3 Các hệ thống dịch liên ngữ 13

1.4.4 Dịch dựa trên dữ liệu 17

1.5 Các hệ thống dịch máy trên thế giới 19

1.6 Các vấn đề trong khi dịch ngôn ngữ tự nhiên 21

1.6.1 Sự khác nhau giữa người dịch và máy dịch 21

1.6.2 Các trở ngại khi dịch 21

1.7 Áp dụng kỹ thuật học máy trong dịch máy 29

Chương 2 - CORPUS VÀ GIÓNG HÀNG CÂU 30

2.1 Corpus 30

2.1.1 Corpus thô 30

2.1.2 Corpus song ngữ 32

2.2 Gióng hàng câu 32

2.2.2 Cách tiếp cận dựa vào độ dài câu 34

2.2.3 Cách tiếp cận dựa vào tương ứng của từ 36

2.2.4 Kết hợp giữa hai phương pháp 38

Chương 3 - DỊCH MÁY BẰNG PHƯƠNG PHÁP THỐNG KÊ 39

3.1 Tổng quan về dịch thống kê 39

3.1.1 Mô hình Kênh - Nguồn ( Source – Channel Model) 40

3.1.2 Cách tiếp cận Maximum và Mô hình Gióng hàng 40

3.1.3 Nhiệm vụ trong Dịch máy thống kê 41

3.1.4 Ưu điểm của phương pháp tiếp cận thống kê 42

3.1.5 Chu kì phát triển của hệ thống dịch thống kê 43

3.2 Mô hình ngôn ngữ 46

3.2.1 N-gram 46

3.2.2 Mô hình ngôn ngữ 47

3.2.3 Làm mịn (Smoothing) 48

3.2.4 Phép tính log xác suất (Log Probability Arithmetic) 49

3.3 Mô hình dịch 49

Trang 3

3.3.1 Gióng hành từ 50

3.3.2 Ý tưởng 53

3.3.3 Các mô hình dịch được đề xuất IBM 53

3.5 Thuật toán EM và huấn luyện tham số của mô hình 59

3.5.1 Thuật toán EM (Expectation Maximization Algorithm) 59

3.5.2 Ứng dụng để ước lượng tham số 60

3.6.Thuật toán giải mã 61

3.6.1 Giới thiệu 61

3.6.2 Mô hình 2 đơn giản 61

3.6.3 Điểm của giả thuyết 62

3.6.4 Mô tả thuật toán 64

Chương 4 - XÂY DỰNG CHƯƠNG TRÌNH DỊCH ANH - VIỆT BẰNG THỐNG KÊ 66

4.1 Modul phân tích từ vựng 66

4.2 Modul phân tích hình thái 66

4.3 Modul huấn luyện bigram 68

4.4 Modul huấn luyện các tham số của mô hình dịch máy 69

4.4.1 Mô hình 1 69

4.4.2 Mô hình 2 71

4.5 Modul tìm kiếm 74

4.6 Từ điển dữ liệu 74

4.7 Tiền xử lý và hậu xử lý 75

4.8 Chương trình thử nghiệm 75

4.6.1 Giao diện chương trình 75

4.6.2 Thử nghiệm 77

KẾT LUẬN 81

TÀI LIỆU THAM KHẢO 82

PHỤ LỤC A 85

PHỤ LỤC B 88

Trang 4

DANH MỤC HÌNH

Hình 1.1: Sơ đồ tổng quát của hệ dịch máy 7

Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi 12

Hình 1.3: Mô hình dịch Liên ngữ 14

Hình 1.4: So sánh số bộ luật 16

Hình 1.5: Sơ đồ hệ thống dịch dựa trên dữ liệu 18

Hình 2.1: Sơ đồ quá trình tạo corpus 31

Hình 3.1: Sơ đồ của hệ dịch bằng phương pháp thống kê 39

Hình 3.2: Chu kì phát triển của hệ thống dịch thống kê 45

Hình 4.1 Sơ đồ chương trình dịch Anh-Việt bằng thống kê 67

Trang 5

MỞ ĐẦU

Dịch máy là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên Trên thế giới dịch máy đã được nghiên cứu từ thập kỉ 50 và được phát triển mạnh vào thập kỉ 80 Hiện nay, đã có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant, [30][13]và nó hỗ trợ loài người rất nhiều trong một thế giới với lượng thông tin trao đổi ngày càng lớn, tốc độ càng nhanh với nhiều ngôn ngữ khác nhau Trong sự phát triển của dịch máy, các cách tiếp cận dịch máy chính là dựa vào: dịch chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu

Mặt khác, với việc bùng nổ Internet như hiện nay, có một khối lượng văn bản khổng lồ trên Internet mà phần lớn là bằng tiếng Anh Do tính đa dạng của nó mà việc hiểu các văn bản này hoàn toàn không dễ chút nào Do đó việc có một hệ dịch

tự động Anh-Việt là hết sức cần thiết

Hơn nữa, Ở Việt Nam có một vài nhóm nghiên cứu về dịch tự động Anh-Việt Hiện nay mới chỉ có một sản phẩm EVtrans được thương mại hóa Tuy nhiên, chất lượng dịch và phạm vi sử dụng của sản phẩm này vẫn còn nhiều hạn chế Thêm vào đó, cách tiếp cận của các nhóm này mới chỉ dựng lại bằng phương pháp chuyển đổi (dựa trên luật) Với cách tiếp cận này thì sẽ bị hiện tượng “thắt nút cổ trai” trong trí tuệ nhân tạo đồng thời phải chi phí rất tốn kém cho việc xây dưng trí thức dịch

Vì vậy, trong luận văn này, chúng tôi đã tập chung nghiên cứu một hướng dịch mới,

đó là phương pháp dịch bằng thống kê và đồng thời áp dụng phương pháp này vào bài toán dịch Anh -Việt Trên thế giới, cách tiếp cận này là một loại trong cách tiếp cận dựa vào dữ liệu được phát triển khá mạnh vào các năm của thập kỉ 90[17][18]

Có khá nhiều hệ dịch dựa trên cách tiếp cận này đã được thương mại hóa và chất

Anh của đại học Hoskin 2003 [10], Quan trọng hơn cả là nó đã khắc phục được nhược điểm của cách tiếp cận dựa trên luật đó là: tận dụng được dữ liệu đã có sẵn Cách làm này đỡ tốn rất nhiều công sức của các nhà ngôn ngữ và nguời làm trí thức dịch Luận văn được chia làm bốn chương:

Trang 6

Mở đầu

Chương 1: Tổng quan về dịch máy

Chương 2: Corpus và gióng hàng câu

Chương 3: Dịch máy bằng phương pháp thống kê

Chương 4: Xây dựng chương trình dịch Anh-Việt bằng thống kê

Kết luận

Trang 7

Chương 1 - TỔNG QUAN

1.1 Khái niệm về dịch máy,vai trò, vị trí của dịch máy

1.1.1 Khái niệm về dịch máy

Định nghĩa: Các hệ dịch máy (machine translation system-MT) là các hệ thống sử

dụng máy tính để dịch từ một thứ tiếng (trong ngôn ngữ tự nhiên) sang một hoặc vài thứ tiếng khác

Ngôn ngữ của văn bản cần dịch được gọi là ngôn ngữ nguồn, ngôn ngữ của văn bản

đã dịch ra được gọi là ngôn ngữ đích

1.1.2 Vị trí, vai trò của dịch máy

Hiện nay trên thế giới có khoảng 5650 ngôn ngữ khác nhau, với một số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin, trong giao tiếp, đồng thời ngăn cản sự phát triển của thương mại và mậu dịch quốc tế Với những khó khăn như vậy người ta đã phải dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nước này sang tiếng nước khác Những công việc đó mang tính chất thủ công, nặng nhọc trong khi khối lượng văn bản cần dịch ngày càng nhiều

Để khắc phục những nhược điểm trên con người đã nghĩ đến việc thiết kế một mô hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện

tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy Công việc đưa ra mô hình

tự động cho việc dịch đã và đang được phát triển, mặc dù chưa giải quyết được triệt

để lớp ngôn ngữ tự nhiên Nhưng sự ra đời của chúng đã khẳng định được ích lợi to lớn về mặt chiến luợc và kinh tế, đồng thời các vấn đề liên quan đến dịch máy cũng

là những chủ đề quan trọng của ngành khoa học máy tính, bởi chúng liên quan đến vấn đề xử lí ngôn ngữ tự nhiên-một trong những vấn đề có ý nghĩa nhất mà trí tuệ nhân tạo có khả năng giải quyết Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-

Trang 8

mỏy, lỳc đú con người khụng phải tiếp xỳc với mỏy qua những dũng lệnh cứng nhắc

nữa mà cú thể giao tiếp một cỏch trực tiếp với mỏy

1.2 Sơ đồ tổng quỏt của một hệ dịch mỏy

Đầu vào của một hệ dịch mỏy là một văn bản viết trong ngụn ngữ nguồn Văn bản

này cú thể thu được từ một hệ soạn thảo hay một hệ nhận dạng chữ viết, lời núi Sau

đú văn bản cú thể được chỉnh sửa lại nhờ khối soạn thảo, kiểm tra chớnh tả, trước

khi đưa vào mỏy dịch

Phần dịch mỏy sẽ chuyển văn bản nguồn thành văn bản viết trờn ngụn ngữ đớch Và

cũng qua một bộ chỉnh ra để cuối cựng thu được một văn bản tương đối hoàn chỉnh

Trong quỏ trỡnh dịch mỏy, hệ thống thường xuyờn phải truy cập đến một khối lượng

rất lớn cỏc tri thức dịch Tri thức dịch thụng thường là cỏc loại từ điển bao gồm: từ

điển chứa bộ luật về cỳ phỏp, từ điển về từ vựng, từ điển về thụng tin ngữ nghĩa

Trong nhiều hệ thống, cú thể cú sự tương tỏc giữa người và mỏy trong quỏ trỡnh

dịch Tương tỏc này thụng thường cú cả hai chiều (người-mỏy) và cú thể cú ở mọi

Dịch máy Hiệu

đính

Cơ sở trí thức

Văn bảnra

Hỡnh 1.1: Sơ đồ tổng quỏt của hệ dịch mỏy

Trang 9

1.3 Phân loại dịch máy

Có nhiều cách phân loại khác nhau, tùy theo mục đích, phạm vi ứng dụng, khả năng

kĩ thuật ta có thể phân loại như sau:

1.3.1 Theo mức độ can thiệp của con người

a) Hệ thống có sự trợ giúp của con người

Con người có thể can thiệp trong quá trình dịch ở một hoặc nhiều giai đoạn:

 Trước khi đưa vào máy: hiểu chỉnh câu, từ

 Hỏi đáp ngay trong quá trình dịch

 Sau khi dịch: sửa đổi lại kết quả dịch, sửa ý, sửa từ

Tùy theo mức độ tự động mà người ta lại phân ra các mức khác nhau

b) Machine Translation(MT)- Các hệ dịch tự động hoàn toàn

c) Machine-aided Translation(MAT)- Dịch máy trợ giúp Bao gồm:

+ Human-assisted machine translation(HAMT)

Dịch máy với sự trợ giúp của người: máy dịch là chính, con người giám sát và giúp máy khi cần thiết (chọn đúng nghĩa trong trường hợp từ đa nghĩa)

+ Machine- assisted human translation(MAHT)

Người dịch với sự trợ giúp của máy: Người dịch là chính, và máy giúp đỡ khi có

sự yêu cầu của con người (tra nghĩa của từ, thành ngữ )

+ Terminology-Data banks - Ngân hàng thuật ngữ:

Thực chất không phải là hệ dịch máy, nhưng nó cung cấp một lượng thuật ngữ rất lớn, cần thiết khi xây dựng cập nhật cơ sở dữ liệu cho máy

1.3.2 Theo số ngữ và số chiều dịch

Phân biệt hệ thống dịch hai ngữ hay đa ngữ, hệ thống dịch một chiều hay hai chiều

Ví dụ: Anh => Việt, Việt => Anh, Anh<=>Việt

Trang 10

1.3.3 Theo cách lấy thông tin

a)Phần lớn các hệ lấy thông tin từ ngôn ngữ học Cách lấy thông tin này có các cách dịch như sau:

+ Dịch trực tiếp + Dịch chuyển đổi + liên ngữ

+ Dịch dựa trên dữ liệu (translation by corpus)

b) Loại không lấy thông tin từ ngôn ngữ học mà lấy thông tin dựa vào kết quả thống kê với các bản dịch sẵn Đó là các hệ thống kê

1.3.4 Theo phạm vi ứng dụng

Phân loại theo giới hạn ngôn ngữ, mức tự động, chất lượng bản dịch Các hệ Systran, Metal, Logos giới hạn cho ngôn ngữ KHKT dịch ra các văn bản thô đủ hiểu và tốc độ dịch gấp 3 đến 4 lần người dịch

1.4 Các phương pháp dịch máy cơ bản

Theo phân loại cách lấy thông tin, ta có thể thấy có 3 phương pháp dịch cơ bản là:

Trang 11

Trong đó, các hệ dịch trực tiếp là đơn giản nhất, và phức tạp nhất là các hệ liên ngữ Sau đây tôi xin trình bầy những nét đặc trưng cơ bản của từng phương pháp dịch và qua đó cho biết phạm vi mà từng phương pháp có thể giải quyết

1.4.1 Các hệ dịch trực tiếp

Dịch trực tiếp từ các cặp ngôn ngữ nguồn và đích bằng cách thay thế các từ ở ngôn ngữ nguồn với các từ tương ứng của ngôn ngữ đích bởi các thông tin từ từ điển và được sắp xếp lại một cách thích hợp theo các luật của ngôn ngữ đích Chất lượng của hệ dịch này phụ thuộc vào từ điển được xây dựng tốt, cũng như bộ phân tích hình thái và hệ thống cấu trúc ngữ pháp [26] Một trong những hệ dịch trực tiếp khá thành công đó là hệ dịch SYSTRAN[26]

Tuy nhiên do hệ địch trực tiếp dùng các phép phân tích và thay thế đơn giản chỉ áp dụng tốt đối với các cặp ngôn ngữ có tính chất tương tự nhau và sẽ rất khó áp dụng cho các hệ thống ngôn ngữ có cấu trúc ngữ pháp khác nhau hoàn toàn như (Anh-Việt)

1.4.2 Các hệ thống dịch chuyển đổi

Là các hệ thống phân tích câu vào trong một ngôn ngữ sau đó áp dụng các luật ngôn ngữ và từ vựng học (gọi là các luật chuyển đổi) để đưa ra văn phạm tương ứng trong một ngôn ngữ khác Hệ thống sử dụng một bộ phân tích (parse) để xem xét cấu trúc của câu vào, và thiết lập cấu trúc của nó (thường biễu diễn dưới dạng cây phân tích ngữ pháp) Sau đó hệ thống sử dụng các luật chuyển đổi tương ứng từ cấu trúc ngữ pháp của ngôn ngữ nguồn sinh ra cấu trúc ngữ pháp thuộc ngôn ngữ đích Các luật chuyển đổi ở đây có thể

Đây cũng là phương pháp mà tôi lấy làm trọng tâm nghiên cứu trong luận văn này

Định nghĩa:

Dịch bằng phương pháp chuyển đổi là các hệ thống phân tích câu vào trong ngôn ngữ nguồn sau đó áp dụng các luật ngôn ngữ và từ vựng (gọi là luật chuyển đổi) để đưa ra cấu trúc ngữ pháp tương ứng trong ngôn ngữ đích

Trang 12

Trong hệ thống dịch này, ngôn ngữ chính là tiếng Anh Ngôn ngữ đích là tiếng Việt

Các bước của phương pháp chuyển đổi:

Như trong phần lý thuyết chung về phương pháp chuyển đổi chúng ta đã biết các khối trong hệ thống dịch chuyển đổi, ở đây trong trường hợp hệ thống chuyển đổi cho dịch từ tiếng Anh sang tiếng Việt bao gồm các khối chính

 Phân tích hình thái học câu nguồn tiếng Anh

Vào: Câu tiếng Anh

Ra: Các thông tin hình thái của các từ trong câu tiếng Anh

 Phân tích cú pháp tiếng Anh

Vào: Thông tin hình thái của tất cả các từ trong câu

Ra: Cây phân tích ngữ pháp của câu

 Chuyển đổi sang cú pháp tiếng Việt

Vào: Cây phân tích ngữ pháp tiếng Anh, thông tin hình thái các từ

Ra: Cây ngữ pháp tiếng Anh được chuyển đổi theo cú pháp tiếng Việt

 Tổ hợp câu tiếng Việt

Vào: Cây ngữ pháp tiếng Anh được chuyển đổi theo cú pháp tiếng Việt

Trang 13

Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi

Trang 14

Một trong những vấn đề khó khăn khi sử dụng phương pháp này đó là:

Khối lượng cơ sở luật phải xây dựng nhiều và đòi hỏi sự trợ giúp của các chuyên gia ngôn ngữ Tuy nhiên khi xây dựng với số lượng luật quá lớn thì không tránh khỏi sự xung đột xuất hiện Để khắc phục tình trạng này trong luận văn này tôi tập trung vào nghiên cứu cách tiếp cận theo hướng dịch chuyển đổi và đưa ra một mô hình xây dựng modun phân tích ngữ nghĩa bằng cách áp dụng kỹ thuật học quy nạp [23]

1.4.3 Các hệ thống dịch liên ngữ

Các hệ thống dịch liên ngữ được thiết kế theo các bước của hệ thống chuyển đổi, nhưng trước khi chuyển sang việc tạo cấu trúc ngữ pháp cho ngôn ngữ đích thì cấu trúc ngữ pháp của ngôn ngữ nguồn được phân tích vào trong cấu trúc ngữ nghĩa của một hệ cơ sở tri thức còn gọi là liên ngữ

Tiếp theo hệ thống sử dụng tri thức từ liên ngữ để phân tích ngữ nghĩa và tạo cấu trúc ngữ pháp cho ngôn ngũ đích, sau đó bộ tạo câu trên cấu trúc này sẽ được hoạt động

Liên ngữ được định nghĩa như một tập các khái niệm và các quan hệ giữa các khái niệm Liên ngữ biểu đạt câu dưới dạng mạng ngữ nghĩa, trong đó mỗi nút biểu diễn một khái niệm và mỗi cung biểu thị một quan hệ khái niệm Như vậy, nó được xem như là đặc tả về cấu trúc khái niệm cho câu Để xây dựng được một liên ngữ đủ mạnh để có thể mô tả các thông tin cho cùng lúc nhiều ngôn ngữ, cùng với các luật sinh cho từng ngôn ngữ là một công việc rất phức tạp

Ở đây tôi xin đưa ra một ví dụ minh hoạ cho một mạng ngữ nghĩa của câu

Trong đó:

<> là kí hiệu quan hệ khái niệm giữa các khái niệm

“ ” là kí hiệu khái niệm, không phải là từ thuộc ngôn ngữ tự nhiên

Trang 15

write <Agent> <Object>

Trong ví dụ trên, quá khứ phản ánh trong từ “announced” có nghĩa là sự tuyên bố đã

có truớc khi tác giả viết bài văn Trong liên ngữ việc biểu diễn mối quan hệ về thời gian trong các thì của tiếng Anh được giải quyết, mặc dù nó rất phức tạp Tương tự

việc xác định các nghĩa của từ kiểu như các từ this, that, all, every, the, a phải

được mô tả sao cho chi tiết và bản chất nhất

Trang 16

Ví dụ: John write the letter

“The letter “ ở đây phải được hiểu nghĩa như là bức thư đã được xác định

So sánh phương pháp dịch liên ngữ với dịch chuyển đổi

 Ưu điểm của phương pháp dịch liên ngữ

Ưu điểm lớn của hệ dịch này là khi ta tăng số lượng lớn ngôn ngữ cho hệ thống thì việc xây dựng bộ luật mới sẽ ít hơn so với phương pháp dịch chuyển đổi

Ví dụ: một hệ thống dịch 3 ngôn ngữ, yêu câù luật dịch giữa các cặp ngôn ngữ theo

cả hai chiều Cần cả thảy 6 bộ luật, nếu ta thêm một ngôn ngữ cần dịch nữa, dịch được cả hai chiều với các ngôn ngữ trên thì cần phải thêm 6 bộ luật mới Nói chung,

để dịch một hệ thống gồm N ngôn ngữ theo nghĩa cả hai chiều thì số bộ luật cần thiết phải là N(N-1) cho hệ dịch chuyển đổi Như thế khối lượng từ điển và số lượng luật sẽ tăng rất nhanh, bởi vì các hệ thống MT hiện đại có thể có các từ điển có luợng từ trên trăm ngàn từ (khoảng 150,000 từ) vài trăm luật ngữ pháp

Các hệ thống dịch liên ngữ sẽ giải quyết những vấn đề khó khăn này nhờ một ngôn ngữ trung gian Việc thêm một ngôn ngữ mới vào một hệ thống liên ngữ chỉ cần thêm hai bộ luật:

Các bộ luật phân tích cho câu từ ngôn ngữ mới đến liên ngữ và các luật sinh từ liên ngữ đến câu trong ngôn ngữ mới

Ví dụ: Số bộ luật cần thêm, khi đưa vào hệ dịch một ngôn ngữ mới

Trang 17

đó anh ta chỉ cần phát triển từ điển và các luật tiếng Việt Những ngôn ngữ khác sẽ

do các chuyên gia nước đó phát triển lấy

Trang 18

 Nhược điểm của phương pháp dịch liên ngữ

Hệ thống liên ngữ có hạn chế là thường đòi hỏi phân tích chi tiết nhiều hơn sự cần thiết cho một cặp ngôn ngữ nào đó Tại sao ta phải phân tích một cách khó chịu

“Tokio” hoán dụ trong khi tất cả tiếng Anh, Pháp và Đức đều nói cùng kiểu? Tuy vậy sự than phiền này không phải lúc nào cũng đúng Trong đa số các hệ thống, bộ phận phân tích được tự do điền những chi tiết ít hơn, và càng đầy đủ thì quá trình dịch càng tốt đẹp

Một lý do nữa là hệ thống dịch liên ngữ phức tạp hơn Trước hết hệ thống phải có hầu hết các bước của phương pháp dịch chuyển đổi, sau đó tiếp đến bước chuyển lên liên ngữ

1.4.4 Dịch dựa trên dữ liệu

Các phương pháp dịch truyền thống đều gặp những khó khăn chung là vấn đề xây dựng cơ sở tri thức cho hệ thống dịch Công sức để xây dựng cơ sở tri thức cho hệ thống dịch là rất lớn bao gồm: Xây dựng từ điển, xây dựng hệ thống luật (cú pháp, ngữ nghĩa) Những khó khăn này dẫn đến các cách tiếp cận khác cho dịch máy

Dịch dựa trên dữ liệu là một phương pháp dịch dựa hoàn toàn vào một khối lượng rất lớn các tài liệu các văn bản dịch có sẵn Kiến trúc của phương pháp này được

thể hiện trên hình 1.5

Phương pháp dịch dựa trên dữ liệu này bao gồm hai cách tiếp cận chính:

Dịch dựa trên ví dụ và dịch bằng phương pháp thống kê

1.4.4.1 Dịch dựa trên ví dụ(Examples based machine translation)

Đây là phương pháp dịch dựa trên ví dụ hay còn gọi là phương pháp dịch bằng sự tương tự (translation by analogy) Cách tiếp cận này được Nagao đề xuất năm

1980 Ý tưởng chính của phương pháp là dịch các câu nhờ các câu tương tự Theo Nagao phương pháp dịch này mô phỏng cách dịch của con người Cách dịch của con người bao gồm:

Trang 19

 Dịch các thành phần đó sang ngôn ngữ đích bằng các luật tương tự

Hình 1.5: Sơ đồ hệ thống dịch dựa trên dữ liệu

Một trong những kỹ thuật được sử dụng rộng rãi trong phương pháp này đó là các

kỹ thuật đối sánh mẫu Các hệ thống EBMT(hệ thống dịch dựa trên mẫu) thay vì phải tổ chức các hệ luật bằng tập các mẫu câu, điều này khiến cho công việc xây dựng các hệ tri thức cho việc dịch trở nên đễ dàng kiểm soát hơn, bởi vì việc xây dựng một bộ luật thì phức tạp hơn việc thu thập các mẫu câu rất nhiều Trong hệ thống EBMT thì độ chính xác của việc dịch phụ thuộc vào độ lớn của cơ sở tri thức (gồm các mẫu câu)

Phương pháp dịch EBMT là một trong những phương pháp hiện đại và hệ thống dịch theo phương pháp này có thể tăng cường sức mạnh bằng cách thực hiện việc tính toán song song[33] Hơn nữa độ chính xác của hệ thống dịch sẽ được cải tiến nhiều hơn nữa bằng cách sử dụng việc tích hợp phương pháp dịch truyền thống (dịch chuyển đổi) với phương pháp dịch mẫu câu[33]

Trang 20

1.4.4.2 Dịch thống kê (statistical translation)

Dịch thống kê hay dịch bằng phương pháp toán học là một cách tiếp cận khác trong

hệ thống dịch dựa trên dữ liệu Do luận văn của chúng tôi tập trung theo cách tiếp cận này, vì vậy chương 3 sẽ trình bày chi tiết về cách tiếp cận này

1.5 Các hệ thống dịch máy trên thế giới

Ngày nay chất lượng của các hệ thống dịch máy trên thế giới đã cải tiến rất nhiều Chúng ta có thể điểm qua các hệ thống dịch máy hiện đang đạt kết quả dịch tốt ở một số trung tâm dịch máy trên thế giới

Dịch máy ở trung tâm dịch máy tại Đại Học Carnegie Mellon (CMT) là một trong những trung tâm đưa ra được nhiều kết quả quan trọng nhất về vấn đề dịch máy SYSTRAN

Đây là hệ dịch máy thương mại nổi tiếng của châu Âu, nó có thể dịch trong hơn chục ngôn ngữ và trong nhiều lĩnh vực khác nhau Phiên bản mới nhất của Systran

là 5.0 (2004) Để xem chi tiết chúng ta có thể vào www.systransoft.com

DIPLOPMAT

Hệ thống dịch tự động từ văn bản- văn bản giữa hai cặp ngôn ngữ phát triển qua dự

án Pangloss Hệ thống này đã thu được những kết quả nhất định

JANUS:

Hệ thống dịch tự động từ văn bản- văn bản trong môi trường đa ngữ

Dùng cách tiếp cận liên ngữ ( interlingua - based) Các ngôn ngữ ở trong hệ dịch này bao gồm: Anh, Đức, Nhật bản, Hàn Quốc, Ý, và Pháp

KANT:

Hệ thống dịch máy dựa trên tri thức, dịch trên đa ngữ Cho chất lượng về mặt từ vựng và ngữ pháp đạt kết quả rất cao Đây là hệ thống dịch máy đạt được mức cơ bản về chất lượng, đảm bảo cho câu dịch có nghĩa tương đối chính xác

Trang 21

PANGLOS: Hệ thống dịch máy kết hợp bởi CMT ở đại học Carnegie Mellon University, Phòng thí nghiệm nghiên cứu khoa học máy tính ở Đại học New Mexico State và Viện Khoa Học Thông Tin ở trường đại học Californial

Hệ thống cũng đã đạt được kết quả khá khả quan, cho đến nay trung tâm nghiên cứu CRL (computing Research Laboraty) ở New Mexicol University tiếp tục phát triển

từ hệ thống PANGLOS thành các hệ nâng cấp hơn:

Artwork III; Hệ thống dịch tự động cho các văn bản dưới dạng văn nói (sopken languge)

CORELLI: Mở rộng từ Hệ thống PANGLOS và thực hiện theo phương pháp dịch mẫu câu (template translation) dịch từ 6 ngôn ngữ Ả rập, Nga, Nhật bản, Anh, Tây Ban Nha,

Ngày nay các hệ thống dịch máy phát triển theo hướng tiếp cận dựa trên dữ liệu có sẵn (translation by corpus) đang và đã được phát triển rất mạnh mẽ PROTEUS là

hệ thống dựa trên phương pháp dịch mẫu câu cho Văn bản tiếng Anh và tiếng Tây ban Nha [32] CANDIDE là hệ thống dịch dựa trên cách tiếp cận thống kê được xây dựng bởi tập đoàn IBM cho văn bản tiếng Anh và tiếng Pháp[9] Hệ thống này cho chất lượng dịch rất cao đến 75-80%

Ở nước ta nhu cầu dịch cũng rất lớn tuy nhiên các sản phẩm thương mại hiện tại chỉ

có EVTRAN, còn các nhóm đang nghiên cứu và có kết quả như nhóm của Đại học Quốc Gia thành phố Hồ Chí Minh Tuy nhiên các hệ thống dịch trên thị trường mới thể hiện được mức độ trung bình, đặc biệt là về mặt ngữ nghĩa hầu như chưa đạt tới Hiện nay, tôi đang là thành viên của nhóm phần Mềm – Công ty cổ phần Tin học Lạc Việt Chúng tôi đang phát triển một hệ thống dịch tự động Anh-Việt Hệ thống này dịch khá tốt đối với văn bản chuyên ngành như tin học, kinh tế Trong luận văn này tôi cũng muốn đóng góp một phần vào vấn đề dịch máy chủ yếu là hệ dịch tự động Anh -Việt và cũng muốn chia sẻ về kinh nghiệm phát triển hệ thống dịch Anh-Việt này

Trang 22

1.6 Các vấn đề trong khi dịch ngôn ngữ tự nhiên

1.6.1 Sự khác nhau giữa người dịch và máy dịch

Về mặt bản chất và mục tiêu của nguời dịch và máy dịch là khác nhau

a) Người dịch tài liệu theo hình thức thủ công, bản dịch của anh ta mang tính chất nghệ thuật và nhuốm màu sắc cá nhân Do vậy anh ta sẽ tốn nhiều thời gian và công sức dẫn đến giá thành dịch rất cao Một mặt công việc dịch sẽ phụ thuộc vào sự tích luỹ kiến thức của anh ta qua kinh nghiệm và qua quá trình học Do đó anh ta chỉ có thể dịch được các tài liệu chuyên về một lĩnh vực nào đó mà thôi

b) Các hệ dịch máy thực hiện công việc dịch một cách “máy móc” với tốc độ nhanh

và việc dịch có thể hoàn toàn tự động, cho nên giá thành thấp Việc dịch sẽ phụ thuộc vào dữ liệu ở từ điển, hay ở cơ sở tri thức (liên ngữ) do đó máy có thể dịch được nhiều tài liệu ở nhiều lĩnh vực khác nhau

Nhìn chung các hệ thống dịch máy thể hiện việc xử lý tài liệu mang tính chất công nghiệp, còn người dịch mang tính chất thủ công Tuy rằng trong điều kiện hiện tại bản dịch máy có chất lượng kém hơn so với bản do người dịch nhưng giá thành lại thấp hơn Mặt khác một hệ dịch máy tốt có khả năng bổ sung cơ sở tri thức cho mình (do các nhà ngôn ngữ, hoặc do tự học) cho nên chất lượng dịch sẽ ngày càng tốt hơn Những điều trên đủ cho thấy là việc dịch tài liệu sẽ chuyển dần từ người dịch sang máy dịch

Trang 23

Từ train có chức năng noun (danh từ) và có nghĩa là tàu hoả, hoặc đoàn tuỳ tùng

Từ train có chức năng là Verb (động từ) và có nghĩa là đào tạo, hoặc dạy dỗ

Người ta tính rằng trong tiếng Anh bình quân từ có ít nhất 2 nghĩa Từ có nhiều

nghĩa nhất (kỷ lục Guiness) là từ Set có tới 58 nghĩa khi là danh từ, 126 nghĩa khi là

động từ và 10 nghĩa khi là tính từ

Thông thường loại nhập nhằng này có thể khắc phục bằng cách dựa vào phân tích ngữ pháp và dựa vào ngữ cảnh câu

Ví dụ: I love you (tôi yêu bạn)

Ở câu này love tuy có hai nghĩa: tình yêu (noun), yêu (verb) Nhưng theo cấu trúc của câu tiếng Anh bắt buộc trong câu phải có động từ đi kèm cho nên love ở đây được hiểu nghĩa là yêu (verb)

Trang 24

Ví dụ 1:

The man passed a train with a broken locomotive

(Người đàn ông vượt qua một đoàn tầu với một cái đầu tầu bị hỏng)

Ở câu này có thể có hai cách xác định tân ngữ cho động từ pass

- pass a train with a broken locomotive

( tân ngữ)

- pass a train with a borken locomotive

(tân ngữ)

Cụm từ with a broken locomotive (với một cái đầu máy hỏng) có thể để chỉ:

- Đoàn tàu đó có cái đầu máy hỏng

- Dùng để nhấn mạnh “Người đàn ông” đã lái một đầu tầu hỏng khi anh ta vượt qua một đoàn tầu

- Dùng để nhấn mạnh ông ta mang trong tay một cái đầu tầu hỏng khi vượt qua một đoàn tàu hoả

Ngoại trừ trường hợp đặc biệt thì hai nghĩa sau cùng bị loại bỏ và chỉ lại nghĩa ban đầu Bởi chúng ta biết rằng người đàn ông đó không thể điều khiển được chiếc đầu tầu đã bị hỏng, và càng không thể cầm nó trên tay được

Ví dụ 2:

Câu 1: I saw a horse with a telescope

- I saw a horse with a telescope

(tân ngữ)

- I saw a horse with a telescope

(tân ngữ)

Trang 25

câu 2: I saw a man with a telescope

- I saw a man with a telescope

- I saw a man with a telescope

Câu 1 có thể hiểu theo hai nghĩa :

- Tôi nhìn thấy con ngựa qua ống nhòm

- Tôi nhìn thấy một con ngựa (mà nó) có cái ống nhòm

Câu 2 cũng có thể hiểu được theo hai nghĩa:

- Tôi nhìn thấy một người đàn ông qua ống nhòm

- Tôi nhìn thấy một người đàn ông (mà ông ta) có cái ống nhòm

Việc phân tích nghĩa cho phép ta chọn nghĩa đúng (trong ngữ cảnh thông thường )

của câu 1, nhưng phải bó tay hoàn toàn trước câu 2

+ Nhập nhằng nói năng

Bao gồm cả sự mơ hồ về từ ngữ lẫn cú pháp

John took the fruit from the table, then he cleaned it

(John lấy trái cây ra khỏi bàn, rồi anh ta lau nó)

it (nó) ở đây là fruit (trái cây) hay table (cái bàn) ?

+ Mơ hồ về phân đoạn

Chỉ tồn tại trong các thứ tiếng các nước châu Á-ngôn ngữ loại đơn lập

có các nguyên nhân sau:

-Khái niệm của từ mờ

-Hiện tượng quyện từ vào nhau

Ví dụ: Ông già đi nhanh quá

Trang 26

Ở ví dụ này ta có thể hiểu Ông là chủ ngữ (là người mà đang nói đến), hoặc ta cũng

có thể hiểu đang nói đến một ông già nào đó làm chủ ngữ, dẫn đến câu này không

thể biết chính xác nghĩa như thế nào cả

Đây cũng là khó khăn trong việc tách các từ tiếng Việt theo cụm từ, và cũng là một

trong những lí do chính để luận văn không đề cập đến chiều dịch Việt - Anh

b) Dư thừa thông tin và nhiễu

Trong ngôn ngữ tự nhiên (nhất là trong giao tiếp) thường được chèn những từ đệm, đoạn văn thừa, lặp đi lặp lại gây nhiễu

Ví dụ: That, err, woman what I told you about- you know, eh?

Nhìn chung việc dư thừa thông tin gây nhiễu không khó khăn trong khi dịch

c) Không đủ thông tin

+ Trong ngôn ngữ thông thường ta thường gặp các đoạn văn, câu văn “què cụt”, thiếu đi các thành phần của câu Thường thì người nghe có thể tự sửa lại câu và hiểu được câu, nhưng đó là một vấn đề khó cho máy dịch

+ Hiện tượng tĩnh lược (ellipsis)

Một cấu trúc câu dài nhưng được rút ngắn lại Trường hợp này được xem như là chỗ gián đoạn (khe hở), khi một từ hoặc cụm từ lặp lại bị loại đi

Ví dụ: Mary tidied up the kitchen and John the living room

(Mary dọn dẹp bếp và John- phòng khách)

Như vậy ở đây đã lược bỏ đi cụm “tidied up”

+ Phụ thuộc vào câu khác

Nhiều trường hợp, ta muốn hiểu đúng nghĩa của câu, phải căn cứ vào các câu đứng trước hoặc đứng sau nó Giải quyết được điều này thực không đơn giản

Ví dụ:

The room has two cabinets He keeps books in them

Trang 27

(Cái phòng đó có hai cái tủ Anh ta cất các quyển sách trong chúng)

Trong câu sau, muốn xác định được nghĩa của từ (them) muốn biểu đạt ý nghĩa như thế nào ta buộc phải biết nghĩa của câu trước

c) Cấu trúc ngữ pháp phức tạp

Hệ thống ngữ pháp của một ngôn ngữ bất kỳ thường rất phức tạp và đa dạng Trước hết từ những luật đơn giản có thể bổ sung và phát triển thành những luật phức tạp, tiếp theo để mô tả đầy đủ được các luật trong ngôn ngữ tự nhiên chúng ta không thể

mô tả chúng dưới dạng văn phạm phi ngữ cảnh do đó hiện nay chưa có một thuật toán phân tích cấu trúc ngữ pháp toàn vẹn cho ngôn ngữ tự nhiên

Ví dụ: Một luật ngữ pháp cho tiếng Anh có thể biểu diễn dưới dạng

S::=S conjt S

Luật này mang tính chất đệ quy do đó ta có thể xây dựng được các câu rất dài

Kasprop win Deep Blue.(Kasprop chiến thắng Deep Blue)

Kasprop win Deep Blue and my friend loss Deep Thought

His luggage at the bus stop by the station

The picture on a wall in a picture on a wall in a picture

Các thành phần lồng nhau

John‟s aunt‟s friend‟s ticket (cái vé của bạn của cô của John)

Trang 28

Còn rất nhiều trường hợp khác với mức độ phức tạp tương tự giống các cấu trúc trên, tôi chỉ đưa ra mấy ví dụ minh hoạ như trên để khẳng định một điều rằng cấu trúc ngữ pháp của ngôn ngữ tự nhiên rất phức tạp và việc tiến hành dịch sẽ gặp rất nhiều trở ngại

d) Lượng từ vựng nhiều

Tiếng Anh có khoảng 500.000 từ thông thường và 300.000 thuật ngữ khoa học Việc đưa các dữ liệu này vào máy tính và xử lý chúng là vấn đề khó khăn và lâu dài

e) Sự không đồng nhất giữa các cặp ngôn ngữ

Việc dịch một câu từ ngôn ngữ này sang ngôn ngữ khác mà vẫn giữ nguyên được nội dung, tính chính xác và các sắc thái biểu cảm là một vấn đề rất khó khăn Nó đòi hỏi người dịch phải am hiểu sâu sắc về kiến thức của cả hai ngôn ngữ cũng như về văn hoá đặc trưng cho hai ngôn ngữ đó Một trong những trở ngại chính của việc

dịch ngôn ngữ là sự không đồng nhất giữa chúng

+ Không tương đồng về từ vựng

Từ vựng giữa các ngôn ngữ là không tương đồng

Ví dụ1:

Từ “table” trong tiếng Anh khi mô tả sang tiếng Việt ta không thể dùng một từ nào

đó của tiếng Việt mà bắt buộc phải dùng nhiều từ mới biểu đạt được nó (“ table”

có thể là: bảng biểu, “bữa tiệc”, “cái bàn”, )

Ví dụ 2:

Giữa tiếng Anh và tiếng Việt có khác biệt về ngôi, cách xưng hô, như ngôi thứ nhất

số ít: “Tôi, tao, tớ, anh, mình, con, cháu” sử dụng tuỳ theo văn cảnh, tình cảm của người nói, còn trong tiếng Anh, ta chỉ việc dùng một đại từ “I”

Trang 29

+ Không tương đồng về cấu trúc câu

Đa số các ngôn ngữ khác nhau thì khác nhau về cấu trúc Có nhiều cấu trúc rất khó tìm tương ứng

Ví dụ:

Trong tiếng Anh tính từng thường đứng trước danh từ, còn điều đó ngược lại đối với tiếng Việt

I buy a blue book (Tôi mua một quyển sách xanh)

Một câu trong tiếng Anh bao giờ cũng kèm theo động từ (trong thành phần vị ngữ) còn trong tiếng Việt thì không hẳn như vậy

She is nice => Cô ta đẹp

+ Không tương đồng về văn hoá

Do có sự khác biệt về văn hóa, Cho nên người dịch phải hiểu biết rất sâu sắc cả nền văn hoá mới khắc phục được sự khác biệt này

 Tương đương về thành ngữ: tục ngữ và thành ngữ là những thành phần không thể dịch bình thường được, mà ta phải tìm các thành phần tương ứng nhau giữa các tiếng Tuy vậy, không phải tục ngữ, thành ngữ nào cũng có thể tìm được tương đương

 Khác nhau về cách xưng hô và ngôi thứ

I, you trong tiếng Anh có thể được xem như là Tôi, Tao, Tớ, Anh

 Khác nhau về cách quy ước

Để dịch câu hỏi và câu trả lời sau:

- Is he not a student?(Anh ta không phải là sinh viên à?)

- No (ý nói: Anh ta không phải là sinh viên)

Tiếng Việt cần dịch câu trả lời đó là

Vâng (đúng là anh ta không phải là sinh viên)

Nếu ta dịch đúng nghĩa của từ No (không) thì anh ta lại là sinh viên

Trang 30

1.7 Áp dụng kỹ thuật học máy trong dịch máy

Vấn đề “tri thức qua nút cổ chai” là một trong những vấn đề khó xử lý nhất của trí

tuệ nhân tạo nói chung và của dịch máy nói riêng Trong cách tiếp cận dịch dựa trên

hệ thống luật (translation by rule-based), các vấn đề thường xuất hiện và rất khó khăn trong việc giải quyết đó là xây dựng các hệ thống luật phục vụ cho việc dịch như thế nào? Việc áp dụng kỹ thuật học máy vào xử lý ngôn ngữ tự nhiên đã và đang được tập trung nghiên cứu rất nhiều Chúng ta có thể liệt kê được rất nhiều những thuật toán học máy mà có ứng dụng rất hiệu quả trong vấn đề xử lí ngôn ngữ

tự nhiên

Thuật toán EM (được đề cập chi tiết trong 3.5.1) áp dụng để huấn luyện các mô hình trong các hệ thống dịch thống kê, thuật toán EM sử dụng để huấn luyện các tham số phục vụ trong năm mức dịch của hệ thống dịch thống kê (Model 1- Model 5), đây là kỹ thuật học máy được áp dụng rất rộng rãi trong mô hình dịch thống kê(statistical machine translation) Thuật toán TTL[33] trong hệ thống dịch dựa trên

ví dụ (translation by example - based), các thuật toán học quy nạp được áp dụng trong việc xây dựng các bộ luật cho bộ phân tích cú pháp, như áp dụng phương pháp học quy nạp[29] trong phân tích LR như Hinzofski[13], và hàng loạt các ứng dụng của phương pháp học máy trong vấn đề xử lí ngôn ngữ tự nhiên nói chung và dịch máy nói riêng đã đem lại những kết quả rất lớn và là tiền đề cho hàng loạt các hướng nghiên cứu tiếp theo

Việc áp dụng các kỹ thuật học máy trong vấn đề xử lý ngữ nghĩa cũng đã được tìm hiểu và thể hiện nổi bật trong luận án của Lappon R.Tang[21], ở đây tác giả đã sử dụng phương pháp học máy để xây dựng được hệ thống cơ sở dữ liệu của các chuyến bay với hệ thống hỏi đáp bằng ngôn ngữ tự nhiên

Như vậy có thể nói các kỹ thuật học máy được áp dụng rất nhiều trong vấn đề xử lí ngôn ngữ tự nhiên và dịch máy và đã thu được những kết quả rất tốt

Trong khuôn khổ của luận văn này chúng tôi đưa ra cách tiếp cận thống kê cho hệ thống dịch Anh - Việt Với cách tiếp cận này, chúng ta có thể ứng dụng kĩ thuật học máy để huấn luyện tham số

Trang 31

Chương 2 - CORPUS VÀ GIÓNG HÀNG CÂU

Trong xử lý ngôn ngữ tự nhiên bằng thống kê, corpus là tài nguyên không thể thiếu

Có nhiều loại corpus khác nhau, tùy thuộc vào bài toán và phương pháp giải quyết

mà yêu cầu loại corpus thích hợp

Để phát triển hệ thống dịch máy thống kê, chúng ta cần có dữ liệu để huấn luyện (học) Dữ liệu huấn luyện càng lớn thì càng tốt, nên được trích lọc ra từ cùng một lĩnh vực dịch mà hệ thống dịch máy được sử dụng Dữ liệu sử dụng trong dịch máy

là dữ liệu thô và song ngữ

Bộ dữ liệu huấn luyện nếu thực hiện bằng thủ công thì mất rất nhiều công sức (chi phi đắt) Trong chương này trình bày về corpus và phương pháp xây dựng corpus một cách tự động

Công việc chuẩn hoá bao gồm:

- Chuyển mã tiếng Việt (nếu cần)

- Lọc bỏ các file chứa text xấu (trang quảng cáo, tìm việc, v.v.) bằng heuristics

- Lọc bỏ các text xấu trong mỗi file (tiêu đề, quảng cáo, v.v.) bằng heuristics

- Chuẩn hoá về bỏ dấu thanh (hòa > hoà, v.v.)

Trang 32

Download Web site từ Internet

Corpus thô

Lấy text

Chuyển đổi mã, loại bỏ nhiễu

Web site trên đĩa cứng

Các file text

Các file text sạch

Tool hỗ trợ (Teleport Pro,

Chỳng tụi chỉ đơn giản thực hiện đỏnh dấu cõu và từ Sau khi cắt cõu và phõn đoạn

từ, cõu kết quả được lưu ra file sử dụng cỏc nhón đỏnh dấu cõu (<S></S>) và từ (#)

Mụ hỡnh phõn đoạn từ mà chỳng tụi sử dụng là HMM theo như trong [4]

Vớ dụ:

<S>Phần mềm#mỏy tớnh#tự#khắc phục#sự cố#của#IBM</S>

<S>Tập đoàn#IBM#cho biết#sẽ#tung ra#thị trường#cỏc#phiờn bản#mới#của#hai#phần mềm#dựa trờn#cụng nghệ#điện toỏn#tự động#,#gúp phần#thực hiện#mục tiờu#xõy dựng#cụng nghệ#tự#sửa#của#ngành cụng nghiệp#mỏy tớnh#.</S>

Trang 33

<S>Hôm qua#,#IBM#bắt đầu#bán#phiên bản#mới#DB2 Version 8#của#phần mềm#cơ sở

dữ liệu#.</S>

2.1.2 Corpus song ngữ

Một cách tiếp cận hiệu quả và rẻ là thu thập văn bản song ngữ từ Internet Chúng ta thực các bước sau đây để xây dựng Corpus song ngữ Anh-Việt từ Internet (cũng có thể áp dụng cho các cặp ngôn ngữ khác):

1 Download dữ liệu văn bản trên Internet bằng song ngữ Anh-Việt dưới dạng file HTML

2 Thực hiện gióng hàng dữ liệu văn bản ở mức file (tương ứng tên file dữ liệu tiếng Việt tương ứng với tên file dữ liệu tiếng Anh)

3 Trích lọc ra tất cả các đoạn text từ các file HTML trên tương ứng Anh-Việt Tương tự như bước 2 trong việc xây dựng Corpus thô

4 Thực hiện việc gióng hàng đoạn giữa hai ngôn ngữ Anh-Việt bằng thuật toán Quy hoạch động theo Gale & Church[14] Sau bước này, ta được các đoạn song ngữ tương ứng Anh-Việt

5 Thực hiện việc gióng hàng câu Vấn đề này được trình bày chi tiết trong phần 2.2 Sau bước này ta thu được các cặp câu song ngữ Anh-Việt

6 Từ Corpus song ngữ này, chúng ta loại bỏ các câu sai (kiểm tra thủ công) Chỉ giữ lại các cặp câu mà chắc chắn đúng

7 Thực hiện tiền xử lý đối với cả hai ngôn ngữ Anh-Việt Công việc này bao gồm: phân tích từ vựng tiếng Anh, phân đoạn tiếng Việt, phân tích hình thái,

Trang 34

ngữ tự nhiên như biên soạn từ điển, dịch máy, xử lý nhập nhằng ngữ nghĩa, khôi phục thông tin, vv

Vấn đề gióng hàng văn bản không phải không phải hề đơn giản Người dịch không phải luôn dịch một câu trong văn bản nguồn thành một câu trong văn bản đích mặc

dù theo nghĩa tự nhiên thì hầu hết là như vậy Vì vậy vần đề tìm các câu tương ứng giữa hai văn bản song ngữ là hết sức quan trong trong việc gióng hàng văn bản Gần đây, có rất nhiều công nghệ tự động được đề xuất để giải quyết bài toán gióng hàng câu trong corpus song ngữ (Kay và Roscheisen 1988; Catizne at al 1989; Gale

& Church[14]; Brown at al 1991; Chen 1993, ) và cách tiếp cận dựa vào độ dài câu tuy đơn giản mà khá hiệu quả (Church 1993; Dagan et al 1993) Gần đây, cách tiếp cận của Robert C.M[25] đã kết hợp giữa cách tiếp cận độ dài câu và sự tương ứng của từ cho kết quả rất cao trong các cặp ngôn ngữ Anh-Pháp, Anh-Tây Ban Nha

Tiếng Việt:

Khi bạn nhờ một người khác thương lượng chuyện lương bổng cho bạn, bạn

đã mất đi một lợi thế chính: khả năng sử dụng những mối quan hệ với sếp hay vị sếp tương lai Bạn nên tự mình thảo luận với vị sếp tương lai và gây cho họ ấn tượng tốt với khả năng thương lượng của mình

Trang 35

Khi chạy chương trình gióng hàng câu, output như sau:

When you let someone else negotiate on your behalf, you lose a major relationship with your boss or your prospective boss

(Khi bạn nhờ một người khác thương lượng chuyện lương bổng cho bạn, bạn đã mất đi một lợi thế chính: khả năng sử dụng những mối quan hệ với sếp hay

vị sếp tương lai.)

You should negotate yourself and, if possible, do it directly with your future boss Make her your ally in the negotiating process and she will work hard to make sure that you are happy with the offer

(Bạn nên tự mình thảo luận với vị sếp tương lai và gây cho họ ấn tượng tốt với khả năng thương lượng của mình.)

Ví dụ như ở đoạn văn bản trên: Đoạn tiếng Anh có 3 câu, đoạn tiếng Việt có 2 câu Khi gióng hàng ta phải đưa ra kết quả như phần output ở trên

Ngày nay, do sự phát triển của Internet, có khá nhiều các trang web song ngữ Việt xuất hiện trên mạng Do đó, việc có một chương trình gióng hàng câu tự động cho corpus Anh-Việt là hết sức quan trọng Chúng tôi đã sử dụng kết hợp hai phương pháp tiếp cận: dựa vào độ dài câu và sự tương ứng của từ để xây dựng chương trình này

Anh-2.2.2 Cách tiếp cận dựa vào độ dài câu

2.2.2.1 Cách tiếp cận

Cách tiếp cận này được Gale và Church [3] phát triển năm 1993 Cách tiếp cận thống kê để gióng hàng là cố gằng tìm gióng hàng A với xác suất cao nhất trong hai

văn bản song song S và T:

Trong bài toán gióng hàng câu, chúng ta nói rằng một nhóm các câu trong một ngôn ngữ tương ứng với một số nhóm các câu trong ngôn ngữ khác (nhóm đây có thể

),,(maxarg),/(max

A A

Trang 36

rỗng để cho phép ta có thể thêm hoặc xóa) Ta gọi nhóm như vậy là bead Để ước

lượng xác suất bao gồm ở đây, hầu hết các phương pháp phân tích những văn bản

gióng hàng thành dãy các beads gióng hàng (B1, B2, , Bk) và giả sử rằng xác suất của bead là độc lập đối với xác suất của các bead khác mà chỉ phụ thuộc vào câu trong bead Do đó ta có

K

k k

B P T

S A P

1

) ( )

, , (

Phương pháp của Gale và Church[14] đơn giản chỉ phụ thuộc vào độ dài của

độ dài câu trong văn bản nguồn và đích được tính bằng số kí tự mà chúng có Ý tưởng ở đây là câu càng dài trong ngôn ngữ nguồn luôn tương ứng với câu càng dài trong ngôn ngữ đích và câu càng ngắn trong ngôn ngữ nguồn thì tương ứng với câu càng ngắn trong ngôn ngữ đích Điều này khá thích hợp với song ngữ Anh-Việt Ở đây các beads chúng tôi nghiên cứu ở đây giới hạn bởi {1: 1, 1: 0, 0:1, 2:1, 1:2, 2:2} Điều này dễ dàng tìm gióng hàng văn bản tốt nhất bằng cách sử dụng thuật toán qui hoạch động Gọi D(i,j) là gióng hàng có giá nhỏ nhất giữa các câu s1, s2, ,

si và t1, t2, , sj Chúng ta có công thức truy hồi như sau:

)0,,,()1,2(

),0,,()2,1(

)0,0,,()1,1(

)0,0,0,(),1(

)0,0,,0()1,(

),(

1 1 1 1

j i j i

i j i

j j i

j i i j

t s t s d j

i D

s t s d j

i D

t t s d j

i D

t s d j

i D

s d j i D

t d j

i D

j i D

Để tính được D(i,j) ta phải xác định được giá trị d của mỗi kiểu bead Để tính d ta dựa vào độ dài (tính theo số kí tự) của các câu trong mỗi ngôn ngữ Ở đây chúng tôi giả sử rằng mỗi kí tự trong một ngôn ngữ bắt nguồn từ một sỗ ngẫu nhiên các kí tự của ngôn ngữ khác Những biến ngẫu nhiên này xem như có phân phối xác suất độc lập và đều nhau Sự ngẫu nhiên này có thể được mô hình hóa bởi phân phối Gauss với giá trị trung bình  và phương sai s2 Những tham số này được ước lượng từ dữ

Trang 37

liệu trong Corpus song ngữ của ngôn ngữ nguồn và ngôn ngữ đích Chi tiết ta có thể xem trong [14]

2.2.2.2 Mô tả Thuật toán

sử dụng 80% copus Từ mô hình dịch, chúng tôi sử dụng phiên bản thay đổi của Mô hình dịch nổi tiếng của IBM 1 (được trình bày chi tiết trong chương 3)

Một cách tổng quát là: Một câu ngôn ngữ đích t được sinh ra từ câu ngôn ngữ nguồn s bao gồm l từ: s1, s2, , sl như thế nào trong mô hình dịch IBM thể hiện như sau:

- Đầu tiên, độ dài m của t được chọn

- Tiếp theo, với mỗi vị trí từ trong t, từ sinh trong s (bao gồm cả từ null s0) được chọn

Trang 38

- Cuối cùng, với mỗi cặp (ví trí trong t, từ sinh của nó trong s), từ ngôn ngữ đích được chọn để điền vào vị trí đích

Mô hình I giả sử rằng tất cả độ dài có thể có của t (ít hơn một số cận trên tùy ý) có xác suất không đổi là ; tất cả sự lựa chọn có thể có của những từ sinh ra trong ngôn ngữ nguồn có khả năng (likely) là nhữ nhau và xác suất tr(ti/tj) của từ ngôn ngữ đích được sinh ra chỉ phụ thuộc vào từ sinh ra trong ngôn ngữ nguồn Điều này được Brown và cộng sự biểu diễn như sau:

i j

m tr t s l

s t P

)/()

1()/

Chúng tôi có 2 thay đổi nhỏ trong Mô hình 1

 Xác suất dịch đối với những từ ít gặp có thể bỏ qua mà không ảnh hưởng đến tính hiệu quả Vì vậy giảm được cỡ của mô hình dịch này

 Đối với mô hình này, số lượng tham số là rất lớn Như vậy việc huấn luyện (ước lượng tham số) bằng thuật toán EM là rất mất thời gian Bắt đầu từ vòng lặp thứ

2 của thuật toán EM, ta chỉ lấy các biến đếm phân số (fractional count) lớn hơn một ngưỡng nào đó vào tổng các ước lượng tham số trong thuật toán EM

2.2.3.2 Mô hình dựa vào sự tương ứng từ

Từ mô hình gióng hàng dựa vào câu chúng tôi sử dụng khung làm việc của mô hình dựa vào độ dài câu ban đầu nhưng chúng tôi thay đổi nó để sử dụng mô hình IBM 1 thêm vào mô hình ban đầu Mô hình thay đổi giả sử rằng kiểu bead và độ dài câu được sinh ra theo cùng một phân phối xác suất được sử dụng mô hình dựa vào độ dài câu nhưng chúng tôi nhân ước lượng xác suất dựa vào những đặc trưng với xác suất ước lượng của dãy từ thực sự phân tích trong mỗi bead, dựa vào một thể hiện của mô hình I mà chúng tôi đã ước lượng từ việc gióng hàng ban đầu

Từ mỗi câu đơn trong bead 1-đến-0 hoặc 0-đến-1, mỗi từ giả sử được sinh ra độc lập theo tần suất xuất hiện của nó trong văn bản của ngôn ngữ tương ứng Với tất cả các kiểu bead khác 1-đến-1, 2-đến-1, 1-đến-2), những từ trong câu của ngôn ngữ

Trang 39

nguồn được giả sử rằng nó được sinh ra theo cũng mô hình được sử dụng trong trường hợp 1-đến-0 Những từ trong câu của ngôn ngữ đích thuộc vào bead được giả sử rằng nó được sinh ra phụ thuộc vào các từ của ngôn ngữ nguồn dựa vào mô

hình IBM 1 Giả sử s là câu nguồn có độ dài l, t là câu đích có độ dài m, P 1-1 (l, m) là

xác suất được xác định từ mô hình ban đầu dựa vào độ dài câu Mô hình kết hợp sẽ ước lượng xác suất của bead 1-đến-1 như sau:

l i

i u i

j

m tr t s f s l

m l P t s P

1 1

))())(

/((

)1(

),()

,(

2.2.4 Kết hợp giữa hai phương pháp

Chúng tôi sử dụng thuật toán kết hợp của Rober C.Moore [25] để ứng dụng cho việc gióng hàng câu Anh-Việt Thuật toán bao gồm 3 bước:

Bước 1: Sử dụng cách tiếp cận độ dài câu để tìm các cặp câu mà có xác suất cao

nhất

Bước 2: Sử dụng các cặp câu (bead 1-1) để huấn luyện phiên bản sửa đổi của Mô

hình IBM 1

Bước 3: Gióng hàng lại văn bản, thêm vào mô hình gióng hàng ban đầu với mô

hình IBM 1 để sinh ra các gióng hàng dựa cả vào độ dài câu và sự tương ứng với từ

Trang 40

Chương 3 - DỊCH MÁY BẰNG PHƯƠNG PHÁP THỐNG KÊ

3.1 Tổng quan về dịch thống kê

Mục tiêu là dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích Chúng ta có câu văn bản trong ngôn ngữ nguồn (“Tiếng Anh”) e1I = e1, , ej, , eI mà được dịch thành câu văn bản trong ngôn ngữ đích (“Tiếng Việt”) v1

J

= v1, , vj, , vJ Trong tất cả các câu có thể có trong văn bản đích, chúng ta chọn câu sao cho:

1

I J v

J

e v V

Ngày đăng: 25/03/2015, 10:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Hoàng Phê (chủ biên) (2002), Từ điển tiếng Việt, Nhà xuất bản Đà Nẵng Sách, tạp chí
Tiêu đề: Từ điển tiếng Việt
Tác giả: Hoàng Phê (chủ biên)
Nhà XB: Nhà xuất bản Đà Nẵng
Năm: 2002
[3] Đinh Mạnh Tường (2002), Trí Tuệ Nhân Tạo, Nhà xuất bản khoa học kĩ thuật Sách, tạp chí
Tiêu đề: Trí Tuệ Nhân Tạo
Tác giả: Đinh Mạnh Tường
Nhà XB: Nhà xuất bản khoa học kĩ thuật
Năm: 2002
[4] Nguyễn Phương Thái (2003), Kiểm lỗi chính tả cảm ngữ cảnh tiếng Việt, Luận văn thạc sỹ, Đại học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Kiểm lỗi chính tả cảm ngữ cảnh tiếng Việt
Tác giả: Nguyễn Phương Thái
Năm: 2003
[5] Nguyễn Văn Vinh, Đinh Mạnh Tường, Nguyễn Phương Thái (2004), Chương trình gióng hàng câu tự động trong Corpus song ngữ Anh-Việt, Hội thảo toàn quốc về CNTT, Đà Nẵng, Việt Nam.Tiếng Anh Sách, tạp chí
Tiêu đề: Chương trình gióng hàng câu tự động trong Corpus song ngữ Anh-Việt
Tác giả: Nguyễn Văn Vinh, Đinh Mạnh Tường, Nguyễn Phương Thái
Năm: 2004
[6]. Aho, A.V., Ullman J. D. (1972), The Theory Of Parsing, Translation and Compiling”, Vol I : Parsing, Prentice-Hall, Englewood Cliffs. N.J Sách, tạp chí
Tiêu đề: The Theory Of Parsing, Translation and Compiling
Tác giả: Aho, A.V., Ullman J. D
Năm: 1972
[7]. Alfred V.Aho, Ravi Shethi, Jeffrey D.Ullman (1986), Compilers principles, Teachniques, and Tools, Addison-Wesley Publishing Company. 1986 Sách, tạp chí
Tiêu đề: Compilers principles, Teachniques, and Tools
Tác giả: Alfred V.Aho, Ravi Shethi, Jeffrey D.Ullman
Năm: 1986
[8]. Brown, P., Cocke, J., Pietra, S. D., Jelinek, J., Lafferty and Roossina, P. (1990), “A statistical approach to machine translation”, Computational Linguistics, 16(2), pp. 79-85 Sách, tạp chí
Tiêu đề: A statistical approach to machine translation”, "Computational Linguistics
Tác giả: Brown, P., Cocke, J., Pietra, S. D., Jelinek, J., Lafferty and Roossina, P
Năm: 1990
[9]. Brown, P.F., Dellta Pietra, S.A., Della Pietra, V. J., Mercer, R.L. (1993), “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Computational Linguistics, Vol 19, No. 2, pp. 263-311 Sách, tạp chí
Tiêu đề: The Mathematics of Statistical Machine Translation: Parameter Estimation”, "Computational Linguistics
Tác giả: Brown, P.F., Dellta Pietra, S.A., Della Pietra, V. J., Mercer, R.L
Năm: 1993
[10]. Byrne W. et al. (2003), The Johns Hopkins University 2003 Chinese-English Machine Translation System, In Machine Translation Summit IX. The Association for Machine Translation in the Americas Sách, tạp chí
Tiêu đề: The Johns Hopkins University 2003 Chinese-English Machine Translation System
Tác giả: Byrne W. et al
Năm: 2003
[12]. Daniel J., James H. Martin (2000), Introduction to Natural Language Processing, Computational Linguistics, and Speed Recognition, Prentice-Hall, Inc Sách, tạp chí
Tiêu đề: Introduction to Natural Language Processing, Computational Linguistics, and Speed Recognition
Tác giả: Daniel J., James H. Martin
Năm: 2000
[13]. Eric H. Nyberg, Teruko Mitamura (1992), THE KANT SYSTEM: FAST, ACCURATE, HIGH-QUALITY TRANSLATION IN PRACTICAL DOMAINS, Proceedings of COLING-92, Nantes, France, July 1992 Sách, tạp chí
Tiêu đề: THE KANT SYSTEM: FAST, ACCURATE, HIGH-QUALITY TRANSLATION IN PRACTICAL DOMAINS
Tác giả: Eric H. Nyberg, Teruko Mitamura
Năm: 1992
[14]. Gale, W.A, Church, K.W. (1993), „A Program for Aligning Sentences in Bilingual Corpra‟, Computational Linguistics, Vol 19, No. 1, pp. 75-102 Sách, tạp chí
Tiêu đề: Computational Linguistics
Tác giả: Gale, W.A, Church, K.W
Năm: 1993
[16]. Gremanm, U. (2003), Greedy Decoding for Statitical Machine Translation in Almost Linear Time, Proceedings of HLT-NAACL 2003, Edmonton, Canada Sách, tạp chí
Tiêu đề: Greedy Decoding for Statitical Machine Translation in Almost Linear Time
Tác giả: Gremanm, U
Năm: 2003
[17]. Hutchins W.John (1995), “MACHINE TRANSLATION: A BRIEF HISTORY”, Concise history of the language sciences: from the Sumerians to the cognitivists, Oxford: Pergamon Press, 1995, pp. 431-445 Sách, tạp chí
Tiêu đề: MACHINE TRANSLATION: A BRIEF HISTORY”, "Concise history of the language sciences: from the Sumerians to the cognitivists
Tác giả: Hutchins W.John
Năm: 1995
[18]. Knight, K. (1997), “Automating Knowledge Acquisition for Machine Translation”, AI Magazine, 18(4), pp. 225-242 Sách, tạp chí
Tiêu đề: Automating Knowledge Acquisition for Machine Translation”, "AI Magazine
Tác giả: Knight, K
Năm: 1997
[19]. Knight, K. (1999), A Statistical Machine Translation Tutorial Workbook, Tech. Rep., USC/ISI. (available at www.clsp.jhu.edu/ws/projects/mt/wkbk.rtf) Sách, tạp chí
Tiêu đề: A Statistical Machine Translation Tutorial Workbook
Tác giả: Knight, K
Năm: 1999
[20]. Knight, K. (1999), “Decoding complexity in wordreplacement translation models”, Computational Linguistics, 25(4), pp. 607-615 Sách, tạp chí
Tiêu đề: Decoding complexity in wordreplacement translation models”, "Computational Linguistics
Tác giả: Knight, K
Năm: 1999
[21]. Lappon ,R.Tang (2000), Intergrating Statistical and Relation learning for Semantic Parsing: Application to learning natural languge Interfaces for database, Phd. Thesis Sách, tạp chí
Tiêu đề: Intergrating Statistical and Relation learning for Semantic Parsing: Application to learning natural languge Interfaces for database
Tác giả: Lappon ,R.Tang
Năm: 2000
[22]. Och, F. J., Useffing, N., Ney, H. (2001), An efficent A* search algorithm for statistical machine translation, Proceedings of the ACL 2001 Workshop on Data- Driven Methods in Machine Translation, Toulouse, France, pp. 55-62 Sách, tạp chí
Tiêu đề: An efficent A* search algorithm for statistical machine translation
Tác giả: Och, F. J., Useffing, N., Ney, H
Năm: 2001
[23] Och, F. J. (2002), Statistical Machine Translation: From Single-Word Models to Alignment Templates, PhD thesis, RWTH Aachen, Germany Sách, tạp chí
Tiêu đề: Statistical Machine Translation: From Single-Word Models to Alignment Templates
Tác giả: Och, F. J
Năm: 2002

HÌNH ẢNH LIÊN QUAN

1.2. Sơ đồ tổng quát của một hệ dịch máy - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
1.2. Sơ đồ tổng quát của một hệ dịch máy (Trang 8)
Hình 1.2: Sơ đồ Hệ thống dịch chuyển đổi - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 1.2 Sơ đồ Hệ thống dịch chuyển đổi (Trang 13)
Hình 1.3: Mô hình dịch Liên ngữ - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 1.3 Mô hình dịch Liên ngữ (Trang 15)
Hình 2.1: Sơ đồ quá trình tạo corpus - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 2.1 Sơ đồ quá trình tạo corpus (Trang 32)
Hình 3.1: Sơ đồ của hệ dịch bằng phương pháp thống kê - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 3.1 Sơ đồ của hệ dịch bằng phương pháp thống kê (Trang 40)
Hình 3.2: Chu kì phát triển của hệ thống dịch thống kê - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 3.2 Chu kì phát triển của hệ thống dịch thống kê (Trang 46)
Hình 2: Gióng hàng với những từ tiếng Việt độc lập - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 2 Gióng hàng với những từ tiếng Việt độc lập (Trang 52)
Hình 1: Gióng hàng với những từ tiếng Anh độc lập - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 1 Gióng hàng với những từ tiếng Anh độc lập (Trang 52)
Hình 3: Gióng hàng tổng quát - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 3 Gióng hàng tổng quát (Trang 53)
Hình ngôn ngữ - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình ng ôn ngữ (Trang 68)
Hình 4.2: Giao diện chính của chương trình dịch Anh-Việt - Xây dựng chương trình dịch tự động Anh - Việt bằng phương pháp thống kê
Hình 4.2 Giao diện chính của chương trình dịch Anh-Việt (Trang 77)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm