Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung Việt

Định nghĩa dịch máy Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng, hầu hết đều tương đương với định ngh

Trang 1

Ngô Hữu Huy

NGHIÊN CỨU MỘT SỐ CÔNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2012

Trang 2

Ngô Hữu Huy

NGHIÊN CỨU MỘT SỐ CÔNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT

Chuyên ngành : Khoa học máy tính

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Nguyễn Ái Việt

Thái Nguyên - 2012

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là kết quả của sự tìm hiểu, nghiên cứu các tài liệu một cách nghiêm túc dười sự hường dẫn của TS Nguyễn Ái Việt

Nội dung của luận văn được phát triển từ ý tưởng, sự sáng tạo của bản thân

và kết quả hoàn toàn trung thực

Học viên

Ngô Hữu Huy

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

MỤC LỤC ii

DANH SÁCH CÁC HÌNH v

MỞ ĐẦU vi

CHƯƠNG 1 TỔNG QUAN VỀ DỊCH MÁY 1

1.1 Định nghĩa dịch máy 1

1.2 Vai trò của dịch máy 2

1.3 Lịch sử của dịch máy 3

1.3.1 Giai đoạn 1930 - 1940 3

1.3.2 Giai đoạn 1940 - 1970 4

1.3.3 Giai đoạn 1970 – 1990 5

1.3.4 Giai đoạn 1990 - hiện nay 6

1.4 Phân loại dịch máy 7

1.5 Phạm vi của luận văn 8

1.6 Kết chương 8

CHƯƠNG 2 CÁC PHƯƠNG PHÁP DỊCH MÁY 9

2.1 Các chiến lược dịch cơ bản 9

2.1.1 Dịch trực tiếp (Direct MT) 9

2.1.2 Dịch chuyển đổi cú pháp (Syntactic-transfer MT) 10

2.1.3 Dịch qua ngôn ngữ trung gian (Interlingual MT) 11

2.1.4 Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa 13

2.2 Các cách tiếp cận của dịch máy hiện nay 14

2.2.1 Dịch máy dựa trên luật (RBMT: Rule-Based MT) 14

Trang 5

2.2.2 Dịch máy dựa trên thống kê (SMT: Statistics-Based MT) 18

2.2.3 Dịch máy dựa trên cơ sở tri thức (KBMT: Knowlegde-Based MT) 20

2.2.4 Dịch máy dựa trên ví dụ (EBMT: Example-Based MT) 21

2.2.5 Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based MT) 21

2.2.6 Các cách tiếp cận lai (hybrid MTs) 22

2.3 Nhận xét các chiến lược và các cách tiếp cận 23

2.3.1 Nhận xét về các chiến lược 23

2.3.2 Nhận xét về các cách tiếp cận 25

CHƯƠNG 3 CÁC ĐẶC TRƯNG CỦA DỊCHTRUNG (HÁN) – VIỆT 27

3.1 Ngữ nghĩa đất nước học trong hai ngôn ngữ Hán-Việt 27

3.1.1 Văn hóa dân tộc và nội hàm ngữ nghĩa đất nước học 27

3.1.2 Thông tin ngữ nghĩa đất nước học trong từ vựng 28

3.2 Đặc điểm tương đồng và khác biệt của ngôn ngữ Trung (Hán)-Việt 31

3.2.1 Đặc điểm tương đồng và khác biệt về mặt ngữ âm 31

3.2.2 Đặc điểm tương đồng và khác biệt về mặt văn tự 36

3.2.3 Đặc điểm tương đồng và khác biệt về mặt từ vựng 36

3.2.4 Đặc điểm tương đồng và khác biệt về mặt ngữ pháp 37

3.2.5 Đặc điểm tương đồng và khác biệt về mặt tu từ 38

3.3 Nguyên nhân sự tương đồng và khác biệt ngữ nghĩa đất nước học giữa hai ngôn ngữ Hán và Việt 38

3.3.1 Phong tục tập quán dân tộc 39

3.3.2 Bối cảnh văn hoá lịch sử 40

3.3.3 Tín ngưỡng tôn giáo 41

3.3.4 Hoàn cảnh địa lý 42

Trang 6

CHƯƠNG 4 XÂY DỰNG KHỐI LIỆU VÀ ĐÁNH GIÁ 45

MỘT SỐ CÔNG CỤ XỬ LÝ TIẾNG TRUNG 45

4.1 Xây dựng kho ngữ liệu Trung-Việt (Corpus Trung-Việt) 45

4.1.1 Khái niệm về Corpus 45

4.1.2 Quy trình xây dựng Corpus 46

4.1.3 Xây dựng Corpus Trung Việt 48

4.2 Đánh giá một số công cụ xử lý tiếng Trung 50

4.2.1 Công cụ phân tích cú pháp (Parser) 50

4.2.2 POS Tagger (Part-Of-Speech Tagger) 53

KẾT LUẬN 55

TÀI LIỆU THAM KHẢO 56

Trang 7

DANH SÁCH CÁC HÌNH

Hình 1.1 Quá trình xử lý tài liệu dịch máy 1

Hình 2.1 Mô hình dịch trực tiếp 10

Hình 2.2 Mô hình dịch kiểu chuyển đổi cú pháp 10

Hình 2.3 Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích 11

Hình 2.4 Mô hình dịch liên ngôn ngữ 12

Hình 2.5 Các chiến lược dịch trong máy dịch 13

Hình 2.6 Mức độ phân tích, chuyển đổi và tổng hợp trong các chiến lược dịch 14

Hình 2.7 Kết quả phân tích cú pháp câu “I see the man in the car” 17

Hình 2.8 Kết quả phân tích cú pháp câu “I saw the man in a day” 17

Hình 4.1 Bộ gõ tiếng Trung Sougou pinyin 48

Hình 4.2 Giao diện phần mềm Text & Word joiner 49

Hình 4.3 Giao diện phần mềm Stanford-parser 50

Hình 4.4 Chọn file đầu vào 51

Hình 4.5 Chọn parser 51

Hình 4.6 Kết quả phân tích cú pháp 52

Hình 4.7 Giao diện phần mềm Stanford postagger 53

Hình 4.8 Nhập dữ liệu đầu vào 54

Hình 4.9 Kết quả thu được khi gán thẻ 54

Trang 8

MỞ ĐẦU

Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu trước khi máy tính điện tử ra đời Khi khoa học công nghệ phát triển mạnh, yêu cầu nắm bắt thông tin về kỹ thuật nhanh và chính xác trở nên cần thiết

Chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý, con người nghĩ ngay đến việc sử dụng “não bộ của máy tính” cho những ứng dụng thực tiễn, trong đó có vấn đề dịch máy Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D Booth và Warren Weaver vào năm 1946 Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth đã cho ra mắt “hệ dịch dựa trên từ điển” đầu tiên tại hội nghị của MIT vào năm 1952 [4] [15] [16]

Trong sự phát triển nhanh chóng của mạng máy tính và công nghệ truyền thông, con người ngày càng có điều kiện tiếp xúc với nguồn tri thức rất phong phú ở nhiều dạng khác nhau (chữ viết, hình ảnh, âm thanh, v.v.), được thể hiện ở nhiều ngôn ngữ khác nhau Nhu cầu đọc hiểu và trao đổi thông tin trở nên cần thiết hơn bao giờ, thế nhưng, nhu cầu này đã gặp phải một rào cản - sự khác biệt về mặt ngôn ngữ Và, ngôn ngữ, tự hân nó đã vốn rất phức tạp

Con người đã tìm cách vượt qua rào cản ngôn ngữ theo nhiều cách khác nhau, từ việc xây dựng các bộ từ điển song ngữ, các nghiên cứu về dịch thuật liên ngữ, phương pháp học ngoại ngữ nhanh chóng, cho đến cảviệc tạo ra một ngôn ngữ chung cho loài người - quốc tế ngữ Esperanto Vào thời điểm sức mạnh của máy tính đã được khẳng định, bài toán sử dụng máy tính để chuyển đổi tri thức được viết bằng ngôn ngữ này sang một ngôn ngữ khác được đặt ra Trong khoảng 50 năm, có rất nhiều phương pháp dịch máy đã được giới thiệu và triển khai Hiện nay, đã có nhiều hệ dịch tự động được thương mại hóa ở dạng các chương trình máy tính hoặc các dịch vụ web

Trang 9

Sự nhìn nhận về vấn đề dịch máy (Machine Translation) đã nhiều lần thay đổi trong hơn năm mươi năm qua, từ chỗ hình dung rằng dịch thuật là công việc đơn giản, máy sẽ dịch mọi loại văn bản không kém gì con người, như một bộ máy vạn năng, cho đến chỗ khẳng định rằng dịch máy tự động, chất lượng cao là hoàn toàn không khả thi Ngày hôm nay, hầu hết các chuyên gia về dịch máy đều có chung quan điểm rằng máy tính chỉ có thể biên dịch văn bản chất lượng chấp nhận được trong một lĩnh vực chuyên môn hẹp, hoặc chỉ có thể hỗ trợ dịch thô để đọc hiểu Phương pháp dịch máy dựa hoàn toàn vào kho ngữ liệu như Dịch máy dựa trên Thống kê (Statistical Machine Translation) hay Dịch máy dựa trên mẫu ví dụ (Example-based Machine Translation) được xem là chỉ có ích để dịch với chất lượng tương đối thấp cho mọi loại văn bản [4] [15] [16]

Hiện nay số người nói tiếng Trung trên thế giới là nhiều nhất Tiếng Trung Quốc chiếm một vị trí quan trọng trên trường quốc tế, đồng thời nó có ảnh hưởng rất lớn đến sự phát triển của nền văn hóa và kinh tế trên toàn thế giới

Với mong muốn học hỏi, tôi mạnh dạn chọn đề tài “Nghiên cứu một số công

cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung-Việt” cho luận văn của mình Luận văn được trình bày trong 4 chương, khái quát như sau:

Chương 1: Tổng quan Chương 2: Các phương pháp dịch máy Chương 3: Các đặc trưng của dịch Trung (Hán)-Việt Chương 4: Xây dựng khối liệu và đánh giá một số công cụ xử lý tiếng Trung

Trang 10

CHƯƠNG 1 TỔNG QUAN VỀ DỊCH MÁY

1.1 Định nghĩa dịch máy

Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng, hầu hết đều tương đương với định nghĩa sau:

Một hệ dịch máy (Machine Translation System) là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác [15] [16]

Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của bản dịch được gọi là ngôn ngữ đích Sơ đồ sau thể hiện vị trí của hệ dịch máy trong tiến trình dịch tài liệu

Hình 1.1 Quá trình xử lý tài liệu dịch máy

Đầu vào của một hệ dịch máy thường là một văn bản viết trong ngôn ngữ nguồn Quá trinh dịch có thể chia thành hai giai đoạn: Đầu tiên, văn bản được phân

Trang 11

tích thành các thành phần; Sau đó được dịch thành văn bản ở dạng ngôn ngữ đích Kết quả dịch có thể được con người hiệu đính để trở thành bản dịch tốt Như vậy trong một quá trình dịch, con người có thể tác động vào các bước xử lý với mục đích làm cho kết quả dịch tốt hơn

1.2 Vai trò của dịch máy

Xa xưa, con người đã có mơ ước về một “thực thể” giúp con người có thể hiểu mọi thứ tiếng khác Ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi con người, v.v càng làm cho việc dịch trở nên quan trọng

Để giải quyết vấn đề dịch thuật, một đội ngũ những người phiên dịch, dịch giả được hình thành và duy trì - để chuyển các lời nói, văn bản từ ngôn ngữ này sang ngôn ngữ khác Công việc dịch sử dụng con người là công việc có tính thủ công, chất lượng cao nhưng năng suất thấp và giá thành cao

Mỗi cách dịch – cách dịch dùng người dịch và dịch bằng máy – đều có vai trò riêng của nó Dịch máy đã chứng tỏ nó có hiệu quả so với chi phí bỏ ra (rẻ hơn đáng kể) khi cần dịch khối lượng lớn hoặc dịch nhanh những tài liệu chuyên môn (kỹ thuật), cũng như trong nhiều tình huống khác (có nhiều từ lặp đi lặp lại)

Trái lại, khi cần dịch những văn bản không có nhiều từ lặp lại và sử dụng ngôn ngữ tinh vi và rất phức tạp (ví dụ như văn học và luật), và thậm chí cả khi cần dịch những văn bản với những chủ đề đặc biệt, thì vẫn không có gì có thể thay thế được người dịch [7]

Dịch máy cũng có thể phục vụ việc tìm kiếm và dịch những từ chính hoặc cung cấp một bản dịch thô của các bản tóm tắt bản gốc (đôi khi có thể gọi là “những

ý chính”) Nói chung, chỗ đứng của dịch máy là ở bước khởi đầu của quá trình dịch,

là một phương tiện để tiến tới mục đích chứ bản thân nó khó có thể là sản phẩm cuối cùng Dịch với sự trợ giúp của máy tính là một tiến bộ lớn trong thời gian gần đây trong qua trình phối hợp giữa máy dịch và người dịch Phần lớn những người dịch sử dụng các công cụ tham chiếu như từ điển và từ điển đồng nghĩa trên mạng

Trang 12

Dịch với sự trợ giúp của máy tính còn tiến xa hơn, bằng cách kết hợp dùng phần mềm có những khả năng ví dụ như tự động ghi và lưu lại một số cấu trúc ngữ pháp hoặc cách sắp xếp từ nhất định (công cụ này đặc biệt hữu dụng để đảm bảo sự nhất quán khi dịch các thuật ngữ chuyên môn) trong cả ngôn ngữ gốc và ngôn ngữ dịch,

và gợi ý cho người dịch khi họ gặp lại những từ hay cấu trúc ngữ pháp này trong văn bản [7]

Tóm lại, với sự phát triển mạnh mẽ của khoa học công nghệ, khối lượng thông tin trao đổi của con người ngày càng nhiều Trong nhiều trường hợp có thể

có, con người không cần đến chất lượng dịch cao như sử dụng người phiên dịch mà chỉ cần có một bản dịch nháp có chất lượng không quá thấp nhưng không phải chờ đợi lâu Với trường hợp cụ thể này, một hệ dịch máy chất lượng bình thường đáp ứng tốt hơn một người phiên dịch giỏi Do vậy, nhu cầu cần có các hệ dịch máy là tất yếu Nếu xây dựng hệ dịch máy thành công, đây sẽ là công cụ giúp con người tiếp cận với kho tri thức viết bằng các ngôn ngữ khác

1.3 Lịch sử của dịch máy

Ngành dịch máy đã có quá trình phát triển trên 50 năm, tuy có những giai đoạn hầu như không phát triển nhưng dịch máy vẫn là một trong những chuyên ngành phát triển của khoa học máy tính với nhiều kết quả về lý thuyết và ứng dụng thực tế Có thể chia sự phát triển của ngành dịch máy thành ba thời kỳ, kể từ năm

1949 với những ý tưởng sơ khai về một hệ dịch máy cho đến hiện nay (2006) với sự

ra đời của nhiều trình dịch máy tương đối hoàn thiện, đã có ứng dụng vào cuộc sống

1.3.1 Giai đoạn 1930 - 1940

Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có

từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong việc xây dựng một cách biểu diễn chung cho tất cả các ngôn ngữ Năm 1933, đã có hai phát minh được cấp bằng sáng chế liên quan đến việc xây dựng các thiết bị dịch

Trang 13

ngôn ngữ George Artsrouni một người Pháp gốc Armenia đã thiết kế một thiết bị lưu trữ có thể tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kỳ Cũng trong năm đó, một người Nga tên là Petr Smirnov-Troyanskii đã thiết

kế một thiết bị dịch máy gồm 3 công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ

và sinh câu đích Thiết kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là ý tưởng cơ bản cho nhiều loại máy dịch được thiết kế sau này

1.3.2 Giai đoạn 1940 - 1970

Vào cuối những năm 1940, khi máy tính đã được phát minh và ứng dụng thành công vào việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính vào việc phiên dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại mật mã nào đó Khái niệm dịch máy (machine translation) được Warren Weaver đề

ra vào năm 1949 Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng phương pháp dịch từ sang từ (word-for-word translation) đã cho những kết quả rất giới hạn vì từ ngữ có nghĩa khác nhau trong những ngữ cảnh khác nhau Năm 1954, công ty IBM và trường đại học tổng hợp Georgetown hợp tác xây dựng một chương trình dịch tự động Nga-Anh nhưng kết quả rất hạn chế Với khả năng giới hạn của máy tính trong những năm 1950-1960 và việc nghiên cứu lý thuyết xử lý ngôn ngữ

tự nhiên còn chập chững, các kết quả thu được trong lĩnh vực dịch tự động thời kỳ này không đạt được kết quả khả quan

Trong báo cáo của mình viết năm 1960, Bar-Hillel cho rằng không có hệ thống dịch tự động nào có thể dịch một cách trọn vẹn nếu nó không biết được kiến thức về thế giới xung quanh và thông tin về ngữ cảnh hiện tại Ví dụ mà Bar-Hillel đưa ra là câu tiếng Anh “The pen is in the box and the box is in the pen” và khẳng định không có hệ dịch nào có thể chỉ dựa vào từ điển mà phân biệt được nghĩa của

từ “pen” thứ nhất (có nghĩa là “cái bút”) và từ “pen” thứ hai (có nghĩa là “cái cũi”)

Năm 1966, tại Mỹ, Hội đồng Cố vấn Xử lý Ngôn ngữ Tự động (Automatic Language Processing Advisory Committee – ALPAC) đã soạn một báo cáo nhận

Trang 14

định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả Lập luận rằng: " việc dịch ngôn ngữ không những chỉ cần những kiến thức về ngôn ngữ mà còn phải những kiến thức ngoài ngôn ngữ (extra-linguistic)…" Sau báo cáo này, các chính phủ đã không còn trợ cấp cho các chương trình nghiên cứu về Dịch Máy nữa và các chương trình này cũng chấm dứt

Nên giai đoạn này còn được biết với tên giai đoạn trước ALPAC (Automatic Language Processing Advisory Committee)

Việc nghiên cứu và phát triển dịch máy bước vào một thời kỳ yên ắng chỉ với một vài hoạt động của các cá nhân và tổ chức nhỏ bên ngoài nước Mỹ Tuy nhiên các đầu tư cho dịch máy trong lĩnh vực quân sự vẫn được tiếp tục như hệ thống dịch Nga-Anh của không lực Mỹ (hệ Mark II, phát triển từ năm 1964)

1.3.3 Giai đoạn 1970 – 1990

Giai đoạn phục hồi của dịch máy Vào đầu những năm 1970, sau một số thành công trong nghiên cứu về lý thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng kể (với sự ra đời của mạch tích hợp), nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy Năm 1973, Yorick Wilks giới thiệu một hệ thống dịch tự động Anh-Pháp cho kết quả khá tốt (một người chỉ biết tiếng Pháp có thể đọc và hiểu được kết quả dịch không cần tham khảo bản gốc tiếng Anh) Để đạt được thành quả này, hệ thống của Wilks đã sử dụng các tri thức có tính “khái niệm” (concepts) trong việc dịch thuật Ví dụ: Từ “drink” không đơn thuần là động từ “uống”, trong hệ thống của Wilks, từ “drink” gồm những khái niệm như “động từ có tính hoạt động” (activity verb), “có liên hệ đến những chất lỏng”, Những tri thức như vậy giúp cho hệ thống của Wilks biết được mối liên hệ giữa các từ trong câu và từ đó xác định được nghĩa chính xác hơn, phù hợp với ngữ cảnh hơn

Thành công của Wilks là chất xúc tác cho việc phục hồi lại những nghiên cứu về dịch máy, một loại các đề án dịch tự động của rất nhiều tổ chức và quốc gia được triển khai, ví dụ như:

Trang 15

- Hai hệ thống của Liên Xô cũ, đều được bắt đầu năm 1976, đó là hệ thống AMPAR dịch từ tiếng Anh sang tiếng Nga và hệ thống NERPA dịch từ tiếng Đức sang tiếng Nga

- Hệ thống TAUM-METEO (1977) của đại học Montréal – Canada chuyên dịch tin tức khí tượng từ tiếng Anh sang tiếng Pháp

- Dự án EUROTRA (1982) của Cộng Đồng Châu Âu với mục đích dịch từ một ngôn ngữ này sang ngôn ngữ khác trong khối, chương trình hỗ trợ các thứ tiếng: Anh, Pháp, Đức, Ý, Hà Lan, Đan Mạch và Hy Lạp

- Hệ thống METAL (1985) của Linguistic Research Center, đại học Texas, dịch từ tiếng Đức sang tiếng Anh

- Chương trình máy tính thế hệ 5 (The Fifth Generation) của chính phủ Nhật Bản, một trong các mục tiêu của chương trình này là một hệ thống dịch tự động xuôi ngược Anh-Nhật, Nhật-Anh

1.3.4 Giai đoạn 1990 - hiện nay

Đầu những năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi thông tin bùng nổ, cộng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh của máy tính tăng lên hàng ngày và nhiều thành tựu mới về mặt lý thuyết, việc phát triển các hệ thống dịch tự động trở nên rất cần thiết Dịch máy đã bước sang một giai đoạn phát triển mới, đạt được nhiều thành tựu đáng khích lệ Các phương pháp dịch tiên tiến áp dụng các kỹ thuật khai phá tri thức từ kho dữ liệu, điều mà trước kia chưa thể thực hiện được do khả năng hạn chế của máy tính, đã thay đổi hoàn toàn các phương pháp dịch truyền thống và đem lại một chất lượng mới cho các hệ thống dịch Ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp nhận được và một số các ứng dụng dịch tự động đã đi vào cuộc sống trong một số lĩnh vực hẹp Theo ước tính của John Hutchins, vào năm 2001, có khoảng 1000 phần mềm dịch tự động các ngôn ngữ được bán trên thị trường Tiêu biểu nhất trong thời điểm hiện nay là các server dịch tự động trên Internet; chẳng hạn dịch vụ Babel Fish: Dịch từ 9 ngôn ngữ thông dụng sang tiếng Anh (gồm tiếng Trung, tiếng

Trang 16

Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha và tiếng Nga) hoặc dịch vụ WorldLingo: Dịch tự động giữa 11 ngôn ngữ khác nhau (gồm tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga và tiếng Hy Lạp), các server này cung cấp dịch vụ dịch từng câu hoặc cả một trang web mà người dùng yêu cầu từ ngôn ngữ này sang ngôn ngữ khác, để làm được điều này tất nhiên tốc độ của các hệ thống dịch phải rất cao và chất lượng dịch cũng phải ở mức tương đối tốt

Nhắm tới thị trường về công nghệ tri thức, nhiều tập đoàn ở Mỹ và Châu

Âu đã đầu tư rất lớn vào các dự án về xử lý ngôn ngữ tự nhiên, nhận dạng và mô phỏng Tiêu biểu có dự án của công ty Microsoft cộng tác với trường đại học tổng hợp Stanford cho việc nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động, tóm tắt nội dung, mới có một vài ứng dụng trên máy cầm tay PocketPC hoặc tích hợp vào bộ Office Được ứng dụng phổ biến hơn có các kết quả của các phòng thí nghiệm của công ty IBM đã được ứng dụng vào các hệ thống lái xe thông minh, hệ thống đặt vé máy bay nội địa tự động, Về phía Châu Âu, có các sản phẩm của công ty Lernout & Hauspie (sau này là Mendez) với các hệ nhận dạng tiếng nói, mô phỏng tiếng nói, dịch máy, … [4], [15], [16]

Tại Việt Nam, ngoài chương trình dịch tự động Anh-Việt EVTran 3.0 của tác giả Lê Khánh Hùng, còn có một số các chương trình khác nhưng mới chỉ đang được thử nghiệm trong phạm vi hẹp chứ chưa được đưa ra thị trường Các chương trình dịch tự động được nghiên cứu tại Việt Nam chủ yếu hướng vào việc dịch tự động Anh-Việt do có sẵn khá nhiều kết quả nghiên cứu về tiếng Anh, dịch từ tiếng Anh sang ngôn ngữ khác để có thể áp dụng vào chương trình [8]

1.4 Phân loại dịch máy

Có nhiều quan điểm phân loại dịch máy khác nhau, chẳng hạn: Phân loại theo mục đích hệ dịch, phân loại theo kỹ thuật dịch, … Với tiêu chí phân loại dịch máy theo mục đích hệ dịch, Hutchins và Somers chia các hệ dịch máy thành ba loại:

Trang 17

- Máy trợ dịch (Machine-Aided Human Translation): Là các hệ thống giúp con người dịch, người dịch là chính Ví dụ: Bộ kiểm tra chính tả, kiểm tra ngữ pháp,

từ điển, …

- Máy dịch có trợ giúp của người (Human-Aided Machine Translation): Là các hệ thống dịch với sự trợ giúp của con người, máy dịch là chính, nhiệm vụ của con người là trợ giúp máy để nâng cao chất lượng dịch (chẳng hạn chọn cho máy chuyên ngành thích hợp với tài liệu cần dịch để máy có thể có những lựa chọn nghĩa chính xác hơn), sau đó con người sẽ hiệu đính để tạo được bản dịch cuối cùng có chất lượng cao

- Máy dịch hoàn toàn tự động (Fully-automated Machine Translation): Là các hệ thống dịch hoàn toàn tự động, không hề có bàn tay con người từ khi bắt đầu

xử lý cho đến khi ra bản dịch Hệ thống này cũng là mơ ước và là mục đích sau cùng của những người xây dựng hệ thống dịch Hiện nay, các hệ thống dịch hoàn toàn tự động đã có mặt trong một số lĩnh vực hẹp, khi mà chất lượng của bản dịch không phải là yêu cầu quan trọng nhất [15], [16]

1.5 Phạm vi của luận văn

Luân văn là “Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung-Việt” Đây là một chủ đề rộng, vì vậy luận văn tập trung vào một số công cụ quan trọng, cụ thể như:

- Xây dựng corpus Trung-Việt

- Tìm hiểu công cụ phân tích cú pháp (Parser)

- Tìm hiểu POS Tagger (Part-Of-Speech Tagger)

1.6 Kết chương

Ứng dụng thử nghiệm nào – cũng cần dựa trên một nền tảng lý thuyết khoa học và chắc chắn, trong chương 2, luận văn sẽ khảo cứu căn bản lý thuyết về dịch máy, trong đó đặt trọng tâm vào các phương pháp dịch máy

Trang 18

CHƯƠNG 2 CÁC PHƯƠNG PHÁP DỊCH MÁY

2.1 Các chiến lược dịch cơ bản

Nếu xét theo cách thức chuyển ngữ khi dịch một ngôn ngữ nguồn sang một ngôn ngữ đích, người ta thường chia thành 2 dạng chính sau: dạng chuyển ngữ trực tiếp (direct) và dạng chuyển ngữ gián tiếp (indirect) Trong dạng gián tiếp, thì tùy theo mức độ và môi trường trung gian, người ta chia thành 2 dạng nhỏ sau: gián tiếp qua cấu trúc cú pháp câu (syntax-based) hay gián tiếp qua ngôn ngữ trung gian (interlingua-based) Giữa 2 dạng nhỏ nói trên, cũng còn tồn tại một dạng nhỏ thứ 3 với mức độ gián tiếp ở giữa 2 mức độ trên, đó là: gián tiếp qua cấu trúc cú pháp câu

và phân giải ngữ nghĩa nông (shallow-semantic analysis) Tóm lại, ta có thể phân các chiến lược dịch trong dịch máy thành 4 dạng như sau [14]:

2.1.1 Dịch trực tiếp (Direct MT)

Theo chiến lược này, hệ sẽ dịch bằng cách thay thế một cách đơn giản và máy móc những từ/ngữ trong ngôn ngữ nguồn (Source Language) bằng những từ/ngữ trong ngôn ngữ đích (Target Language) Đặc điểm của chiến lược dịch này

là đơn giản, nhanh (thời gian tỉ lệ với độ dài của câu: O(n)), không cần phân tích cú pháp sâu, thích hợp cho những văn bản có khối lượng từ vựng nhỏ và số dạng câu giới hạn Hoạt động tương đối tốt khi dịch giữa các ngôn ngữ cùng loại hình, có sự tương ứng 1-1 về từ vựng, ngữ pháp, … nhưng chúng gặp phải khó khăn khi dịch cặp ngôn ngữ khác nhau về loại hình, như: tiếng Anh (loại hình biến cách) và tiếng Việt (loại hình đơn lập) chẳng hạn Mô hình dịch của chiến lược này như hình 2.1 dưới:

Trang 19

Hình 2.1 Mô hình dịch trực tiếp

2.1.2 Dịch chuyển đổi cú pháp (Syntactic-transfer MT)

Theo chiến lược này, hệ thống sẽ dịch bằng cách phân tích (hình thái và cú pháp) câu của ngôn ngữ nguồn và sau đó áp dụng những luật ngôn ngữ và từ vựng (gọi là những qui luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ nguồn sang ngôn ngữ đích

Hình 2.2 Mô hình dịch kiểu chuyển đổi cú pháp

Trang 20

Đê nhận biết cấu trúc của câu nhập vào, những hệ thống chuyển đổi dùng những phần mềm gọi là những bộ phân tích cú pháp (parser) Bộ phân tích cú pháp

sẽ sử dụng giải thuật để phân tích dựa trên một bộ văn phạm ngôn ngữ nào đó hoặc thống kê từ ngữ liệu (đã gán nhãn ngữ pháp) Có rất nhiều giải thuật phân tích và trong đó giải thuật Earley [19] và giải thuật Tomita [22] là hiệu quả và phổ biến hơn

cả Tương tự, cũng có rất nhiều văn phạm để phân tích, như: TG [19], LG [132], TAG [92], … nhưng hầu hết đưa đến kết quả cây phân tích cú pháp giống như nhau

Sau khi tạo ra cây cú pháp, hệ thống dùng những qui luật chuyển đổi để chuyển sang cây cú pháp của ngôn ngữ đích (xét đến sự thay đổi vị trí của từ trong ngôn ngữ đích) và nó tạo ra kết xuất như trong Hình 2.3 Ví dụ: trong tiếng Việt thì tính từ đứng sau danh từ mà nó bổ nghĩa, còn trong tiếng Anh thì ngược lại Với cách dịch này, chúng ta không thể giải quyết các trường hợp nhập nhằng ngữ nghĩa của những từ có cấu trúc nhưng khác nghĩa nhau Ví dụ: ta không thể xác định được nghĩa của từ “bank” trong câu “I enter the bank” là “ngân hàng” hay “bờ sông”,

“dãy”, …

Hình 2.3 Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích

2.1.3 Dịch qua ngôn ngữ trung gian (Interlingual MT)

Theo chiến lược này, hệ sẽ dịch qua ngôn ngữ trung gian gọi là liên ngôn ngữ (interlingua) như Hình 2.4 dưới đây:

Trang 21

Hình 2.4 Mô hình dịch liên ngôn ngữ

Một liên ngôn ngữ lý tưởng phải là một sự biểu diễn độc lập với mọi ngôn ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tinh tế nhất của mọi ngôn ngữ có trong hệ dịch đó Ví dụ: tiếng Việt thì phân biệt các từ: lúa, thóc, gạo, cơm, … còn tiếng Anh, Pháp thì không Tương tự, tiếng Anh thì phân biệt các từ: remember, miss, … còn tiếng Việt thì chỉ dùng từ “nhớ” Hay chỉ liên quan đến việc hành động/trạng thái sử dụng trang phục, thì cũng đã có nhiều sự khác biệt tinh tế, như: tiếng Việt phân biệt các từ: mang, mặc, đội, đeo, … tiếng Anh chỉ phân biệt “put on” và “wear” Chính vì vậy, việc xây dựng một hệ liên ngôn ngữ đủ mạnh để biểu diễn tất cả các thông tin của mọi ngôn ngữ có thể có, cùng với bộ phân giải và bộ tạo sinh thích hợp là một việc vô cùng phức tạp và đến nay vẫn chưa hoàn thiện được

Ngoài ra, hệ dịch liên ngôn ngữ còn bị phê phán là đòi hỏi sự phân giải chi tiết nhiều hơn mức cần thiết cho bất kỳ cặp ngôn ngữ nào

Một ưu điểm chính của hệ liên ngôn ngữ so với các hệ dịch chuyển đổi là số lượng những bộ dịch được dùng bởi hệ dịch liên ngôn ngữ Nếu ta gọi N là số lượng

Trang 22

ngôn ngữ tham gia trong hệ dịch, thì với hệ dịch liên ngôn ngữ, ta chỉ cần 2*N bộ dịch; ít hơn so với N*(N-1) bộ dịch của hẹ dịch chuyển đổi [13]

2.1.4 Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa

Đây là chiến lược mang tính dung hòa giữa mức độ phân tích cú pháp (syntactic parser) và mức độ phân giải ngữ nghĩa (semantic analyzer) Vì nếu chỉ dừng ở mức độ phân tích cú pháp, thì hệ sẽ không giải quyết được những trường hợp nhập nhằng ngữ nghĩa mà có cùng cấu trúc cú pháp Còn nếu câu nào hệ cũng phân giải ngữ nghĩa chi tiết như trong cách tiếp cận liên ngôn ngữ thì rất khó thực hiện và không phải lúc nào cũng cần thiết Vì vậy, giải pháp dịch dung hòa và tối ưu

là hệ sẽ chủ yếu dựa vào việc phân tích cú pháp, và hệ chỉ phân giải ngữ nghĩa ở mức cần thiết để cần khử nhập nhằng ngữ nghĩa khi cần mà thôi

Hình 2.5 Các chiến lược dịch trong máy dịch

Trong Hình 2.5 có vẽ tam giác (hình tháp này do nhóm GETA đưa ra lần đầu tiên vào năm 1968) cho ta thấy: cạnh lên bên trái để chỉ mức độ phân tích câu nguồn, cạnh xuống bên phải cho thấy mức độ tổng hợp câu đích Càng phân tích sâu (càng khó) thì phần chuyển đổi (cạnh ngang) càng ngắn lại, nghĩa là công việc chuyển đổi càng ít hơn, đồng thời công việc tổng hợp câu địch cũng nhiều hơn

Trang 23

Hình 2.6 Mức độ phân tích, chuyển đổi và tổng hợp trong các chiến lược dịch

Ngoài ra, theo Hình 2.6, nếu ta đi từ cạnh lên bên trái (ngôn ngữ nguồn) sang cạnh xuống bên phải (ngôn ngữ đích) theo đường ngang (thể hiện việc công việc chuyển đổi), thì mức độ phân tích ngôn ngữ nguồn cũng như mức độ tổng hợp ngôn ngữ đích sẽ là như sau Nhưng nếu ta chuyển đổi theo đường xiên về bên dưới, thì tuy công việc chuyển đổi sẽ dài hơn, nhưng việc tổng hợp câu đích lại ngắn hơn Tương tự cho trường hợp ngược lại (nghiêng lên trên), thì công việc phân tích sẽ ngắn hơn, nhưng việc chuyển đổi và tạo câu ngôn ngữ đích sẽ dài hơn

Theo sự phân tích trong Hình 2.5, thì người ta đã đồng nhất liên ngôn ngữ với ngữ nghĩa của câu, nhưng theo Kevin Knight [17] thì không nên đồng nhất như vậy, vì liên ngôn ngữ thì phải độc lập với ngôn ngữ nguồn/đích, nhưng có những câu mà ngữ nghĩa trong câu nguồn và ngữ nghĩa trong câu đích của nó tuy khác nhau, nhưng lại có cùng một biểu diễn trong liên ngôn ngữ

2.2 Các cách tiếp cận của dịch máy hiện nay

2.2.1 Dịch máy dựa trên luật (RBMT: Rule-Based MT)

Đây là cách tiếp cận truyền thống xuất phát từ cách làm của hệ luật dẫn trong

hệ chuyên gia trong linh vực trí tuệ nhân tạo (AI: Artificial Intelligence) Trong các

hệ vi xử lý ngôn ngữ tự nhiên thì các luật dẫn này thường được xậy dựng bằng tay bởi các chuyển gia ngôn ngữ

Trang 24

Ví dụ: để phân tích cú pháp, người ta đã xây dựng các luật văn phạm như:

• S à NP VP

• NP à Noun/Det Noun/Det Adj Noun

• VP à Vi/Vt NP

• … Đối với chuyển đổi cú pháp, người ta cũng dùng các luật chuyển đổi cố định, chẳng hạn đối với dịch Anh à Việt: trong những luật đó là:

“Nếu câu nguồn được phân tích là NP à Det Adj Noun thì câu đích sẽ được chuyển thành NP à Det Noun Adj”

Đối với khối xử lý ngữ nghĩa, người ta cũng dùng các luật tự nghĩ ra, như: “ nếu động từ = ăn à chử từ = động từ & đối từ = đồ ăn được”

Tương tự cho tất cả các công việc khác của hệ dịch, đều dựa vào các luật do chính con người nghĩ ra và đưa vào máy

Việc xây dựng một hệ các luật như thế đòi hỏi công sức rất lớn và nhiều khi lại không bao quát hết mọi trường hợp Tuy nhiên, trong một miền giới hạn (domain), thì phương pháp này tỏ ra hiệu quả và chúng ta hoàn toàn làm chủ được kết quả dịch (nghĩa là tất cả những câu mà thỏa các luật đã được xây dựng thì sẽ được phân tích và dịch tốt)

Để bao quát hết các hiện tượng ngôn ngữ, người ta nghĩ rằng cứ việc thêm

nhiều luật vào, nhưng [9] “…dù có thêm 1.000 hay cả 10.000 luật thì vẫn không bao

quát hết được…” mà trái lại càng khiến cho hệ sinh ra nhiều cây cú pháp ứng với

một câu nguồn nhập vào Kết quả là hệ thống không biết chọn cây cú pháp nào là đúng Ngoài ra, một khi số luật tăng lên sẽ khiến cho chính người thiết kế luật khó kiểm soát được tính hợp lý của tất cả các luật mà chính mình đã tạo ra và chắc chắn

sẽ có những luật thừa, những luật mâu thuẫn nhau

Trang 25

Thật vậy, để phân tích cú pháp, giải sử ta có bộ văn phạm CFG={N,Σ,P,S} với các thành phần như sau:

• N: các ký hiệu không kết thức (non-terminal) gồm: S (Sentence: câu), NP (Noun pharse: ngữ danh từ), VP (Verb pharse: ngữ động từ), PP (Preposition pharse: ngữ giới từ)

• Σ: các ký hiệu mục kết thúc (terminal category) gồm:

- pro (đại từ) = {I, you, he, we, …}

- noun (danh từ) = {man, car, boy, girl, cat, house, …}

- det (định từ) = {a, the, …}

- verb (động từ) = {sit, sat, eat, help, …}

- prep (giới từ) = {on, in, to, from, …}

• P: các văn phạm con như sau:

S à NP VP;

NP à det noun; NP à det noun PP

VP à verb; VP à verb NP

PP à prep NP;

Với bộ luật sinh trên, thì đối với câu nhập vào là “I see the man in the car”,

sẽ phân tích được thành cây cú pháp như Hình 2.7 với giới ngữ “in the car” bổ ngữ cho danh từ “man” (có nghĩa là “người đàn ông đó ở trong xe hơi”) và đây là cây cú pháp đúng

Nhưng, nếu ta câu nhập “I saw the man in a day”, thì bộ phân tích cú pháp này sẽ như cây trên, có nghĩa là giới từ “in a day” thay vì bổ nghĩa cho động từ

“saw” thì nó lại bổ nghĩa cho danh từ “man” và đây là cây cú pháp sai Để sửa lỗi này, người ta liền thiêm 1 luật sinh VP à verb NP PP vào bộ văn phạm nói trên, và

bộ phân tích cú pháp mới này lại sinh ra them 01 cây cú pháp như Hình 2.8 dưới

Trang 26

(ngoài cây cú pháp giống như Hình 2.7) Kết quả là hệ dịch không biết chọn cây cú pháp nào là đúng

Hình 2.7 Kết quả phân tích cú pháp câu “I see the man in the car”

Hình 2.8 Kết quả phân tích cú pháp câu “I saw the man in a day”

Trong thực tế, với một bộ luật sinh gồm khoảng 500 luật, thì số cây cú pháp tạo ra cho 01 cây trung bình khoảng 10 từ sẽ cỡ vài trăm cây

Để giải quyết vấn đề này, người ta đã tìm cách chia nhỏ các nhãn kết thúc thành các nhóm tiểu loại chi tiết hơn (categorical terminals) mà trong đó có bao hàm cả ngữ nghĩa Điều này hiển nhiên làm tăng số luật lên gấp đôi, và tuy nó có

the see

I

in man

the saw

I

Trang 27

thể khử nhập nhằng được những trường hợp ta chủ định, nhưng lại phát sinh thêm nhiều hiệu ứng phụ khác ngoài ý muốn

Tóm lại: với cách tiếp cận RBMT, chúng ta có thể xậy dựng được một hệ thống ban đầu một cách dễ dàng, nhưng càng về sau, khi qui mô tăng lên thì chúng trở lên khó kiểm soát; thậm chí chúng có thể bị sụp đổ dưới chính sức nặng của chúng [20] Cách này có ưu điểm là dựa trên lý thuyết ngôn ngữ học, vì vậy nó giải quyết được hầu hết các hiện tượng cốt lõi của ngôn ngữ (core phenomena), nhưng chúng lại không giải quyết được các hiện tượng phụ (những trường hợp ngoại lệ mà không tuân theo luật chính, được gọi là marginal phenomena)

2.2.2 Dịch máy dựa trên thống kê (SMT: Statistics-based MT)

Thay vì xây dựng các từ điển, các qui luật dịch bằng tay như trong các hệ dịch RBMT, hệ dịch này sẽ dựa trên thống kê để xây dựng các từ điển và các qui luật dịch đó một cách tự động Để thực hiện được điều này, máy cần có tập ngữ liệu song ngữ rất lớn Máy tính thống kê và rút ra xác suất dịch tương ứng về từ/ngữ hay cấu trúc giữa hai ngôn ngữ; xác suất chuyển vị trí giữa hai ngôn ngữ và xác suất hiện của từ/ngữ đó trong một ngữ cảnh nhất định náo đó [97]

Chẳng hạn trong hệ dịch Việt à Anh [8], ta gọi câu ngôn ngữ nguồn là v (Vietnamese), câu ngôn ngữ đích là e (English), cặp (v,e) là cặp câu được dịch bởi nhau Bài toán của dịch máy chính là: ứng với 1 câu v được cho bất kỳ, ta đi tìm câu

e hợp lý nhất (là câu được dịch gần đúng nhất của v sang tiếng Anh) Nghĩa là ta tìm

xác suất P (v,e) cực đại (xác suất xuất hiện đồng thời 2 câu v và e) Vì v và e phụ

thuộc lẫn nhau, nên theo lý thuyết xác suất có điều kiện thì:

P(v,e) = P(v)*P(e\v) (2.1) Nghĩa là bài toán trở thành:

Tìm argmaxe P(v,e) = argmaxe P(v)*P(v\e) (2.2)

Do P(v) không phụ thuộc vào e, nên ta chỉ tìm: argmaxe P(v\e) (2.3)

Trang 28

Điều này giống như khi ta dịch Việt à Anh, với một câu tiếng Việt v, ta đi tìm cây tiếng Anh e nào phù hợp nhất trong số vô vần câu tiếng Anh khả dĩ Ta không thể tính trực tiếp xác suất P(e\v) được, tuy nhiên ta có thể tính xác suất này

một cách gián tiếp qua công thức Bayes như sau:

P(e\v) = P(e)*P(v\e)/P(v) (2.4)

Vì mẫu số không phụ thuộc vào e, nên:

e’ = argmaxe P(v,e) = argmaxe P(e)*P(v\e) (2.5) Trong đó, P(e) là mô hình ngôn ngữ (language model) của ngôn ngữ đích Ở đây, P(e) chính là mô hình N-gram, P(v\e) chính là mô hình dịch (translation model)

và e’ là câu tiếng Anh tốt nhất trương ứng với câu tiếng Việt v Các tính cách tham

số P(e), P(v\e) và e’ được mô tả chi tiết trong công trình [8]

Cách tiếp cận SMT này không đỏi hỏi sự phân tích sâu về ngôn ngữ, chúng hoàn toàn tự động thực hiện các quá trình phân tích, chuyển đổi, tạo câu bằng cách dựa trên kết quả thống kê được từ kho ngữ liệu song ngữ huấn luyện Chính vì vậy,

có khi hệ cho ra kết quả không đoán trước được Với sự phát triển về phần cứng (bộ nhớ và tốc độ tính toán) cũng như phần mềm hiện nay, cùng với những giải thuật tìm kiếm/ sắp xếp/ thay thế mới, đã cho phép cách dịch này ngày càng hiệu quả Ngoài ra, do tính vận động, biến đổi của ngôn ngữ, nên các từ vựng, văn phạm của ngôn ngữ sẽ biến đổi theo Chính vì vậy mà cách tiếp cận này có lợi thế hơn so với các cách tiếp cận mà phải dựa vào từ vựng hay luật ngôn ngữ cố định

Tóm lại: cách tiếp cận dựa trên thống kê là một bước đột phá về phương pháp luận trong dịch máy, nhưng kết quả thực tế hiện nay của hệ này còn thấp Vì vậy, người ta đang nghiên cứu cải tiến nó bằng cách đưa thêm tri thức ngôn ngữ Ngoài ra, các kết quả trung gian của dịch máy thống kê là các bảng thống kê khổng

lồ, nên các nhà ngôn ngữ học khó theo dõi, giải thích hay can thiệp được

Trang 29

2.2.3 Dịch máy dựa trên cơ sở tri thức (KBMT: Knowlegde-Based MT)

Lập luận chính của việc dịch dựa trên cơ sở tri thức (KBMT) là: “muốn dịch được thì trước hết phải hiểu được” Mà muốn hiểu được thì máy phải được trang bị tri thức ngôn ngữ và tri thức về thế giới thực y như con người Với cách tiếp cận này [20], trước nhất người ta phải xậy dựng một hệ cơ sở tri thức khổng lồ bào trùm mọi tri thức về thế giới thực ở mọi lĩnh vực Mà điều này thì không khả thi, nên người ta chỉ giới hạn trong một lĩnh vực hẹp nào đó và mô hình tri thức của lĩnh vực này bằng cách xây dựng các lớp ngữ nghĩa (semantic class) và các thực thể (instance) để biểu diễn tất cả các khái niệm (concept) trong miền lĩnh vực đó Mỗi khài niệm bao gồm:

• Tên khái niệm (concept name/head)

• Các khe (slot): các vai ngữ nghĩa (semantic role) được phép

• Bộ lọc (filter): những lớp khài niệm được phép mà các vai trò có thể chứa chúng khử nhập nhằng bởi các bộ lọc hạn chế lại các vai mà thỏa ngữ nghĩa hợp lý

Cơ chế nhận biết tri thức có thể là tự động hay bán tự động

Theo cách tiếp cận này, chúng ta phải xậy dựng một hệ thống phân loại bản thể học (ontology) để phân loại tri thức, xậy dựng một cơ chế suy diễn tự động (inference engine) và biểu diễn liên ngôn ngữ Tuy nhiên, việc xậy dựng một hệ thống phân loại tri thức hoàn chỉnh là điều khó có thể thực hiện được

Ví dụ: “toy-gun” (súng đồ chơi) thì xếp vào nhóm “đồ chơi” (toy) hay “vũ khí” (weapon)? Về mức độ chi tiết của các lớp cũng là 1 vấn đề nan giải, vì có những khái niệm mà sự khác nhau rất tinh tế (về văn hóa ngôn ngữ, về mặt xã hội học của ngôn ngữ, về tâm lý học ngôn ngữ, …) đến nỗi khó mà chia chi tiết thỏa đáng được Ví dụ: “miss” và “remember”; “nhìn” và “thấy”; “gạo” và “cơm” …

Trang 30

2.2.4 Dịch máy dựa trên ví dụ (EBMT: Example-Based MT)

Với sự phát triển của công nghệ máy tính với bộ lưu trữ được gia tăng về dung lượng và tốc độ truy xuất, đã khiến cho các nhà ngôn ngữ học máy tính nghĩ đến hệ dịch bằng cách dựa trên các ví dụ có sẵn trong một kho ngữ liệu song ngữ khổng lồ Theo cách tiếp cận này [11], khi hệ nhận được một câu tiếng Anh nào đó,

hệ sẽ so khớp với các mẫu (pattern) trong kho ngữ liệu song ngữ để xác định mẫu nào gần đúng nhất và xuất ra thành phần dịch tương ứng của mẫu đó Về nguyên tắc, thì chúng ta không thể lưu trữ tất cả các câu của ngôn ngữ tự nhiên mà chúng ta

có thể gặp Chính vì vậy, việc “so khớp” mẫu ở đây không phải là so khớp từng chữ một mà là so khớp các cấu trúc khung, các mẫu câu văn bản, … Ví dụ: ask SBD to

do STH à Yêu cầu AI làm CÁI GÌ

Cách tiếp cận EBMT rất đơn giản, không cần đòi hỏi về sự phân tích ngôn ngữ học, về cú pháp, ngữ nghĩa Chính vì vậy, hệ dịch kiểu này phụ thuộc rất nhiều vào ngữ liệu huấn luyện của nó Ngoài ra, chi phí “tìm kiếm” của hệ sẽ rất lớn một khi kho ngữ liệu đã lớn lên Nó gần như kiểu dịch trực tiếp bằng cách thay thế kiểu 1-1 mà không cần hiểu biết gì về ngôn ngữ

2.2.5 Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based MT)

Ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu” có vẻ không rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay dựa trên ví ụ nói trên đều dựa trên ngữ liệu Nhưng điểm đặc biệt của cách tiếp cận này là dựa trên cơ sở ngôn ngữ học và công nghệ máy học để các quy luật của ngôn ngữ từ ngữ liệu Nó học dựa trên cấu trúc của ngôn ngữ chứ không phải trên bề mặt của ngôn ngữ như trong SMT

Để thực hiện được điều này, máy cần có ngữ liệu rất lơn (corpus), dạng đơn ngữ (monolingual) hay song ngữ (bilingual) và máy sẽ khai thác trên các kho ngữ liệu này

Đặc điểm của cạch tiếp cận này là khả năng tự rút ra các qui luật của ngôn ngữ Nó có những ưu điểm của cách tiếp cận dựa trên luật (vì cuối cùng nó cũng

Trang 31

dựa trên luật được rút ra) nhưng khắc phục được khuyết điểm của việc xây dựng luật thủ công bởi các chuyên gia Các luật được rút ra lại được thử nghiệm tại chỗ

để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện), chính

vì vậy, các luật rút ra được đảm bảo là chính xác, bao quát, không mâu thuẫn, không thừa

Để thấy được sự khác biệt giữa cách tiếp cận CBMT và SMT, chúng ta thử xét ví dụ sau [10]: trong một hệ thống nhận dạng tiếng nói, nếu hệ nhận được câu:

“The singer sang a lot of a??as” và hệ muốn xác định “a??as” là “areas” (khu vực) hay “arias” (dân ca) Nếu chúng ta dùng các mô hình ngôn ngữ theo kiểu thống kê một vị trí (uni-gram), hai vị trí (bi-gram), 3-gram (tri-gram), … và huấn luyện trên các văn bản thông thường thì chắc chắn hệ sẽ chọn từ “areas”, còn nếu cũng dùng

mô hình thống kê nói trên, nhưng nếu hệ được huấn luyện trên các văn bản về âm nhạc, thì nó sẽ chọn từ “arias” Trong trường hợp này, muốn hệ thống xác định được mối quan hệ giữa động từ “sang” (ca) với đối từ “a??as” thì ta phải sử dụng đến mô hình 5-gram Mà trong mô hình n-gram, với số n càng lớn thì chi phí tính toán và ngữ liệu cần thiết sẽ tăng lên gấp bội

Tuy nhiên, để khử được nhập nhằng 2 từ “areas” và “arias” nói trên, với hệ dùng luật, khi xét quan hệ ngữ nhĩa giữa động từ “sang” với đối từ “a??as”, hệ chắc chắn sẽ chọn từ “arias” Có nghĩa là nếu dùng đến thông tin về cấu trúc câu, chúng

ta sẽ giải quyết rất nhanh trường hợp nhập nhằng trên Nhưng làm thế nào để tìm ra được các qui luật ngôn ngữ trên? Câu trả lời là: “dùng CBMT để học các qui luật đó

từ ngữ liệu thực tế”

2.2.6 Các cách tiếp cận lai (hybrid MTs)

Ở các phần trên, chúng ra đã giới thiệu các cách tiếp cận chính đã được dùng trong xử lý ngôn ngữ nói chung và dịch máy nói riêng Tuy nhiện, thực tế đã chứng minh rằng ít có hệ dịch nào thành công mà chỉ dùng một cách tiếp cận duy nhất Mà hầu hết các hệ thực tế hiện nay thường là sự kết hợp, lai tạo giữa các cách tiếp cận khác nhau nói trên Kiểu tiếp cận lai như thế nhằm khai thác thế mạnh của mỗi cách

Trang 32

tiếp cận thành phần để gia tăng sức mạnh xử lý Các kiểu tiếp cận lai nói trên ngày càng xuất hiện nhiều trong các hệ dịch máy, như:

• Cách tiếp cận CBSO (Corpus-Based Statistics-Orinted) của hệ dịch máy Anh-Hoa ArchTran [21] và sự kết hợp giữa cách tiếp cận dựa trên luật (RBMT) và cách tiếp cận dựa trên thống kê (SMT)

• Dự án dịch máy PANGLOSS [18] của ISI/USC, Mỹ đã kết hợp cách tiếp cận dựa trên cơ sở tri thức (KBMT) và cách tiếp cận dựa trên thống kê (SMT)

• Một hệ dịch ở Trung Quốc [12] đã sử dụng cách tiếp cận vừa dựa trên luật

cố định (RBMT), vừa dựa trên ngữ liệu (CBMT) và vừa dựa trên thống kê (SMT)

Gần đây, các nhà nghiên cứu dịch máy của Nhật đã khai thác nhiều theo cách tiếp cận lai này bằng cách: vừa sử dụng CBMT vừa kết hợp với SMT và trong đó họ

sử dụng thêm nhiều heuristics khác nhau để giải quyết từng trường hợp khác nhau [23] Chẳng hạn, để phân tích cú pháp, họ còn dựa trên các mẫu câu (sentence patterns), các khung luật (rule templates); để khử nhập nhằng ngữ nghĩa, họ dùng song ngữ để rút ra các từ, cụm từ, ngữ tương ứng giữa 2 ngôn ngữ (Anh-Nhật) Cách tiếp cận lai như thế này về mặt lý thuyết thì không vững chắc, nhưng về mặt thực tế lại khả quan, nhất là trong các hệ dịch thương mại

2.3 Nhận xét các chiến lược và các cách tiếp cận

2.3.1 Nhận xét về các chiến lược

2.3.1.1 Chiến lược dịch trực tiếp

Chiến lược này đơn giản và trong giới hạn nào đó thì nó tỏ ra hiệu quả Đã

có nhiều hệ dịch trên thế giới đã chọn chiến lược này làm nền tảng và bổ sung thêm một số cải tiến khác trong việc dịch các ngôn ngữ cùng loại hình Tuy nhiên, chúng

ta không thế áp dụng chiến lược này để dịch 2 ngôn ngữ khác nhau về loại hình như tiếng Anh và tiếng Việt

Trang 33

2.3.1.2 Chiến lược dịch kiểu chuyển đổi cú pháp

Chiến lược này chỉ xác định được ý nghĩa ngữ pháp, về mối liên hệ giữa các đơn vị trong câu, nhưng chưa giải quyết được các trường hợp nhập nhằng về ý nghĩa từ vựng mà có cùng ý nghĩa ngữ pháp Hầu hết các hệ dịch thương mại hiện nay trên thế giới cũng như các hệ dịch ở Việt Nam đều sử dụng chiến lược này Tóm lại: dịch theo kiểu chuyển đổi cú pháp như thế này là cần nhưng chưa đủ Khi

áp dụng chiến lược này vào thực tế, ta phải kết hợp với bộ phận phân giải ngữ nghĩa với độ sâu phân tích phù hợp

2.3.1.3 Chiến lược dịch kiểu liên ngôn ngữ

Chiến lược này là rất khó (do phải xây dựng ngôn ngữ trung gian) và có nhiều chỗ phân tích quá sâu không cần thiết và không phải lúc nào cũng phân tích được Chính vì vậy, mà đến nay trên thế giới cũng chưa có hệ thống dịch thành công nào mà dựa trên hoàn toàn vào chiến lược này cả

2.3.1.4 Chiến lược dịch kiểu chuyển đổi cú pháp kết hợp với phân giải ngữ nghĩa nông

Chiến lược này là một giải pháp dung hòa giữa chuyển đổi cú pháp và liên ngông ngữ Bước chuyển đổi cú pháp để xác định mối liên hệ giữa các thành phần trong câu (ý nghĩa ngữ pháp), còn bước phân giải ngữ nghĩa nông nhằm xác định ngữ nghĩa (ý nghĩa từ vựng) ở mức cần thiết để khử nhập nhằng khi cần (khi mức

độ cú pháp không giải quyết được) Việc xác định khi nào cần khử nhập nhằng khi nào không thì tùy vào trường hợp cụ thể cho từng cặp ngôn ngữ cụ thể, vì vậy cách dịch này thích hợp cho các hệ dịch song ngữ Thật vậy, không phải lúc nào các nhập nhằng cấu trúc cú pháp đều cần phải giải quyết vì trong thực tế còn có rất nhiều sự nhập nhằng này vẫn còn và vẫn chấp nhận được vì những sự nhập nhằng này hoàn toàn không ảnh hưởng gì đến chất lượng dịch do việc hiểu (khử nhập nhằng) tùy

vào người đọc Ví dụ: xét “The man saw the monkey witch a telescope” thì giới ngữ

“witch a telescope” có thể bổ nghĩa cho “monkey” hoặc cho “man” Để giải quyết nhập nhằng này ta phải xét đến ngữ nghĩa của saw, man, monkey, telescope, … hay

Định dạng
Số trang	67
Dung lượng	806,69 KB