1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ

230 440 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dịch Tự Động Anh - Việt Dựa Trên Việc Học Luật Chuyển Đổi Từ Ngữ Liệu Song Ngữ
Trường học University of Foreign Languages
Chuyên ngành Translation Studies
Thể loại Luận văn
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 230
Dung lượng 5,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn tiến sĩ: Dịch tự động Anh - Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ

Trang 1

TỪ NGỮ LIỆU SONG NGỮ

CHUYEN NGANH: DAM BẢO TOÁN HỌC CHO MÁY TÍNH

VÀ HỆ THỐNG TÍNH TOÁN

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

1 GS.TSKH HOANG VAN KIEM

2 GS.TS EDUARD HOVY

THU VIEN TRUNG TAM DHQG-HCM

Trang 2

Lời cam đoan

Tôi xin cam đoan luận án này là công trình

nghiên cứu khoa học của tôi, Các kết quả của luận

án là trung thực và chưa từng được ai khác công bố

trong bất kỳ công trình nào khác

Trang 3

Lời cảm tạ

Lời đầu tiên, tôi xin chân thành cảm on Thay

hướng dẫn: Giáo sư Tiến sỹ Khoa học Hoàng Văn Kiếm, người đã trực tiếp hướng dẫn và luôn động viên tôi trong quá trình thực biện luận ấn nầy Tôi cũng xin cấm ơn Giáo sử Tiến sỹ Eduard Hovy,

người đã cung cấp cho tôi những tài liệu cần thiết,

và có những lời khuyên bổ ích cho tôi về hướng

phát triển đề tài

Tôi cũng không thể không nhắc đến các Thầy —

Cô trong Khoa Công nghệ Thông tin, Khoa Ngữ văn và các bạn đồng nghiệp, những người đã đóng

góp những ý kiến quý báu cho bản luận án này, Luận án này không thể hoàn thành nếu không

có sự hỗ trợ từ các thành viên trong nhóm nghiên

cứu VCL chúng tôi

“Cuối cùng, tôi cũng xin cắm ơn tất cả các bạn

sinh viên đã giúp đỡ tôi trong việc thu thập và xử

lý ngữ liệu song ngữ cho luận án này

TP HCM, ngày 2§ thẳng 5 năm 2003

Người thực hiện

Dinh Dién

Trang 4

LỜI NÓI ĐẦU

Trước sự bùng nổ thông tin như hiện này, nhù cầu dịch thuật

nhanh tài liệu Khoa học - Công nghệ ngày càng lớn Chính vì vậy, bài

toán địch tự động ngôn ngữ tự nhiên càng có ý nghĩa thiết thực hơn

“Tuy nhiên, đây là bài toán vô cũng khó do tỉnh nhập nhằng vốn có cúa

ngôn ngữ tự nhiên,

Để giải quyết sự nhập nhằng gứa ngôn ngữ tự nhiên, người ta

thường tự nghĩ ra và đưa vào máy các luật phân tích suy diễn để

chuyển ngữ Việc xây dựng những luậi như thể đòi hỏi thời gián và | công sức rất lớn mà lại không bao quất mội trường hợp và chí thích hợp

cho hé dịch quy mô nhỏ

Trong luận án này, chúng tôi đưa ra một mô hình dịch raới mã theo đó các luật thay vi được xây dựng bằng ray, chúng xế được rút rủ

một cách tự đông thông qua việc học từ ngữ liệu song ngữ Nội đụng luận ấn này gồm các phần chính sau:

1, Giới thiệu: mục đích, phạm ví, phương pháp nghiên cứu

2 Tống quan: điểm qua các chiến lược và cách tiếp cận dịch máy,

3 Mô hình dich BTL (Bitext Transfer Learning): co sd ly thuyết, cơ sở

1ý luận, giải thuật học,

4 Các bài toán cần giải quyết: liên kết từ, gán nhãn, chuyển đổi

5, Cài đặt thực nghiệm hệ địch EVT (English Vietnamese Translatot)

6 Kết quả - Đánh giá - Hạn chế ~ Hướng phát triển ¬ Kết luận

Phần phụ lục Tài liệu Tham khảo

Trang 5

MỤC LỤC trang

CHƯƠNG I: GIỚI THIỆU ii I

11 LY DO CHON DE TAL wcccscssscssssessssssstnssnsesnnseeanesunenanen 1

12 MỤC ĐÍCH NGHIÊN CỨU coi 3

13 ĐỐI TƯỢNG NGHIÊN CỨU re 3

1.4 PHAM VINGHIEN CÚU cua

L5 Ý NGHĨA KHOA HỌC VÀ THỰC TIẾN CỦA ĐỂ TÀI 5

CHUONG 2: TỔNG QUẦN cá 2222 22eecrrreeeee 7 2.1 CÁC CHIẾN LƯỢC DỊCH CƠ BẢN uc eeieesvee 7 22 CÁC CÁCH TIẾP CẬN CỦA DỊCH MÁY HIỆN NAY 14

2,3 CÁC HỆ DỊCH CÓ LIÊN QUAN

24 NHẬN XÉT CÁC CHIẾN LƯỢC VÀ CÁC CÁCH TIẾP CẬN 25 CHƯƠNG3: MÔ HÌNH DỊCH BTL co Sicc~.c.c.erc 3U 3.1 GIỚI THIỆU VỀ MÔ HÌNH DỊCH BTL, 30

3.2 CƠ SỞ LÝ LUẬN CỦA MÔ HÌNH DỊCH BTL 34

3.3 +GIẢI THUẬT HỌC TBL ộnnnnieieiieierrrrree 42 3.4 SO SÁNH MÔ HÌNH DỊCH BTL VỚI CÁC MÔ HÌNH KHAC 64 CHƯƠNG 4: CÁC BÀI TOÁN CÂN GIẢI QUYẾT .c 67 4.1 BÀI TOÁN GÁN NHÃN HÌNH THÁI TRONG BTL 67

4.2 BÀI TOÁN GẦN NHÃN NGỮ PHÁP TRONG BTL 87

43 BÀI TOÁN GẦN NHÃN NGỮ NGHĨA TRONG BTL 102

44 BÀI TOÁN CHUYỂN ĐỔI CÂY CÚ PHÁP TRONG BTL 125

45 BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG HỆ DỊCH EVT 138 CHUONG 5S: CÀI ĐẶT THỰC NGHIÊM - KẾT QUÁ L1

31 SƠ ĐỒ KHỐI HỆ DỊCH EVT sseceeerrere ĐEE

Trang 6

5.2 HỆ TỪ ĐIỂN TRONG EVT neo 143

5.3 KHO NGỮ LIỆU SONG NGỮ ANH-VIỆT EVC 147

7⁄2 CAC DONG GOP ovecesessesessscsecesssssnseeesseecesrineecseeessnstaseen 163

7.3 HAN CHẾ VÀ HƯỚNG PHÁT TRIỂN sec 164

Pek LOUK ET ccc ces sseeesesessssssnsstnunnassunnnnnnnnnensnsnvsnsanssesets 165

CAC CONG TRINH DA CONG BO

TAI LIEU THAM KHAO oeeccccccccssssssrercacnscsscesscecscesocessnscstieisesecsaceeneneanset 168

PHỤ LỤC 220 222222221222 2c 12121102 18+

8.1 HỆ THỐNG NHÂN NGỮ NGHĨA LLOCE 22:2 184

8.2 HỆ THỐNG NHÂN NGỮ NGHĨA LDOCE 19L 8.3 HỆ CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG WORDNET 193 8.4 HỆ THỐNG NHÃN NGỮ NGHĨA CORELEX 207

8.5 HỆ THỐNG NHÃN NGỮ PHÁP 21Õ

8.6 NGỮ LIỆU HUẤN LUYỆN CHUAN SUSANNE 214

8.7 CÁC CÂU DỊCH THỬ NGHIỆM CỦA EVT 215

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

(được dùng thường xuyên trong luận ấn)

Số | Viết tắt Điễn giải tiếng Anh Điễn giải tiếng Việt

jt | BTL Bitext Transfer Learning Học Chuyển đổi từ Song

2, |EGỚT English Grammar Tagger Bộ Gần nhấn ngữ pháp

tiếng Anh

3 |EVC English Vietnamese Corpus Ngữ liệu Anh — Việt

4 | EVD English Vietnamese Dictionary Từ điển Anh - Việt

15 |EVT English Vietnamese Translator | Chương trình Dịch Anh —

Việt

6, |FTBL | Fast TBL TBL Nhanh

7 .KETBL | K-Best Fast TBL FTBL, K-kết quả tốt nhất

8 | MT Machine Translation Dich May

9 | TBL Transformation-Based Learning | Học Dựa trên sự Cải biến

Trang 8

CHƯƠNG 1: GIỚI THIỆU

Qua tên gọi của để tài là “Dịch tự động Anh ~ Việt dựa trên việc học luật

chuyển đổi từ ngữ liệu song ngữ”, chúng tôi sẽ lần lượt giải thích lý do chọn để

tài, mục đích nghiên cứu, đối lượng nghiên cứu, phạm vi nghiên cứu, ý nghĩa

khoa học và ý nghĩa thực tiễn của để tài này Nhưng trước hết, chúng tôi xin giải

thích sơ lược các thuật ngữ trong tên gọi của để tài: thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh “corpus”, có nghĩa là “kho đữ liệu, kho sưu tập tài liệu.,„” (theo Từ điển Anh-Việt, ĐH Ngoại ngữ, NXB GD-2000 trang 368)

Còn ngữ liệu "song ngữ” (dịch từ ti€ng Anh Ja: bilingual corpus hay parailel text hay bitext) la ngữ liệu tổn tại dưới hai ngôn ngữ và chúng là bản dịch của nhau,

Li LY DO CHONDE TAI

Chúng tôi chọn dé tai “dich ne déng Anh-Viér ” vi nhitng ly do sau:

1 Trong bối cảnh toần cầu hoá và bùng nổ thông tỉn như hiện nay, như cầu nấm bắt nhanh các trí thức về khoa học - công nghệ của nước ngoài mà

chủ yếu được viết bằng tiếng Anh ngày cằng lớn (hơn §0% [106]) Việc

dịch thủ công bằng người đòi hỏi thời gian và công sức rất lớn, đặc biệt là

những trị thức chuyên ngành đòi hỏi người địch phải có chuyên môn trong

lĩnh vực mà mình đang dịch Chính vì vậy, nhu cầu tự động hoá công tác

địch thuật Anh-Việt ngày trở nên thiết thực

2 Tuy hiện nay, chất lượng dịch của máy không thể bằng người được, nhưng

dịch máy có một số ưu điểm như: máy tính có thể dịch nhanh gấp hàng

tim lấn con người, dịch không biết mệt mổi, bản dịch không bị phụ thuộc vào quan điểm của người dịch Môi trường của văn ban dich trong địch máy

Trang 9

Bs

là văn bản điện tử, vì vậy ta không phải mất thời gian in ban g6c ra/gd bản

dịch vào; có thể dịch các tài liệu mật mà không sợ bị rồ rÌ thông tin

3 Trong lĩnh vực Khoa học-Kỹ thuật (KHKT), tiếng Anh hiện nay được xem

là thứ tiếng quốc tế (nhất là trong thời đại Ïaternet ngày nay) ~ thứ tiếng

phổ biến nhất, được nghiên cứu kỹ lưỡng và đã được hình thức hoá đây di

nhất Chính vì vậy mà tuyệt đại đa số các công trình nghiên cứu về dịch

máy đều xuất phất từ tiếng Anh: lấy tiếng Anh lâm gốc và nghiên cứu

chuyển ngữ với thứ tiếng của nước mình (như: Anh-Nga, Ảnh - Pháp, Anh-

Nhat, Anh-Hoa ) với việc nghiên cứu địch xuôi trước rỗi dịch ngược sau

Trên tỉnh thần đó, cbúng tôi đã chọn tiếng Anh là ngôn ngữ nguồn (source

language) để nghiên cứu chuyển ngữ tự động sang ngén agit dich (target

language) là tiếng Việt Với cách chọn như vậy, chúng tôi sẽ kế thừa được

rất nhiều từ các mô hình và ngữ liệu liên quan đến việc phân tích tiếng Anh

(hình thải, ngữ pháp, ngữ nghĩa) và chúng tôi chỉ tập trung vào phần

chuyển đổi sang tiếng Việt mà thôi

Chúng tôi chọn cách tiếp cận “dịch tự động Anh-Việt dựa trên việc bọc luật

#

chuyển đổi từ ngữ liệu song ngữ” vì những lý do sau:

4, Việc thiết kế bộ luật chuyển đổi cho các hệ địch máy là một công việc vô

cũng tốn kém, mất thời gian và công sức của các chuyên gia mà vẫn không

giải quyết được hết các trường hợp trong thực tế dịch Vì vậy, chúng tôi muốn chọn để tải dịch theo hướng tiếp cận mới đó là xây đựng bộ luật

chuyển đổi một cách tự động bằng công nghệ máy hoc (machine learning)

Việc học từ ngữ liệu tuy không mới, nhưng quan trọng là học từ ngữ liệu

đạng nào, học cái gì và học như thế nào là điểu chúng tôi muốn đưa ra

trong luận án này: chúng tôi học từ ngữ liệu song ngữ (chứ không phải đơn

ngữ); học luật chuyển đổi (chứ không phải học các con số thống kê);

Trang 10

12 MỤC ĐÍCH NGHIÊN CỨU

Mục đích của để tài là nghiên cứu xây dựng một mô hình dịch tự động Anh-

Việt niới eó những đặc điểm sau:

1 Dựa trên cơ sở lý thuyết của ngôn ngữ học so sánh Anh-Việt

2 Dựa trên việc học từ ngữ liệu song ngữ Anh-Việt đã gán nhãn ngồn ngữ

3 Dựa trên các kết quả phân tích tiếng Anh có sẵn

4 Cho phép tự sửa sai nhờ cơ chế hồi tiếp kết quá địch

5 Tạo ra sản phẩm phụ là kho ngữ liệu song ngữ Anh-Việt có gần nhãn,

1.3 ĐỐI TƯỢNG NGHIÊN CỨU

Để đạt được mục đích nói trên, chúng tôi cần nghiên cứu các vấn để sau:

1 Các kết quả phân tích tự động về mặt ngôn ngữ của tiếng Anh

2 Các kết quả nghiên cứu so sánh đối chiếu giữa tiếng Anh và tiếng Việt ở

các cấp độ trên các bình điện để từ đó xây đựng nên mồ hình học các luật

chuyển đổi tự động từ tiếng Anh sang tiếng Việt

3 Các bài toán có liên quan đến việc địch tự động từ Anh sang Việt đựa

trên luật chuyển đổi được rút ra từ ngữ liệu song ngữ Anh-Việt

1.4 PHAM VI NGHIÊN CỨU

Việc dịch tự động từ một ngôn ngữ nguồn sang ngôn ngữ đích bao gồm

hàng chục công đoạn và liên quan đến nhiều khía cạnh, lĩnh vực, Mỗi công đoạn

lại được thực hiên bổi hàng trăm công trình nghiên cứu khác nhau với rất nhiều

cách tiếp cận khác nhau, MỖI công tình thường được thực hiện bởi một nhóm các nhà nghiên cứu trong nhiều năm Vì vậy, trong khuôn khổ của một luận án

tiến sĩ, chúng tôi giới hạn chỉ aghiéa cúu xây dụng mô lình tổng thể cho hệ dịch Anh-Việt và giải quyết một số bài toán liên quan đến tiếng Việt trong md hinh dé.

Trang 11

Trong số hàng chục công đoạn của địch máy, thì các công đoạn liên quan đến phân tích ngôn ngữ nguồn (ở đây là tiếng Anh) chiếm tỉ lệ khá lớn Chúng

bao gồm: tiền xử lý, phân tích hình thái, từ pháp, cú pháp, ngữ nghĩa, Tất cả

các công đoạn phân tích tiếng Anh này đã được nghiên cứu vỗ cùng tỉ mỉ (so với

tất cả các ngôn ngữ khác) bởi hàng chục ngàn nhà khoa học (về ngôn ngữ, tin

học, ngôn ngữ học ~ ứnh toán ) trên khấp thế giới (chủ yếu là Mỹ) từ hơn 50 năm qua, Hầu hết các công trình phân tích tiếng Anh đều đã được công bố và

thậm chí công khai luôn cả mã nguồn (source) và những dữ liệu cần thiết (trên Internet cho mục đích nghiên cứu Vì vậy, đối với phần phân tích tiế

g Anh,

tuy chúng tôi có giải quyết một số vấn để (đã có công bố qua một số bài báo), nhưng không đặt thành bài toán ở đây, mà chúng tôi chủ yếu kế thừa các mô hình, các kết quả tốt nhất từ nước ngoài mà chúng tôi có được (tỉnh đến 20011

Cụ thể luận án được giới hạn trong phạm vị nghiên cứu sau:

{ Nghiên cứu xây dựng mô hình gắn nhãn ngôn ngữ (hình thái, ngữ pháp,

ngữ nghĩa cho tiếng Anh và tiếng Việu tự động cho các đơn vị ngôn ngữ trong kho ngữ liệu song ngữ Anh-Việt điện tử (kho ngữ liệu này đã được xây dựng sẵn bởi một công trình khác bên ngành ngôn ngữ học so sánh)

2 Nghiên cứu xây dựng mộ hình học để rút ra các quí luật chuyển đổi một

cách tự động từ kho ngữ liệu song ngữ Anh-Việt đã được gán nhãn nói trên

3 Nghiên cứu cài đặt thực nghiệm hệ dịch tự động từ Anh sang Việt dựa

trên các qui luật chuyển đổi được rút ra nói trên

4 Cuối cùng, chúng tôi giới hạn chỉ xứ lý ngữ liệu soag ngữ hay dịch các van ban tiếng Anh thông thường, các tài liệu khoa học/kỹ thuật chuyên ngành tin họe/điện tử vì mức độ nhập nhằng của những tài liệu này thấp, nên máy tính có khả năng giái quyết được Đây cũng là xu hướng chung cho các

hệ dịch máy trên thế giới hiện nay.

Trang 12

1.5 YNGHIA KHOA HOC VA THUC TIEN CUA DE TAL

151 Ý NGHĨA KHOA HỌC

Để tài này đưa ra một mô hình dịch mới cho việc dịch tự động nói chung và

việc dịch Ảnh - Việt nói riêng, Đây là một mô hình mới vì nó có những điểm

mới sau (so với các mô hình tương tự);

1 Dựa trên cơ sở lý thuyết của ngôn ngữ học so sánh Anh-Viét: khác với các

mô hình dịch khác chủ yếu đựa trên cơ sỡ lý thuyết xác suất thống kê

2 Đựa trên việc học để rút ra bộ luật chuyển đổi ngôn ngữ tường mình, gần gũi với các nhà ngôn ngữ học: chứ không phái là một bảng khổng lỗ các con số thống kê/xác suất khó nấm bát bởi người,

3 Dựa trên việc học từ ngữ liệu song agử Anh-Việt đã gán nhần ngôn ngữ ; đây

là phương pháp học giám sát, khác với các mô hình dịch khác chủ yếu dựa trên việc học không giám sắt,

4, Kế thừa các kết quả phân tích tiếng Anh có sẵn: cho phép xử lý tiếp trên đầu

ra của những bộ phân tích tiếng Anh của thế giới, không phải xử lý từ đầu

như các mô hình khác

5 Cho phép tự sửa sai nhờ cơ chế hỗi tiếp kết quả dịch: kết quả địch của mấy

sau khi được hiệu chỉnh bởi người (post-edit), được đưa ngược vào kho ngữ

liệu huấn luyện để tái huấn luyện cho máy biết tránh các lỗi sai mắc phải

6 Tạo ra sản phẩm phụ là kho ngữ liệu song ngữ Anh-Việt đã được gán nhãn ngôn ngữ nhằm phục vụ cho: ngành ngôn ngữ học so sánh, xử lý tiếng Việt tự

động, giảng dạy tiếng Anh/tiếng Việt

7 Theo quan điểm thực tế: "mục tiêu chính là địch chứ không phải là hiểu: chỉ

cần hiểu ở mức độ vừa đủ để khử nhập nhằng khi cần thiết”.

Trang 13

6

152 — Ý NGHĨA THỰC TIỀN

Đề tài này có ý nghĩa thực tiễn rất lớn: nó sẽ tự động hoá công tác dich

thuật các tài liệu KHKT, góp phần tiếp thu nhanh các thông tin, trị thức về khoa

học và công nghệ trên thế giới một cách nhanh chóng Cy thể là ta có thể dùng

chương trình dịch này để:

1 Dịch các tài liện KHKT (trước mắt là các tài liệu hướng dẫn sử dụng máy tính, các giáo trình tin học nhập môn, ) réi hiệu chỉnh lại bởi người Kết quả dịch đã được hiệu chỉnh này sẽ được đưa ngược vào kho ngữ liệu song ngữ

Anh-Việt để tái huấn luyện hệ nhằm rút ra bộ luật chuyển đổi ngày cằng

chính xác hơn và chất lượng dịch ngày càng được cải thiện Hiện tại ở Hồng- Kông đã có dịch vụ dich thuê Anb-Hoa chuyên địch các tài liệu hướng đẫn sử

dụng của hãng [BM và Microsoft bằng máy rồi hiệu chỉnh bởi người

tà Giúp người Việt yếu tiếng Anh có thế truy cập và ủm kiếm thông tn trên

Internet qua các trang Web bằng tiếng Anh (hiện chiếm đa sổ) Hiện nay trên

Internet đã có một số trang Web chứa các bộ địch các thứ tiếng thông dụng

(Anh, Pháp, Nga, Nhật, Ý, „) để giúp cho người ở các nước đó có thể đọc

trang Web bằng thứ tiếng của nước họ

3, Giúp các khách du lịch nước ngoài tới Việt Nam trao đổi bằng những câu đàm thoại thông thường Hiện nay trên thị trường các nước (Nhật, Châu Âu)

đã xuất hiện các hệ dịch thương rại chạy trên máy cẩm tay (pocket PC) đành cho khách du lịch Nó cũng giúp việc dịch các tài liệu mật mà không sợ

bị rồ rÍ thông tín như khi dịch bởi người,

4 Giúp việc dịch thô tài liệu bằng tiếng Anh cho những người làm công tác

phân loại hay kiểm soát tài liệu tiếng Anh có thể nấm bắt nhanh một cách sơ

lược nột dung các tài liệu đó,

Trang 14

CHƯƠNG 2: TỔNG QUAN

Lịch sử dịch máy (MT: Machine Translation) đã trải qua hơn 50 năm với

nhiều bước thăng trầm: đi từ những buổi đầu đấy háo hức, hy vọng; đến những

lúc thất vọng, chùn bước; rổi lại phục hổi vã phát triển như hiện nay [133]

Trong quá trình đó, đã xuất hiện nhiều chiến lược (stratesy) và các cách tiếp cân

dịch khác nhau: từ thô sơ đến phức tạp, và mỗi chiến lược hay mỗi cách tiếp cận

đó đều có những ưu - khuyết điểm riêng của chúng

Trong chương này, trước hết chúng tôi sẽ điểm qua các chiến lược dịch cơ

bản và những cách tiếp cận chính trong dịch máy, các thành cồng và hạn chế

của các chiến lược hay các cách tiếp cận nói trên Chúng tôi cũng sẽ để cập đến

một số hệ dịch có liên quan đến luận án của chúng tôi và phương pháp dịch được

sử dụng trong các hệ đó

2.1 CÁC CHIẾN LƯỢC DỊCH CƠ BẢN

Nếu xét theo cách thức chuyển ngữ khi dịch một ngôn ngữ nguồn sang

>

một ngôn ngữ đích, người ta thường chia thành 2 dang chính sau: dạng chuyển ngữ trực tiếp (direcQ và dạng chuyển ngữ gián tiếp (indirecD Trong dạng gián tiếp, thì tuỷ theo mức độ và môi trường trung gian, người ta chia thành 2 dang

nhỏ sau: gián tiếp qua cấu trúc cú pháp câu (syntax-based) hay gián tIếp qua ngồn ngữ trung gian (interlingua-based) Ởiữa 2 dạng nhỏ nói trên, cũng còn tổn

tại một dạng nhỏ thứ 3 với mức độ gián tiếp ở giữa 2 mức độ trên, đó là: gián

tiếp qua cấu trúc cú pháp câu và phần giải ngữ nghĩa nông (shallow-semaatic

analysis) Tóm lại, ta có thể phân các chiến lược dịch trong dịch máy thành 4 dang như sau (theo {87}, tr, 69-80);

Trang 15

24.1 DICH TRUC TIEP (Direct MT):

Theo chiến lược này, hệ sẽ dich bằng cách thay thế một cách đơn giản và

máy móc những từ / ngữ trong ngôn ngữ nguồn (Source Language) bằng những

từ / ngữ trong ngôn ngữ đích (Target Language) Đặc điểm của chiến lược dịch

này là đơn giản, nhanh (thời gian tỉ lệ với độ dài câu : Ó(n)), không cần phân

tích cú pháp sầu, thích hợp cho những văn bản địch có khối lượng tử vựng nhỏ và

số dạng câu giới hạn Hoạt động tương đối tốt khi dịch giữa các ngôn ngữ cùng

loại hình, có sự tương ứng l-! về từ vựng, ngữ pháp, nhưng chúng gặp phải

khó khăn khi dịch cặp ngôn ngữ khác nhau về loại hình, như : tiếng Anh (loại

hình biến cách) và tiếng Việt (loại hình đơn lập) chẳng hạn Mô hình dịch của chiến lược này như Hình 2.1 dưới:

Câu ngôn ngữ nguồn|

24.2 ĐỊCH CHUYỂN ĐỔI CÚ PHÁP (Syntactic-transfer MT)

Theo chiến lược này, hệ thống sẽ dịch bằng cách phân tích (hình thái và cú pháp) câu của ngôn ngữ nguồn và sau đó áp dụng những luật ngôn ngữ và từ

vựng (gọi là những qui luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ nguồn sang ngôn ngữ đích.

Trang 16

9

Câu ngôn ngữ nguồn

cấu trúc cầu đích

Cầu ngôn ngữ đích

Hình 2.2: Mô hình dịch kiểu chuyển đổi cú pháp

Để nhận biết cấu trúc của câu nhập vào, những hệ thống chuyển đổi dùng

những phần mềm gọi là những bộ phản tích cú pháp (parser) Bộ phân tích cú

pháp sẽ sử dụng một giải thuật để phân tích dựa trên một bộ văn phạm ngôn ngữ nào đó hoặc thống kê từ ngữ liệu (đã gán nhãn ngữ pháp) Có rất nhiều giải

thuật phân tích và trong đó giải thuật Earley (100] và giải thuật Tomtta [141] là

hiệu quả và phổ biến hơn cả Tương tự, cũng có rất nhiều văn phạm để phân

tích, như: TỔI100], LG{132], TAG{92], HSPG, UG, DCG, LFG, nhưng hầu hết

đều đưa đến kết quả cây phân tích cú pháp giống như nhau

Sau khí tạo ra cây cú pháp, hệ thống đùng những qui luật chuyển đổi để

chuyển sang cây cú pháp của ngôn ngữ đích (xét đến sự thay đối vị trí của từ

trong ngôn ngữ đích) và nó tạo ra kết xuất như trong Hình 2.3 Ví dụ: trong tiếng

Việt thì tính từ đứng sau danh từ mà nó bổ nghĩa, cồn tiếng Anh thì ngược lại

Với cách dịch này, chúng ta không thể giải quyết các trường hợp nhập nhằng

ngữ nghĩa của những từ có cùng cấu trúc nhưng khác nghĩa nhau Ví đụ; ta không xác định được nghĩa của từ “bank” trong câu “Í enter the bank" là “ngân hang” hay "bờ sông”, "dãy ”,

Trang 17

N b NR

Hinh 2.3: Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích

21.3 DỊCH QUA NGÔN NGỮ TRUNG GIAN (Interlingual MT)

“Theo chiến lược này, hệ sẽ địch qua một ngôn ngữ trung gian gọi là liên

ngôn ngữ (ìnterlingua) như Hình 2.4 dưới đây:

Câu ngôn ngữ nguần |

Trang 18

Một liên ngôn ngữ lý tưởng phải là một sự biểu diễn độc lập với mọi ngôn ngữ tự nhiên và biểu diễn được mọi sự khác biệt về ý nghĩa đến mức tỉnh tế nhất của mọi ngôn ngữ có trong hệ dịch đó Ví dụ: tiếng Việt (hay các tiếng vùng

Đông Nam Á) thì phân biệt các từ: lúa, thóc, gạo, cơm, còn tiếng Anh, Pháp thi không Tương tự, tiếng Anh thì phân biệt các từ: rermember, miss, còn tiếng Việt

thì chỉ dùng từ nhớ Hay chỉ lên quan đến việc hành động/rạng thái sử dụng

trang phục, thì cũng đã có nhiều sự khác biệt tỉnh tế, như: tiếng Việt phâu biệt

các từ: máng, mặc, đội, đeo, diếng Anh chỉ phần biệt pưt on Và veär, còn tiếng

Nhật thì phần biệt tới 8 trường hợp khác nhau (cho từng loại: nón, áo, bao tay,

thất lưng, kính, ) Chính vì vậy, việc xây dựng một hệ liên ngôn ngữ đú mạnh

để biểu diễn tất cả các thông tin của mọi ngôn ngữ có thể cố, cùng với bộ phân giải và bộ tạo sinh thích hợp là một việc vô cùng phức tạp và đến nay vẫn chưa

hoàn thiện được

Ngoài ra, hệ dịch liên ngôn ngữ còn bị phê phán là đòi bồi sự phân giải chỉ

tiết nhiều hơa mức cần thiết cho bất kỹ cặp ngôn ngữ nào Ví dụ: Xét câu

“Washington announced that Bill Clinton will visit Vietnam in November” chẳng hạn, thì hệ dịch liên ngôn ngữ sẽ phâo giải chỉ tiết rằng "Washington” là nghĩa hoán dụ (metonymy) để chỉ “một phát ngôn viên cho chính phủ Mỹ” Nhưng tại sao ta lại phải mất thời giờ để phân giải chỉ tiết như vậy, vì “Washington” rong

mọi thứ tiếng khác (tiếng Việt, Pháp, Đức, Nga ) đều được đũng và hiểu đứng

như vậy

Một ưu điểm chính của hệ liên ngôn ngữ sơ với các hệ địch chuyến đổi là

số lượng những bộ dịch được đũng bởi hệ địch liên ngôn ngữ Nếu ta gọi N là số lượng ngôn ngữ tham gia trong hệ dịch, thì với hệ dịch liên ngôn ngữ, ta chỉ cần 3“N bộ dịch; ít hơa so với N*(N-U) bộ dịch của hệ dịch chuyển đổi (theo (84],

trang 175),

Trang 19

2.14 DỊCH CHUYỂN ĐỔI CÚ PHÁP + PHÂN GIẢI NGỮ NGHĨA

Đây là chiến lược mang tính dung hoà giữa mức độ phân tích cú pháp

(syntactic parser) và mức độ phân giải ngữ nghĩa (semantic analyzer) Vì nếu chỉ đừng ở mức độ phân tích cú pháp, thì hệ sẽ không giải quyết được những trường hợp nhập nhằng ngữ nghĩa mà có cùng cấu trúc cú pháp Còn nếu câu nào hệ

cũng phân giải agữ nghĩa chỉ tiết như trong cách tiếp cận liên ngôn ngữ thì rất

khó thực hiện và không phải lúc nào cũng cần thiết Vì vậy, giải pháp dịch dung

hoà và tối wu là hệ sẽ chủ yếu dựa vào việc phân tích cú pháp, và hệ chỉ phân giải ngữ nghĩa ở mức cần thiết để cần khử nhập nhằng ngữ nghĩa khi cần mà

Ngôn ngữ nguồn Ngôn ngỡ đích

Hình 2.5: Các chiến lược địch trong địch máy

“Trong Hình 2.1 có vẽ hình tam giác (hình tháp nầy do nhóm GETA dua ca lần đầu tiên vào năm 1968) cho ra thấy: cạnh lên bên trái để chỉ mức độ phân

tích câu ngun, cạnh xuống bên phải cho thấy mức độ tổng hợp câu đích Càng phân tích sầu (càng khó) thì phần chuyển đổi (cạnh ngang) càng ngắn lại, nghĩa

là công việc chuyển đổi càng ít hơn, đồng thời côag việc tổng hợp câu đích cũng nhiều hơn.

Trang 20

13

Mức độ chuyển

Mức độ phân tích

Mức độ tổng hợp

>

Ngôn ngữ nguồn Ngôn ngữ đích

Hình 2.6: Mức độ phân tích, chuyển đổi và tổng hợp trong các chiến lược dịch

Ngoài ra, theo Hình 2.6, nếu ta đi từ cạnh lên bên trái (ngôn ngữ nguồn) sang cạnh xuống bên bên phải (ngôn ngữ đích) theo đường ngang (thé hiện công việc chuyển đổi, thì mức độ phân tích ngôn ngữ nguồn cũng như mức độ tổn, da

hợp ngôn ngữ đích sẽ là như nhau Nhưng nếu ta chuyển đổi theo đường xiên về bên đưới, thì tuy công việc chuyển đổi sẽ dai hon, nhưng việc tổng hợp câu đích

lại ngắn hơn Tương tự cho trường hợp ngược lại (nghiêng lên trên), thì công việc

phân tích sẽ “ngắn hơa, nhưng việc chuyển đổi và tạo câu ngôn ngữ đích sẽ dài

hơn

Theo sự phân tích trong Hình 2.5, thì người ta đã đồng nhất liên ngôn ngữ

với ngữ nghĩa của cầu, nhưng theo Kevia Kaiaht [98] (trang 2) thì không nên

đồng nhất như vậy, vì liên ngôn ngữ thì phải độc lập với ngôn ngữ nguén/dich,

nhưng có những câu mà ngữ nghĩa trong câu nguồn và ngữ nghĩa trong câu đích

của nó tuy khác nhau, nhưng lại có cùng một biểu điển trong liên ngôn ngữ.

Trang 21

2.2 CÁC CÁCH TIẾP CÂN CỦA DỊCH MÁY HIỆN NAY

2.2.1 DỊCH MÁY DỰA TRÊN LUẬT (RBMT: Rule-Based MT)

Đây là cách tiếp cận truyền thống xuất phát từ cách làm của các hệ luật

dẫn trong hệ chuyên gia trong lĩnh vực trí tuệ nhân tạo (AI: Artifñcial

Intelligence) Trong các hệ xử lý ngôn ngữ tự nhiên thì các luật dẫn này thường

được xây dựng bằng tay bởi các chuyên gia ngôn ngữ,

Ví dụ: để phân tích cú pháp, người ta đã xây dựng các luật văn phạm như :

®© NP > Noun / Det Noun / Det Adj Noun

© VP—>Vi/VINP

°

Đối với khối chuyển đổi cú pháp, người ta cũng dùng các luật chuyển đổi

cố định, chẳng hạn đối với dịch Anh-+Việt: một rong những luật đó là:

“Nếu câu nguồn được phân tích là WP —> Ðet Ađj Noun thì câu đích sẽ được

chuyén thinh NP + Det Noun Adj”

Đối với khối xử lý ngữ nghĩa, người ta cũng dùng các luật tự nghĩa ra, như:

“nếu động từ = ăn > chủ từ = động vật & đối từ = đồ ăn được”

Tương tự cho tất cả các công việc khác của hệ dịch, đều dựa vào các luật

đo chính con người nghĩ ra và đưa vào máy

Việc xây dựng một hệ các luật như thế đồi hỏi công sức rất lớn và nhiều

khi lại không bao quát hết mọi trường hợp Tuy nhiên, trong một miễn giới hạn

(domain}, thì phương pháp này tổ ra biệu quả và chúng ta hoần toàn làm chủ được kết quả dịch (nghĩa là tất cả những câu mà thoả các luật đã được xây dựng

thì sẽ được phân tích và dịch rốt).

Trang 22

Edited by Foxit PDF Editor

Copyright (c) by Foxit Software Company, 2004 - 2007

; 3For Evaluation Only

,

Để bao quát hết các hiện tượng ngôn ngữ, người ta nghĩ rằng cứ việc thêm

nhiều luật vào, nhưng (theo [40], tr 286) "”, ấu có thêm 1.000 hay cả 10.000 luật

thì vẫn không bao quát hết được ” mà trái lại càng khiến cho hé sinh ra cang

nhiều cây cú pháp ứng với một câu aqguốn nhập vào Kết quả là hệ thống không

biết chọn cầy cú pháp nào là đúng Ngoài ra, một khi số luật tăng lên sẽ khiến

cho chính người thiết kế luật khó kiểm soát được tính hợp lý của tất cả các luật

mà mình đã tạo ra và chắc chắn sẽ có những luật thừa, những luật mâu thuẫn

nhau

Tbật vậy, để phân tích cú pháp, giả sử ta có bộ văn phạm CFG={N,š,P,Sj

với các thành phần sau:

+ N: các ký hiệu không kết thúc (non-terminal) gầm : S (Sentence ; câu ), NP

(Noun Phrase : ngữ danh từ ), VP (Verb Phrase : ngữ động từ ), PP

(Preposition Pharse : ngữ giới từ }

« Ÿ; các ký hiệu mục kết thúc (terminal category) gồm :

pro (dai ti) = Íi, you, he, we, }

noun (gdanh wr) = (man, car, boy, boys, girl, chicken, chair, house, }

det (dink iO = { a, the )

verb (động từ) = {sil, sat, eat, borrow, help, .}

prep (gidi t®) = (on, in, to, from, }

« P: cdc ludt vin pham coa như Sau :

S ~> NP YP;

NF -> det noun; NP —> det noun PP

VP —» verb; VP — verb NP

PP -> prep NP;

Trang 23

16

Với bộ luật sinh trên, thì đối với câu nhập vào 1A “I see the man in the car”,

sẽ phân tích được thành cây cú pháp như Hình 2.7 với giới ngữ “in the car” bổ

nghĩa cho danh từ “man” (có nghĩa là “người đàn ông đó ở trong xe hơi”) va day

là cây cú pháp đúng

_ a

“ Pro verb 4 —

aN

Hình 2.7: Kết quả phân tích cú pháp cu “I see the man in the car”

Nhưng, nếu †a câu nhập “Í saw the man in a day”, thì bộ phân tích cú phấp này

sẽ phân tích y như cây trên, có aghia là giới ngữ “in a đạy” thay vì bổ nghĩa cho động từ "saw” thì nó lại bổ nghĩa cho danh từ “man” và đây là cây cú pháp sai,

Để sửa lỗi sai này, người ta liễn thêm một luật sinh VP — verb NP PP vào bộ

văn phạm nói trên, và bộ phân tích cá pháp mới này lai sinh ra thém O1 cay ct

pháp như Hình 2,8 đưới (ngoài cây cú pháp giống như Hình 2.7 trên) Kết quả là

hệ địch không biết chọn cây cú pháp nào là đúng, Trong thực tế, với một bộ luật

sinh gồm khoảng 500 luật, thì số cây cú pháp tạo ra cho 01 câu trung bình khoảng 1Ô từ sẽ cổ vài trăm cây.

Trang 24

Để giải quyết vấn để này, người ta đã fm cách chia nhỏ các nhãn kết thúc

thành các nhóm tiểu loại chỉ tiết hon (categorical terminals) ma trong đó có bao

hàm cả ngữ nghĩa Điều này hiển nhiên làm tăng số Iật lên gấp bội, và tuy nó

có thể khở nhập nhằng được những trường hợp ta chủ định, những lại phát sinh

thêm nhiều hiệu ứng phụ khác ngoài ý muốn,

Tóm lại: với cách tiếp cận RBMT, chúng ta có thể xây dựng được một hệ

thống ban đầu một cách đễ dàng, nhưng càng về sau, khi qui mô tăng lên thì

chúng trở nên khó kiểm soát, thậm chí chúng eó thể bị tự sụp đổ dưới chính sức

nặng của chúng (theo [I14]) Cách này có we điểm là dựa trên lý thuyết ngôn

ngữ học, vì vậy nó giải quyết được hầu hết các hiện tượng cốt lõi của ngôn ngữ

(sore phenomena), nhưng chúng lại không giải quyết được các biện tượng phụ

(những tường hợp ngoại lệ mà không tuân theo luật chính, được gọi là marginaf phenomena)

Trang 25

222 DỊCH MÁY DỰA TRÊN THONG KE (SMT: Statistical-based MT)

Thay vì xây dựng các từ điển, các qui luật dịch bằng tay nhữ trong các hệ

địch RBMT, hệ dịch nây sẽ dựa trên thống kê để xây dựng các từ điển và các

qui luật dịch đó một cách tự động Để thực hiện được điều này, máy cần có tập

ngữ liệu song ngữ tất lớn, Máy tính sẽ thống kê và rút ra xác suất dịch tương ứng

về từ / ngữ hay cấu trúc giữa bai ngôn ngữ; xác suất chuyển dịch vị trí giữa hai ngôn ngữ và xác suất xuất hiện của từ/ngữ đó trong một ngữ cảnh nhất định nào

đó [97]

Chẳng hạn trong bệ địch Việt >Ánh(19J, ta gợi câu ngôn ngữ nguấn là y (Vietnamese), câu ngôn ngữ đích là e (English), cặp (v,e) là cặp câu được dịch bởi nhau Bài toán của hệ dịch này chính là: ứng với một câu w được cho bất kỳ,

ta đi tìm câu e hợp lý nhất (là câu được dịch gần đúng nhất của v sang tiếng Anh) Nghĩa là ta tìm xác suất P(+,#) cực đại (xác suất xuất hiện đồng thời 2 câu

v và e) VÌ v và e phụ thuộc lần nhau, nên theo lý thuyết xác suất có điều kiện

này một cách gián tiếp qua công thức Bayves ahư sau:

Pieh) = P(ø)*P(leVP(v) 44

Trang 26

Vì mẫn số không phụ thuộc vào ©, nên :

ê= arg max P{zly)= arg max P(@}*P(|e) (2.5)

Trong 46, P(e) [4 m6 hinh ngsn agit (language model) cia ngén ngif dich

6 đây, P(z) chính là mô hình N-gram, P(vle) chinh 1A m6 hinh dich (translation

model) va é 13 cau tiéng Anh tot nhất tương ứng với câu tiếng Việt v, Các tính cach tham s6 P(e), P(vie) va ê được mô rả chỉ tiết trong công trình [19]

Cách tiếp cân SAMTT này không đòi hỏi sự phân tích sâu về ngôn ngữ, chúng hoàn toàn tự động thực hiện các quá trình phân tích, chuyến đổi, tạo câu bằng

cách dựa trên kết quả thống kê được từ kho ngữ liệu song ngữ huấn luyện, Chính

vì vậy, có khi hệ cho ra kết quả không đoán trước được, Với sự phát triển về

phần cứng (bộ nhớ và tốc độ tính toán) cũng như phần mềm như hiện nay, cùng

với những giải thuật tìm kiểm / sắp xếp / thay thế mới, đã cho phép cách dịch

này ngày càng hiệu quả Ngoài ra, do tính vận động, biến đối của ngôn ngữ, nên các từ vựng, văn phạm của ngôn ngữ sẽ biến đối theo Chính vì vậy mà cách tiếp

cận này có lợi thế hơn so với các cách tiếp cận mà phải dựa vào từ vựng hay luật

ngôn ngữ cố định

Tóm lại: cách tiếp cận dựa trên thống kê là một bước đột phá về phương pháp luận trong dịch máy, nhưng kết quả thực tế hiện nay của những hệ này còn thấp (cỡ 40%), Vì vậy, người ta đang nghiên cứu cải tiến nó bằng cách đưa thêm trị thức ngôn ngữ Ngoài ta, các kết quả trung gian của dịch máy thống kê là các

bang thống kê khổng lỗ, nên các nhà ngôn ngữ học khó theo dõi, giải thích hay

can thiệp được,

Trang 27

2.2.3 DICH DUA TREN CO SO TRITHUC (KBMT: Knowledge-Based MT) Lập luận chính của việc dịch dựa trên cơ sở trì thức (KBMT) là: “muốn

địch được thì trước hết phải hiểu được” Mà muốn hiểu được thì máy phải được trang bị trí thức ngôn ngữ và trì thức về thế giới thực y như con người, Với cách tiếp cận này [114], trước nhất người ta phải xây dựng một hệ cơ sở trì thức khổng lỗ bao rùm mọi trị thức về thế giới thực ở mọi lĩnh vực Mà điểu nây thì

không khả thi, nên người ta (chẳng hạn dự án KANT ở CMU) chỉ giới hạn trong một lĩnh vực hẹp nào đó và mô hình hoá trị thức của lĩnh vực này bằng cách xây

dựng các lớp ngữ nghĩa (semantic class) và các thực thể (instance) để biểu diễn

tất cả các khái niệm (concepÐ trong niễn lĩnh vực đó, Mỗi khái niệm bao gồm:

«© Tên khát niệm (concept name/head)

« Các khe (slot): các vai ngữ ñgia (seraantic role) được phép

® Bộ lọc (Bher): những lớp khái niệm được phép mà các vai có thể chứa Chúng khở nhập nhằng bởi các bộ lọc hạn chế lại các vai mà thoả ngữ

nghĩa hợp lý, Cơ chế nhận biết trí thức có thể là nự động hay bán tự động

Theo cách tiếp cận nây, chúng ta phải xây dựng một hệ thống phân loại

bản thể hoe (ontology) để phân loại trì thức, xây dựng một cơ chế suy diễn tự dGng (inference engine) va biểu diễn liền ngôn ngữ, Tuy nhiên, việc xây dựng một hệ thống phân loại trí thức hoàn chỉnh lã điều khó có thể thực hiện được

Vi du:"toy-gun” (súng đỗ chơi thì xếp nó vào nhóm “dé choi" (toy) hay

“vii khi? (weapon) ? Về mức độ chỉ tiết của các lớp cũng là một vấn để nan giải,

vì có những khái niệm mã sự khác nhau rất tỉnh tế (về văn hoá ngôn ngữ, về mặt

xã hội học của ngôn ngữ, về tâm lý học ngôn ngữ, .) đến nỗi khó mà chía chi

„8 ẨN tiết thoả đáng được Vị dụ: “míss" và "remember”; “nhìn” và “thấy : “gạo” và

“cơm”

Trang 28

21

3.2.4 DỊCH MÁY DỰA TRÊN VÍ DỤ (EBMT: Example-based MT)

Với sự phát triển của công nghệ máy tính với bộ lưu trữ được gia tăng về đung lượng và tốc độ truy xuất, đã khiến cho các nhà ngôn ngữ học máy tính nghĩ đến hệ dịch bằng cách dựa trên các vi dụ có sẵn trong một kho ngữ liệu song ngữ khổng lồ Theo cách tiếp cận này [52], khi hệ nhận được một câu tiếng Anh nào đó, hệ sẽ so khớp với các mẫu (pattem) trong kho ngữ liệu song

ngữ để xác định mẫu não gần đúng nhất và xuất ra thành phần dịch tương ứng

của mẫu đó Về nguyên tắc, thì chúng ta không thể lưu trữ tất cả các câu của

agên ngữ tự nhiên mà chúng ta có thể gặp Chính vì vậy, việc “so khốp” mẫu ở

đây không phải là so khớp từng chữ một mà là so khớp các cẩu trúc khung, các

mẫu câu căn bản, Ví dụ: ask SBD to do STH => Yêu cầu AI làm CÁI GÌ,

Cách tiếp cận EBMT rất đơn giản, không cân đòi hồi về sự phân tích ngôn

ngữ học, về cú pháp, ngữ nghĩa, Chính vì vậy, hệ dịch kiểu này phụ thuộc rất nhiều vào ngữ liệu huấn luyện của nó Ngoài ra, chỉ phí “tìm kiếm” của hệ sẽ rất lớn một khi kho ngữ liệu đã lớn lên Nó gân như kiểu dịch trực tiếp bằng

cách thay thế theo kiểu 1-1 mà không cần hiểu biết gì nhiều về ngôn ngữ

+

2.2.5 DỰA TRÊN NGỮ LIỆU (CBMT: Corpus-Based MT)

ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu" có vẻ

ˆ không được rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay dựa

trên ví du nói trên đều dựa trên ñgữ liệu Nhưng điểm đặc biệt của cách tiếp cận

này là dựa trên cơ sở ngôn ngữ học và đàng công nghệ máy học để các qui luật của ngôn ngữ từ ngữ liệu, Nó học dựa trên cấu trúc của ngôn ngữ chứ không

phải học trên bể mặt của ngôn ngữ như trong SMT

Dé thực hiện được điểu này, máy cần có ngữ liệu rất lớn (corpus), dang dda

ngtf (monolingual) hay song ngit (bilingual) va may sé khai thác trên các kho

Trang 29

ay

ngữ liệu này Đặc điểm của cách tiếp cận này là khả năng tự rút ra cde qui ludt

của ngôn ngữ Nó có những ưu điểm của cách HẾp cận dựa trên luật (vì cuối

cũng nó cũng dựa trên luật được rút ra) nhưng khắc phục được khuyết điểm của

việc xây dựng luật thủ công bởi các chuyên gia Các luật được rút ra lại được thử nghiệm tại chỗ để đánh giá độ chính xác và hiện quả của luật (dựa trên ngữ liệu

huấn luyện), chính vì vậy, các luật rút ra được báo đắm là chính xác, bao quát, không mâu thuần, và không thừa

Để thấy được sự khác biệt giữa cách tiếp cận CBMT và SMT, chúng ta thử

xét ví dụ sau [44]: trong một hệ nhân dạng tiếng nói, sấu hệ nhận được câu:

~The singer sang a lọt of a??as” và hệ muốn xác định *a??*aš” là “arcas” (khu vực) hay “arias” (dân ca) Neu chung ta dùng các mô hình ngôn ngữ theo kiểu thống kê một vị trí (uni-gram), hai vị trí (b(-gram), 3-gram (tri-gram), và huấn

luyện trên các văn bắn thông thường thì chắc chắn hệ sẽ chọn từ “areas”, con

cũng mô hình thống kê nói trên, nhưng nếu hệ được huấn luyện trên các văn

m nhạc, thì nó sẽ chon ti “arias” Trong trường hợp này, muốn hệ

thống xác định được mối quan hệ giữa động từ “sang” (ca) với đối từ “a??as” thì

ta phải sử dụng đến mô hình 5-gram Mà trong mô hình n-gram, với số n càng

lớn thì chí phí tính toán và ngữ liệu cẩn thiết sẽ tăng lên gấp bội

Tuy nhiên, để khử nhập nhằng 2 từ "areas” và “arias” nối trên, với hệ

dùng luật, khi xét quan hệ ngữ nghĩa giữa động từ “sang” với đối từ “a??as"”, hệ

chấc chắn sẽ chọn từ *arias” Có nghĩa là nếu dùng đến thông tin về cấu trúc câu, chúng ta sẽ giải quyết rất nhanh trường hợp nhập nhằng trên Những làm

thế nào để tìm ra được các quí luật ngôn ngữ như trên ? Câu trả lời là: “dùng CBMT để học các qui luật đó từ ngữ liệu thực tế”

Trang 30

226 CÁC CÁCH TIẾP CAN LAI (hybrid MTs)

Ỗ các phân trên, chúng ta đã giới thiệu các cách tiếp cận chính đã được

ding trong xử lý ngôn ngỡ nói chung và dịch máy nói riềng, Tuy nhiên, thực tế

đã chứng minh rằng ít có hệ dịch nào thành công mà chỉ dùng một cách tiếp cận

đuy nhất Mã hầu hết các hệ thực tế biện nay thường lã sự kết hợp, lại tạo giữa các cách tiếp cận khác nhau nói trên, Kiểu tiếp cận lai như thế nhằm khai thác

thế mạnh của mỗi cách tiếp cận thành phần để gia tăng sức mạnh xử lý Các

kiểu tiếp cận lai nói trên ngày càng xuất hiện nhiều trong các hệ dịch máy, như:

e© Cách tiếp cận CBSO (Corpus-Based Statistics-Oriented) của hệ dịch

may Anh-Hoa ArchTran [137] đã kết hợp giữa cách tiếp cận dựa trên

luật (RBMT) và cách tiếp cận dựa trên théng ké (SMT)

« Dự án dịch máy PANGLOSS(99] của [SI/USC, Mỹ đã kết hợp cách tiếp cận dịch dựa cơ sở trí thức (KBMT) và cách tiếp cận dịch dựa trên thống

kẻ (SMT)

® Một hệ dịch ở Trung Quốc [57] đã sử dụng cách tiếp cận vừa dựa trên

luật cố định (RBMT), vừa dựa trên ngữ liệu (CBMT) và vừa dựa trên thống kê (SMT)

Gần đây, các nhà nghiên cứu địch máy của Nhật đã khai thác nhiều theo

cách tiếp cận lai này bằng cách: vừa sứ dụng CBMT vừa kết hợp với SMT và

trong đó họ sử dụng thêm nhiều heuristics khác nhau để giải quyết từng trường

hợp khác nhau [146] Chẳng hạn, để phân tích cú pháp, họ còn dựa trên các mẫu

câu (sentence patterns), các khung luật (cule templates); để khử nhập nhằng ngữ nghĩa, họ đùng song ngữ để rút ra các từ, cụm tit, ngữ tưởng ứng giữa 2 ngôn ngữ

(Anh-Nhập Cách tiếp cận lại như thế này về mặt lý thuyết thì không vững chắc,

nhưng về mặt thực tế lại khả quan, nhất là trong các hệ dịch thương mại

Trang 31

2.3 CAC HE DICH CO LIEN QUAN

+ Tại Việt Nam: cũng đã có các để tài về địch tự động từ Anh sang Việt, như:

Đề tài của Viện Công nghệ vi điện tử và Viện Nghiên cứa công nghệ quốc

gia (EVTRAN) do TS, Lê Khánh Hùng chủ trì Phần mém nãy đã được phát

hành rộng rã¡{[2Š]

Để tài của Khoa Công nghệ Thông tin, ĐH Khoa học tự nhiên TPHCM

chuyên dịch các tài liệu chuyên ngành Tin học Để tài này được thực hiện

đưới sự tài trợ của Thành Đoàn TP HCM trong chương trình Vườn ươm Sáng tạo KHKT trẻ

Khoa Công nghệ Thông tin tường ĐH Bách Khoa TP HCM cũng có để tài

nghiên cứu dịch máy Anh-Việt do PGS Phan Thị Tươi làm chủ trì [37]

Gần đây, đã có một để tải dịch tự động Anh-Việt (EVTS) do nhóm dịch máy

ở Khoa Công Nghệ, ĐH Quốc Gia Hà Nội thực hiện dưới sự tãi ượ kính phí

từ công ty Lạc Việt do PGS Hồ Sẽ Đầm làm chủ mì [3]

+ Trên thế giới (chủ yếu tại Mỹ), cũag có một số tổ chức của Việt kiểu, thực

hiện các để tài dịch máy Anh-Việt, như:

Công ty LOGOS trước đây cũng đã từng thực biện hệ dịch Anh-Việt dưới sự tài trợ của Không lực Hoa Kỳ [85]

Công ty Global Link cũng đã phát hành phần mễm dịch 25 thứ tiếng trong đó

có tiếng Việt

+ Ngoài ra, cũng còn có một số nghiên cứu cá ahân của các người Việt Nam ở

nước ngoài, như: trang web dịch Anh-Việt và Pháp-Việt của TS Đoàn Nguyễn Hải (htp//www.lat,unige.ch/vietnamese), Trang web dịch Anh-Việt của Võ Đại

Hoài Đức.

Trang 32

tạ A

2.4 NHÂN XÉT CÁC CHIẾN LƯỢC VÀ CÁC CÁCH TIẾP CAN

Sau khí xem xét các chiến lược và các cách tiếp cận trong dịch máy nêu trên, chúng tôi có một số nhận xét như sau:

24.1 NHẬN XÉT VỀ CÁC CHIẾN LƯỢC

a Chiến lược dịch trưc tiếp: chiến lược này đơn giản và trong một giới hạn

nào đó thì nó tổ ra hiện quả Đã có nhiều bệ dịch trên thế giới chọn chiến

lược này làm nền tầng và bổ sung thêm một số cải tiến khác trong việc dịch

các ngôn ngữ cùng loại hình Tuy nhiên, chúng ta không thể áp dụng chiến

lược này để dịch hai ngôn ngữ khá nhau về loại hình như tiếng Anh và tiếng Việt ở đây,

b Chiến lược dịch kiểu chuyển đổi cú pháp: chiến lược này chỉ xác định được

ý nghĩa ngữ pháp, về mối liên hệ giữa các đơn vị trong cầu, nhưng chưa giải

quyết được các trường hợp nhập nhằng về ý nghĩa từ vựng mà có cùng ý nghĩa ngữ pháp Hầu hết các hệ dịch thương mại hiện nay trên thế giới cũng

như các hệ dịch ở Việt Nam đều sử dụng chiến lược này Tóm lại: dịch theo

kiểu chuyển đổi cú pháp như thế này là cẩn nhưng chưa đủ Khi áp dụng

chiến lược này vào thực tế, ta phải kết hợp với bộ phận phân giải ngữ nghĩa

với độ sâu phần tích phù hợp

ce Chiến lược dịch kiểu liên ngôn ngữ: là rất khó (do phải xây đựng ngôn ngữ

trung gian) và có nhiều chỗ phân tích quá sâu không cần thiết và không phải

lúc nào cũng phân tích được Chính vì vậy, mà đến nay trên thế giới cũng

chưa có hệ thống dịch thành công nào mà dựa hoàn toàn vào chiến lược nầy

cả, Cuối cũng, phương pháp này không còn ý nghĩa tiết kiệm về mặt giảm số

lượng bộ địch nếu chúng ta áp dụng chiến lược này chỉ để dịch Anh - Việt,

Trang 33

ad

26

Chiến lược địch chuyển đổi củ pháp kết hợp với phân giải ngữ nghĩa nông:

là một giải pháp dung hoà giữa chuyển đổi cú pháp và liên ngôn ngữ, Bước

chuyển đổi cú pháp để xác đình mối liên hệ giữa các thành phần trong câu (ý

nghĩa ngữ pháp), còa bước phân giải ngữ nghĩa nông nhằm xác định ngữ

nghĩa (ý nghĩa từ vựng) ở mức cần thiết để khử nhập nhằng khi cần (khi mức

độ cú pháp không giải quyết được) Việc xác định khi nào cần khử nhập

nhằng khi nào không thì tuỳ vào trường hợp cụ thể cho từng cặp ngôn ngữ cụ thể, vì vậy cách dịch này thích hợp cho các hệ dịch song ngữ, Thật vậy

không phái lúc nào các nhập nhằng cấu trúc cú pháp đều cần phải giái quyết

vì trong thực tế còn có rất nhiều sự nhập nhằng về cấu trúc mà khí chuyển qua ngôn ngữ đích, nhập nhằng này vẫn còn và vẫn chấp nhận được vì những

sự nhập nhằng này hoàn toàn không ảnh hưởng gì đến chất lượng dịch do

việt hiểu (khử nhập nhằng) tuỳ vào người đọc Ví dụ: xét "The man saw the moukey with a telescope” thi gidi agit “with a telescope” có thể bé nghia cho

“monkey” hoặc cho “man”, Để giải quyết nhập nhằng này ta phải xét đến ngữ nghĩa của «aiu, man, monkey, teleseape, hay phải sử dụng đến những heuristcs như : kết hợp phai (right association), nút gấn tối thiểu (minimal aitachment), rất phức tạp và không phải lúc nào cũng cho kết quả mong muốn Tuy nhiên, xét kỹ lại ta thấy tại sao ta phẩi giải quyết nhập nhằng nây

để làm gì, vì khi dịch sang tiếng Việt “Người đần ông nhìn con khỉ với một kính viễn vọng” thì nhập nhằng này sẽ được khử ngay bởi người đọc Với phương chấm là: "không bao giờ làm bơn những cái cần thiết” (theo triết lý

trong dịch máy của Occam), nên chiến lược địch được lai tạo ady tổ ra tu việt hơn cả trong các chiến lược dịch máy cho một cặp ngôn ngữ khác loại hình

Trang 34

242 NHẬN XÉT VỀ CÁC CÁCH TIẾP CẬN

a Tiếp cân dưa trên luật (RBMT): đây là cách tiếp cận kinh điển của hấu hết

các hệ dịch ở Việt Nam hiện nay (như {25},(37],(8) nói riêng và nhiều hệ

dịch trên thể giới trước đây nói chung Tuy nhiên, việc xây đựng các bộ luật

chuyển ngữ là một điều đáng sợ vì nó tốn nhiều công sức của chuyên gia, rưà

lại không bao quát, khó cập nhật, khó quản lý về sau khi qui mô mở rộng

Dù sao, cách tiếp cân này cũng tổ ra hiệu quả khi qui mô hệ dịch nhỗ hay lĩnh vực giới hạn

b Tiếp cân dưa trên thống kế (SMTT); cách tiếp cận này có ý nghĩa vé mat

phương pháp luận (tự động hoá hoàn toàn), có nên tầng toán học (lý thuyết

xác suất thống kê) vững chắc, nhưng hiện chất lượng còn thấp Ngoài ra, ta

không thể theo dõi các kết quả địch trung gian để can thiệp hay giải thích các

kết qué via ad được, Nó lại không sử dụng nhiều các trí thức vỀ ngôn ngữ

c Tiếp cân dưa trên cơ sở trí thức (KBMT): là cách làm nhiều hứa hẹn nhưng

cũng vô cùng khó khăn do có tham vọng hiểu được toàn văn bản Việc hiểu

là vô cùng khó khăn và trong đa số các trường hợp, ta không cẩn hiểu mà

vẫn dịch được Trong trường hợp gặp nhập nhằng, chúng ta chỉ cần hiểu đến

đến một mức độ nào đó để giải quyết nhập nhằng mà thôi, chứ không cần

biểu mọi chỉ tiết hay các trường hợp không nhập nhằng

4d Tiếp cân dưa trên ví dụ (EBMT): đây là cách tiếp cận của một số hệ thống dich dựa trên máy lớn hiện nay (tận dụng khả năng của bộ lưu trữ khống lỗ

và tốc độ tìm kiếm, so sánh cực nhanh) trên thế giới, như hệ của IBM Cách

tiếp cân này đơn giản về mặt mô hình lý thuyết và trong một số trường hợp

(dịch các văn bản gần giống nhau và hay lặp đi lặp lại) thì cách tiếp cận nầy

cho ra kết quả cao bất ngờ

Trang 35

e Tiếp cân dưa trên nsữ liệu (CBMT): đây là cách tiếp cận tiên tiến gần đây,

khi mà kho ngữ liệu đơn ngữ hay da ngữ dạng điện tỬ ngày càng có nhiều Cách tiếp cận này dựa trên công nghệ máy học để rút ra các qui luật ngôn ngữ một cách tự động Ngoài ra, với sự biến đổi của ngôn ngữ hay chuyển

đổi lĩnh vực dịch, thì cách tiếp cận này tổ ra hiệu quả trong việc cập nhật bộ luật của nó

f Cách tiếp cân lại: đây là xu hướng hiện nay, vì mỗi cách tiếp cận đều có

những ưu - khuyết điểm riêng Chính vì vậy, sự lai tạo giữa các cách tiếp cận

sẽ tận dụng được thế mạnh của từng cách tiếp cận, nhằm nâng cao hiệu quả

hệ dịch

24.3 ĐỀ NGHỊ MỘT GIẢI PHÁP TỐI ƯU CHO HỆ DỊCH ANH-VIỆT

Sau khi xem xét, đánh giá ưu khuyết điểm của các chiến lược và các cách

tiếp cận nói trên, và xét đến yêu cầu và mục tiêu của hệ dich Anh-Viét, chúng tôi nhận thấy:

a — Đối tượng dịch máy của chúng tôi (cũng như đa số các hệ dịch trên thế giới

hiện nay? vẫn là các văn bản khoa học - Kỹ thuật, những văn bản không

mang tính hình tượng, nghĩa bóng, nghĩa ẩn du, Chinh vì vậy, ta chủ yếu di

tìm từ /ngữ / cấu trúc tương đương về ý nghĩa ngữ pháp và ý nghĩa từ vựng

trong ngôn ngữ đích để thế vào văn bản nguồn

© Để tìm được đơn vị tương đương về ý nghĩa ngữ pháp, ta nhất thiết phải

phân tích cú pháp văn bản nguồn để hiểu được vị trí và chức năng ngữ

pháp của những đơn vị ngôn ngữ cÂn thay thế đó trong văn bản nguồn

« bé tìm được đơn vị tương đương về ý nghĩa từ vựng, ta phải xét đến ngữ cảnh của câu, phải hiểu được ý nghĩa từ vựng của các từ có liên quan, từ

Trang 36

29

đó mới suy ra được ý nghĩa từ vựng của đơn vị cần thay thế Để có được ý

nghĩa từ vựng, chúng ta phải cần đến bộ phân giải ngữ nghĩa nông

b _ Mục tiêu của chúng tôi là dịch chứ không phải là hiểu (như troag một số

ứng dụng đòi hỏi: như tóm tắt văn bản hay phát hiện thông tin văn bản, ) Vi vậy, ta không cần thiết phải phân giải ngữ nghĩa một cách chỉ tiết như trong

chiến lược liên ngôn ngữ i Ngoài ra, với giới hạn chỉ dịch từ Anh sang Việt,

ông cần đến ưu điểm tiết kiệm bộ luật trong chiến lược liên

a ® 5 = ° & 5 va

ngôn ngữ Cuối cùng, tiếng Anh và tiếng Việt là hai loại hình ngôn ngữ khác

nhan, nên chắc chấn ta không thể sử dụng chiến lược dịch trực tiếp được

c — Với chiến lược chuyển đổi cú pháp và phân giải ngôn ngữ nông, ° húng ta cần lựa chọn cách tiếp cận cho phù hợp ahằm có thể thực hiện được hiệu quả

ý đô của chiến lược đã chọa Vì là chuyển đổi, nên chắc chấn chúng ta cần phải đựa trên các kết quả so sánh về mặt ngôn ngữ học giữa tiếng Anh và

tiếng Việt trên bình điện hình thái, cú pháp và ngữ nghĩa Từ các kết quả so

sánh này, chúng ta mới đưa ra các luật chuyển đổi cho phù hợp Nhưng nếu

so sánh bằng tay, thì chắc chắn không bao giờ chúng ta có đẩy đủ được các

luật chuyển đổi như mong muốn Vì vậy, chúng tôi chọn cách tiếp cận dựa

trên ngữ liệu, nhằm áp dụng công nghệ máy học để tự động rút ra các qui

luật chuyển đổi từ kho ngữ liệu

Tóm lai: chúng tôi chọn giải pháp dịch này còn do chúng tôi vận dụng nguyên lý

tính hệ thống của ngôn ngữ, vì theo quan điểm của E,de.Saussure|[23]: “nghĩa của từ có được do sự quy định bởi các từ khác trong câu thông qua các mối liên hệ” Điều này có nghĩa là ta phải xác định được mối liên hệ trước (phân tích cứ pháp), rồi từ ý nghĩa từ vựng (phân giải qgữ nghĩa nông) của các đơn vị hữu quan đã biết và thông qua các mối liên hệ, ta suy ra (dựa trên máy học từ ngữ

liệu song ngữ) được ý nghĩa từ vựng của đơn vị cần tìm

Trang 37

CHƯƠNG 3: MÔ HINH DICH BTL

Trong chương 2, chúng ta đã xem xét, đánh giá các chiến lược dịch và cách

tiếp cận trong dịch máy và cuối cùng đưa ra giải pháp tối ưu để thực hiện dịch máy Anh-Việt, đồ là: “dịch chuyển đổi cú pháp kết hợp với bộ phân giải ngữ

nghĩa nông trên cơ sở học tự động để rút luật chuyển đổi từ kho ngữ liệu song

ngữ Anh- Việt” Để thực hiện giải pháp địch máy được để nghị nói trên, chúng ta

cẩn phải có một mô hình dich khả thí, có thể thực tế hoá giải pháp nói trên

Trong chường này, chúng tôi sẽ trình bày mô hình dịch dựa trền phương pháp

học chuyển đổi từ kho ngữ liệu song ngữ Anh-Việt đã được liên kết từ và gấn nhãn ngôn ngữ Chúng tôi tạm gọi tấc mô hình này là BTL (Bitext Transfer Learning), Dua wén m6 hinh này, chúng tôi mới cổ thể tiến hành cài đặt chiến

lược địch chuyển đổi cú pháp, bộ phân giải ngữ nghĩa nông, bộ học tự động để

rút luật chuyển đối từ kho ngữ liệu song ngữ Anh-Việt

3.1 GIỚI THIỆU VỀ MÔ HÌNH DỊCH BTL

Dich chuyển đổi cú pháp được đánh giá là chiến lược dịch hiệu quả và khả

thi nhất hiện nay, nó dựa trên cơ sở lý thuyết của ngãnh ngôn ngữ học sơ sánh (comparative linguistics) - một ngành chuyên nghiên cứu các điểm tương đồng

và di biệt giữa hai hay nhiều ngồn ngữ Cơ sẽ khoa bọc của việc nghiên cứu đó

dựa trên tính phổ quất của ngôn asữ (universal) và đặc điểm của loại hình agôn

ngữ (ypology) Việc nghiên cứu so sánh, đối chiếu đố được thực hiện trên ngữ

liệu song ngữ hay da ngữ

Đến nay, các nhà ngôn ngữ học so sảnh Anh-Việt đã tâm ra khá nhiều các

qui luật chuyển đổi chính (core phenomenou) giữa tiếng Anh với tiếng Việt, Tuy

nhiên, còn rất nhiều các quí luật phụ (rarginal pheaomenon) vẫa chưa được

Trang 38

phát biểu một cách tường mình Vì vậy bộ luật chuyển đối cố định mà tá có được

không thể bao quát hết các hiện tượng trong khi chuyển ngữ Anh-Việt Ngoài ra,

có những luật chuyển đổi rất khó hay chưa được hình thức hoá (formalization),

điều này khiến các nha tin học khó cài đặt trong chương trình máy tính đượe

Vĩ vậy, mồ hình BTL của chúng tôi sử dụng giải thuật học đựa :rên luật cải biến nhanh với K kết quả tốt nhất tạm gọi là KETBL(K-best Fast

Transformatioa-Based Learnins) để rút ra các luật chuyển đối nói trên một cách

tự động KETBL là một giải thuật học giám sát (supervised learning) do chúng

tôi cải tiến từ giải thuật TBL gốc của Eric Brill (1995) và Fast-TBL của Radu

Florian (2001) (chí tiết các giải thuật nây sẽ được trình bầy trong phần 3.3), Vì

đây là giải thuật học giám sát, nên nó đồi hỏi phải có ngữ liệu huấn luyện

Chúng tôi đã sử dụng kho ngữ liệu huấn luyện song ngữ Anh-Việt 500.000 câu

có tên EVC (English-Vietnamese Corpus) do chúng tôi kế thừa từ công trình

H31

Mô hình BTL sẽ sử dụng giải thuật học KẾTBL để rút các luật chuyển đổi

một cách tự động từ kho ngữ liệu huấn luyện EVC Các luật chuyển đổi học

được này, sẽ được sử dụng để phân tích, chuyển ngữ câu tiếng Anh sang câu

tiếng Việt,

Do các luật chuyển đổi rút ra ở dạng tường minh, nên chúng ta hoàn toần

có thể theo đối, can thiệp và hiệu chỉnh các luật này khi cần, Ngoài ra, mô hình

BTL còa cho phép chúng ta sửa sai ngay trên kết quả đầu ra của một hệ khác

Vì vậy, trong BTL, chúng tôi đã kế thừa các kết quả phân tích tiếng Anh từ bộ EGT (English-Grammar Tagger) của Mỹ (được công bố là tốt nhất thế giới tính

đến 2001) và chúng tôi chỉ tập trung thực hiện tiếp phần chuyển đổi liên quan đến tiếng Việt.

Trang 39

43

* SƠ LƯỢC HOẠT ĐỘNG CỦA MÔ HÌNH DỊCH BTL:

Gián nhãn

cg s6=EGT

Hình 3.1 Sơ đổ tổng thể mô hình địch BTL

Đầu tiên, ngữ liệu từ kho song ngữ Anh-Việt thô (đã được liên kết cậu), đi

qua bộ liên kết từ (word alisner) nhằm liên kết H tiếng Anh với từ tiếng Việt

tương ứng Ngữ liệu đã được liên kết từ này được chuyển qua bộ gần nhãn ngôn

ngữ (annotator) để gán nhãn về hình thái (tiền xử lý, từ loại,.), cú pháp (phân

tích SVO, bổ nghĩa, „) và ngữ nghĩa Ngữ liệu song ngữ đã được liên kết từ và

gán nhãn ngôn ngữ này chính là dữ liệu huấn luyện (ngữ liệu vàng: golden

corpus) cho giải thuật học KFTBL

Trang 40

Sau quá trình huấn luyện, hệ sẽ rút ra tập các luật chuyển đổi cho các công

việc phân tích hình thái, cú pháp, ngữ nghĩa và quan trọng nhất là khối chuyển

đổi (transfer) của chương trình dịch Anh-Việt Các luật chuyển đổi này tuân

theo các khung luật do chúng ta định sẩn ban đẫu, còn giá trị cụ thể của từng

thành phẩn trong luật sẽ được tự động điển vào sau quá trình huấn luyện và đánh giá Trong giải thuật học KETBL, có công đoạn đẫu tiên là gần nhãn cơ sở

(baseline) hay con goi IA nhdn ban ddu (initial), gan nhdn ngây thơ (naive),

nhằm mục đích rút ngắn thời gian chuyển đổi thành nhãn đúng Nếu kết quả gán

nhãn cơ sở càng chính xác, thì việc chuyển đổi thành nhãn đúng sẽ nhanh hơn và chính xác hơn Chính vì vậy mà trong mô hình địch BTL của chúng tôi, chúng tôi

đã tận dụng đầu ra của những bộ phân tích hình thái, ngữ pháp, ngữ nghĩa được

công bố là mạnh nhất của thế giới (tính đến 2001) làm nhãn cơ sở cho hệ, nhằm

tăng hiệu suất chung cuộc của hệ,

Ngoài ra, cũng như những phương pháp học giám sắt khác, nếu chúng ta có

càng nhiều dữ liệu huấn luyện (ở đây chính là ngữ liệu song ngữ Anh-Việt đã

gán nhãn), thì hệ càng rút ra được nhiều luật chính xác và bao quát hầu hết các hiện tượng trong ngôn ngữ Theo mô hình dịch BTL này, sau quá trình phân tích (đổng nghĩa với việc gấn nhãn ngôn ngữ) hình thái, ngữ pháp, ngữ nghĩa và

chuyển đổi, hệ dịch Anh-Việt cho ra câu tiếng Việt có thể đúng hoặc có thể sai

Nếu sai, câu tiếng Việt này (đã được gán nhãn ngôn ngữ trong quá trình tạo câu)

sẽ được hiệu đính (gost-edi© bởi người và ghép với câu tiếng Anh nguồn của nó

(câu tiếng Anh cũng đã được gán nhãn ngôn ngữ trong quá trình phân tích) để

được đưa ngược vào kho ngữ liệu song ngữ Anh-Việt nhằm cập nhật kho ngữ liệu huấn luyện cho giải thuật KẾTBL Kết quả là kho ngữ liệu song ngữ Anh-

Việt ngày càng lớn và bao quát hơn, và hệ sẽ rút ra được các luật chuyển đổi

mới chính xác hơn

Ngày đăng: 10/04/2013, 14:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w