1. Trang chủ
  2. » Thể loại khác

Xây dựng bộ phân tích cú pháp tiếng Anh trong hệ dịch tự động Anh-Việt

110 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 110
Dung lượng 34,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đặc điểm chính của dịch trực tiếp là phân lích ngôn ngữ nguồn hướng tới sự đặc tả cho một ngôn ngữ đích cụ thể, hệ thống bao gồm bao gồm một từ điển song ngữ lớn, mội số qui tắc từ vựng

Trang 1

ĐẠI MỌC Q U Ố C (ỈIA HÀ NỘI

HÀ N Ộ I - Năm 2001

Trang 2

Mục lục

Chương 1 : Giới thiệu th u n g

1.1 Thế nào là dịch máy, vai trò và vị trí

1.2 Lịch sử cùa tlịch máy

1.3 Các chiến lược dịch máy cơ bản

1.3.1 Dịch trực tiếp

1.3.2 Dịch chuyển đổi

1.3.3 Dịch liên ngữ

1.4 Một số liếp cận mới

1.4.1 Dịch máy dựa trên thông k é

1.4.2 Dịch máy dựa trẽn ví dụ

1.5 Phạm vi nghiên cứu của luận vãn

Chương 2: Phương pháp dịch chuyển dổi

2.1 Sư đổ của hệ dịch chuyển dổ i

2.2 Phân tích hình thái

2.3 Phàn tích cú pháp

2.3.1 Biểu diễn cấu trúc

2.3.2 Thuật toán phân tíc h

2.3.3 Chuyển dổi cấu trúc

2.3.4 Nhập nhằng về cấu trúc

2.4 Phân tích ngữ nghĩa và Sinh câu

2.5 Tổng kết

Clurưng 3: Phán tích cú pháp tiếng Anh trong hệ thông dịch Anh-Việt 3.1 Tống quan v ề hệ thống dịch A nh-Việt

3.2 Kết hựp với tiếp cận iheo mâu dịch

3.3 Lựa chọn thuật toán Earley cho phân lích

3.4 Phân tích thành phần cho câu cổ cấu trúc xấu

3.5 Xử lý nhập nhằng về cấu trúc

3.6 Tổng kết

Chương 4: Phân loại từ vựng và xay tlựng bộ luật ngữ pháp

4.1 Một số dặc diểm trong phán loại Iigữ pháp

4.2 Các lớp ngữ pháp

4.2.1 Động l ừ

4.2.2 Tính lừ

4.2.3 Phó lừ

6

.6 8

10

10 11 13 15 15 17 18 21

21

22 26 27 31 34 36 40 44 46 46 49 51 58 62 67 69 70 72 72 75 77

Trang 3

4.2.4 Đại l ừ 79

4.2.5 Danh từ 81

4.2.6 Các loại khác 82

4.3 Xây dựng.bộ lu ật 82

4.3 i Phân mức luật 83

4.3.2 Qui tắc xa y dựng cụm 83

4.3.3 Bổ sung cấu trúc 85

4.3.4 Một sô' luật cú pháp tiếng Anh 86

4.4 Tổng kết 94

Chương 5: Chương trình và thực nghiệm 96

5.1 Các cấu trúc dữ liệu chính %

5.2 Thực nghiệm 99

5.3 Tổng kết 101

Kếi luận 103

Tài liệu tham khảo 105

Phụ lục 108

Trang 4

GIỚI THIỆU

Dịch máy là một Lĩnh vực dược nghiên cứu và ứng (.lụng Milieu nhất trong các lình vực về xử lý ugỏn ngữ tự nhiên Trên thế giới, dịch máy dã dược nghiên cứu lừ lất lâu và phát triển lớn mạnh lù thập ký 80 Kết quá là rát nhiều hệ thống ihương mại về dịch máy đã có mặt trên thị trường và hổ trợ con người rất nhiều (rong một thế giới với lượng thông tin trao dổi ngày càng lớn, tốc độ càng nhanh với nhiều ngôn ngữ khác nhau Hơn nữa sự phát triển của Internet ngày càng khắng định nhu cầu rất cần Ihiết của các hệ ilịch máy Vì vạy Luận văn dặt vắn dể nghiên cứu về dịch máy, trong dó đi sâu vào nghiên cứu inộl lĩnh vực trong dịch máy liên quan tiến việc phát Iriển niộl hệ thống địch lự động lừ liếng Anh sang tiếng Việt Đây cũng là một hệ thống cần thiêì đầu liên trong các hệ thống dịch máy lừ tiếng nước ngoài sang tiếng Việt (vì sự quan trọng của liếng Anil í rên thế giới)

Trong sự phái triển của dịch máy, tiếp cận dịch trực tiếp dược coi nhu là một dặc mrng cùa các hệ thống thuộc chê hệ iláu tiêu Tiếp theo, các hệ ihôìig dựa Hèn luật bao gồm phương pháp dịch chuyến đổi và liên ngữ thường được xem nlur mang các đặc lính của thê' hệ (lịch máy thứ hai Gần dây lum, các phương pluíp dựa trẽn kho ciữ liệu văn bán (corpus) như dịch máy dựa trên thống kê, (lịch máy dựa trên ví dụ cũng đã tỉui húl (lược rất nhiều sự quan tám và nghiên cứu Tuy nhiên các phương pháp mới này cũng còn nhiéu hạn chế do chỉ áp liụng trong niộl phạm vi nhất định và không thể hiện đưực các qui tắc tổng quái cua ngôn ngữ tụ nhiên, và do đó các hệ thống dịch thương mại hiện nay đa số vàn ilieo liếp cận của phương pháp dịch chuyển dổi Chính vì vậy phương pháp (lịch chuyến đổi là cách tiếp cận ill ích hợp nhất hiện nay trong việc xây dựng mội hệ ihống dịch lự tlộng Anh-Việi

Trong liếp cận dịch chuyển đổi, việc giái quyết các vãn dề liên quan đến bộ phim lích cú pháp của ngôn ngữ nguồn, ở dây là ngôn ngữ liếng Anh, là mội còng việc rấ! quan trọng Luận văn nghiên cứu về các ván (lé liên quan đến xử

lý cú pháp trong i)ệ lhống dịch Anh-Việl hao gổm xây liựng 1)6 lnậl ngữ pháp lieng Anh, cùng VỚI nó là dưa ra nliìíiig 1)0 sung liong pli.in loại ngừ pháp cho

Trang 5

phù hợp với nhu cầu dịch máy Trong phán lích cú pháp cho ngôn ngữ lự nhién thì liai vấn dề rất quan Irọng và hay gặp phái là việc phân tích cáu có Ink xấu

mà bộ luật cú pháp không nhận dược và việc có nhiều cay phau lích đo sự nhập nhằng vé cấu irúc cùa ngôn ngữ iự nhiên Do đó mà bén cạnli việc xây (lựng bộ luậi cú pháp, Luận vãn nghiên cứu và đưa ra các giái pháp cho các ván để về phán tích câu có câu trúc xấu và xử lý nhập nhằng vể cấu núc Sau đó, Luận vãn kết hạp các két quả này để xây đựng hệ thống phán lích cú pháp liếng Anh

mà có thể được sự dụng như một cấu phẩn của một hệ dịch lự động từ tiếng Anh sang liếng Việt Như vậy vấn đề dạt ra trong Luận ván là nghiên cứu, xử

lý các vấn dê liên quan để xây dựng bộ phân lích cú pháp liếng Anil sử dụng trong một hệ ihống dịch tự dộng Anh-Việt

Trang 6

Chương 1: Giới thiệu chung

1.1 T h ế nào là dịch máy, vai trò và vị trí

Trái qua mấy thập kỉ, vấn đề về dịch máy dược râì nhiều nhà khoa học quan lâm, họ dã đưa ra nhiều khái niệm về dịch máy, tuy nhiên ý urởng chính của họ vẫn là như nhau:

Các hệ dịch máy (machine translation system-MT) là các hệ thống sử dụng máy linh đ ể dịch tài liệu từ một thứ tiếng (trong ngôn ngữ lự nhiên) sang một hoặc vài thử tiếng khác.

Ngôn ngữ của văn bản cần dịch được gọi là ngôn ngữ nguồn hay ngổn ngữ vào

Ngôn ngữ văn bản đã dịch ra được gọi là ngôn ngữ đích hay nỵỏn ngữ ra.

Theo thống kê của Liên hợp quốc có gần 10.000 ngôn ngữ trên toàn thế giới Nhờ có những ngôn ngữ khác nhau loài người mới có được nền văn hoá đa dạng, nhưng với lượng ngôn ngữ nhiều như vậy nó sẽ trỏ thành hàng rào ngăn cản sự phái iriển của thương mại và giao lưu thông tin quốc tế Để khắc phục sự cản trở này, ioài người phải dùng một đội ngũ phiên dịch/ biên dịch viên rất lớn

dể dịch các văn bản tài liệu, lời nói lừ tiếng nước này sang liếng nước khác Đó

là công việc Ihủ công, nặng nhọc nhưng năng suất Ihấp, giá ihành cao , trong khi khối văn bản cần dịch lại ngày càng nliiổu

Mặi khác, với sự phát triển cực kì nhanh chóng của Internet dẫn tới nguồn Ihỏng tin được truy cập từ khắp mọi nơi trên thế giới với nhiều ngôn ngữ khác nlnui Diều này càng làm tâng nhu cáu dịch lừ ngôn ngữ này lới ngôn ngữ khác với loe (lộ càng nhanh mà việc dịch ihủ cồng dã không còn (láp ứng dược nữa

Do vậy, dịch máy là một nhu cầu tất yếu Nó sẽ dóng mội vai Irò quan trọng trong dời sống xã hội và có tính kinh tế cao Dịch máy (lược bái đầu Hgiên cứu ngay sail khi xuất hiện chiếc máy tính diện từ dầu liêu Tuy nhiên, ilịch máy không chí là một ứng dụng till học phi số thuần luý mà iió còn cần một liíựng lớn tri líuxc dịch Do đó mà việc giái Cjityéï li iộl đe ngón ngữ lự nhiên là dieu vó cúng khó khăn và vì vậy đến nay vẫn còn rát nhiều vấn dé cán cỉirợc tiếp tục giải

( ị i i y c ì

Trang 7

bán - ► tháo, — ► Dich - - > lliệu ► bán

chính tả

C ơ sứ u i Ihức

H 1.1 Sơ đồ lổng quan một hệ dịch máy

Dầu vào cùa một hệ dịch máy lliỏng thường là một văn bán (texl) viết trong ngôi) ngữ nguồn (ngôn ngữ cần dịch) Văn bản này cổ thể lấy lừ một hệ soạn tháo văn bán, một hệ nhận dạng clnì viết, lời nói v Suu dó vãn bán có the được kiếm lia lại nhờ khối soạn thảo, kiểm lia chính tá, nước khi dưa ra máy dịch.Trong quá trình dịch máy, hệ ihống thường phái sử dụng đến mội lượng lớn trí liurc dịch Trí Ihức dịch bao gồm các loại từ điển hình thái, lừ điển từ vựng, từ điếu luật,

Ở dầu ra là vãn bản bằng ngôn ngữ (lích Với văn hán này la phái hiệu chinh và soạn (háo cho phù hợp với việc sử (lụng

Ngoài các hệ dịch máy tụ dộng, còn có các hộ tlịclì máy trợ giúp - Machine- Aiđcil Translation (MAT) dược chia làm các loại:

a) lliiDtiiti-assislcri machine translation (I lAMT)

Dịch máy với sự irợ giúp của người: máy (lịch là chính, t o i l người giiim sál vá

j ỉi ii | > m á y k l t i 1 ' i i i i t i i i ố l ( c h ọ n i l ú n t * H g h ĩ i t I r o n y l i i r ù i i ị i l u i ị ) l ừ i l i H g l i i i i )

Trang 8

b) Machine- assisted human translation (MAIil )

Người (.lịch với sự trự giúp của máy: Người (lịch là chính, máy giúp tiỡ khi có sự yêu cầu của con người (ira nghía của từ, thành ngữ )

Sau những phác thảo những tính năng cư bán, lịch sử dịch máy đã có sự phát

h iến lừ những người tiên phong và các hệ Ihống ban dầu lừ những nãm của thập

ký 50 và 60 đến sự ảnh hưởng của báo cáo A IJ5AC trong giữa thập kỷ 60, lấy thông till irong những năm 70, sự xuất hiện của các liệ Iliống lịuàn sự và líiưưng mại trong nhữn năm 80, những nghiên cứu trong những năm 80, những phái Iiien mới trong những năm 90, và việc lăng mức ci ộ sử dụng những hệ thống này irong thập ký vừa qua

Giai đoạn tiền máy tinh:

It nlúiì là từ thế ký 17, các nhà nghiên cứu và các nhà triết học dã dể nghị xây dựng một biểu diễn chung cho tất cả các ngôn ngữ đề vượt qua l ào cản về ngôn ngữ Gán đây hơn, một cơ chế dịch thực hiện bằng máy dã dược cấp báng sáng chế cho Pelr Smirnov-Troyaskii người Nga trong năm 1933

( 'ác IIO lực đầu tiên:

Ban dầu người ta dể nghị việc sứ dụng kỹ thuật tinh loán sỏ Irong dịch máy,

VII/I' n à y k é o i lài íl n h ã t ( J en 1 9 4 7 , k h i m à m á y l í n h llùtnli c ó n g I r o n g I ij : à n h m ặ t

Trang 9

nul Irong thế chiến thứ hai Đến khi một để nghị lừ Warren Veave về một kế hoạch dặc biệt sử dụng máy tính để dịch ngôn ngữ tự nhiêu dã làm bắt đầu những nghiên cứu về dịch máy lại Mỹ và cả các nơi khác nén thế giới Bản Irìiih diễn đầu liên là hệ thống dịch Nga-Anh trong năm 1954 Sự kiện này đã link* đẩy nghiên cứu về dịch máy ở Liên Xô(cũ) và nhiều nơi khác trên thế giới.

Hán ihởng báo ALPACị Ỉ9Ố6):

Sự khởi đầu lạc quan trong dịch máy đã kết thúc ở Mỹ khi bán ihông báo của các nhà lài trợ của chính phủ ALPAC cảnh báo lằng dịch máy không đạt đưực hiệu quá như mong muốn Kết quả là tiển tài (rợ từ dịch máy được chia ra cho lĩnh vực Aỉ và CL Mặc dù vậy một số nhóm chính về dịch máy vẫn tiếp tục hoạt dộng bên ngoài nước Mỹ

Thập kí 1970các hoạt động trong dịch máy:

Đầu thập ký 1970 vẫn tiếp tục các nỗ lực trong dịch máy, xây dựng các hệ thống dịch máy Đẩu liẽn là hệ thống dịch Nga-Anh cho không quân Mỹ trong năm 1970, trong khi đó hệ thống Méléo bắt đầu dịch các bản tin thời liết vào năm 1976 Cũng trong năm 1976, cộng dồng Châu Âu đã cài dặt một hệ dịch Anh-Pháp

ì lói sinh trong thập kỷ 1980:

Cuối những năm 1970 và đầu những năm 1980 dịch máy lại được quan tâm lớn

Do ảnh hưởng của những kết quả trong các dự án Grenoble và Saarbruken từ Ihập kỉ 1970 và 1960, dự án Eurolran của cộng đồng Châu Âu đã được bắt đầu

lừ năm 1982, và hướng dịch máy dựa trên tri ihức (Knowledge-Based MT) cũng dược bắt đầu nghiên cứu tại Mỹ từ năm 1983 Thời gian này cũng thấy xuất hiện các hệ ihống dịch thương mại

Cuối thập kỷ ỉ 980 và dầu thập kỉ ỉ 990:

Mội số lượng các công ly, dậc biệt là các công (y điện lử lớn ở Nhật bắt dầu quáng cáo các sản phẩm phần mềm dịch máy cho các máy Irạm Xuất hiện một sô' sán phẩm cho máy tính cá nhân và lất nhiều công cụ trự giúp dịch bắt đầu dưực sứ dụng một cách thông dụng Cũng trong giai đoạn này thấy nổi lên ĩinh

Trang 10

( 'nói thập kí 1990 và cúc hệ trợ ịỊÌÚỊ) dịch máy :

Cuối (hập kỉ 1990, các pliiíu mềm dịch chạy trên l’C và trẽn liilcmct (là khá phổ biến và dưực dùng râì hiệu quả Trong giai doạn này các nhà khoa học quan tâm hơn đến tiếp cận dịch dựa trên ví dụ (example-Based MT)

1.3 Các chiến lược dịch máy cơ bản

Các hệ thống dịch máy thông thường dược phàn loại ihco các chiến lược cơ bản sau đây:

1 3 1 Dịch Inrc tiếp

Các hệ llìống dịch Irục liếp liên quan đến việc dối sánh các mầu xâu một cách rộng rãi với việc sấp xếp lại xâu đích cho tliích họp với ngôn ngữ dích Râì nhiều hệ thống trước dây cũng như một số phàn mềm dịch máy hiện nay cho các máy cá nhân đã dùng chiến lược này Các hệ thống theo tiếp cận này được ihiét kế cho từng cập ngôn ngữ cụ thể, tiến trình dịch ià ưực liếp từ ngôn ngữ nguồn sang ngón ngữ đích Đặc điểm chính của dịch trực tiếp là phân lích ngôn ngữ nguồn hướng tới sự đặc tả cho một ngôn ngữ đích cụ thể, hệ thống bao gồm bao gồm một từ điển song ngữ lớn, mội số qui tắc từ vựng được sử dụng cho phân lích từ điển và các thủ tục xử lý đặc trưng cho việc chuyển đổi giữa hai ugòii ngừ Sau dûy là lổng kết bốn giai doạn thường dược đùng cho các hệ lilting dịch máy trực tiếp:

1 Phân lích hình thái câu nguồn: Công việc của giai đoạn này là phân câu ihànlì các từ vằ phán tích hình thái cho lìhững từ này

2 Chuyển đổi nội dung từ vựng lừ ngôn ngữ nguồn sang ngồn ngữ đích: chọn nội dung dịch tương đương của các từ trong ngôn ngữ đích Công việc này

sử đụng từ diếu song ngữ Mộl số hệ lliống ngoài việc sir dụng lù điển song ngữ nó CÒI1 sử dụng các ihủ tục chọn nghĩa của lừ dựa vào ngữ cảnh lân cận

3 X ử lý dặc trưng: phần v iệc trong g iai đoạn này phụ 1ỈU1ỘC vào sự k h ác nhaugiữa ngôn ngữ đích và ngổn ngữ nguồn mà tlạrc hiện các xử lý liên quan đến các lừ ghép, cụm danh từ, cụm dộng lừ, giới lừ, hay liêii (|ìian đốn vị ni của

s v o (chù từ, động từ, lúc tìr>,_

Trang 11

4 Sinh cáu đích: giai đoạn cuối cùng lluíờng là sinh hình thái cho ngôn ngữ đích, mà thường là liên quan đến dộng lừ (các thì, ngói, số) và danh từ (số nhiéu, số ít).

H 1.2 Hệ thống (.lịch lrực liếp

Ưu điếm của phương pháp dịch Irực liếp việc xử lý ilưn gián, nhưng chính vì vạy drill tiến chất lượng dịch không toi cho các cạp ngôn ngữ không có nhiều sự lương (lồng vể từ vựng cũng như càu núc lìlur Anh-Việt, đặc biệi là trong các cặp ngôn ngữ có nhiều khác nhau như Anh-Nhậi; chúng chí có lác dụng tưưng (loi cho các cặp ngôn ngữ có nhiều sự lương dổng như Anlì-Pháp Tuy nhiên phương pháp này lì dược dùng độc lập mà ilurờng dược dùng két hợp với các hệ Ihốiig dịch dựa trên luật dế xứ lý những cáu không nhận được bởi bộ phân tích.1.3.2 Dịch chuyến đổi

Các hệ thống dịch chuyến đổi liên quan đến việc phân lích dầu vào (hành cấu IMÍC chuyển đổi, nó trừu Uíựng hoá lừ 1 al nhiều chi tièì ngữ pháp của ngôn ngữ nguồn Ý tướng ở dây là làm <iễ dàng việc dịch bàng sự khái quát hoá liên các

sự xây dựng khác nhau Sau khi phán lích, cấu trúc ngôn ngữ nguồn được

Trang 12

(iưưc dùng dê sinh ra câu lại ngôn ngữ đích Rrít nhiêu kiêu khác nhau cùa các

hệ lliỏng chuyển liối liưực định nghĩa, phụ thuộc vào mức lie) dược chuyến dối Nhìn chung nếu mức (iộ irừu tượng càng cao thì càng (lẻ (làng cho việc xây dựng các mô lùiih chuyến đổi lương ứng, tuy nhiên độ nhập nhàng VI vậy cũng

sẽ láng lên theo

Như vậy mội hệ Ihống dịch chuyển dổi dược ihiél kế để dịch cho một cập ngôn ngữ nhái tiịnh, các hoạt động chính tủa hệ Ihống bao gồm: phím tích, chuyển dổi và sinh càu Thông ilurờng quá trìiih dịch sẽ xiíy ra Iilur S i i n : càu vào sẽ ilượi phân tích hình thái, sau đó sẽ được nhận dạng bởi bộ phân lích cú pháp mà kếi quá llnrờng dược biểu diễn dưới dạng cày cú pháp; cây cú pháp này sẽ đưưc

c huyến dối sang dạng tương đương ờ ngôn ngữ đích và lừ dó sẽ sinh càu thuộc ngôn ngữ đích

Trang 13

! 3.3 Dịch liên ngữ

Trong hệ thong liên ngữ, câu Irong ngôn ngữ nguồn (lược phán tích vào một biểu điển chung Từ biểu diễn này sinh ra ngôi) ngữ (lích Dịc li liên ngữ do dó bao gồm liai giai đoạn: từ ngôn ngữ nguồn lới ngôn ngữ chung, và lừ ngôn ngừ chung lới ngôn ngừ đích Như vậy các hệ thống dịch liên ngữ dùng một bộ kí hiệu dữ liệu mô lả hạt nhân gọi là một liên ngữ Liên ngữ được định nghĩa như mội lập các khái niệm và các quan hệ giữa các khái niệm Lien ngữ biểu thị ý nghĩa của câu dưới dạng mạng ngữ nghĩa, trong dó mồi núi biểu diễn một khái niệm và mỗi cung biểu thị một quan hệ Vì thế, nổ có thể được xem là đặc tả về cấu trúc khái niệm

Trang 14

Các hệ thống dịch liên ngữ dược thiết kế theo các bước của hệ ihống chuyển dổi, nhưng trước khi chuyển sang việc lạo cấu trúc ngữ pháp cho ngôn ngữ đích thì cấu (rức ngữ pháp của ngôn ngữ nguồn được phân lích vào Irong cấu Irúc ngữ nghĩa của một hệ cư sớ tri ihức còn gọi là liên ngữ

Tiếp theo hệ thống sử dụng tri ihức từ liên ngữ dể phân tích ngữ nghĩa và tạo cấu trúc ngữ pháp cho ngôn ngũ díclì và sau dó bộ sinh cáu Irẽn cấu II úc này sẽ được hoạt động

ỈN.4 Lược đồ quan hệ giữa mỏ hình chuyển đổi và liên ngữ

Dịch liên ngữ có ưu điểm Irong trường hợp xây dựng mô hình da ngữ, nếu một

hệ thống dịch n ngôn ngữ thì chúng la chí cần n quá trình chuyển dổi sang liên ngữ và từ liên ngữ sang ngôn ngữ đích, liong khi với hệ (hối)g chuyển dổi ihì thúng ta cẩn n(n-l) quá trình như Ilié cho từng cậ|) ngốn ngữ Tuy nhiên xây dựng dược tuộl liên ngữ dủ mạnh dể có iliế 1110 lá các lliỏiig liu tiu) cùng lúc

Trang 15

nhiều ngôn ngữ, cùng với các luật sinh cho lừng ngôn ngữ là mộl cõng việc rát pliưt lạp, và đến bây giờ cũng chưa có [lệ ihống dịch nào tlìành công với cách liòp cận này.

1.4 Một sô tiếp cận mới

Trong ihập kỷ 90 và đế» hiện nay có lất nliiểu nghiên cứu tìm hiếu về sử dụng corpus (cơ sở dữ liệu văn bản lớn) trong dịch máy Với việc sứ dụng corpus, các

kỹ thuật trong thong kê đã thể hiện được những ưu điểm củ a nó Trong phần này la giới ihiệu về liai liếp cận đặc trưng trong việc sử dụng corpus là dịch máy dựa trên thống kê SBMT (Statistical-Based Machine Translation) và dịch máy dựa trên ví dụ EBMT (Example-Based Machine Translation) Các plnrưng pháp mới này đã thể hiện cách nhìn mới so với liếp cận Iruyền thông và mang lại một

so kếi quá, tuy nhiên cũng còn nhiều hạn chế

1.4.1 Dịch máy dựa trên (hống kê

Tiếp cận dịch máy dựa trên Ihống kê được giới thiệu đầu tiên trong f!7Ị(Brow, ll)90) và các mô hình toán học cho tiếp cận này dược liìnl) bày đầy đủ và chi

Ik'1 nong [18](Brow, 1993) Tiếp cận dịch dựa trên llìống kê thực hiện dịch liên lừng cạp ngôn ngữ cụ thè Nó coi rằng mọi câu trong mội ngón ngữ đều là kếtquá lịuá dịch của một càu bất kỳ llniộc ngôn ngữ kia với một xác suáì nào dó

!)(> vậy chúng ta kí hiệu mọi cặp câu (S,T) mội xác xuất P(T I S) hiểu clíổn cho xái: suáì clurưng trình (lịch sẻ chọn câu '1' Iron g ngôn ngữ đích sẽ là kếl I|iiá dịcli cứa câu S trong ngốn ngữ nguồn Ta mong muốn clurơng trình dịch sẽ xác định (lược giá trị P(TIS) là rất bé với cặp câu nhu (She is a teacher I Tôi thích một

quyển sách màu xanh) và có giá u ị cao tie thế hiện ilưực lỊuau hộ mật III ici Hong

cặp cáu như (I like a blue book I Tôi thích một quyển sách màu xanh) Như vậy với xáu ihuộc ngôn ngữ nguồn s hệ thống dịch xác suàì phái tìm dược xâu đích t sao cho cực đại giá trị P(ils) sử dụng công thức Bayes la có thế viết:

P(lls) = P(t)*P(slt)/P(s)

Vì !’(s) là giá trị không đối nên theo cóng llnrc liên, thay vì việc tìm giá trị cực CÌỊŨ cho P(tls) chúng ta sẽ tìm giá trị cực dại của biểu Ihức P(t)*P(slt) Nhiệm vụ

«.lịch sẽ là nhiệm vụ tìm:

Trang 16

lA=argmax P ( I l ^ s l l >

t

KÕ làng llieo biổu thức trên, chúng la thây công việc của hệ dịch xác suâì hao gổm:

(a) lính toán khá năng của một xâu sẽ Chuộc ngôn ngữ đích, hay nói cách khác

là lính toán khá nâng một xâu sẽ có dạng tốt trong ngôn ngữ đó

(b) lính toán khá năng của xâu nguồn sẽ là xâu dịch của mội xãu ugôn ngữ đích, huy tổng cịuát là khá năng một xâu là xâu dịch cúa mội xâu thuộc ngôn ngừ khác

(c) mội kỹ thuật tìm kiếm xâu ngôn ngữ đích làm cực dại biếu thức trên

Nhưng có một câu hỏi là tại sao chúng ta không tính P(tls) trực tiếp mà lại phái tính qua biểu thức F(t)*i)(slt) vì rõ ràng nếu chúng ta có thể lính toán được P(sll) thì cũng có thể tính được P(lls) Lý do là khi chúng lu lính loán P(lls) chúng la cấn lặp trung liên việc tìm dược một xâu t không những có xác suất là xâu dịch cùa s mà còn phải đòi hỏi có khuôn dạng tốt Irong ngôn ngữ đích trong khi các

mò hình dịch xác suất không lập trung trên việc dám báo xâu l là có khuông ilạng lốt trong ngôn ngữ T, nhưng nếu chúng ta lính P(slt) thì không yêu cáu phái tập trung sao cho t có khuôn dạng tốt Do vậy, thay vì việc tính P(tls), chúng ta tính P(t)*P(slt) sẽ dung hoà được cả hai yếu tố là [ sẽ là xâu dịch của s

và l sẽ có khuôn dạng tốt trong ngôn ngữ đích

Các nhiệm vụ của hệ tlìớng dịch xác suất liên quan dến mô hình đưn ngữ và mô hình dịch Mô hình dưn ngữ thường dưực dựa trên mò hình bigram hoặc

d iagram Điếm dặc trưng cùa nó là xác định khá năng xuãì hiện của một lừ phụ thuộc vào các từ đứng liền trước nó (2 từ đối với mô hìnli bigram, 3 lừ dối với

mô hình triagram) Từ phưưng pháp này để tính toán khá năng của một xâu là

có khuôn dạng tốt trong ngôn ngữ

Mỏ hình dịch sử dụng lần suất cùng xuất hiện của các lừ trong ngôn ngữ nguồn

và Iigõn ngữ đích, chiổu dài của xâu chứa các từ dó, vị trí của các lừ trong xán,

so lượng các lừ thuộc xán (tích lifting ứng với lìrilmộr xâu iiịMiồn

Trang 17

Tóm lại các hệ thông dịch máy dựa trẽn mô hình Ihống kê và xác suãì cứa quá trình dịch được dào tạo liên một lưựng lớn các dữ liệu vãn bán song ngữ Có nhiều mô hình cho liếp cận này dược dưa ra bao gồm lất ít hoặc không liên lỊiian đến các vấn để vể lìgỏn ngữ học, mà thay vào đó là (lựa hên các ilặc línhphán phối các từ và các cụm đế sinh ra kết quá dịch thích hợp nhất Ý iưởng chung trong dịch máy dựa liên thống kê là chúng la lìm kiếm các tính chãi của

dữ liệu vãn bản song ngữ mà dễ dàng đo được và tìm cách sir dụng những đặc lính này để tiên đoán kếi quả dịch Các liiuộc tính có lliế (lo dược ơ dây bao gổm lẩn suất xuất hiện của các từ trong văn bản nguồn và đích, các vị trí quan

hệ của các từ trong càu, chiều dài của câu, và một số thuộc tính khác Điểm mạnh ở đây là việc này cần rất ít thông tin ngôn ngữ Tuy nhiên nó sẽ gặp khó khăn trong trường hợp dữ liệu rời rạc và nó chỉ Iliể hiện kết quá tôi trong những câu lest lương lự như dữ liệu được đào lạo

1.4.2 Dịch máy dựa trên ví dụ

Ý tưởng cơ bản Irong EBMT rất đơn gián: dể dịch một câu thường là chúng ta

sử dụng kết quá dịch của các câu lương lự như câu đó, và rất nhiều kết quả dịch chi là sửa đổi những kếl quả đã có Khi có một càu cẩn dịch, chúng ta tìm trong

dữ liệu ví dụ các càu tương ứng với câu cần dịch sao cho các phẩn trong câu này

bị phú bởi các câu ví dụ được chọn Từ các thành phần phủ này, chúng ta lấy ra các thành phần dịch lương ứng lừ câu dịch của câu ví dụ và két hợp lại dể xây dựng nên kết I]uẳ dịch Ví dụ:

Cluing ta cẩn dịch câu: “John bought a book on economics.”

Giá sir Iron g kilo ví dụ có hai mẫu:

Ann read a book on economics (Ami dọc một CUỐ11 sách về kinh le) ( I )

Julie houijht il notebook (Julie đã mua một cuốn vớ) (2)

Hệ lliống sẽ nhận dạng dược cụm a book on economics Hong mầu (1) và cụm

Julie bought Hong mẫu (2) sẽ phủ càu cần dịch l)o dó sẽ lấy hai cụm dịchlương ứng là một cuốn sách về kinh tếvh Julie dã num để xây dựng nén kêì quá dịch là John dã mua một cuốn sách vé kinh tế.

Trang 18

Theo ịl9|(Salo 1990), một hộ IhốHg ÍỈBMT dặc Innig thường có [ihữug thành phần chính sau dây:

- Một cư sở dữ liệu bao gồm các ví dụ, mồi ví dụ là một cặp câu nguồn và câu đích dã được dóng hàng Thông Ihường iliì cấu uiíc câu phái được lưu dưới dạng cấu trúc phụ thuộc

Mội thuật toán tìm các ví dụ urưiig ứng với câu vào ilược hiếu là các ví dụ này sẽ phủ lêu câu cầa dịch

Một ihuật toán kết hợp dùng dể xây dựng lại câu vào bằng cách kết hựp các thành phần con (các phần phủ) iưưng ứng với càu vào lừ các ví dụ

Một thuật toán chuyển đổi và kêì hợp lừ các thành phần dịch trong các ví dụ

dế tạo ra câu đích

Tiếp cận dịch dựa trên ví dụ có nhiều uu điếm và cũng dã Il)ử nghiệm có kếi quá tốt, tuy nhiên chí trong phạm vi hạn chế Điểm mạnh của nó là tránh được xày dựng luật chuyển đổi một cách thù công, thứ hai tà có ihể dạt dược chấl lưựng dịch cao nếu câu cần dịch gần gũi với các ví dụ Tuy nhiên các hệ thống theo liếp cận này vẫn đòi hỏi các thành phần phân tích và sinh để sản xuất ra cấu trúc phụ (huộc cho dữ liệu ví dụ, và dùng để phân tích câu vào Một vấn đề nữa mà liếp cận này gặp phải là thời gian tính toán quá láu do câu vào phải dược kiếm tra sánh với tất cả các mẫu Irong ví dụ

1.5 Phạm vi nghiên cứu của luận văn

Hiện nay dịch máy có thể chia làm hai liếp cận chính là tiếp cận dựa trên luật

mà phương pháp, thể hiện lõ nhất là phương pháp dịch chuyển đổi Tiếp cặn Ihứ hai là liếp dựa trên corpus mà ứng dụng trực liếp của I1Ó là pliưưng pháp dịch iheo ví dụ và dịch dựa theo thống kê Mỗi phương pháp đều có những diểin mạnh và những nhược điểm riêng của nó Tiếp cận theo luật Ihể hiện dược tính lổng quát hoá của các qui tắc trong ngôn ngữ, nhưng chính vì thê' mà gây ra nlìiểu nhập nhằng và gặp khó khăn trong xử lý một số hiện tượng ngôn ngữ Trong khi liếp cận (lựa Irên corpus, do sử dụng được những kêì quá (lịch trên một số lương lớn các ví dụ, nên sẽ cho kết quả lốl nếu gặp những câu có nhiều lifting ilòng với lập ví dụ, giải quyốl ilược tilũéu Inrờng hợp LU Iliii' của ngôn ngũ

Trang 19

Tuy nhiên thuộc tính này cũng sẽ không đúng nữa Irong trường hợp dữ liệu rời Iạc Mạt khác tiếp cận này còn nhiều bái cập khi chúng ta cần dịch những miền

dữ liệu mới, khi đó đòi hỏi phải tạo lập ví dụ mới và đào tạo lại hệ chống

Với những đặc điểm đó mà các hệ Ìhống dịch thương mại hiện nay vần là các

hệ ihống dựa trên tiếp cận luật Tuy nhiên xu hướng mới là kết họp các cách liếp cặn Các hệ thống vẫn có thành phần chính là các bộ luật vổ ngữ pháp, bộ luật hình thái, đổng thời sẽ sử dụng corpus cho các trường họp xử lý nhập nhằng về hình thái, hay ngữ nghĩa

Trong xu hướng mới đó, tiếp cận dịch dựa trên luật vẫn đang đóng một vai trò rất quan trọng Chính vì vậy trong ý tưởng xáy dựng một lìệ (hống dịch tự động Anh-Việt, chúng tôi vẫn lấy tiếp cận dựa trên luậl là tiếp cận chính Luận vãn nghiên cứu về các vấn đề liên quan đến xử lý cú pháp Irong hệ thống dịch Anh- Việl Trong đó việc nghiên cứu và hoàn thiện một cách nhìn về phân loại ngữ pháp và xây dựng bộ luật ngữ pháp tiếng Anh là một nhiệm vụ rất quan trọng Ngoài việc xây dựng bộ luật ngữ pháp, luận văn còn đề cập đến và titra ra các giái pháp cho các vấn đề về xử lý nhập nhằng cấu trúc và phàn tích các câu có cấu li úc xấu Đặc biệl dã dưa ra thuật toán cho phân tích cụm trong cAu có cấu trúc xấu và dưa ra hàm lượng giá cho cây phân tích dể giải quyết nhập nhàng

Vì vậy, luận văn được cấu trúc như sau:

- Chương 1 trình bày giới thiệu chung về dịch máy, lịch sử lóm tắl và các tiếp cận Irong dịch máy Từ đó đặt vấn đề về hướng nghiên cứu của luận vãn

- Chương 2 cũng là một phần trong việc tìm hiểu các vấn dề về dịch máy Vì phương pháp dịch dựa trên luật dược thể hiện rõ nhất trong một hệ thống dịch chuyển đổi nên chúng ta trình bày các vân dề nong hệ thống dịch chuyển đổi để có một cái nhìn tổng quan về cả hệ lliống Do vậy chương 2 ninh bày về các vấn đề trong phương pháp dịch chuyển đổi, trong đó tập inmg di sâu vào xử iý cú pháp là vấn dề chính cần quan tâm Chúng ta trình bày lần lượt về lổng quan các thành phần của một hệ dịch chuyển đổi, phán lích hình thái Phẩn xử !ý cú pháp Hình bày biểu diễn cú pháp, phân tích cú pháp, chuyển đổi cú pháp và các vấn dề về nhập nhằng trong cú pháp Phẩn còn lại giới thiệu vổ phân lích ngữ nghĩa và sinh cáu

Trang 20

- Chương 3 là một trong những chương quan trọng trình bày các giái pháp đối với các vấn dề trong hệ thống phân tích cú pháp của chúng ta Ổ tlãy chúng

ta dã kết hợp phương pháp dựa trê» luật truyền thống với tiếp cận dựa trên mẫu dịch dể xáy dựng mô hình luật hai mức Điều này kếi hợp dưực lính long quát hoá của các luật chung và giải quyết dược những hiện tượng cụ thể trong ngôn ngữ tự nhiên dể nâng cao chất lượng dịch Chương 3 cũng hình bày giúi pháp về xử lý nhập nhằng trong cấu Ink: nhờ dưa ra hàm lưựng giá Đặc biệt (rên cơ sở Ihuật toán Barley, chúng la dã (.lưa ra thuật toán duyệt dối với các câu có cấu trúc ngữ pháp xấu, và nêu ra plnrơng pháp cho việc phân tích những câu thuộc dạng này

- Clnrơng 4 ihể hiện công sức của chúng ta Hong việc xây dựng hộ luật ngữ pháp tiếng Anh trong hệ thống Đây là nhiệm vụ C]uan irọng nhất của hệ thông, nó thể hiện việc xây (lựng tri thức chính trong bộ phân tích cú pháp

Do các phân loại ngữ pháp thông thường gây ra quá nhiều nhập nhằng nong việc xâv dựng luật, tỉo iló chúng la phái phùu loại các lớp ngữ phá|> chi tiốl

1)0 11, đồng thời xây dựng một bộ luật khá đầy đủ dựa trên sự phân loại này cho ngữ pháp tiếng Anh Việc này thật sự khó khăn vì chúng ta phải xây ciựng đi xây dựng lại bộ luật nhiều lần trên các dữ liệu test đa dạng để phát

h iệ n c á c CỊIIÌ tắc m ớ i n h ằ m plùm loại lù vựng ch i liết h ơn, c ũ n g n h ư phải x ây

đựng bộ luật cho lương ứng với việc chuyển đổi cú pháp giữa tiếng Anh sang liếng Việt

- Chương 5 nói về chưưng tri ình và kêì quả thực nghiệm Chúng ta li ình mật

số cấu trúc đữ liệu cơ bản trong chương Irìnli Phần lliực nghiệm dược chúng

la thực hiện bằng cách: xây dụng bộ câu test, thực hiện chương trình và kiểm tra các kết quá Với kêì quá này dã chứng lỏ dược hộ luậl dưực xây dựng cũng như các giải pháp về nhập nhằng và phân tích cấu trúc xấu đưa ra

là khá tốt, có khả năng áp dụng thực tiễn (rong việc xây dựng một hệ thống dịch lự dộng Anh-Việt

- Cuối cùng là phần kết luận tổng kết các kết quả đã thục hiện được (rong luận vãn Nêu các vấn dề còn lại và các hướng nghicn cứu mới Iron g tương lai

Trang 21

Chương 2: Phương pháp dịch chuyển đổi

Để xem xél phân tích cú pháp trong một hệ thống hoàn chỉnh, chương này la trình bày các vấn dề trong hệ thống dịch chuyển đối, và tập trung đi sâu vào phần xử lý cú pháp là vấn dề chính cần quan lâm Phần 2.1 uình bày tổng quan

về các thành phần của một hộ dịch chuyển đổi Tiếp theo phần 2.2 trình bày về phán tích hình thái Phần xử lý cú pháp bao gồm biếu diễn cú pháp, phân tích

cú pháp, chuyến dổi cú pháp và các vấn (lề về nhập nhằng Hong cú pháp được trình bày trong 2.3 Phẩn còn lại trong hệ (hống liên quan đến phân tích ngữ nghĩa và sinh câu là một phạm vi lớn không thuộc phạm vi nghiên cứu sâu của luận văn sẽ dưực trình bày Hong 2.4 Cuối cùng phán 2.5 (ổng kếl cúc vấn lié đã nêu [rong chưưng

2.1 Sơ dồ cúa hệ dịch chuyển dối

kết hựỊ)

n g ũ nghĩa

H2.1 Sơ dồ hệ thống địch chuyển đổi

Hệ ilìống gồm có ba hoạt động chính :

Trang 22

Nhiệm vụ của phần này là phân lích hình thái cùa các từ vào, tìm kiếm Irong từ (lien tie sinh ra tấl cá các hình thái của các từlrong câu Tiép ilict) là sinh cây cit pliáp và phân lícli ngữ nghĩa dựa trên danh sách hình thái và các lnậi cú pháp, luật ngữ nghĩa Kếi quả sẽ là cây phân lích của câu ngôn ngữ nguồn.

Chuyển dổi :

Phẫu chuyến dổi sử dụng các luật chuyển dổi dế chuyển dổi lừ cây phân tích câu nguồn sang cây phân tích ngôn ngữ đích, đồng thời iruy cập từ điển song ngữ để chuyển đổi ngữ nghĩa trong ngôn ngữ nguồn sang ngôn ngữ đích dối với các nút lá trong cây Xử lý nhập nhằng về ngữ nghĩa là công việc rất khó khăn trong giai đoạn này khi cần chọn nghĩa tương ứng với lừ ở ngổn ngữ nguồn Hong ngôn ngữ dích

Sinh cáu :

Bộ sinh câu có đầu vào là cây phân tích, các ngữ nghĩa lương ứng trong ngôn ngữ đích, và kếl hợp với các qui lắc hình thái, qui lắc lổ hợp ngữ nghĩa trong ngôn ngữ đích để sinh ra câu dịch (câu ngôn ngữ (lích)

2.2 Phản tích hình thái

Phán tích và sinh khuôn dạng từ là một bước thiết yếu trong xử lý ngôn ngữ tự nhiên Không những trong dịch máy mà trong các ứng dụng khác như kiếm lỗi chính tá, từ điển, các hệ thống thu ihông tin đều phải xác dịnh được các biến thể cíia các từ Trong xử lý ngôn ngữ lự nhiên và dịch máy, cluing ta cần phải xác định được ngữ pháp của một từ cũng như các thuộc lính ngữ nghĩa của từ đó

Do dó việc xây dựng một cơ sở dữ liệu từ vựng là rất cần thiết

Có hai phương pháp chính trong xáy dựng cơ sỏ' (lữ liệu lừ vựng Mộl là chúng

la lưu giữ tất cả các khuôn dạng biến đổi của từ, ví dụ chúng ta lưu lấl cả các xâu play, played, playing, plays. Hai là lưu dạng gốc của một lừ, và các dạng khác được suy ra từ các luật hình thái kết hợp với một tập các phụ tố cùng với qui tăc của nó, ví dụ play là từ gốc và các dạng khác dược sinh ra qua việc kết hợp với các hậu tố -ed, -ing , -s. Mỗi mộl liếp cận (lều có ưu và nhược điểm của

Trang 23

Ị'hương pháp lưu trữ dầy dủ tất cá các dạng của từ có ưu điểm là làm cho việc Imy cập từ được nhanh hơn và ứng dụng dược các kỹ tluiặl lưu trữ file với tliời giiin II uy cặp tuyến tính như kỹ lhuậ[ hàm băm Hưu nữa liêu (limg kỹ thuậi lưu VÓI chúng ta có Ihể làm giảm khống gian lưu trữ, tránh những trường hợp lưu trữ trùng ihông tin Ưu điếm nữa là làm giám công sức pliál [rien các dạc lá cho

xử lý hình thái Bên cạnh dó thì nhược điếm lớn nhất của plunmg pluíp này là klióng sứ (lụng (lươc tính biến dổi có qui tác của hình lliái lừ dấn lie'll lliôug till

về một lừ được lưu khõng (hống nhâ't, dung lượng lưu trữ lớn

Dõi với ị)lnrơng pháp chí hm Irữ dạng gốc cứa lừ thì ưu điểm và nhược (.liếm của

nó doi nghịch với phương pháp vừa nêu trên: sử dụng dược tính có qui lác cùa lùnli lluíi lừ, thông (in về mội tù được thống nhái vào một chồ và vì llìế được quái) lý đé dàng hơn, và líu diểm HỮU và sẽ liên đoán Iiước (.lược các ilạng hình Ihiíi của từ Tuy nhiên vì những ưu điểm đó mà thời gian xử lý lâu Í1ƠI1, và cần phái xây tiựng và quản lý các luậl hình thái Thêm vào lỉó thì những dạng biến dổi hình thái bâì qui tắc vẫn cần (lược lưu irữ riêng

i lui plurơng pháp đểu có ưu và nhưực diểm riêng của cluíiìg, Iilurng Irong da sò' các H ường hợp thì phương pháp Ihứ hai vẫn được lựa chọn bơi vì lằng trong liêng Anh có hệ (hống hiến dổi hình (hái khá đơn giản và có Iliể quản lý bằng cácli liội kê lất cả các hình thái lừ, nhưng việc liệt kê hết các kha nàng lừ vựng

là khổng khá (hi trong nhiều ngôn ngiì như Phần lan, Thổ nhĩ kỳ, những ngồn ngữ có hàng trăm dạng biến thể của mỗi một danh lừ hay (lộng từ Mặt khác kể

cá ilõi với liếng Anh thì vẫn ncn có bộ phân lích hình thái, bới vì mặc dù tiếng Anh có giới hạn các biếu lliẻ hình (hái từ, nó vẫn nil phức lạp Ví till, lìr gốc

roiỉiputc, nó dần xuất ra các dạng như Computer, com puterize, computerization, noiiiompitiei Ĩ2eil, Và vì thê' liên không có khả năng liệi kẽ hêì mọi khía cạnh của lừ vựng, nhiều hình thái lừ vựng mới có lhé' sinh ra trong ngữ cánh mới

Dề xây tiựng bộ phân tích hình lluíi thì mỏ hình tlưực bièì nhiêu nhất là mổ hình hình thái hai mức Sau đây là giới lliiệu lỏm tắt mỏ hình này

Mo hình hình thái hai mức:

Trang 24

Cluing la hãy xem xét một ví dụ biến đổi hình thái sau: lừ chasexl được xem như dần xuâì từ chase bằng việc thêm hậu tố ecl. Tuy nhiên, nếu thêm ed vào chase

tlíi sẽ dẫn đến việc sẽ phải loại bớt đi một kí tự e. Do đổ chư sechas dược xem như là các dạng khác nhau của cùng một hình vị Mòi lừ dược hiểu (liền như một tương ứng nực tiếp giữa dạng lừ vựng của nó và chính lừ đó, hay còn gọi là dạng bên dưới và dạng bể mặt Đấy cũng chính là lý do vì sao mô hìnhnày dưựe gọi là mô hình hai mức, Ví dụ, lừ ciiused dược xem Iilur là biểu diễnhai mức như sau:

tlụng b ề mặt : c h a s 0 0 c d

iron g đó kí hiệu + là biên của hình vị, 0 là kí hiệu cho kí tự rỗng

Một bộ phàn tích hình thái theo mỏ hình hai mức có hai thành phần dữ liệu chính yếu là thành phần luật và thành phần từ vựng Thành phần luật bao gồm các luật hình thái hai mức, thành phần từ vựng bao gổm tấl cả các hình vị (từ góc và phụ lố) Bộ phàn tích hình liiái có hai hoại động là sinh dạng lù (( ìenerator) và nhận dạng (Recognizor) Hoạt động sinh dạng từ sẽ chấp nhận đáu vào là mội khuôn dạng từ vựng, hay là dạng bên dưới và ná vổ dụng bề niậl của nó, ví dụ nhận vào spy+s và lia về spies. Trong khi hoạt dộng nhận dạng có dầu vào là dạng bề mặt và trả về dạng từ vựng bên dưới, ví dụ nhận vào spies và Irá về spv+s. và kết quả này có ý nghĩa như Danh_từ+Số_nhiều

Sơ dổ các Ihành phần của một bộ phân lích hình llúíi như sau:

Trang 25

Luật hình thái:

iìướe liêì ta xem xél khái niệm “cặp lương ứng”: mỗi cạp kí tự bề inậl và kí lự

lừ vựng iươug ứng được gọi là mội cập [ương ứng, hay nói tát lù mội cặp, dược viết ỉà lexical-character: surface-character, ví tlụ c:c, h:h, a:a, s:s, +:eKhuôn dạng chung cùa một iuật hình thái là :

c p o p [ c — 1C

T ro n g đ ó cp là c ặ p tư ơng ứ ng; le, rc là c á c cậ p với ỉc là c ặ p bên trái và 1C là cặp

bên phải cp và được gọi là thành phán ngữ cảnh trong luật; op là toán lử dể phân biệt các loại luật khác; Chú ý toán tử op sẽ nhận ba giá trị phân biệt cho ba loại luật hình thái:

Toán tử = > có ý nghĩa cặp cp chí có thể xảy ra trong ngữ cảnh xác định, ví dụ luật sau:

Toán lừ < = có ý nghía rằng trong ngữ cảnh xác dull) kí hiệu lừ vựng phái ánh xạ lới kí hiệu bề mạl xác định trên cp, ví dụ luật sau:

+ : e <= X : X — s : s

x á c định kí hiệu + dược ánh xạ lới e khi c ó cặp X : X đứng lien Irước và cặp s:s dứng liều sau; ví dụ luậl này xác ciịnh tox+s = foxes Tuy nhiên nó cũng cho phép xảy ra dog+s=doges, và do đó luật này cũng phái được giới hạn lại

Toán lử < = > xác định kiểu luật hình (hái thứ ba; lác (lụng của nỏ là kết hợp dược cá hai luật trên, và tránh dược các chuyển đổi không dược phép; cặp cp phái xảy ra trong ngữ cảnh, và ngữ cánh sẽ bất buộc cặp dó xảy ra Ví dụ luật

Trang 26

y : i < = > r : r — + : e s : s

luật này không cho phép xáy ra iry+s = iryes nỉurng chấp nhạn iry+s = irics.Các' luật hình ihái dược biên dịch dưới dạng các lược tlổ hoặc các háng chuyến

ilổi hữu h ạn trạn g (hái và sau đ ấy d ư ợc kết hợp lại dế sinh ra o lo m al hữu hạn

( )tomat Iiày sẽ được dùng dể xử lý mô hình hai mức, nhận dạng lừ vựng và sinh

lù vựng

Cho dù dùng phưưng pháp hay kỹ thuật nào thì xử lý hình thái cũng phái trá vé keì quả cần thiết cho dịch máy là các đặc tính ngữ pháp, ngữ nghĩa cùa một từ dưa vào bao gồm : phân loại ngữ pháp, ngữ nghía, thì, số íl nhiều, ngôi, Thòng ihường các hệ thống dịch máy dịch máy sir tlụng bộ phân tích hình thái với đầu vào là một câu ở ngôn ngữ nguồn và đầu ra là một danh sách liên kết chứa tất cá các hình thái của c á c từ cùa các câu vào này Ví dụ, câu vào là “ she loves the rich man “ thì két quả của phán tích hình thái sẽ là:

Trang 27

Trong phần này chúng ta sẽ giới thiệu các câu trúc đế biểu tlién ngổn ngữ cho việc phân lích cú pháp, thuật toán phân tích, chuyển dối cú pháp và nhập nhằng cấu liiic.

2.3.1 Biểu diễn cấu trúc

Mội trong những chủ dể của ngôn ngữ hình thức là (lịnh nghĩa các hiếu diễn cấu nlie của ngón ngữ tự nhiẻn, và định nghĩa hình thức ngừ pháp của ngổn ngư lự nhiên Cluing la sẽ dể cập đến ba kiểu quan hệ cú pháp trong khuôn khổ biểu lỉicn ngón ngũ là: tuần lự, phụ thuộc và cấu phần Hai kiểu co bán hay dược

Càu : “A very tall professor wilh grey hair wrote this boring book.”

Trang 28

vào professorprofessor; book phụ thuộc vào wrote. Trung tâm của loàn bộ câu là wrote.

Chúng ta có thể xác định sự tuần tự trong một cây phụ thuộc hởi qui ước sau: hoặc bằng các kí hiệu nói lên thứ tự của các nhánh hoặc bằng việc gắn lên các nhánh các kí hiệu xác dịnh thứ lự của cluing Thông iliưừng sự tuần lự dược xác định bởi ihứ tự lừ trái sang phải của cá c nhánh T u y nhiên chúng ta phái chú ý

là thứ tự này sẽ không phái lúc nào cũng tương ứng với Ilúr tự trong câu dạng lexi Cấu trúc tham số vị từ cũng có (hể xem như mội biểu diền của cây phụ Ihuộc có Ihứ tự, ví dụ gaveịman, book, girl), ở dây íỊítve là tiling tâm, các phụ

ilu iộ c củ a I1Ó theo thứ tự lần lượt là man, book, girl.

Nếu Irong mội cây phụ thuộc không có các kí hiệu có ý nghĩa để xác định thứ

tự của các nhánh Thế thì chúng ta phải gắn nhãn cho các nhánh theo một cách nào đó dể ghi lại thứ lự của chúng Hong quan hệ phụ thuộc, ví dụ như chúng ta

có ihể gắn cho một nhánh là chủ lừ, nhánh còn lại là túc lừ mà không xác định ihứ tự của các nhánh Và thứ lự này chỉ được xác định khi cấu uúc được gắn với I11ỘI ngôn ngữ cụ thể, vì rằng thứ lự này Irong các ngôn ngữ khác nhau có thể khác nhau, ví dự như irong tiếng Anh và liếng Việi thứ lự iừ xác dịnh, tính lừ

và (lanh từ là khác nhau như this blue book Hong liếng Anh sẽ lương ứng với liếng việt là quyển sách mầu xanh này.

('ail trúc cụm:

Mộ) phương pháp truyền thống của biểu diễn các phần lử cấu trúc của một câu

là c â y c ấ u trú c c ụ m , v í d ụ vớ i c â u n h ư l i ê n “4 v e r y t a l i p r o f e s s o r w i t h l Ị r c y h a i r

wrote this boring b o o k ”

Till cây cấu Irik cụm sẽ duực biểu diễn nlur sau:

Trang 29

Mội hiếu diễn tương đương với cây cấu trúc cụm gồm các dấu ngoặc, dấu phẩy

dò xác (lịnh các cụm và các phần lử Ví dụ với càu như trẽn thì ta có biếu diễn:SjNlVleKthe),

Acijl>(adv( very ),acij(tall)),

Trang 30

Đè' sinh ra dược cũy cấu trúc và xâu tương dương trên , chúng la cẩn phái cỏ cácluậl sau:

Sau đây chúng la sẽ dùng luật cấu trúc cụm cho việc duyệl cáu sinh cây cú pháp, sau dây la sẽ gọi tắt là luật cú pháp Trong ihực lế, mồi Ill'll của luật cú pháp chứa nhiều Ihông tin hơn mô tả ở trên Mỗi phần tử của luật ngoài việc chứa dịnh danh của lừ loại ngữ pháp sẽ bao gồm cả Ihông tin cú pháp và lliỏng tin ngữ nghĩa, ví dụ ta có một luật cú pháp như sau:

ịnp,wSynNP]/SymNP-> (ídet,SynDct]/SymDet, Ịnl,SynNl]/SymNl ]

Trong dó np là định danh cho một kí hiệu ngữ pháp là cụm danh lừ, SynNP là lliông tin cú pháp của cụm danh lừ np, và SymNP là ihông tin ngữ nghĩa cho cụm tianh từnp; urưng lự đối với các kí hiệu del, SynDcl, SymDel và n l, SynNí,

Trang 31

SyinNl Luật này tương tự như luật phi ngữ cảnh NP -> Del Nl Chú ý là cấu IIúc thậl sự của thông tin cú pháp và thông tin ngữ nghĩa trong nút tuỳ tlniộc vao các cách tiếp cận khác nhau trong dịch máy.

2.3.2 Thuật toán phân lích

Dè cung cấp các kỹ thuật khả thi cho việc phân lích các qui lấc rất đa dạng trong xử lý các qui tắc ngốn ngữ, ờ đây xin giới Ilìiệu một lliuật toán duyệt biểu liổ (chui parsing hay chính là thuẠt toán Earlcy) đỏ phàn lích cú pháp và ngữ Iiglũa iheo các luật ngữ pháp Sau đây sẽ trình bày Iliuậl loán dưới dạng một khung làm việc chung, mà có thể được dùng cho cả việc phân tích và sinh, đây cũng có thể coi là một thiết kế thống nhất cho quá trình phân lích và sinh

khung làm việc.chung:

Thuật toán sử dụng kỹ thuật lưu trữ và thủ tục dộng đe xây đụng tất cả các kết lịiiá thành phần Việc thực hiện thuật toán liên quan đến hai cấu trúc dữ liệu chính: edgechart mà la có thể hiếu là cạnh và biếu đổ vì thuật toán ở dây xiiíít phát ihco lư lường liuyệt biểu dồ nên gọi là thuật loán duyệi hiểu đổ

(i Ihtri-ỊHII SÌIIỊỊ algorithm). Đế tiện cho (heo dõi lu vần (lùng liai tên là cdịịi'

chilli.

Mòt eciiỊL' chứa thổng (in phan (ích cục hộ, nó chứa I11Ỏ I phần kết c|tiá trung giai) IÙỈỊỊC bao gồm mộl luật cú pháp và một dâu chấm clậl giữa các phán lử Uong luật dể kí hiệu việc phân lích trên luậl này ílíi den dâu Them vào dó, eilịỊC

bao gồm cá ihỏng tin lưu Irữ vị trí của thành phần cuối mà uó có mặl

Có hai kiỏu aiiỊc là kiến hoạt động và kiều khổng hoitl động hay gọi là ưiIịịi' Ihụ

ilộng.

Kieu hoạt dộng: kiêu alỵc này có ý nghĩa là việc phân lích lnạt trong CíliỊe này vàn chưa hoàn thành, vần còn các lliành phần trong luật chưa được phân tích, ký hiệu cho điều này là ví trí dấu chấm chưa nằm về bẽn phái nliâì của lnậl Ví dụ inộl ediỊe có luật NP -> Del Nì Ihể hiện rằng Del (ỉã dược tlioả mãn còn NI

ill! chưa, do đó edịịt- chứa luật này vẩn còn phái dược phán lích liếp và dược gọi lỉi cdịỊc hoạt dộng

Trang 32

Kiến thụ dộng: edge thụ dộng thì trái ngược với edge hoại động, vị trí dấu chấm nằm bên phải nhất cùa luật chứng tỏ rằng luật này dã hoàn toàn được thoả mãn hay dã hoàn thành phân tích Ví dụ NP —> Del NI chứng tó lằng DelNI

đã được phân tích

Thành phần dữ liệu lliứ hai mà ta gọi !à chart là danh sách các edge. Khi hoàn ihành, danh sách này sẽ chứa các kết quả phân tích của dầu vào, cùng với các phán tích của tất cá các thành phần con phụ thuộc ciia nó Ngoài danh sách

chart, quá trình tính toán còn sử dụng thêm một danh sách irung gian chứa các

ưílỵc' gọi là đanh sách ứng cử, và đặt tên !à agenda. Các edịỊc dược dưa vào danh sách chart iheo hai bước chính trong thuật loán nhu sau:

Prediction: bước này đưa tất cả các edge hoạt dộng vào agenda. Những edge

này bao gồm các luẠt là các ứng cử cho phân lích dầu vào

nếu mộl edge hoạt dộng A—>ư.B(i được dưa vào chart (chú ý u và p có Ihể là rồng) thì dưa tất cả các edge có dạng B' > .y vào agenda, ờ đây B’- > Ỵ và luật ngữ pháp và B và B ’ là thống nhất

Completion: bước này kết hợp các eiỉiịe hoạt dộng và ediịc thụ động dể thực hiện thoá mãn các luật và xây dựng cây cú pháp Bước này còn có tên tà

Solution.

nếu chart chứa các edge dạng A—>IX.B(Ì và B ’ > y với B và B ’ là (hống nhai thì lạo một eciiỊe mới A’~ > a \ B ” (ì’ là kết quà của sự thông iiliâì B

và B\ sau đó chèn edge này vào danh sách agenda.

Các bước này được thực hiện mỗi khi có edge mới dược Ihêm vào c hart; các

CÍỈÌỊC Irong agenda sẽ lần lượi đưa vào chart và quá ninh phân tích sẽ kếl thúc khi agenda rỗng Chú ý là ban đầu agenda sẽ được khởi lạo với tất cả các luật với các kí hiệu bên trái là thống nhấl với kí [liệu bắt đẩu và vị trí của dấu chấm nail) phía Irái nhâĩ của vế phái

Khung làm việc chung này sẽ dược sửa đổi cho phù hợp với mục (lích phân tích hay sinh, và cũng được sửa dổi cho phù hợp với những lình huống cụ ihể

Tlniậl (oán Earley

Trang 33

Mội trong những thể hiện rõ ràng nhất của khung làm chung như giới thiệu ở trẽn là thuật toán phân tích Earley Trong thuật toán ta phải pliAn tích xâu và có lính đến ihứ lự của các từ irong xâu vào do đó Irong mỗi CÍÌỊỊC phái chứa thông

Ún vé vị irí bấl đàu và kếi ihúc của lừ nong xâu vào Mặt khác, Irong thuật toán Barley sẽ không sử dụng danh sách agenda nữa mà để cho dơn gián quá trình sinh ra edge mới sẽ dược chèn luôn vào chart. Thông tin sửa đối so với khung làm việc chung sẽ thê hiện ở chart dược chia thành các tập item (tên khác của

Ciiỵi’) với chỉ số là thứ tự cùa từ trong xâu vào đẻ’ lưu vị trí phân tích đến, và

H ung mồi item sẽ chứa kí hiệu chỉ vị trí bắl đầu phân lích; hơn nữa Irong thuật toán Earley sẽ có thèm bước Scan là bước khởi tạo mỗi khi bộ phân tích nhận lừ vào tiếp theo Sau đày là mô tả thuật toán Earley :

Thuậl toán gồm có ba hoạt động chính:

1’m lic to r : Nếu item [A -> X j * c X m ; j| 6 s, ilù với mọi luật có dạng c -> Y , Y t , add vào s, item [C -> *Y , .Y k ; i]

Completer : Nếu Item [A -> Xị X in* ; j] e s, thì đối với mọi item có dạng

IB -> X, *A c x k ; 1] e S j , add item |B->X, .A* c x k ; I] vào s,

S ca n n er : Neil item |A->X| *a c X m ; j| e s, và đáu vào liếp llieo là x,,|= a tilt add item |A->X, a* c X m ; jl vào SlH

c Vic bước cúu lluiạl loán:

Ikróc 1 : Xác cỉịiih s,Ị = { [A->.w ; 0] ị với A->w là luật sao cho A là kí hiệu gốc

Trang 34

Sail khi sinh ra tập các item, chúng ta phái xác định với xâu vào nlur thế thì có sinh được ra cây phím tích không, và thuật toán để sinh ra cây phân tích từ tập các ilem này.

1 Nòu lập Ilem S(n) chứa item dạng ịS -> u*,0| chứng lỏ có lổn lại cáy phân lích, chuyển sang bước 2 với nút thực liiện là [S > ư*,() ;u] với n chí ilcm này ớ tập item thứ n Nếu trái lại kết thúc và kết luận là không lổn lại cây phân lích

2 Iliực hiện với núi trong cây có dạng [A -> ịiX*Ỵ,k ; I1) J

'lìm irong lập item S(m) xem có item dạng [X -> A.*,Ij sao cho tổn tại [A ->

|i*Xy,k] iron g S(l)(chú ý chính lại hước này có thể sinh ra nhiều cây) Chèn nút ỊX -> Ầ*,l; mị vào làm con trái của nút ị A -> ($X*Y,k ; mj và thay [A -> (ÌX*y,k ; m] bằng [A -> P*Xy,k ; l| Thực hiện đệ qui bước 2 với các nút:

|X-> A.*,l ; 111] và [ A -> P*Xy,k ; lj

Thực hiện xong xong tất cả các nút trong cây, sao cho không CÒI1 nút nào có thể

sinh ihêm các nút mới nữa ta có các cây phân lích

Cat'll Ihực hiện chi liết và ví dụ minh lioạ dược mỏ tá trong phần 3.3 vì thuậi tuán này sẽ được sử dụng làm thuật toán phùn tích trong hệ thống của chúng ta.2.3.3 Chuyển đổi cấu trúc

Việc chuyển đổi cấu trúc ngữ pháp từ ngôn ngữ nguồn sang ngôn ngữ đích là cần ihiết vì các ngôn ngữ khác nhau thì ihtrờng có cách phàn hố ngữ nghĩa là không giống nhau Ví dụ như tiếng Anh (lù tính từ đứng trước danh lừ trong khi tiOng Việt thì ngược lại Hơn thế nữa, nhiểu khi do sự khác nhau về cấu trúc mà khi chuyển đổi lừ ngôn ngữ này sang ngôn ngữ khác thường phát sinh ra thành phần mới hoặc làm mấl đi thành phẩn nào đó Việc chuyển đổi cấu trúc dựa nên biểu diễn cây, do đó công việc chuyến dổi cú pháp ở dây liên quan đến các phép toán trên cây: đáo nhánh; xoá nhánh; chèn nhánh Thuật toán được thực hiện dệ qui theo hướng top-down Tuỳ theo việc chuyến đổi giữa hai ngôn ngữ

cụ (hể nào mà đỗi với mỗi luật cú pháp sẽ có các điểu khiếu chuyển đổi đi kèm Sau dãy la sẽ chỉ ra một số trường hợp Irong việc chuyển dổi lừ cây cú pháp liéng Anh sang tiếng Việt

Trang 35

Diío nhánh:

ví ilụ : She likes the blue book

= > Cỏ áy thích mội lịuyiỉii sách màu xanh cấu trúc : Adj N = > N Ađj

fill'll nhánh: đây là một phép chuyên dổi ihường ihây Hong việc chuyến đổi từ cây cú pháp tiếng Anh sang c â y cú pháp tiếng Việt Thông thường I11Ộ! nút sẽ bị inàì di và thay vào đó là một giá trị cụ thế trong ngôn ngữ đích

ví dụ:

She is as tall as him

Trang 36

= > Cô ấỵ cao như anh ấy

cấu trúc : “as” Adj “as” NP = > Ad j “như” NP

AdjP

• A

Ací jP

as" Adj "as" NP Adj "như" NP

Khuôn dạng điều kiển chuyển đổi cấu trúc: như chúng ta đã Ihấy mỗi nút trong cây bao g ổ m nút cha và c á c nút co n chính là thể hiện củ a m ột luật cú pháp tương ứng Mỗi chuyển dổi của nút của cày để sinh cây lương ứng Hong ngôn ngừ đích tương ứng với việc chuyển dổi các nút Irong luật để lạo luật tương ứng

Nhập nhằng do bản thân ngôn ngữ mà la gọi là nhập nhằng thực.

Ví dụ, xem hai câu sau đây:

Hying plane can be dangerous ( ] )

the man saw the girl with telescope (2)

Trong câu ( I ) chúng ta có thể hiểu theo hai cách:

Di máy bay có Ihể nguy hiểm (la)

Trang 37

( a i máy hay clang bay có thê gặp nguy hiếm ( I b)

( ung iiỉnr thế, câu ví dụ (2) cũng có thê hiếu llieo hai nghĩa:

Người đàn ông nhìn cô gái, cái cô mà có chiếc ống nhòm (2a)

Người đàn ỏng Iilùn cô gái bằng cliiêc ống Iiliòni (21))

Rõ ràng việc con người hiểu đúng nghĩa của những câu nlur thế này cũng không phái là việc đơn gián Đế hiểu chính xác nghĩa của những cáu Iilnr (lié thì cần phái đặl cluing Iron g những hoàn cánh, lình huòag cụ thể Dối với những hệ thống dịch máy thì việc xử lý ngữ cảnh là hầu nlìtr không có, mà nếu có thì chí

ớ những giới hạn nhất định, do vậy trong những n ường hợp như vậy hệ ihống sẽ coi như đó là trường hợp nhập nhàng giống như bán thân cùa những câu như vậy

Nhạp nhằng ngẫu nhiên, hay nhập nhằng hệ thống:

Loại nhập nhằng thứ liai là loại nhập nhằng do hệ thống sinh ra, nó sẽ không xáy ra đối với con người Đó ỉà vì sự tương ứng của một từ với nhiéu hình thái ngữ pháp khác nhau, và có nhiều cấu trúc cú pháp chấp nhận cùng một càu

Rõ ràng chúng tá thấy một hình thái từ có thể có nhiều chức năng ngữ pháp trong các tình huống khác nhau, ví dụ trong các câu:

I like swimming

There is a swimming pool in her house

She is swimming now

Trong ba câu trên, swimming đóng vai trò lần lượt là danh-động lừ, tính từ, và dộng lừ Con người sẽ sử dụng tri thức ngữ nghĩa dể loại bới các nhập nhằng để lay nghĩa chính xác của câu Tuy nhiên vứi hệ thống máy tính Ihì việc đó không phái là dễ dàng, tuy nhiên hệ thống cũng sẽ lấy thêm thông liu từ Iihiéu nguồn ngữ aghĩa đê’ xử lý những irường hợp nhập nhằng này

(ỉicíi quyết vấn đề nhập nhằng vê cấu trúc.

một số giãi pháp dê giải quyết vấn để nhập nhằng vẻ call Ink: sử ilụng thông tiu Vti ngừ nghĩa lioẠc tliổng tin ngồn Iigtr học; sứ dụng liiiii liinli; SII (lụng Iri

Trang 38

thức ngoài ngôn ngữ học và những tương tác với COI1 người Những chiến lược khác bao gồm bỏ qua nhập nhằng, chọn lựa chọn tối nhất (heo mội liêu chuẩn nào tió.

Thứ nhất lả sử dụng tri thức ngôn ngữ học: có nhiều kiêu n i thức về ngón ngữ, nlumg thông thường là sử dụng thông tin vé các lừ và các qui tác kết hựp của các từ mà khống, quan tâm đến các sự kiện thực lê mà các cáu này mô tá Một phương pháp là cung cấp cho bộ phân tích thông Ún về ràng buộc của sự xuất hiện của một từ phụ thuộc vào các từ khác Ví dụ rõ ràng cho phương pháp này

là việc sứ dụng kiểu bổ nghĩa nhất định cho lừng loại dộng lừ cụ thể, ý tường này cũng đã dược áp dụng trong việc xày dựng bộ phân tích cú pháp trong píiitm vi luận văn này (sẽ nói rõ trong phần xây dựng bộ luật cú pháp)

Thứ liai là sửdụiiỊỊ thòng tin ngữ cánh: trong thực tế có rất ÍI cáu thật sự !à nhập nhăng Thông thường da số các trường hợp nhập nhằng sẽ dược xử lý nhờ vào ngữ cánh, chẳng hạn dể cập đến câu trước đó hoặc đến chủ dề nói tới Tuy Iiliiẽn nil ít các hệ lị lổn g dịch máy có khá năng sử dung tri thức ngữ cảnh Đó là

do không có các cách để lưu giữ tri thức, mà nếu giả sứ có một cách lưu trữ các tri thức ngữ cảnh thì cũng rất khó biết mấu tri thức nào sẽ (lược dùng cho từng lìnli huống cụ ihể dể xử lý nhập nhằng

Thứ ba là sử dụng tri thức về thế giới thực: giải pháp này dược thực hiện khi phàn lích cú pháp không giải quyêì dưực các trường hợp nhập nhằng về cấu trúc

I iãy xem câu ví dụ sau:

The Ilian saw the horse with tile telescope

Rõ làng trong ví dụ này phân tích cú pháp không thế phàn hiệt dược dược cụm

with the telescope sẽ bổ nghĩa cho saw huy the horse. Nhưng nếu hiếu theo ihực

lé cuộc sống (tri lliức Ihế giới Ihực) thì with the telescope khổng lliô’ bổ nghĩa cho the horse 111 à trong trường hơp này nó phái bổ nghĩa cho ií/H'

Một ví dụ khác:

The man saw the gill with red hair

lié thô'ng pliân tích cú pháp không tliổ phau hiệt đươe with the hair bổ nghĩa cho ií/H' hay the girl. Nhưng đối với con người, thì không có sự nhập nhằng ở

Trang 39

(lây vì rõ ràng with the hair khổng lliể l)ỏ nghĩa cho hànli ilộug v<m\ (lo dó nó phái là bổ nghĩa của the gùi. Trong những trường hợp nlur thê này, xử lý trên các llìUỘc tính ngữ nghĩa ià một trung những cách hiệu quá dê xứ lý nhập nhầng.Cái khó của các hệ lỉiòng dịch máy hiện nay là dura llic thực hiện và kết hợp duợc tất các tri lliức có Ihè dể giải quyéì tất cả các hiện lượng nhập nhàng, llìậin chí chi trong phạm vi ngữ cánh và giới hạn ứng dụng hẹp Sự vô cùng phức tạp của tri thức thế giới thực là mộl trớ ngại có tính nguyên lắc cho những vấn dénày.

Mội s ố chiến lược khác xử lý nhập nhằng:

Rõ ràng rằng mặc dù có những giải pháp như [rên, nhưng vẫn luôn luôn có nhiều trường hợp nhập nhằng còn lại chưa xử lý dược Trong những trường hựp như thế hệ thống có thể chấp nhận những chiến lược giống như con người xử lý trong những trường hợp tương tự

Cái chiến lưực đẩu tiên là lựa chọn sự phân tích mà dường như đó là sự phân lích lự nhiên nhất hay hựp lý nlìấl Chắng hạn như phải lựa chọn từ book trong dure lùmg dộng từ hoặc (lanh cừ thì cácli lự nhiên là ta chọn (liiiil) lừ

(.'hiến lưực thứ hai là khi gặp nường hợp nhập nhằng thì có tlìế hỏi người dùng Mội sò’ hệ lliống dịch máy tương lác sử dụng cách liếp cận này: chúng hỏi ngirời dùng chọn sự phân tích lốt nhất theo tri thức của họ

( ’Ilie'll lược ilur ba là khi gặp những nường hợp có nhiều kêì quá phàn lích, hệ thống sẽ thực hiện đoán cái tốt nhất Hành động này sẽ (lựa vào nhiều (ri thức khác nhau, dựa trên cấu (lúc nào thường dùng hơn; (lựa liên ilộ iru tiên; dựa trẽn thống kê,

Và cuối cùng trong nhiêu trường Itợp, chúng ta không cần xứ lý nhập nhằng, vì ràng nội dung đó sẽ được giữ nguyên trong ngôn ngữ đích Ví dụ như câu “The man saw the horse with ihe telescope”, chúng ta có thể chuyên sang liếng Việt

mà không cán biếl with telescope là bổ nghĩa cho xa\\' hay cho the horse. Chúng

la có (hể dịch như sau: “Người đàn ông nhìn con ngựa với chiếc ống nhòm”

Rõ ràng khi chúng ta đọc , sẽ tự hiểu được là chiếc ống nhòm bổ nghĩa cho

Trang 40

Mộl điểu quan trọng cđn phải dược nhấn mạnh vSự phản biệt ílũ nói trong phàn loại các kiểu nhập nhằng là không cần thiết nếu nhìn dưới góc độ xử lý của liệ thống Vấn dề ở đây không phải là nhập nhằng yêu cầu ngôn ngữ học, ngữ cảnh hay ui thức «hực mà là cái dữ liệu liên quan có giái quyết ilưực nhập nhằng hay không Nếu hệ thống có thể nhận ra là có nhập nhằng và có (lủ phương tiện dể

xử lý nó thì hệ thống hoàn loàn có thể giải quyêì dược vấn dề dó

2.4 Phân tích Iigĩr nghĩa và Sinh câu

Van (liỉ ngữ nglũa Iron g ngôn ngữ tiên I|(ian liến :

- Biểu diễn hình thức cho ngữ nghĩa của ngôn ngữohường là sử tiling vị từ cấp

Ngày đăng: 23/09/2020, 22:33

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w