NGHIÊN CỨU ỨNG DỤNG NGÔN NGỮ UNL ĐỂ PHÁT TRIỂN HỆ THỐNG DỊCH TỰ ĐỘNG CHO TIẾNG VIỆT

Nội dung chính: Trong quá trình thực hiện đề tài, nhóm tác giả đã thực hiện các nội dung chínhnhư sau: - Nghiên cứu các vấn đề liên quan đến dịch tự động; - Nghiên cứu về hệ thống UNL; -

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

CHO TIẾNG VIỆT

Chủ nhiệm đề tài : PGS.TS Võ Trung Hùng

ĐÀ NẴNG, năm 2011

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ThS Nguyễn Hữu Siêu

KS Nguyễn Năng Hùng Vân

ĐÀ NẴNG, năm 2011

Trang 3

MỤC LỤC HÌNH ẢNH

Hình 1 Giao diện trang chủ của Systran 6

Hình 2 Giao diện phần mềm dịch tự động Reverso 7

Hình 3 Giao diện của Google Translator 8

Hình 4 Giao diện dịch trực tuyến Vdict 12

Hình 5 Kiến trúc hệ thống đánh giá chất lượng các hệ thống dịch trên mạng 16

Hình 6 Giao diện của công cụ đánh giá một hệ thống dịch 17

Hình 7 Biểu diễn đồ thị của UNL cho ví dụ 1 22

Hình 8 Biểu diễn đồ thị của UNL cho ví dụ 2 22

Hình 9 Biểu diễn bằng đồ thị của UNL 23

Hình 10 Tổng quan hệ thống UNL 42

Hình 11 Hệ thống UNL của Nepali 42

Hình 12 Dịch máy sử dụng UNL 43

Hình 13 Quá trình EnConverter 43

Hình 17 Quá trình hiển thị văn bản dưới ngôn ngữ mong muốn 44

Hình 18 Cấu trúc của Language Server 45

Hình 19 Quá trình EnConvertẻ và DeConverter 45

Hình 20 Cấu trúc của hệ thống ETAP-3 51

Hình 21 Quá trình tương tác giữa các Module của ETAP- 3 52

Hình 22 Giao diện ETAP3- Tiếng Anh - UNL 52

Hình 23 Graph View 53

Hình 24 Chế độ hiển thị UNL View 54

Hình 25 Chế độ hiển thị CDL View 55

Hình 26 Chế độ hiển thị RDF View 55

Hình 27 Qui trình chi tiết dịch tự động trong UNL 57

Hình 28 Giao diện của hệ thống DeConverter UNL – tiếng Nga 61

Hình 29 Màn hình kết quả của DeConverter UNL – tiếng Nga 61

Hình 30 Qui trình xây dựng từ điển UNL – tiếng Việt 67

Hình 31 Mục từ “avoir”trong từ điển UNL-FR 68

Hình 32 Chi tiết mục từ “abalone” trong từ điển Anh – Việt 69

MỤC LỤC BẢNG BIỂU

Trang 4

Bảng 1 Bảng chữ cái tiếng Việt 9

Bảng 2 Bảng các thanh âm trong tiếng Việt 9

Bảng 3 Bảng điểm đánh giá Systran và Reverso 18

Bảng 4 Kết quả so sánh headword từ điển UNL-FR và Anh – Việt 70

Bảng 5 Kết quả các từ loại trong từ điển UNL - tiếngViệt 70

Trang 5

MỤC LỤC MỤC LỤC HÌNH ẢNH I MỤC LỤC BẢNG BIỂU II MỤC LỤC III TÓM TẮT KẾT QỦA NGHIÊN CỨU V SUMMARY VII

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG 4

1.1 Dịch tự động 4

1.1.1 Giới thiệu 4

1.1.2 Các vấn đề liên quan đến dịch tự động 5

1.1.3 Một số phương pháp và hệ thống dịch tự động đã có 6

1.2 Tiếng Việt 8

1.2.1 Giới thiệu 8

1.2.2 Xử lý tiếng Việt trên máy tính 9

1.2.3 Dịch tự động tiếng Việt 10

1.3 Đánh giá chất lượng bản dịch 13

1.3.1 Phương pháp đánh giá các bản dịch 14

1.3.2 Công cụ đánh giá tự động chất lượng bản dịch 16

1.3.3 Thử nghiệm công cụ đánh giá chất lượng bản dịch 17

CHƯƠNG 2 NGÔN NGỮ VÀ HỆ THỐNG UNL 19

2.1 Giới thiệu về ngôn ngữ UNL 19

2.1.1 Biểu thức UNL 21

2.1.2 Các quan hệ 23

2.1.3 Từ vựng UNL 25

2.1.4 Phân loại từ vựng UNL 27

2.1.5 Thuộc tính UNL 30

2.2 Hệ thống dịch tự động dựa trên UNL 41

2.2.1 Mô hình tổng quát 41

2.2.2 Hệ thống DeConverter 45

2.2.3 Hệ thống EnConverter 46

2.3 Các công cụ hỗ trợ phát triển của UNL 47

Trang 6

2.3.1 Công cụ từ điển 47

2.3.2 Hệ thống ETAP- 3 48

2.3.3 CWL Conversion Framework 53

CHƯƠNG 3 ỨNG DỤNG CHO TIẾNG VIỆT 57

3.1 Ứng dụng UNL cho tiếng Việt 57

3.2 Xây dựng kho dữ liệu song ngữ Việt – UNL và thử nghiệm 58

3.3 Xây dựng từ điển UNL-tiếng Việt 64

3.3.1 Giải pháp đề xuất 65

3.3.2 Từ điển UNL – FR 68

3.3.3 Từ điển Anh – Việt 68

3.3.4 Thử nghiệm 69

KẾT LUẬN 72

TÀI LIỆU THAM KHẢO 73 PHỤ LỤC

Trang 7

TÓM TẮT KẾT QỦA NGHIÊN CỨU

Tên đề tài : Nghiên cứu ứng dụng ngôn ngữ UNL để phát triển hệ thống dịch

tự động cho tiếng Việt.

Mã số : B2010-ĐN02-56

Chủ nhiệm đề tài: PGS.TS Võ Trung Hùng

Điện thoại: 0905847373 E-mail: vthung@dut.udn.vn

Cơ quan chủ trì đề tài: Đại học Đà Nẵng

Cơ quan và cá nhân phối hợp thực hiện:

- Khoa Công nghệ Thông tin

- Trung tâm DATIC

- GETA (Groupe d’Etude pour la Traduction Automatique – Trung tâmnghiên cứu về dịch tự động), Cộng hòa Pháp

Thời gian thực hiện: 2009-2011

1 Mục tiêu:

Mục tiêu chung của đề tài là nghiên cứu ngôn ngữ Universal NetworkingLanguage và đề xuất giải pháp để phát triển hệ thống dịch tự động cho tiếng Việt Mục tiêu cụ thể như sau:

- Giới thiệu UNL đến giới nghiên cứu ở Việt Nam

- Phát triển một số mô-đun trong hệ thống như từ điển, hệ thống qui tắc ngữpháp cho tiếng Việt

- Tích hợp tiếng Việt vào hệ thống UNL sẵn có để dịch đa ngữ cho tiếngViệt

2 Nội dung chính:

Trong quá trình thực hiện đề tài, nhóm tác giả đã thực hiện các nội dung chínhnhư sau:

- Nghiên cứu các vấn đề liên quan đến dịch tự động;

- Nghiên cứu về hệ thống UNL;

- Nghiên cứu các công cụ đã có sẵn liên quan đến UNL;

- Nghiên cứu đề xuất qui trình và công việc cụ thể để bổ sung tiếng Việt vào

hệ thống UNL đang có sẵn;

- Nghiên cứu giải pháp và phát triển thử nghiệm từ điển tiếng Việt – UNL và

từ điển UNL – tiếng Việt;

Trang 8

- Nghiên cứu giải pháp sử dụng lại các công cụ sẵn có của UNL cho tiếngViệt (công cụ soạn thảo từ điển, tách từ, phân tích cú pháp, tạo đồ thị ngữnghĩa…);

- Nghiên cứu tích hợp tiếng Việt vào các ứng dụng của UNL

3 Kết quả chính đạt được (khoa học, ứng dụng, đào tạo, kinh tế – xã hội):

Kết quả đạt được đã đáp ứng đúng các nội dung trong thuyết minh, cụ thể nhưsau:

- Hướng dẫn 3 học viên cao học bảo vệ thành công

- Đang hướng dẫn 1 nghiên cứu sinh

- Đã công bố 3 bài báo (2 trên Tạp chí Khoa học & Công nghệ của Đại học

Đà Nẵng và 1 trên Kỷ yếu hội thảo quốc tế CISIS 2011, Seoul, Hàn Quốc)

- Đã xây dựng được từ điển UNL-Tiếng Việt để hỗ trợ dịch tự động

Trang 9

Project Title: Studying UNL language to develop an automatic translation

system for the Vietnamese.

Code number : B2010-ĐN02-56

Coordiantor : Assoc.Prof Võ Trung Hùng

Cell phone : 0905847373 E-mail: vthung@dut.udn.vn

Implementing institution: University of Danang

Specific objectives are as follows:

- Introduction about UNL to researcher in Vietnam

- Developing some modules in the UNL system as the dictionary, system ofrules for English grammar

- Integrated Vietnamese language to UNL available system to create a language translator

multi-2 Content:

During the implementation of the subject, the authors have made the maincontents as follows:

- Study problems related to automatic translation system;

- Study on the UNL system;

- Study available tools concerning UNL;

- Propose the process and tasks to add Vietnamese language into UNLsystem;

- Study solutions to create the Vietnamese - UNL dictionary;

- Study to reuse available tools in the UNL system for Vietnamese language(dictionary editor, cleavage, parsing, semantic graph creation );

Trang 10

- Study to integrate Vietnamese language into UNL system.

3 Result:

The obtained results have met the content of the project description, as follows:

- Tutorial 3 graduate students successfully defended

- Is guiding a PhD student

- Has published three articles (two in the Journal of Science & Technology ofthe University of Danang and one in the Proceeding of CISIS 2011International Conference, Seoul, Korea)

- Has been developed UNL-Vietnamese dictionary to support automatedtranslation

Trang 11

MỞ ĐẦU

Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựulớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội Cùng với sự phát triểnnày, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đóchúng ta có thể tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lượng thôngtin khổng lồ trên mạng Internet vẫn chưa được khai thác hết bởi nhiều lý do và mộttrong những lý do quan trọng nhất là rào cản về ngôn ngữ Một trong những giải phápnhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động

Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và cóthể sử dụng trên Internet như Google, AltaVista… ; nhiều hệ thống đã được đưa vàothương mại hoá trong những năm gần đây như Systran, Reverso và một số chươngtrình dịch thu phí có giá thành rất rẻ như Babylon Những công cụ này cho phép tạo ramột "bản dịch nghĩa" — một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta cóthể hiểu được ý nghĩa của văn bản gốc, nhưng cần phải chỉnh sửa nhiều để đạt đếnmột bản dịch hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chiphí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, trong đa số các trườnghợp, chất lượng bản dịch bằng máy sẽ thấp, không chính xác và hay bằng dịch thủcông Những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của

từ, sự nhập nhằng về ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong

sự khác biệt về giải thích các khái niệm Chúng ta biết rằng muốn có được một hệthống xử lý ngôn ngữ tự nhiên chất lượng cao thì trước hết cần phải có một hệ thốngphân tích ngữ nghĩa tốt

Vấn đề đặt ra là làm thế nào để bản dịch máy có chất lượng như được dịch bởi cácdịch giả? Lúc đó, hệ thống dịch tự động phải hoạt động như một quá trình xử lý tựđộng để dịch từ một ngôn ngữ con người đang dùng đến một ngôn ngữ khác bằngcách sử dụng đầy đủ các thông tin ngữ nghĩa và ngữ cảnh Dịch ngữ nghĩa cho phéptham chiếu đến cấu trúc ngữ pháp và mục đích của chúng là thiết lập một ngữ nghĩatương đương giữa 2 ngôn ngữ Nếu việc dịch dựa vào sự trình bày về mặt ngữ nghĩathì nó có thể chỉ ra rằng làm thế nào để các câu trong ngôn ngữ nguồn và ngôn ngữđích có mối quan hệ về mặt cấu trúc Trong phương pháp này, bản dịch máy sẽ sảnsinh lại ý nghĩa theo bối cảnh cho trước của tác giả mà không bị cản trở bởi cú pháp

và các ràng buộc về mặt ngữ nghĩa của ngôn ngữ đích Phương pháp dịch theo ngữnghĩa làm nổi bật nội dung của thông điệp và hiệu quả dịch sẽ tốt hơn

Trang 12

Tuy nhiên, người ta không mong muốn rơi vào tình trạng quá phức tạp của sự đadạng về ngữ nghĩa Có một cách tiếp cận khác đó là dịch bằng cách sử dụng một ngônngữ trung gian (ngôn ngữ biểu đạt riêng cho máy tính) Ngôn ngữ trung gian này chophép biểu diễn về mặt ngữ nghĩa ở mức đơn giản nhất có thể (giảm thiểu những rắcrối do vấn đề ngữ nghĩa) Một trong những dự án đi theo cách tiếp cận này gọi làUniversal Networking Language (UNL) UNL được đề xuất và triển khai thực hiệnbởi United Nations University, Tokyo, Nhật Bản

Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài ratiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỉ XX Năm 1969, công tyLogos đã được thành lập bởi Bernard E Scott với mục đích thực hiện các nghiên cứu

để phát triển hệ thống dịch tự động từ tiếng Anh ra tiếng Việt và vào tháng 6 năm

1970 hệ thống dịch tự động Anh–Việt Logos I ra đời với từ điển khoảng hơn 1000 từ.Ngoài Logos, hiện nay còn có một số phần mềm dịch tự động cho tiếng Việt nhưGoogle, EVtrans, VietTrans nhưng chất lượng dịch còn rất thấp, chưa đáp ứng đượcyêu cầu tối thiểu của người dùng

Vấn đề đặt ra là làm thế nào để có thể phát triển nhanh nhất hệ thống dịch tự độngcho tiếng Việt dựa trên những kết quả sẵn có và UNL là một trong những khả năng đểchọn lựa theo hướng này Khi thực hiện đề tài này, chúng tôi đã tiến hành nghiên cứutổng quan về UNL, thực hiện một số kết quả thử nghiệm trên hệ thống này và đề xuấtkhả năng ứng dụng UNL cho tiếng Việt Đặc biệt, chúng tôi đã xây dựng thử nghiệmmột từ điển UNL-Tiếng Việt theo tiêu chuẩn của UNL và đây là cơ sở để tiếp tục pháttriển các thành phần khác nhằm tích hợp tiếng Việt vào hệ thống UNL

Báo cáo tổng kết này được trình bày trong 3 chương Chúng tôi trình bày trongchương 1 những kết quả nghiên cứu tổng quan về dịch tự động và một số phươngpháp, công cụ, hệ thống sẵn có về dịch tự động Chương 2 giới thiệu chi tiết về UNL,các công cụ và cách bổ sung một ngôn ngữ mới vào hệ thống UNL Chương 3 trìnhbày khả năng và các công việc cần làm để tích hợp tiếng Việt vào hệ thống UNL vàđặc biệt là xây dựng từ điển UNL-tiếng Việt

Trong quá trình thực hiện đề tài, chúng tôi đã hướng dẫn 4 học viên cao họcchuyên ngành Khoa học máy tính tại Đại học Đà Nẵng thực hiện lần lượt các nghiêncứu liên quan đến UNL như sau:

Trang 13

STT Tên đề tài Tên học viên Năm bảo vệ

1 Tìm hiểu UNL – Universal

Networking Language và khả năng

ứng dụng cho Tiếng Việt

Võ Thị Thùy Vi 2009

2 Nghiên cứu xây dựng từ điển cho

dịch tự động áp dụng cho UNL-tiếng

Việt

Nguyễn Hữu Siêu 2010

3 Xây dựng môi trường hợp tác để phát

triển từ điển UNL - Tiếng Việt qua

mạng Internet

Trịnh Sử Trường Thi 2010

4 Nghiên cứu các công cụ phát triển

của UNL Lê Vũ Ngọc Anh 2011Nhóm tác giả đề tài ghi nhận những đóng góp quan trọng và cảm ơn các học viêncao học đã tham gia tích cực trong việc nghiên cứu, thử nghiệm hệ thống UNL và gópphần đáng kể vào việc thực hiện thành công đề tài nghiên cứu này

Trang 14

CHƯƠNG 1 TỔNG QUAN VỀ DỊCH TỰ ĐỘNG

Trong chương này, chúng tôi trình bày những nội dung liên quan đến dịch tự động(Automatic Translation hoặc Machine Translation) gồm các khái niệm và đánh giámột số hệ thống dịch tự động sẵn có như Google, SYSTRAN, REVERSO

Ngoài ra, chúng tôi cũng trình bày trong chương này các vấn đề về dịch tự độngcho Tiếng Việt và một số hệ thống dịch tự động có hỗ trợ Tiếng Việt

1.1 Dịch tự động

1.1 Giới thiệu

Dịch tự động (Automatic Translation) hay còn gọi là dịch máy (MachineTranslation) là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhântạo Nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính Như tên gọi,dịch tự động thực hiện dịch một một văn bản từ ngôn ngữ này (gọi là ngôn ngữnguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động,không có sự can thiệp của con người trong quá trình dịch

Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz vàDescartes đưa ra những ý tưởng đầu tiên về các mã thể hiện mối liên hệ giữa nhiềungôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết mà không cómột ứng dụng thực tế nào

Vào khoảng giữa thập niên 30, Georges Artsruni đã tạo ra một bộ từ điển song ngữvới chức năng tra từ tự động bằng các băng giấy, tiếp theo một nhà khoa học ngườiNga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi tiết hơn Đây không chỉ làmột bộ từ điển song ngữ mà còn bao gồm các quy tắc ngữ pháp cơ bản dựa trên quốc

tế ngữ (Esperanto)

Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 50, mặc dù nhưtrình bày ở trên, trước đó đã có một số công việc ở dạng manh nha đã được thực hiện.Vào năm 1954, Georgetown-IBM đã thực hiện thành công thí nghiệm dịch tự độnghoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh Thành công bước đầu này đã tạo điềukiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu Các nghiên cứu ở giaiđoạn này tập trung nghiên cứu các hệ thống dịch tự động dựa trên phân tích từ vựng

và ngữ pháp đặc trưng cho từng ngôn ngữ Vào cuối thập niên 80, khi máy vi tính có

Trang 15

tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâm nhiều hơnđến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó khôngthể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế.

Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiềunghiên cứu dựa trên các nền tảng thống kê và ví dụ Hiện nay có một số công ty xâydựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấp các sảnphẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoft cũng cócác sản phẩm tương tự do chính họ giữ bản quyền Một hướng tiếp cận mới là kết hợp(lai ghép) các phương pháp với nhau, như những nghiên cứu phối hợp giữa cácnguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê

Hiện nay, chất lượng dịch còn là vấn đề lớn, kết quả khả dĩ chỉ đạt được với cácloại văn bản khoa học hoặc pháp luật vốn được viết bởi văn phạm rất rõ ràng, chínhxác và đơn nghĩa Với những cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khácnhau khá xa, kết quả của các chương trình dịch tự động là rất hạn chế

Khi phát triển các hệ thống tự động người ta gặp phải ba vấn đề lớn sau đây:

- Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chia ngôi,giống, số, cách, )

- Ngữ pháp của ngôn ngữ rất phức tạp và có quá nhiều ngoại lệ khi sử dụng(chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu),một số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếngViệt)

- Ngữ nghĩa phụ thuộc nhiều vào bối cảnh, phải sử dụng ngữ cảnh mới có thểhiểu đúng ý nghĩa của từ

Trang 16

1.3 Một số phương pháp và hệ thống dịch tự động đã có

a SYSTRAN

Hiện tại, SYSTRAN là một hệ thống dịch tự động rất nổi tiếng và có chất lượngdịch khá tốt SYTRAN có thể sử dụng được trên môi trương Internet, máy đơn hoặctrên các hệ thống mạng cục bộ Nó có thể dịch được cho 36 cặp ngôn ngữ và ngườidùng có thể chọn dịch các văn bản chuyên ngành cho 20 lĩnh vực khác nhau Phiênbản dùng trên Internet có thể dịch cho 34 cặp ngôn ngữ và đặt tại địa chỉ:

http://www.systranet.com/translate

Giao diện của SYSTRAN phiên bản trên mạng Internet như sau:

Hình 1 Giao diện trang chủ của Systran

b REVERSO

Đây là hệ thống dịch tự động của Softissimo để dịch các văn bản hoặc các trangWeb dưới dạng HTML Hệ thống này có thể thực hiện được trên Internet, Intranethoặc như là một ứng dụng độc lập trên máy đơn Địa chỉ của hệ thống dịch trên

Trang 17

Internet là: http://www.reverso.net/text_translation.aspx?lang=EN Giao diện củaREVERSO như sau:

Hình 2 Giao diện phần mềm dịch tự động Reverso

c Google Translator

Google Translator là một công cụ dịch thuật trực tuyến được cung cấp bởiGoogle Nó dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sangngôn ngữ khác Đối với tài liệu có kích thước lớn người dùng cần tải lên dưới dạngtập tin để dịch Người dùng sau khi xem bản dịch có thể sửa đổi nội dung nếu thấy kếtquả dịch không được tốt và nội dung sửa đổi này có thể được sử dụng trong các lầndịch sau Hiện tại Google đã hỗ trợ dịch tự động cho tiếng Việt

Trang 18

Giao diện của Google Translator như sau:

Hình 3 Giao diện của Google Translator

1.2 Tiếng Việt

1.2.1 Giới thiệu

Tiếng Việt là một ngôn ngữ có lịch sử trên 4000 năm Nhưng do Việt Nam phảichịu sự thống trị của các triều đại Trung Hoa gần 1000 năm nên đến tận thế kỷ 16ngôn ngữ Việt chỉ có ngôn ngữ nói còn ngôn ngữ viết thì sử dụng chữ viết của TrungHoa Từ thế kỷ 16, ở Việt Nam có chữ viết riêng gọi là chữ Nôm, đây là loại chữ viếtgiống với kiểu chữ viết Trung Hoa nhưng theo tiếng nói của người Việt Cho mãi đếnkhi Alexandre de Rhodes (1591-1660) sử dụng bộ chữ viết La-tinh để thể hiện tiếngViệt thì tiếng Việt mới thật sự có chữ viết của riêng mình Chữ viết do Alexandre deRhodes sáng tạo ra được phát triển nhanh ở Việt Nam trong thế kỷ 17, 18 và đến năm

1906 nó được chính thức giảng dạy trong các trường học ở Việt Nam và từ năm 1919

nó được công nhận là chữ quốc ngữ của Việt Nam

Ngày nay, tiếng Việt là ngôn ngữ chính thức được sử dụng trong tất cả các lĩnhvực kinh tế, chính trị, văn hóa, xã hội, kỹ thuật … của Việt Nam và nó có khả năngbiểu đạt tất cả các thông tin đó một cách chính xác và dễ hiểu

Trang 19

Văn bản tiếng Việt được cấu tạo bởi các từ, mỗi từ được cấu tạo bởi các phụ âm,nguyên âm và thanh âm Các từ được viết từ trái sang phải và cách nhau bởi ký tựtrống Tiếng Việt có 17 phụ âm đơn và 12 nguyên âm Dưới đây là bảng chữ cái tiếngViệt:

Phụ âm In B C D Đ G H K L M N P Q R S T V X

Thường b c d đ g h k l m n p q r s t v xNguyên âm In A Ă Â E Ê I O Ô Ơ U Ư Y

Thường a ă â e ê i o ô ơ u ư y

Bảng 1 Bảng chữ cái tiếng Việt

Tiếng Việt bao gồm sáu thanh âm được chia làm hai loại là thanh bằng và thanhtrắc Mỗi thanh âm có một ký hiệu khác nhau khi biểu diễn bằng chữ viết Các thanh

âm tiếng Việt được trình bày ở sau:

Thanh âm Ký hiệu Ký tự

Bảng 2 Bảng các thanh âm trong tiếng Việt

1.2.2 Xử lý tiếng Việt trên máy tính

Muốn sử dụng được tiếng Việt trên các máy tính hiện tại người ta phải xây dựngcác phần mềm phục vụ cho xử lý tiếng Việt với các chức năng:

- Quy định bộ mã cho các ký tự tiếng Việt không có trong bảng mã ASCII như

ặ, ệ, ắ (hiện nay đã thống nhất sử dụng bộ mã Unicode nên vấn đề bộ mãcho tiếng Việt không còn được quan tâm nhiều như trước đây)

- Quy định bộ gõ dấu tiếng Việt Ví dụ: gõ kiểu TELEX thì aa-> â, ee-> ê …hoặc kiểu gõ VNI thì a6 -> â, e6 -> ê …

Trang 20

- Xây dựng bộ phông chữ để hiển thị tiếng Việt lên màn hình và in tiếng Việt

1970 hệ thống dịch tự động Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ bao gồmhơn 1000 từ tiếng Việt Việc nghiên cứu hệ thống dịch tự động này chấm dứt vào năm

1973

Gần như đồng thời, vào đầu những năm 70 thế kỉ XX, một dự án khác về xây dựng

hệ thống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành tại Tập đoàn viễnthông Xyzyx, California Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh -Pháp về vũ trụ học trên máy IBМ 360 theo nguyên tắc hoạt động, về cơ bản, tương tựnhư của hệ thống Logos và của phiên bản Systran những năm 70 thế kỉ trước

Tại Việt Nam, cùng với việc sử dụng rộng rãi máy tính nhu cầu về dịch tự động từtiếng Việt sang các thứ tiếng khác và ngược lại ngày càng cao Những nghiên cứu vềdịch tự động ở trong nước bắt đầu được triển khai từ cuối những năm 80 thế kỉ XX.Trong những năm gần đây, việc sử dụng ngoại ngữ trong giao lưu quốc tế đóng vai tròngày càng quan trọng nên nhu cầu sử dụng các hệ thống dịch tự động cho tiếng Việt làrất lớn

Thứ nhất, ở Việt Nam hiện nay, tăng mạnh nhu cầu đọc nhanh để lấy được nhiềuthông tin mới, bổ ích, đặc biệt là các thông tin về khoa học, công nghệ và kĩ thuật mớitrong các nước tiên tiến trên thế giới

Thứ hai, trong tất cả các trường học và công sở của Việt Nam ngày càng đòi hỏi sựnắm vững tiếng Anh như một phương tiện cần thiết trong giao tiếp giữa các ngôn ngữ

Trang 21

Thứ ba, nhu cầu giao lưu bằng nhiều ngoại ngữ về chuyên ngành khoa học ngàycàng tăng

Thứ tư, sự phát triển của công nghệ máy tính và Internet đã thúc đẩy nhu cầu khaithác thông tin trên nhiều trang web, bằng nhiều ngôn ngữ khác nhau Cần thừa nhậnrằng dịch tự động không thể thay thế hoàn toàn việc dịch thuật được thực hiện bởi conngười

Tuy nhiên, nhờ hệ thống tự động trong chương trình dịch bằng máy, có thể nângcao đáng kể hiệu quả lao động của người dịch và chất lượng của cán bộ chuyênngành Việc xây dựng hệ thống dịch tự động bằng tiếng Việt là rất cần thiết để đápứng nhu cầu to lớn của sự phát triển kinh tế và xã hội

Nhiều loại từ điển điện tử, các loại sách song ngữ dành cho Tiếng Việt đã và đangđược hình thành nhằm phục vụ cho việc dạy và học ngoại ngữ

Một số nhóm gồm các lập trình viên đã bắt đầu nghiên cứu tổ chức hệ thống dịch

tự động từ tiếng Anh ra tiếng Việt như EVTRAN, Vdict, Google,… Tuy nhiên các hệthống này mới chỉ đáp ứng phần nào việc dịch tự động từ các ngôn ngữ khác sangTiếng Việt ở mức độ câu đơn giản về ngữ nghĩa, cấu trúc Việc dịch các đoạn văndài, có nhiều từ chuyên ngành và phụ thuộc vào ngữ cảch thì độ chính xác chưa cao

Vdict

Dịch vụ trực tuyến đầu tiên dịch tự động Anh-Việt, mua lại bản quyền phần mềmEVTRAN do Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - BộKhoa học và Công nghệ Việt Nam) phát triển Sau đó, Vdict từ bỏ phần mềm này(trong một thời gian ngắn) để sử dụng công nghệ của Google Translate Tuy nhiên, vìtrong nhiều trường hợp EVTRAN dịch tốt hơn Google Translate nên Vdict đã sử dụnglại EVTRAN đồng thời với Google Translate: hiện nay khi dịch Anh sang Việt thìVdict cho ra cả hai kết quả Vdict không hỗ trợ dịch chuyên ngành cũng như trợ giúp

từ phía người dùng

Trang 22

Hình 4 Giao diện dịch trực tuyến Vdict

Kết quả đoạn văn Tiếng Việt có nghĩa không rõ ràng và độ chính xác không cao

EVTRAN 3.0 (English Vietnamese Translator)

Đây là phần mềm dịch tự động Anh - Việt cho phép dịch tự động văn bản tiếngAnh sang tiếng Việt và ngược lại EVTRAN 3.0 là sản phẩm Viện Ứng dụng Côngnghệ EVTRAN 3.0 dựa trên phân tích ngữ pháp để dựng câu cú pháp và câu cầndịch, phần mềm có thể dịch bài văn thành bài văn, giữ nguyên định dạng của văn bảngốc và có khả năng tương tác với người dùng để tăng chất lượng bản dịch EVTRAN3.0 còn có chức năng kiểm tra chính tả, soạn thảo văn bản tiếng Anh và tiếng Việt, tracứu và tìm kiếm thuận tiện các thông tin đa dạng về ngôn ngữ với các bộ từ điển lớn,

đa dụng hoặc chuyên ngành Anh - Anh và Anh - Việt

Một số đặc điểm của phần mềm EVTRAN 3.0:

- Có bộ phận phân tích văn phạm độc lập với dữ liệu, thuận tiện cho hiệu chỉnh

dữ liệu nhằm tăng chất lượng dịch và bổ sung các ngôn ngữ mới

Trang 23

- Bao gồm nhiều cơ sở tri thức chuyên ngành khác nhau như: y tế, sinh học, môitrường, kỹ thuật, máy tính, toán học, luật, kinh tế, thương mại, xây dựng, kiếntrúc, dầu khí, chính trị, xã hội,…

- Là phần mềm đóng gói, có tính năng dịch trực tiếp từ các ứng dụng khác và cóthể hoạt động như một dịch vụ trên web

- Có thể tích hợp trong các thiết bị di động

- Mã nguồn được viết bằng C++

Trên thực tế còn chưa có các số liệu về khả năng xây dựng được hệ thống dịch tựđộng hóa hoàn toàn có thể đảm bảo chất lượng dịch cao mà không đòi hỏi bất cứ sựhiệu đính nào Vì vậy, khi xây dựng hệ thống dịch tự động cần phải tính đến các yêucầu thực tế của người sử dụng hệ thống và khả năng mô hình hóa quá trình tư duy lờinói của chương trình hỗ trợ dịch tự động

1.3 Đánh giá chất lượng bản dịch

Hiện tại, chúng ta có thể tìm thấy ngày càng nhiều những hệ thống dịch tự độngmiễn phí trên mạng như : Systran, Reverso, WorldLingo, IBM translator… Những hệthống này cho phép dịch tự động các văn bản với một cặp ngôn ngữ chọn trước (ví

dụ : dịch một văn bản tiếng Anh sang tiếng Pháp)

Tuy nhiên, chất lượng dịch là vấn đề mà người sử dụng quan tâm vì đa số các hệthống dịch tự động hiện nay có chất lượng khá thấp Để dịch một văn bản từ tiếngAnh sang tiếng Pháp chúng ta có thể chọn sử dụng nhiều hệ thống dịch khác nhau vàkết quả nhận được cũng sẽ (có thể) khác nhau Vấn đề đặt ra là người sử dụng nênchọn sử dụng hệ thống dịch nào cho văn bản của mình ?

Trong khuôn khổ dự án TraCorpEx, đây là dự án hợp tác giữa Trung tâm Nghiêncứu Ứng dụng Công nghệ Thông tin và Truyền thông (DATIC, Trường Đại học BáchKhoa, Đại học Đà Nẵng) với Trung tâm nghiên cứu GETA (Trung tâm nghiên cứudịch tự động và xử lý ngôn ngữ tự nhiên, Cộng hoà Pháp) về dịch tự động trong việc

sử dụng kết hợp nhiều hệ thống dịch khác nhau; chúng tôi đã nghiên cứu và phát triểnmột công cụ cho phép đánh giá tự động chất lượng của một vài hệ thống dịch tự độngtrên cơ sở sử dụng phương pháp BLEU và NIST

Trang 24

Với công cụ này, chúng ta có thể đánh giá chất lượng của một hệ thống dịch tựđộng thông qua một kho dữ liệu (corpus) gồm các câu gốc và các câu dịch tham khảo.Công cụ của chúng tôi cho phép xử lý và gửi các câu của một văn bản gốc đến các hệthống dịch, tiếp theo lấy kết quả nhận được sau khi dịch đối chiếu với dữ liệu thamkhảo (thông thường là các bản dịch chuẩn) để tính điểm phục vụ việc đánh giá Công

cụ này có thể thực hiện được trên Internet hoặc trên máy đơn

1.3.1 Phương pháp đánh giá các bản dịch

Trong phần này chúng tôi giới thiệu vắn tắt hai phương pháp được sử dụng để đánhgiá những bản dịch : BLEU và NIST Những phương pháp này dựa trên cơ sở đánhgiá mức độ trùng khớp các dãy ký tự có độ dài n (phương pháp n-grams) giữa bảndịch bằng máy và bản dịch tham khảo [7][9]

a) Phương pháp BLEU

BLEU (BiLingual Evaluation Understudy) là một phương pháp dùng để đánh giáchất lượng bản dịch được đề xuất bới IBM tại hội nghị ACL ở Philadelphie vào tháng7-2001 [6] Ý tưởng chính của phương pháp là so sánh kết quả bản dịch tự động bằngmáy với một bản dịch chuẩn dùng làm bản đối chiếu Việc so sánh được thực hiệnthông qua việc thống kê sự trùng khớp của các từ trong hai bản dịch có tính đến thứ tựcủa chúng trong câu (phương pháp n-grams theo từ) [3] Việc đánh giá được thực hiệntrên kết quả thống kê mức độ trùng khớp các n-grams (dãy ký tự gồm n từ hoặc ký tự)

từ kho dữ liệu của kết quả dịch và kho các bản dịch tham khảo có chất lượng cao [5].Giải thuật của IBM đánh giá chất lượng của hệ thống dịch qua việc trùng khớp củacác n-grams đồng thời nó cũng dựa trên cả việc so sánh độ dài của các bản dịch

Công thức để tính điểm đánh giá của IBM là như sau [4]:

i

i p w score

ref 1,0L

Lmax)log(

- NRj : là số lượng các n-grams trong phân đoạn j của bản dịch dùng để tham

khảo

- NTj : là số lượng các n-grams trng phân đoạn j của bản dịch bằng máy

- wi= N-1

Trang 25

- Lref : là số lượng các từ trong bản dịch tham khảo, độ dài của nó thường là gầnbằng độ dài của bản dịch bằng máy.

- Ltra : là số lượng các từ trong bản dịch bằng máy

Giá trị score đánh giá mức độ tương ứng giữa hai bản dịch và nó được thực hiện

trên từng phân đoạn, ở đây phân đoạn được hiểu là đơn vị tối thiểu trong các bản dịch,thông thường mỗi phân đoạn là một câu hoặc một đoạn Việc thống kê độ trùng khớpcủa các n-grams dựa trên tập hợp các n-grams trên các phân đoạn, trước hết là nóđược tính trên từng phân đoạn, sau đó tính lại giá trị này trên tất cả các phân đoạn

b) Phương pháp NIST

NIST (National Institute of Standards and Technology) là sự phát triển trên phươngpháp BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa n-grams

và thông tin trên mỗi n-gram sẽ được sử dụng để phục vụ việc đánh giá

Sự biến đổi có thể của điểm đánh giá trên một n-gram nếu chúng ta thay đổi vị trícác phần tử trên cùng một n-gram cho chúng ta thấy rằng điểm số cũng sẽ thay đổinếu chúng ta thay đổi vị trí của các n-grams trên cùng một phân đoạn [2] Sự thay đổinày sẽ ảnh hưởng lớn lên kết quả đánh giá dựa trên sự tương ứng về vị trí của các n-grams trên phân đoạn Điều này cho thấy chúng ta có thể sử dụng công cụ số học đểtính toán sự biến đổi trên các n-grams bên cạnh sử dụng yếu tố hình học

Công thức để tính điểm của NIST [4]:

i

w w

n

L

L p

w w score

tra n

n

1

2

1

1,min

logexp

.)log(

)

inf(

1

Những trọng số thông tin được sử dụng để tính toán trên các n-grams trong tập tất

cả các các bản dịch tham khảo theo phương trình sau :

1 ) log inf(

N

N w

w n

(3)

- N1 = số lượng các tương ứng của các từ w1…wn-1

- N2 = số lượng các tương ứng của các từ w1…wn

- là  hệ số được chọn bằng 0.5 khi số lượng các từ trong bản dịch máy nhỏ hơnhoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì =1

Trang 26

- N=5

- Ltra : số lượng các từ trong bản dịch máy, Lref : số lượng từ trong bản dịchtham khảo

1.3.2 Công cụ đánh giá tự động chất lượng bản dịch

Đây là công cụ được phát triển bởi DATIC với kiến tổng quát như sau :

Hình 5 Kiến trúc hệ thống đánh giá chất lượng các hệ thống dịch trên mạng

Để đánh giá chất lượng của một hệ thống dịch trên Internet, chúng ta cần phải gửimột văn bản gốc và một bản dịch tham khảo Hệ thống của chúng tôi sẽ gửi bản dịchgốc đến các máy chủ phục vụ dịch văn bản ra ngôn ngữ chúng ta cần và lấy kết quảdịch đối chiếu với bản dịch tham khảo để dưa ra kết quả đánh giá về chất lượng bảndịch dựa trên tính điểm đánh giá theo phương pháp BLEU và NIST

1.3.3 Thử nghiệm công cụ đánh giá chất lượng bản dịch

DATIC đã phát triển một trang Web dùng để đánh giá tự động một hệ thống dịchtrên mạng Chúng ta cần phải nhập vào hai văn bản : một văn bản gốc và một bản dịchtham tham khảo Tiếp theo, chúng ta chọn một hệ thống dịch cần đanh giá và lựa chọnphương pháp đánh giá theo BLEU hoặc NIST

Giao diện của trang Web như sau :

Trang 27

Hình 6 Giao diện của công cụ đánh giá một hệ thống dịch

Với công cụ này, chúng ta nhận được kết quả kết quả đánh giá là độ chính xác củakết quả dịch nhận được từ hệ thống so với bản dịch tham khảo

Sau khi đánh giá ta có kết quả hiển thị như sau :

Ta lưu ý rằng, với phương pháp NIST nếu điểm số (score) càng lớn (<=10) thì độchính xác càng cao, ngược lại với BLEU nếu điểm số càng nhỏ (>=0) thì độ chính xáccàng cao

Chúng tôi đã tiến hành đánh giá chất lượng dịch của các hệ thống dịch miễn phítrên mạng (Systran và Reverso) trên hai kho dữ liệu BTEC và BIBLE và kết quả đạtđược khi đánh giá với 100000 câu cho mỗi cặp ngôn ngữ được chọn đánh giá :

Trang 28

Cặp ngôn ngữ Systran Reverso

Tây Ban Nha Anh 0,1322 3,5117 0,1257 3,3567Anh  Tây Ban Nha 0,0962 3,2985

Pháp  Anh 0,1277 3,4968 0,1276 3,4010Anh  Pháp 0,1163 3,1208 0,0996 3,1349

Bảng 3 Bảng điểm đánh giá Systran và Reverso

Tổng kết chương 1:

Trong chương này chúng tôi đã giới thiệu những kết quả nghiên cứu tổng quan vềdịch tự động bao gồm khái niệm, các vấn đề khó khăn gặp phải, dịch tự động chotiếng Việt và cách đánh giá chất lượng bản dịch từ các hệ thông dịch tự động Nhữngnghiên cứu này là cơ sở để thực hiện các nghiên cứu ở chương 2 về UNL như là mộtgiải pháp để giải quyết các vấn đề đặt ra hiện nay

Trang 29

CHƯƠNG 2 NGÔN NGỮ VÀ HỆ THỐNG UNL

Trong chương này, chúng tôi trình bày các nội dung liên quan đến ngôn ngữ UNL,các thành phần chính tạo nên hệ thống UNL và một số công cụ được phát triển để hỗtrợ khi bổ sung một ngôn ngữ mới vào hệ thống UNL

2.1 Giới thiệu về ngôn ngữ UNL

UNL (Universal Networking Language) là ngôn ngữ máy tính cho phép máy tính

có thể truy cập thông tin và tri thức mà không bị rào cản ngôn ngữ Nó là một ngônngữ giả có khả năng mô phỏng thế giới ngôn ngữ tự nhiên của con người trong giaotiếp Kết quả là nó cho phép mọi người có thể biểu diễn tất cả các tri thức từ ngôn ngữ

tự nhiên Nó cũng cho phép máy tính giao tiếp, vì thế cung cấp cho các máy tính và hệthống máy tính các cấu trúc ngôn ngữ để phân bổ, nhận dạng và hiểu thông tin đangôn ngữ

UNL biểu diễn thông tin hoặc tri thức dưới dạng mạng ngữ nghĩa với cấu trúc đa

đồ thị Khác với ngôn ngữ tự nhiên, sự biểu diễn của UNL là không nhập nhằng.Trong mạng đa ngữ nghĩa của UNL, các nút biểu diễn các khái niệm và các cạnh biểudiễn mối quan hệ giữa các khái niệm

Tuy UNL là ngôn ngữ của máy tính nhưng nó có tất cả các thành phần của ngônngữ tự nhiên UNL bao gồm UW (Universal Word) – Từ vựng, Relation – Quan hệ,Attributes – Thuộc tính và UNL Knowledge Base – Kiến thức cơ bản

- UW (Universal Word): chứa các từ vựng của UNL Các từ này liên kết với

nhau để tạo thành câu

- Relation (Quan hệ): chỉ định vai trò của mỗi từ trong câu

- Attributes (thuộc tính): chỉ ngụ ý của người nói.

- UNLKB (UNL Knowledge Base): cung cấp những định nghĩa ngữ nghĩa của

từ vựng UNLKB định nghĩa mối quan hệ có thể có giữa các khái niệm baogồm các quan hệ phân cấp và các kỹ thuật tham chiếu dựa trên các quan hệgiữa các khái niệm Vì thế UNLKB cung cấp nền tảng ngữ nghĩa của UNL đểchắc chắn nghĩa của biểu thức UNL là không nhập nhằng

Trang 30

Máy tính trong tương lai cần có khả năng xử lý tri thức Xử lý tri thức có nghĩa làmáy tính tiếp nhận khả năng suy nghĩ và cách nhìn của con người bằng cách sử dụngtri thức của con người Việc dựa trên các khái niệm là rất quan trọng cho quá trình xử

lý Máy tính cần có nhiều tri thức để xử lý tri thức Vì thế máy tính cần có một ngônngữ để có tri thức giống như con người Cần có một ngôn ngữ để xử lý các khái niệmgiống như con người UNL là một ngôn ngữ dành cho máy tính để làm những việc đó.UNL có thể biểu diễn tri thức giống như ngôn ngữ tự nhiên UNL có thể biểu diễn cáckhái niệm như ngôn ngữ tự nhiên

Nhiều hệ thống có liên quan đến tri thức và khái niệm đã được phát triển Tuynhiên, việc biểu diễn tri thức hay khái niệm của các hệ thống khác nhau là khác nhau.Hơn nữa, việc biểu diễn của các hệ thống còn phụ thuộc vào ngôn ngữ Cụ thể là, kháiniệm gốc được sử dụng để biểu diễn tri thức là phụ thuộc vào ngôn ngữ Tri thức hoặckhái niệm của hệ thống này không thể sử dụng được cho hệ thống khác

Việc này cũng tương tự như việc dịch máy Tất cả các kết quả nghiên cứu và pháttriển của các hệ thống dịch máy khác nhau không thể được tích hợp chung vào trongmột hệ thống để tạo thành hệ thống dịch máy đa ngữ nhằm có thể phá vỡ hàng ràongôn ngữ UNL ra đời góp phần khắc phục những hạn chế này

UNL có thể giảm chi phí phát triển tri thức và những khái niệm cần thiết cho quátrình xử lý tri thức bằng cách chia sẻ tri thức và khái niệm Hơn nữa, nếu một tri thứccần thiết được phần mềm miêu tả thành ngôn ngữ cho máy tính như UNL thì phầnmềm chỉ cần biên dịch cấu trúc được viết trong ngôn ngữ dùng để biểu diễn khái niệm

đó Và những cấu trúc này có thể chia sẻ với các phần mềm khác Vì thế chúng ta cóthể tích lũy các tri thức cho máy tính giống như là thư viện của con người

UNL biểu diễn thông tin, nghĩa là câu biểu diễn bằng câu Câu thông tin được biểudiễn thành đa đồ thị gồm có từ vựng (UW - Universal Word) gọi là nút và các quan hệgọi là cạnh Đa đồ thị này cũng được biểu diễn như là tập quan hệ nhị phân có hướng,mỗi quan hệ nhị phân chỉ mỗi quan hệ giữa hai từ vựng được biểu diễn trong câu.UNL biểu diễn thông tin phân thành chủ ngữ và vị ngữ Chủ ngữ được biểu diễn sửdụng từ vựng và quan hệ Vị ngữ được biểu diễn sử dụng thuộc tính được gắn kèm với

từ vựng Tài liệu UNL sẽ chứa một danh sách dài các quan hệ giữa các khái niệm

Trang 31

Sau đây, chúng ta sẽ tiến hành tìm hiểu các khái niệm, thành phần của ngôn ngữUNL.

2.1.1 Biểu thức UNL

UNL biểu diễn thông tin và tri thức theo hình thái mạng ngữ nghĩa với đa đồ thị.Mạng ngữ nghĩa UNL là một tập các quan hệ nhị phân, mỗi quan hệ nhị phân baogồm một quan hệ và hai từ vựng của mối quan hệ đó

Mối quan hệ nhị phân của UNL được biểu diễn theo dạng sau :

<relation> ( <uw1>, <uw2> )

- <relation> là một trong các quan hệ được miêu tả trong UNL Specifications

- <uw1>, <uw2> là hai từ vựng chứa trong mối quan hệ <relation> Quan hệ nhịphân này được hiểu như sau:

Mối tương quan này có nghĩa là từ vựng chứa trong <uw2> :

- Được chỉ định có quan hệ với từ vựng chứa trong <uw1> với tên mối quan hệđược thể hiện trong <relation>

- Ngược lại từ vựng chứa trong <uw1> sẽ có mối quan hệ với từ vựng chứa trong

<uw2> với tên mối quan hệ được thể hiện trong <relation>

Điều đó có nghĩa là, tất cả các mối quan hệ nhị phân tạo nên trong biểu thức UNLđều có hướng và mạng ngữ nghĩa của biểu thức UNL là đồ thị có hướng

Biểu thức UNL là mạng đa ngữ nghĩa Vì thế, mỗi nút trong đồ thị, <uw1> và

<uw2> của quan hệ nhị phân có thể được thay thế bởi mạng ngữ nghĩa Do đó một nútbao gồm mạng ngữ nghĩa của biểu thức UNL và được gọi là “scope” Một scope cóthể kết nối với từ vựng khác khác hoặc các scope khác Biểu thức UNL trong scopeđược phân biệt với scope khác bằng cách gán ID cho quan hệ trong <relation> của tậpcác quan hệ nhị phân trong scope

Miêu tả dạng chung của quan hệ nhị phân của biểu thức UNL như sau:

<relation>:<scope-id> ( <node1>, <node2> )

- <scope - id> là ID được gán cho scope, <scope - id> là không cần thiết khi dùng

để chỉ định 1 quan hệ nhị phân không thuộc vào bất kỳ scope nào

Trang 32

- <node 1> và <node 2> có thể là UW hoặc là <scope node> Một <scope node>được cung cấp trong <scope - id>.

Ví dụ 1: Ta có câu tiếng Anh

“John works from Monday to Friday “

Được biểu diễn trong UNL như sau :

agt(work(icl>do).@entry.@present,John(iof>person))

man(work(icl>do).@entry.@present,Monday)

fmt(Monday,Friday)

Được biểu diễn trong đa đồ thị như sau :

Hình 7 Biểu diễn đồ thị của UNL cho ví dụ 1

Trang 33

“Ram is going to the school eating an apple”

Hình 9 Biểu diễn bằng đồ thị của UNL

agt(go(icl>do).@progress.@present.@entry, Ram(iof>person)

plt(go(icl>do).@progress.@present.@entry, school(icl>thing).@def)

coo(go(icl>do).@progress.@present.@entry, eat(icl>do).@present.@progress) aoj(eat(icl>do).@progress.@present, apple(icl>thing).@indef)

2.1.2 Các quan hệ

Có nhiều nhân tố được xem xét trong việc lựa chọn cho việc tạo thành mối quan hệgiữa các khái niệm Các nhân tố khác nhau cung cấp số lượng khác nhau của các tậpquan hệ khác nhau

Quan hệ của UNL được lựa chọn dựa theo các tiên đề sau :

Tiên đề 1 : Điều kiện cần

Khi một từ vựng có quan hệ với nhiều hơn một từ vựng khác, mỗi quan hệ nênđược gán nhãn và do đó có thể phân biệt các quan hệ là điều kiện cần cho các kháiniệm của mỗi biểu diễn UW

Tiên đề 2 : Điều kiện đủ

Trang 34

Khi có các quan hệ giữa các từ vựng thì nhãn quan hệ nên được gán làm sao để cóthể thể hiện được vai trò của mỗi từ vựng.

- Nhãn quan hệ được biểu diễn bởi chuỗi gồm ba ký tự hoặc là ít hơn

- Quan hệ giữa các từ vựng là quan hệ nhị phân

- Các quan hệ có nhãn khác nhau dựa theo vai trò khác nhau của chúng thể hiện UNL định nghĩa 41 nhãn quan hệ để mã hóa các khái niệm chứa trong ngôn ngữ tựnhiên Các nhãn quan hệ được gom thành 8 nhóm chính sau :

Quan hệ chỉ người tham gia :

Trang 35

Từ vựng UNL là những từ tạo nên từ vựng của UNL Một từ vựng UNL không chỉ

là một đơn vị của cú pháp và ngữ nghĩa của UNL để diễn tả khái niệm mà còn là yếu

tố cơ bản của UNL để diễn tả một câu hoặc một khái niệm phức tạp Vì thế một từvựng UNL được biểu diễn bằng một nút trong đa đồ thị của biểu thức UNL

a Cấu trúc UNL

Một UW là một chuỗi các ký tự với các ràng buộc

Trang 36

<UW> ::= <headword> [<constraint list>]

<headword> ::= <character>…

<constraint list> ::= “(“ <constraint> [ “,” <constraint>]… “)”

<constraint> ::= <relation label> { “>” | “<” } <UW> [<constraint list>] |

<relation label> { “>” | “<” } <UW> [<constraint list>]

[ { “>” | “<” } <UW> [<constraint list>] ] …

<relation label> ::= “agt” | and” | “aoj” | “obj” | “icl” |

<character> ::= “A” | | “Z” | “a” | | “z” | 0 | 1 | 2 | | 9 |

c Constraints or Restrictions - Ràng buộc

Tập các ràng buộc giới hạn sự giải nghĩa của từ vựng thành tập con hoặc là cáckhái niệm đặc biệt chứa trong từ vựng cơ bản tạo thành “Từ vựng ràng buộc”

Ví dụ : Từ vựng cơ bản “drink” không có ràng buộc bao gồm các khái niệm “chochất lỏng vào miệng”, “chất lỏng được cho vào miệng”, “chất lỏng với cồn”, “hút:

Từ vựng ràng buộc “drink (agt>thing, obj>liquid)” chỉ tập con của cáckhái niệm “cho chất lỏng vào miệng” và nó phù hợp với động từ “uống(drink)”, “nuốt (gulp)”, ”slurp”, ”chug” trong tiếng Anh

Ràng buộc của từ vựng được tạo nên bởi cặp các quan hệ và từ vựng được địnhnghĩa (còn gọi là thành phần biểu diễn của từ vựng) Nếu có nhiều ràng buộc thì cácràng buộc phân cách nhau bởi dấu phẩy Một từ vựng ràng buộc được định nghĩathông qua Master Definition Trong Master Definition, nghĩa đầy đủ của từ vựng đượcđịnh nghĩa phải được miêu tả trong ràng buộc

Trang 37

Nhãn của quan hệ sử dụng trong danh sách ràng buộc phải được định nghĩa trongUNL specifition và nên được sắp xếp theo thứ tự ABC nếu có nhiều hơn ràng buộcđược định nghĩa.

Để định nghĩa nghĩa của từ vựng một cách chính xác hơn chẳng hạn, tập con kháiniệm của từ vựng luôn được định nghĩa ở bên trong của từ vựng cấp cao hơn mà cónghĩa tổng quát hơn Việc định nghĩa liên kết của từ vựng thông qua quan hệ “icl” Ví

dụ, từ vựng ‘provide(icl>give(agt>thing,gol>thing,obj>thing))’ định nghĩa là tập conkhái niệm của từ vựng ‘give(agt>thing,gol>thing,obj>thing)’ Tuy nhiên, nếu từ mụccủa từ vựng cấp cao hơn là “be”, “do”, “occur” and “uw”, thì từ mục không cần thiếtcho những ràng buộc còn lại từ vựng bên trong khi mỗi tập ràng buộc của những từvựng cấp cao là tập ràng buộc đủ cho các UW lower của nó Ví dụ, với MasterDefinition‘drink({icl>do(}agt>thing,obj>liquid{)}),UW ‘drink(agt>thing,obj>liquid)’

và quan hệ nhị phân ‘icl(drink(agt>thing,obj>liquid), do(agt>thing,obj>liquid))’ làtổng quát Phần quan hệ với từ mục “do” được bỏ khỏi biểu thức UW thấp hơn vàquan hệ nhị phân sẽ được miêu tả trong UNLKB chỉ ra rằng

‘drink(agt>thing,obj>liquid)’ là tập con của khái niệm ‘do(agt>thing,obj>liquid)’ Chitiết của miêu tả từ vựng được chỉ rõ trong hướng dẫn về từ vựng của UNL

2.1.4 Phân loại từ vựng UNL

Từ vựng là chuỗi ký tự và hầu hết các từ vựng cơ bản được tạo nên từ các từ ngữtrong tiếng Anh với các ràng buộc Từ vựng có thể miêu tả các mức khái niệm khácnhau phụ thuộc vào các ràng buộc và có thể sử dụng để miêu tả các khái niệm đặc biệthoặc riêng biệt hơn hoặc cụ thể hơn bằng cách đưa các thuộc tính và ID hoặc sự ràngbuộc từ các miêu tả UNL khác Có 4 loại từ vựng như sau :

a Từ vựng cơ bản :

Từ vựng cơ bản là một chuỗi các ký tự tương ứng với các từ của tiếng Anh Vì thếmột từ vựng cơ bản biểu thị tất cả các khái niệm tương ứng với nó trong tiếng Anh.Tuy nhiên một từ vựng cơ bản không được sử dụng khi một biểu diễn của tiếng Anh

là mơ hồ Vì thế một từ vựng cơ bản thường được sử dụng như là từ khóa đầu của từvựng ràng buộc cho những khái niệm đặc biệt Một từ vựng cơ bản được sử dụng khibiểu diễn của tiếng Anh là không nhập nhằng

b Từ vựng ràng buộc

Trang 38

Từ vựng ràng buộc là quan trọng nhất Từ vựng ràng buộc được tạo nên bởi các từmục có giới hạn Điều này rất cần thiết khi biểu diễn của tiếng Anh với từ mục cónhiều nghĩa hơn là khái niệm mà nó định nhắm đến Sự giới hạn sẽ giới hạn các kháiniệm của mà một biểu diễn tiếng Anh biểu thị Mỗi từ vựng ràng buộc được tạo nên từ

sự biểu diễn của tiếng Anh để biểu thị một khái niệm đặc biệt hoặc riêng biệt hoặc làmột tập hợp con của khái niệm của sự biểu diễn tiếng Anh

Ví dụ :

state((icl>express(agt>thing,gol>person,obj>thing)) là khái niệm đặc biệt

hơn chỉ hành động của con người diễn tả một việc gì đó

state(icl>country) là khái niệm đặc biệt của “state” chỉ đất nước.

state(icl>region) là một khái niệm đặc biệt của “state” chỉ một miền của

đất nước.

state(icl>abstract thing) là khái niệm đặc biệt của “state” chỉ loại của

điều kiện là con người hoặc một thứ gì đó bên trong Đây là từ vựng được định nghĩa như là khái niệm chung mà có thể hiểu được khi định nghĩa từ vựng đồng nghĩa khác như “situation” hay “condition”

state(icl>government) là khái niệm đặc biệt của “state” chỉ loại chính

quyền.

Các thông tin trong ngoặc đơn chính là danh sách các giới hạn và nó miêu tả một số các khái niệm giới hạn, đó là lý do tại sao gọi là UW giới hạn Nói một cách dễ hiểu, “sự giới hạn có nghĩa là hướng sự chú ý của bạn đến phần nghĩa đặc biệt riêng của từ”

c Từ vựng mở rộng

Từ vựng mở rộng chỉ các khái niệm không có trong tiếng Anh và vì thế được giớithiệu như là một danh sách mở rộng Các từ của ngôn ngữ nước ngoài được sử dụngnhư là từ mục với các ký tự tiếng Anh

Ví dụ :

ikebana(icl>flower arrangement) chỉ một loại sắp xếp của hoa có nghĩa là

một việc nào đó bạn làm với những bông hoa

samba(icl>dance) chỉ một kiểu ngày

soufflé(icl>food) chỉ một loại thức ăn

Để mở rộng những khái niệm có trong văn nói của tiếng Anh, chúng được miêu tảbằng các từ vay mượn của nước ngoài và thường không có trong từ điển tiếng Anh Vìvậy một cách đơn giản, chúng phải được thêm vào để có thể sử dụng các khái niệmđặc biệt này trong UNL hệ thống Sự giới hạn cung cấp các loại khai sniệm có quan

hệ với các UW mở rộng này và các ràng buộc cung cấp mối quan hệ nhị phân giữanhững khái niệm này với các khái niệm khác, tổng quát hơn, những khái niệm luôn

Trang 39

luôn được định nghĩa Không cần thiết để nói, từ vựng mở rộng cũng được định nghĩathông qua Master Definition và định nghĩa từ vựng hoặc sự miêu tả của chính nó phảiđược sử dụng trong sự giới hạn của UW mở rộng.

d Từ vựng tạm thời

Số hoặc là địa chỉ email được sử dụng mà nó không cần thiết phải được định nghĩa

Nó có thể xuất hiện trong tài liệu UNL và được gọi là từ vựng tạm thời

e Từ vựng phức hợp

Từ vựng phức hợp là một tập của quan hệ nhị phân mà nó được gom lại với nhau

để biểu diễn một khái niệm phức tạp Từ vựng phức tạp được chỉ những khái niệmphức tạp mà nó có thể hiểu được và do đó mọi người có thể sử dụng nó trong một sốhoàn cảnh Từ vựng phức tạp được miêu tả trong phạm vị của biểu thức UNL Phạm

vi làm nó có thể khi từ vựng phức tạp cần được kết nối với từ vựng khác

Trang 40

agt:01(leave(agt>thing,obj>place).@entry, woman(icl>person).@pl)

Sau khi nhóm này được định nghĩa, mỗi khi ID của từ vựng phức hợp, ví dụ nhưmột trong ví dụ trên, được sử dụng để trích dẫn UW phức hợp Cách để trích dẫn từvựng phức hợp được giải thích trong phần tiếp theo

Từ vựng phức hợp được xem như là một câu hoặc là một phần của câu, vì thế trongđịnh nghĩa của từ vựng phức hợp cần phải có từ khóa @entry

Được định nghĩa một lần, một từ vựng phức hợp có thể được trích dẫn hoặc thamchiếu đến bằng một cách đơn giản nhất bằng cách sử dụng ID của từ vựng phức hợpnhư là một từ vựng

Phương thức để trích dẫn ID của từ vựng phức hợp sau dấu “:” Sự tham chiếu đến

từ vựng phức hợp được gọi là Scope Node Scope Node có cấu trúc như sau :

<Scope Node> ::= “:” <Compound-ID> [ <Attribute List> ]

<Compound-ID> ::= two digits of a number ”01” – “99”, except “00”

<Attribute List> ::= { “.” <Attribute> } …

<Attribute> ::= “@entry” | “@may” | “@past” |

Để hoàn thành biểu thức UNL của câu [Women who wear big hats in movietheaters] should be asked [to leave]”, cần cấu trúc sau :

obj(ask(agt>thing,gol>person,obj>uw).@should.@entry, :01)

gol(ask(agt>thing,gol>person,obj>uw).@should.@entry,

woman(icl>person) @pl.@topic )

- ‘obj(ask(agt>thing,gol>person,obj>uw).@should.@entry, :01)’ chỉ ra rằng

Scope 01 là đối tượng của “ask”

- ‘:01’ chỉ nút phạm vị Nó được dịch như là tập các quan hệ nhị phân địnhnghĩa trên Nó có nghĩa là “:01” nên được hiểu là bao gồm những quan hệ nhịphân này Từ vựng phức hợp có thể được trích dẫn với từ vựng phức hợp khác

2.1.5 Thuộc tính UNL

Thuộc tính của từ vựng được sử dụng để miêu tả chủ ngữ của câu Nó cho thấyquan điểm của người nói, làm thế nào quan điểm của người nói được diễn đạt Nó baogồm các kỹ thuật như “tốc độ hành động”, “thuộc tính đề xuất”, “giá trị đúng”

Định dạng
Số trang	85
Dung lượng	4,12 MB