1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHÀ MÁY THUỶ ĐIỆN A VƯƠNG ĐẾN CÁC CHẾ ĐỘ VẬN HÀNH CỦA HỆ THỐNG ĐIỆN VIỆT NAM" pdf

8 579 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 269,98 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô hình thứ nhất, chúng ta sẽ chuyển đổi các văn bản tiếng Việt sang dạng dữ liệu UNL và sau đó sử dụng các bộ dịch ngược của UNL để dịch đến các ngôn ngữ khác.. Một trong những giải phá

Trang 1

NGHIÊN CỨU VÀ ỨNG DỤNG UNL CHO XỬ LÝ TIẾNG VIỆT

UNL STUDY AND APPLICATION

TO THE VIETNAMESE LANGUAGE PROCESSING

Võ Trung Hùng

Trường Đại học Bách khoa, Đại học Đà Nẵng

TÓM TẮT

Trong bài báo này chúng tôi giới thiệu những thông tin tổng quát về UNL và chỉ ra cách thức làm thế nào để ứng dụng nó cho tiếng Việt UNL được viết tắt từ Universal Networking Language, nó là ngôn ngữ máy tính nhằm mục đích xử lý thông tin và tri thức mà không bị cản trở bởi rào chắn ngôn ngữ Đây là ngôn ngữ nhân tạo cho phép đặc tả ngôn ngữ tự nhiên theo cách truyền thông của con người Mục đích cuối cùng là cho phép con người diễn đạt ngôn ngữ

tự nhiên thông qua ngôn ngữ này Nó cũng cho các phép máy tính liên lạc được với nhau nhờ các tính năng gửi, nhận và hiểu được thông tin đa ngữ Chúng tôi đề xuất hai mô hình để ứng dụng UNL cho tiếng Việt Mô hình thứ nhất, chúng ta sẽ chuyển đổi các văn bản tiếng Việt sang dạng dữ liệu UNL và sau đó sử dụng các bộ dịch ngược của UNL để dịch đến các ngôn ngữ khác Trong mô hình thứ hai, chúng ta sẽ phát triển các mô-đun cần thiết để tích hợp tiếng Việt

vào UNL nhằm tạo ra một hệ thống dịch đa ngữ

ABSTRACT

In this paper, we introduce general information about UNL and how to apply it to the vietnamese language processing UNL (Universal Networking Language) is a computer language that enables computers to process information and knowledge across language barriers It is an artificial language that replicates, in the cyber world, the functions of natural languages in human communication As a result, it enables people to express their ideas through natural languages It also enables computers to intercommunicate; thus, providing people with a linguistic infrastructure for distributing, receiving and understanding multilingual information We propose two models to apply UNL to vietnamese processing The first model,

we will translate vietnamese documents into UNL format and then use available UNL DeConverter to translate into other languages In the second model, we integrade vietnamese into an UNL system to create a multilingual translation system

1 Giới thiệu

Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu lớn trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội Cùng với sự phát triển này, nhân loại đã tạo ra lượng thông tin khổng lồ và phần lớn những thông tin đó chúng

ta có thể tìm thấy thông qua hệ thống mạng Internet Tuy nhiên, lượng thông tin khổng

lồ trên mạng Internet vẫn chưa được khai thác hết bởi nhiều lý do và một trong những lý

do quan trọng nhất là rào cản về ngôn ngữ Một trong những giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thống dịch tự động

Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và

Trang 2

có thể sử dụng trên Internet như Google, AltaVista… ; nhiều hệ thống đã được đưa vào thương mại hoá trong những năm gần đây như Systran, Reverso và một số chương trình dịch thu phí có giá thành rất rẻ như Babylon Những công cụ này cho phép tạo ra một

"bản dịch nghĩa" — một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta có thể hiểu được ý nghĩa của văn bản gốc, nhưng cần phải chỉnh sửa nhiều để đạt đến một bản dịch hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chi phí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, trong đa số các trường hợp, chất lượng bản dịch bằng máy sẽ thấp, không chính xác và hay bằng dịch thủ công Những hệ thống này đang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng

về ngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt về giải thích các khái niệm Chúng ta biết rằng muốn có được một hệ thống xử lý ngôn ngữ tự nhiên chất lượng cao thì trước hết cần phải có một hệ thống phân tích ngữ nghĩa tốt

Vấn đề đặt ra là làm thế nào để bản dịch máy có chất lượng như được dịch bởi các dịch giả? Lúc đó, hệ thống dịch tự động phải hoạt động như một quá trình xử lý tự động để dịch từ một ngôn ngữ con người đang dùng đến một ngôn ngữ khác bằng cách

sử dụng đầy đủ các thông tin ngữ nghĩa và ngữ cảnh Dịch ngữ nghĩa cho phép tham chiếu đến cấu trúc ngữ pháp và mục đích của chúng là thiết lập một ngữ nghĩa tương đương giữa 2 ngôn ngữ Nếu việc dịch dựa vào sự trình bày về mặt ngữ nghĩa thì nó có thể chỉ ra rằng làm thế nào để các câu trong ngôn ngữ nguồn và ngôn ngữ đích có mối quan hệ về mặt cấu trúc Trong phương pháp này, bản dịch máy sẽ sản sinh lại ý nghĩa theo bối cảnh cho trước của tác giả mà không bị cản trở bởi cú pháp và các ràng buộc về mặt ngữ nghĩa của ngôn ngữ đích Phương pháp dịch theo ngữ nghĩa làm nổi bật nội dung của thông điệp và hiệu quả dịch sẽ tốt hơn [3]

Tuy nhiên, người ta không mong muốn rơi vào tình trạng quá phức tạp của sự đa dạng về ngữ nghĩa Có một cách tiếp cận khác đó là dịch bằng cách sử dụng một ngôn ngữ trung gian (ngôn ngữ biểu đạt riêng cho máy tính) Ngôn ngữ trung gian này cho phép biểu diễn về mặt ngữ nghĩa ở mức đơn giản nhất có thể (giảm thiểu những rắc rối

do vấn đề ngữ nghĩa) Một trong những dự án đi theo cách tiếp cận này gọi là Universal Networking Language (UNL) UNL được đề xuất và triển khai thực hiện bởi United Nations University, Tokyo, Nhật Bản

Đối với tiếng Việt, việc phát triển một hệ thống dịch tự động từ tiếng nước ngoài

ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỉ XX Năm 1969, công ty

Trang 3

năng để chọn lựa theo hướng này Trong bài báo này, chúng tôi mong muốn giới thiệu những nét khái quát nhất về UNL, một số kết quả thử nghiệm trên hệ thống này và đề xuất khả năng ứng dụng UNL cho tiếng Việt

2 Hệ thống UNL

Ngôn ngữ UNL là ngôn ngữ nhân tạo mô tả ý nghĩa của các câu thông qua khái niệm lược đồ của mạng ngữ nghĩa Mục đích nhắm đến là biểu diễn tất cả các câu theo cùng cách thức của các ngôn ngữ tự nhiên thông qua việc sử dụng một đồ thị ngữ nghĩa đơn Khi một đồ thị kiểu này được xây dựng, nó có thể được chuyển đến bất kỳ một ngôn ngữ nào khác Hệ thống UNL cho phép viết lại một câu trong bất kỳ ngôn ngữ nào trên Internet đến định dạng của UNL trước khi dịch nó sang một một ngôn ngữ khác

Nó là cơ sở để xử lý ngữ nghĩa của ngôn ngữ tự nhiên bằng máy tính và ý nghĩa của nó không chỉ phục vụ việc dịch tự động mà còn hỗ trợ nhiều hoạt động xử lý ngôn ngữ khác từ những ứng dụng e-learning cho đến quản trị những tài liệu đa ngữ

UNL là một ngôn ngữ độc lập, nó cung cấp những nền tảng và công cụ để làm việc ở mức độ ngữ nghĩa, nó cho phép sử dụng lược đồ của cấu trúc mạng ngữ nghĩa tương đương, trong đó các nút là các từ và các cung là quan hệ ngữ nghĩa giữa các từ này Nó là một ngôn ngữ trung gian dành cho dịch tự động [4]

Ví dụ, câu “John, who is the chairman of the company, has arranged a meeting

at his residence.” sẽ được viết trong ngôn ngữ UNL :

[S]

mod(chairman(icl>post).@present.@def,company(icl>institution).@def) aoj(chairman(icl>post).@present.@def, John(icl>person))

agt(arrange(icl>do).@entry.@present.@complete.@pred,John(icl>person)) pos(residence(icl>shelter), John(icl>person))

obj(arrange(icl>do).@entry.@present.@complete.@pred,meeting(icl>confer ence).@indef)

plc(arrange(icl>do).@entry.@present.@complete.@pred,residence(icl>shel ter))

[/S]

Hoặc được biểu diễn dưới dạng đồ thị như hình 1

Trang 4

Hình 1 Biểu diễn một câu dưới dạng đồ thị theo UNL

Trong lược đồ này, một câu trong ngôn ngữ nguồn được dịch đến ngôn ngữ UNL bằng cách sử dụng một công cụ gọi là EnConverter Enconverter là một bộ phân tích độc lập với ngôn ngữ, nó cung cấp đồng bộ một môi trường dành để phân tích hình thái, cú pháp và ngữ nghĩa Ngoài ra, trong UNL còn hiện diện một bộ chuyển đổi từ một câu viết bằng ngôn ngữ UNL đến ngôn ngữ đích bằng một công cụ gọi là DeConverter DeConverter là một bộ phát sinh độc lập với ngôn ngữ, nó cung cấp một môi trường dành để phát sinh ra một tài liệu mô tả cú pháp, hình thái, sự lựa chọn từ thích hợp cũng như việc sắp xếp các từ theo đúng thứ tự Nó có thể chuyển một biểu thức UNL đến nhiều ngôn ngữ đích khác nhau bằng cách sử dụng các dữ liệu ngôn ngữ như từ điển, tiêu chuẩn ngữ pháp dành cho từng ngôn ngữ

Hình 2 Qui trình dịch tự động trong UNL

Mục đích của việc đưa UNL vào sử dụng trên các mạng truyền thông là nhằm gia tăng việc trao đổi thông tin giữa các ngôn ngữ khác nhau và giới thiệu một giải pháp

để vượt qua bức tường ngăn cách do sự khác biệt về ngôn ngữ trên thế giới Kiến trúc

hệ thống UNL dựa trên 2 tiến trình chính là chuyển văn bản từ ngôn ngữ tự nhiên sang ngôn ngữ trung gian UNL (EnConverter) và chuyển từ UNL về ngôn ngữ tự nhiên (DeConverter) Ngoài ra, chúng ta cần có các dữ liệu về ngôn ngữ như từ điển, qui tắc ngữ pháp và mỗi một ngôn ngữ được nhúng vào hệ thống chung theo sơ đồ hoạt động như hình 3

Về mặt khoa học, UNL đề xuất một cách tiếp cận mới về dịch tự động thông qua ngôn ngữ trung gian (ví dụ, thay vì dịch trực tiếp từ tiếng Anh sang tiếng Pháp, ta dịch

từ tiếng Anh sang UNL và sau đó từ UNL sang tiếng Pháp) Ngôn ngữ trung gian này được xem như một ngôn ngữ “nhân tạo” và có thể biểu đạt được ý nghĩa của một nội dung bất kỳ nào trên máy tính dưới dạng ngôn ngữ Nó có ý nghĩa quan trọng trong dịch

đa ngữ Ví dụ, thay vì phát triển các hệ thống dịch tự động cho các cặp tiếng Việt –

Trang 5

ngữ riêng biệt nào mà theo qui tắc chung do nó định nghĩa)

Hình 3 Kiến trúc hệ thống dịch tự động của UNL

3 Khả năng ứng dụng UNL cho tiếng Việt

Trên cơ sở tìm hiểu một cách có hệ thống về khái niệm UNL, hệ thống hoạt động UNL, ta có thể ứng dụng UNL cho Tiếng Việt như sau :

a Mô hình 1: Chuyển đổi thủ công văn bản Tiếng Việt sang ngôn ngữ UNL và từ

đó sử dụng các công cụ hỗ trợ dịch từ UNL sang các ngôn ngữ khác như Tiếng Anh, Tiếng Nga, Tiếng Tây Ban Nha, Tiếng Ý

Trang 6

Hình 4 Mô hình ứng dụng UNL cho tiếng Việt

dụ: từ một câu tiếng Việt: “Tôi có thể giúp gì cho ông không ?”, ta sẽ chuyển

nó sang dạng UNL:

agt(help(icl>do).@polity.@interrogative.@entry, I) obj(help(icl>do).@entry.@polity.@interrogative, you)

Và từ đây ta có thể dịch nó sang những ngôn ngữ (hiện nay là 15 ngôn ngữ) đã

được hỗ trợ bởi UNL như tiếng Anh, tiếng Pháp, tiếng Nhật,…

Đối với mô hình 1, ưu điểm là nhanh chóng ứng dụng UNL mà không cần phải

phát triển bất cứ công cụ bổ sung nào Nó phù hợp với việc phổ biến nhanh những dữ

liệu cơ bản và thiết yếu (hướng dẫn du lịch, các mẫu hội thoại đơn giản, quảng cáo…)

ra nhiều thứ tiếng đã hỗ trợ bởi UNL Hạn chế là phải có đội ngũ am hiểu ngôn ngữ

UNL để chuyển những dữ liệu đang có sang UNL [2]

b Mô hình 2 : Tích hợp tiếng Việt vào UNL Để tích hợp được tiếng Việt vào

UNL, chúng ta cần phát triển mô-đun dịch xuôi (tiếng Việt – UNL) và dịch

ngược (UNL – tiếng Việt) Để làm được việc này, cần phát triển các dữ liệu

ngôn ngữ và công cụ dựa trên kiến trúc của UNL Những công việc cụ thể

gồm :

- Xây dựng từ điển các từ, các luật văn phạm, từ điển định nghĩa các khái

niệm cơ bản của Tiếng Việt

- Xây dựng các luật mã hóa, các luật phân tích từ trong câu Khi chuỗi đầu

vào được nạp thì EnConverter sẽ tiến hành phân tích các từ trong câu, mỗi

từ được xem như là một nút, nạp luật mã hóa và tiến hành kiểm tra luật Áp

dụng luật mã hóa cho danh sách các nút Quá trình xử lý của ứng dụng luật

là để tìm ra luật thích hợp và áp dụng trên danh sách nút để tạo chức năng

cú pháp và mạng UNL sử dụng các nút trong cửa sổ phân tích Nếu một

chuỗi xuất hiện trong cửa sổ, hệ thống sẽ xây dựng từ điển từ và áp dụng

luật lên các phần tử từ Trong trường hợp, nếu một từ đáp ứng đủ các điều

kiện yêu cầu cho cửa sổ của luật, từ này sẽ được lựa chọn và ứng dụng luật

tiếp tục Quá trình xử lý này sẽ tiếp tục cho đến khi chức năng cú pháp và

mạng UNL được hoàn thành và chỉ còn lại các phần tử nút trong danh sách

nút Cuối cùng EnConverter hiển thị mạng UNL thành file dữ liệu đầu ra là

quan hệ nhị phân theo định dạng của biểu thức UNL

- Xây dựng công cụ hỗ trợ quá trình Giải mã – DeConverter: Gồm 3 thành

Trang 7

4 Thử nghiệm

Chúng tôi đã tiến hành 2 thử nghiệm trên UNL Thử nghiệm thứ nhất là xây

dựng một tập dữ liệu UNL gồm gần 300 mẫu hội thoại trích từ "Sổ tay du lịch" và đã

tiến hành dịch tập dữ liệu này sang các thứ tiếng Anh, Pháp, Ý, Đức và Nhật trên các máy chủ của hệ thống UNL Kết quả dịch sang tiếng Anh và Pháp đã nhờ các chuyên gia ngôn ngữ kiểm tra và nhận được đánh giá tốt Thử nghiệm thứ hai chúng tôi đang triển khai là xây dựng từ điển UNL-tiếng Việt trên cơ sở cấu trúc từ điển của UNL và

dữ liệu được sử dụng từ dự án từ điển FEV do Khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng hợp tác với nhóm nghiên cứu GETA-CLIPS, Cộng hoà Pháp triển khai trước đây [1]

5 Kết luận

Những kết quả đạt được mới chỉ mới dừng lại ở mức nghiên cứu tính khả thi của việc ứng dụng UNL cho tiếng Việt Kết quả lớn nhất mà chúng tôi đạt được là đã nghiên cứu một cách có hệ thống về UNL, cách lưu trữ dữ liệu bằng UNL, cách hoạt động của hệ thống UNL, cách tích hợp một ngôn ngữ mới vào hệ thống và ứng dụng UNL vào xây dựng hệ thống dịch tự động đa ngữ trên mạng Trên cơ sở đó chúng tôi đề xuất khả năng ứng dụng UNL vào việc xử lý tiếng Việt

Các thử nghiệm, đánh giá của chúng tôi hiện nay cũng chỉ mới giới hạn trong phạm vi khối lượng dữ liệu nhỏ nhằm mục đích kiểm chứng khả năng ứng dụng của UNL cho tiếng Việt Để tạo ra một hệ thống dịch đa ngữ cho tiếng Việt bằng UNL thì chúng ta cần phải triển khai nhiều công việc như đã chỉ ra ở trên

Chúng tôi nhận thấy rằng, UNL mở ra một cơ hội to lớn để phát triển hệ thống dịch tự động đa ngữ một cách nhanh nhất có thể cho tiếng Việt Trong thời gian đến, chúng tôi sẽ tiếp tục nghiên cứu một cách đầy đủ hơn về UNL và hy vọng sẽ xây dựng thành công hệ thống dịch tự động đa ngữ cho tiếng Việt

TÀI LIỆU THAM KHẢO

[1] Blanchon H., Boitet Ch., Brunet-Manquat F., Tomokiyo M., Hamon A., Vo-Trung

H et Bey Y.: “Toward fairer evaluations of commercial MT systems on Basic

Travel Expressions Corpora”, Proceedings of International Workshop on Spoken Language Translation IWSLT 2004, Kyoto, Japan, pp 21-27, Oct 2004

[2] Boitet Ch.: “A rationale for using UNL as an interlingua and more in various

domains”, Proceeding of the First International Workshop on UNL, LREC2002,

Las Palmas, Spain, 2002

[3] Hutchins W J and Somers, H L.: “An Introduction to Machine Translation”,

Trang 8

Academic Press, 1992

[4] H Uchida, M Zhu, T Senta: “Universal Networking Language”, ISBN-10

2-8399-0128-5, Edition II, Published 2006

[5] Lale Yurtseven, Logos machine translation system, http://www.logos-ca.com, Logos Corporation

Ngày đăng: 22/07/2014, 20:21

HÌNH ẢNH LIÊN QUAN

Hình 1. Biểu diễn một câu dưới dạng đồ thị theo UNL - Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHÀ MÁY THUỶ ĐIỆN A VƯƠNG ĐẾN CÁC CHẾ ĐỘ VẬN HÀNH CỦA HỆ THỐNG ĐIỆN VIỆT NAM" pdf
Hình 1. Biểu diễn một câu dưới dạng đồ thị theo UNL (Trang 4)
Hình 3. Kiến trúc hệ thống dịch tự động của UNL - Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHÀ MÁY THUỶ ĐIỆN A VƯƠNG ĐẾN CÁC CHẾ ĐỘ VẬN HÀNH CỦA HỆ THỐNG ĐIỆN VIỆT NAM" pdf
Hình 3. Kiến trúc hệ thống dịch tự động của UNL (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm