LUẬN VĂN XÂY DỰNG KHO DỮ LIỆU SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU

Giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thốngdịch tự động.Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả và có thể sử dụng như Google, Alt

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

ĐỖ GIA TRINH

XÂY DỰNG KHO DỮ LIỆU

SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2013

BỘ GIÁO DỤC VÀ ĐÀO TẠO

Trang 2

ĐẠI HỌC ĐÀ NẴNG

ĐỖ GIA TRINH

XÂY DỰNG KHO DỮ LIỆU

SONG NGỮ VIỆT – CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh

Đà Nẵng - Năm 2013

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh.

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả

Đỗ Gia Trinh

Trang 4

MỤC LỤC

TRANG PHỤ BÌA i

LỜI CAM ĐOAN ii

MỤC LỤC iiii

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC HÌNH ix

DANH MỤC CÁC BẢNG x

MỞ ĐẦU 1

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN 5

1.1 DỊCH TỰ ĐỘNG 5

1.1.1 Khái niệm 5

1.1.2 Lịch sử phát triển 7

1.1.3 Cấu trúc của một chương trình dịch tự động 8

1.1.4 Một số hệ thống dịch tự động 13

1.2 MÔI TRƯỜNG HỢP TÁC 15

1.2.1 Khái niệm 15

1.2.2 Các công cụ dùng để giao tiếp và hợp tác 17

1.2.3 Các tính năng cơ bản của môi trường hợp tác 18

1.2.4 Các công nghệ hỗ trợ môi trường hợp tác 19

1.2.5 Một số môi trường hợp tác trên mạng 20

1.3 KHO NGỮ LIỆU SONG NGỮ 23

1.3.1 Một số khái niệm 23

1.3.2 Ứng dụng của kho ngữ liệu song ngữ 24

1.3.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới 26

1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU 27

1.4.1 Tổng quan về XML 28

1.4.2 Thuật ngữ 28

1.4.3 Cấu trúc của một tập tin XML 29

1.4.4 Những thành phần của một tài liệu XML 29

1.5 TỔNG KẾT CHƯƠNG 31

CHƯƠNG 2: GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU 32

Trang 5

2.1 GIỚI THIỆU 32

2.2 MÔ HÌNH HỆ THỐNG 33

2.3 XÂY DỰNG KHO NGỮ LIỆU 34

2.3.1 Các tiêu chí chọn mẫu ngữ liệu 34

2.3.2 Chọn nguồn ngữ liệu và chuẩn hóa 35

2.3.3 Ứng dụng xử lý ngôn ngữ tự nhiên 37

2.3.4 Các nguồn dữ liệu thu thập 39

2.3.5 Các kỹ thuật xử lý ngữ liệu 44

2.3.6 Tích hợp các nguồn ngữ liệu 48

2.3.7 Đa ngữ hoá kho ngữ liệu 49

2.4 HIỆU CHỈNH KHO NGỮ LIỆU 54

2.4.1 Các phương pháp hiệu chỉnh dữ liệu 54

2.4.2 Hiệu chỉnh bằng môi trường hợp tác 56

2.5 TỔNG KẾT CHƯƠNG 59

CHƯƠNG 3: PHÁT TRIỂN ỨNG DỤNG 60

3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 60

3.1.1 Ngôn ngữ lập trình 60

3.1.2 Cơ sở dữ liệu 61

3.2 XÂY DỰNG KHO NGỮ LIỆU 62

3.2.1 Thu thập và xử lý các nguồn dữ liệu 62

3.2.2 Xử lý trùng lặp các câu trong kho ngữ liệu 74

3.2.3 Nội dung chương trình hỗ trợ dịch 74

3.2.4 Giao diện chương trình hỗ trợ dịch 75

3.2.5 Thử nghiệm và đánh giá kết quả của hệ thống dịch 77

3.3 HIỆU CHỈNH KHO NGỮ LIỆU 78

3.3.1 Xây dựng hệ thống 78

3.3.2 Xây dựng giao diện hệ thống 82

3.3.3 Thử nghiệm và đánh giá chương trình 87

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 90

TÀI LIỆU THAM KHẢO 92 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ

Trang 6

Information Standards

Trang 7

v

Trang 8

DANH MỤC CÁC CÁC BẢNG

DANH MỤC CÁC HÌNH

Trang 9

nhiều tập tin

47

Trang 10

chỉ mục

66

Hình 3.12 Sơ đồ quá trình xử lý trích từ trang Web sử dụng

MorphAdorner

71

Hình 3.14 Kết quả tách câu tiếng Anh bằng công cụ trực tuyến

MorphAdorner

72

Trang 11

do quan trọng nhất dẫn đến việc hạn chế khai thác thông tin trên, đó là rào cản vềngôn ngữ [3] Giải pháp nhằm phá bỏ rào cản ngôn ngữ là phát triển các hệ thốngdịch tự động.

Những nghiên cứu về dịch tự động đã cho ra đời nhiều công cụ dịch hiệu quả

và có thể sử dụng như Google, AltaVista, … Nhiều hệ thống đã được đưa vàothương mại hoá như Systran, Reverso, Babylon, … Những hệ thống này cho phép

tạo ra “bản dịch nghĩa” – một bản dịch chưa được hoàn chỉnh nhưng giúp chúng ta

có thể hiểu được ý nghĩa của văn bản gốc và cần phải chỉnh sửa nhiều để đạt đếnmột văn bản hoàn chỉnh Các hệ thống dịch tự động cho phép dịch rất nhanh và chiphí thấp hơn nhiều so với dịch bằng con người Tuy nhiên, những hệ thống nàyđang phải đối mặt với rất nhiều vấn đề như sự đa nghĩa của từ, sự nhập nhằng vềngữ nghĩa, sự phụ thuộc về ngữ cảnh và rất nhiều khó khăn trong sự khác biệt vềgiải thích các khái niệm

Cùng với đó, nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên ngày càng tăng

và được ứng dụng trong nhiều lĩnh vực Đa số các hệ thống xử lý ngôn ngữ tự nhiênđều sử dụng các phương pháp liên quan đến học máy, kỹ thuật thống kê nên rất cầncác tài liệu song ngữ hoặc đa ngữ Vì vậy các kho ngữ liệu là một trong những cơ sởquan trọng để phát triển các hệ thống xử lý ngôn ngữ tự nhiên

Hiện nay trên thế giới có nhiều kho ngữ liệu song ngữ như Anh – Pháp, Anh –Hoa, … nhưng các kho ngữ liệu lớn để phục vụ cho các hệ thống xử lý ngôn ngữ tựnhiên vẫn còn thiếu Ví dụ như đối với tiếng Việt, hiện nay chưa có nhiều kho ngữliệu và đặc biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển các hệ thống xử lýngôn ngữ tự nhiên Bên cạnh đó, một số kho ngữ liệu để phục vụ xử lý tiếng Việtchưa được chia sẽ rộng rãi Chi phí để phát triển một kho ngữ liệu là rất tốn kém Vì

Trang 12

2

-vậy tôi quyết định chọn đề tài “Mở rộng các kho ngữ liệu đa ngữ dựa vào các

phần mềm dịch tự động và môi trường hợp tác” làm đề tài tốt nghiệp luận văn cao

học Trong đề tài này, chúng tôi đề xuất giải pháp kết hợp các phần mềm dịch tựđộng và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu.Xây dựng công cụ sử dụng lại các hệ thống dịch tự động sẵn có để dịch tự động một

số các kho ngữ liệu sẵn có sang tiếng Việt nhằm tạo ra kho ngữ liệu song ngữ hoặc

đa ngữ có chứa tiếng Việt từ các kho ngữ liệu sẵn có Ngoài ra, sau khi dịch tự động

sẽ đưa kết quả nhận được cho người sử dụng góp ý, hiệu chỉnh nhằm tăng độ tin cậy

và tính kiểm chứng của kết quả Giải pháp sử dụng lại các hệ thống dịch tự động vàmôi trường hợp tác để mở rộng kho ngữ liệu sẵn có sang các ngôn ngữ khác là một trongnhững giáp pháp khả thi và hiệu quả

2 Mục đích nghiên cứu

Mục đích nghiên cứu của để tài là xây dựng môi trường trong đó sử dụng lạicác hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu sang một ngôn ngữmới, đặc biệt là cho tiếng Việt Ngoài ra, ứng dụng môi trường này để mở rộng mộtkho ngữ liệu đa ngữ Anh – Pháp – Việt gồm các câu song song

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

hệ thống dịch hiện nay trên Internet như Systran, Google, Reverso,… Các công cụphát triển như TRADOH, TRAWEB, SANDOH,… Các mô hình triển khai hệ thống

và một số bài báo và luận văn tốt nghiệp khóa trước

3.2 Phạm vi nghiên cứu

Trong khuôn khổ của luận văn này, chúng tôi thực nghiệm tạo một kho ngữliệu đa ngữ Anh – Pháp – Việt tối thiểu 50.000 câu cho mỗi ngôn ngữ

Trang 13

3

-4 Phương pháp nghiên cứu

Chúng tôi sử dụng hai phương pháp chính là phương pháp tài liệu và phươngpháp thực nghiệm

Phương pháp tài liệu: Với phương pháp này, chúng tôi nghiên cứu các tài liệu

về cơ sở lý thuyết: Dịch tự động, môi trường hợp tác, kho dữ liệu, kho ngữ liệu; cáctài liệu mô tả một số công cụ dịch tự động và các tài liệu liên quan đến một sốnghiên cứu khác

Phương pháp thực nghiệm: Với phương pháp này, chúng tôi sử dụng các hệ

thống dịch tự động để dịch các kho ngữ liệu sẵn có sang 1 ngôn ngữ khác (Ví dụ:kho ngữ liệu tiếng Anh BTEC sang tiếng Việt); đồng thời thực nghiệm dịch và kiểmtra một số kho ngữ liệu sẵn có sang tiếng Việt Bên cạnh đó, chúng tôi xây dựngmột môi trường hợp tác để kiểm tra tính đúng đắn của kho ngữ liệu

5 Ý nghĩa khoa học và thực tiễn của đề tài

Về khoa học: Kết quả nghiên cứu của đề tài góp phần thúc đẩy việc ứng dụng

các phần mềm dịch tự động trực tuyến để phục vụ việc phát triển các kho ngữ liệu

đa ngữ phục vụ xử lý ngôn ngữ tự nhiên

Về thực tiễn: Đề tài sẽ góp phần xây dựng một kho ngữ liệu đa ngữ gồm 3

ngôn ngữ Anh – Pháp – Việt nhằm tạo ra được một cơ sở dữ liệu phục vụ cho việcdạy và học tiếng ngoại ngữ, dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,

6 Bố cục luận văn

Báo cáo của luận văn được tổ chức thành 3 chương chính:

Chương 1 Nghiên cứu tổng quan

Trong chương này, chúng tôi trình bày tổng quan về dịch tự động, môi trườnghợp tác, kho ngữ liệu song ngữ/đa ngữ và đa ngữ hoá kho ngữ liệu và các định dạng

để lưu trữ kho ngữ liệu

Chương 2 Đề xuất giải pháp

Chương 2 được dành để trình bày mô hình phát triển và các giải pháp xâydựng kho ngữ liệu cụ thể như các nguồn ngữ liệu thu thập được và một số kỹ thuật

xử lý dữ liệu để tạo kho ngữ liệu đầu vào Từ đó trình bày một số giải pháp mở rộngkho ngữ liệu đa ngữ nhờ vào các hệ thống dịch tự động trực tuyến Giải pháp được

đề xuất như sau: Mở rộng kho ngữ liệu đa ngữ nhờ vào việc sử dụng lại hệ thống

Trang 14

4

-dịch tự động trực tuyến Google translate từ các kho ngữ liệu đơn ngữ sẵn có Sau đónhờ hệ thống này nhận kết quả các bản dịch để xây dựng kho ngữ liệu đa ngữ Vàchúng tôi sẽ trình bày một giải pháp để hiệu chỉnh các kho ngữ liệu sau khi mở rộng

từ các hệ thống dịch trực tuyến đó là xây dựng một môi trường hợp tác để nhờngười sử dụng hiệu chỉnh các câu dịch

Chương 3 Triển khai ứng dụng

Lựa chọn công cụ phát triển, xử lý dữ liệu đầu vào để đưa vào kho Giới thiệucác bước triển khai, xây dựng các modul chương trình, phương pháp tạo kho ngữliệu đa ngữ, tạo môi trường hợp tác để hiệu chỉnh dữ liệu

Trang 15

5

-CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

Trong chương này, chúng tôi trình bày các vấn đề liên quan đến dịch tự động,môi trường hợp tác, kho ngữ liệu song ngữ/đa ngữ và một số kỹ thuật liên quan đếnđịnh dạng kho ngữ liệu

1.1 DỊCH TỰ ĐỘNG

1.1.1 Khái niệm

Dịch tự động hay còn gọi là dịch máy (MT: machine translation) là một nhánhcủa xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo? Nó là sự kết hợpgiữa khoa học ngôn ngữ và khoa học máy tính Như tên gọi, dịch tự động thực hiệndịch một văn bản từ ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một ngôn ngữ khác(gọi là ngôn ngữ đích) một cách tự động, có hoặc không có sự can thiệp của con

người trong quá trình dịch

Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhậpnhằng hiệu quả Nói về tính nhập nhằng, đây là khái niệm chỉ tính không rõ ràng

của ngôn ngữ, chẳng hạn khi viết từ “đường kính” thì vẫn chưa rõ là nó chỉ một loại

"chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu" Nhập nhằng như ví dụ vừa rồi là do hiện tượng

đồng âm (hoặc đồng tự) gây ra, một số kiểu nhập nhằng khác như nhập nhằng từloại, nhập nhằng từ đa nghĩa

Khi dịch tự động từ tiếng Việt sang tiếng Anh, khó khăn đầu tiên lại là việcxác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ

đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng TiếngViệt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ

xuất hiện kiểu dịch từng từ rồi ghép lại với nhau ví dụ như từ "miễn bàn" có thể bị dịch thành “free table” Với tiếng Anh do là ngôn ngữ biến hình nên việc xác

định từ loại dễ hơn, ngoài ra nó cũng ít từ đồng tự (hai từ có ký tự hoàn toàn giốngnhau nhưng mang nghĩa khác nhau), còn về từ đa nghĩa tiếng Anh cũng như tiếngViệt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩachính xác phải thực hiện phân tích văn cảnh

Trang 16

6

-Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạothành câu hoàn chỉnh Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu thìcông việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếngAnh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếngTrung thì rất khó khăn [15] Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hếtsức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực tế cho thấy hiệu quả củachúng vẫn không được tốt

Thuật ngữ dịch máy hay dịch tự động không chỉ bao gồm máy tính dựa vàocác bộ từ điển và các phương pháp tiếp cận vào cơ sở dữ liệu để có thể đọc đượcvăn bản hoặc tương tác với quá trình xử lý ngôn ngữ, chỉnh sửa văn bản để cho rabản dịch cuối cùng Mà nó còn bao gồm các hệ thống, trong đó người dịch hoặcnhững người sử dụng hỗ trợ máy tính trong quá trình dịch thuật như khâu chuẩn bịvăn bản hay những chỉnh sửa cần thiết trước khi cho ra một bản dịch hoàn chỉnh Trên thực tế, kết quả của hầu hết các hệ thống dịch bằng máy tính đều đượcsửa đổi bởi con người Như vậy trong trường hợp này bản dịch bằng máy tínhkhông khác mấy so với bản dịch do con người dịch Lúc đó các loại lỗi sai được tạo

ra bởi hệ thống dịch tự động thì khác so với các lỗi sai của người dịch Còn trongtrường hợp bản dịch tự động hoàn toàn do máy tính không có sự can thiệp của conngười có thể được hiểu như một “bản dịch nghĩa” - một bản dịch chưa hoàn chỉnhnhưng giúp chúng ta hiểu được văn bản gốc

Tóm lại, dịch tự động bằng máy tính chính nó không phải là lĩnh vực độc lập,

mà liên quan đến nhiều lĩnh vực khác nhau như: ngôn ngữ, khoa học máy tính, trítuệ nhân tạo, thống kê, … Người ta cần kết hợp nhiều lĩnh vực để có thể phát triểnhoàn thiện một hệ thống dịch nào đó Ranh giới giữa hệ thống dịch bằng máy tính

do con người hỗ trợ và hệ thống dịch bằng máy nhằm hỗ trợ cho con người rất gầnnhau và đôi khi có thể hỗ trợ cho cả hai Nhưng cốt lõi của dịch tự động bằng máytính là tự động hoá một phần hoặc toàn bộ quá trình dịch để kết quả lý tưởng cuốicùng là nhanh chóng tạo ra những bản dịch có chất lượng cao và chi phí thấp hơnnhiều so với dịch bằng con người

1.1.2 Lịch sử phát triển

Trang 17

7

và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữanhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết màkhông có một ứng dụng thực tế nào

Sản phẩm đầu tiên cho một "chương trình dịch tự động" được thực hiện vào

khoảng giữa thập niên 1930 [11] Tuy nhiên, những sản phẩm thực sự của dịch tựđộng mới có từ những năm 1950 Vào năm 1954, thực nghiệm Georgetown - IBM(International Business Machines) đã thực hiện thành công thí nghiệm dịch tự độnghoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh Thành công bước đầu này đã tạođiều kiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu Các tác giả (tạithời điểm đó) tuyên bố rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽđược giải quyết [13]

Nhưng thực tế diễn ra chậm hơn nhiều theo báo cáo ALPAC vào năm 1966,sau hơn 10 năm các nghiên cứu ở lĩnh vực này vẫn không có những tiến bộ đáng kể

và hệ quả là số tiền chi cho nghiên cứu giảm mạnh Vào cuối thập niên 1980, khimáy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầuquan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn màtrước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế[8]

Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rấtnhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu Hiện nay có một sốcông ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyêncung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google

và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền Một hướngtiếp cận mới là kết hợp các phương pháp với nhau, như những nghiên cứu phối hợpgiữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê

Đối với tiếng Việt, vấn đề dịch tự động đã bắt đầu được nghiên cứu nhữngnăm thập niên 1960 hầu hết đều do các nguyên nhân chính trị và quân sự Các tàiliệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E Scottthành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổchức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt Scott bắt đầu chuẩn bị cho

Trang 18

8

-việc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệmáy tính tại New York, Mỹ Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động

có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt,

Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứtvào năm 1973 Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệthống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên

1970 tại Tập đoàn viễn thông Xyzyx, California Hệ thống này đầu tiên được xâydựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắchoạt động tương tự như của hệ thống Logos Tuy nhiên, hệ dịch máy Anh-Việt được

sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN - 1997 Và sau đó EVTRAN 2.0,

1999 với hơn 200.000 từ và cụm từ Từ năm 2006, bản EVTRAN 3.0 (được gọi làEv-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000mục từ) [24]

1.1.3 Cấu trúc của một chương trình dịch tự động

Việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt

ra từ rất lâu Tuy nhiên thành công của các hệ dịch tự động mới chỉ hạn chế trongviệc dịch tự động các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ phápcũng như từ vựng Ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp,tiếng Anh sang tiếng Nga, ; thậm chí, kết quả khả dĩ chỉ đạt được với các loại vănbản khoa học hoặc pháp luật vốn được viết với văn phạm rất rõ ràng, chính xác vàđơn nghĩa Với những cặp ngôn ngữ có hệ thống ngữ pháp và ngữ nghĩa khác nhaukhá xa, kết quả của các chương trình dịch tự động là rất hạn chế Với các bài toándịch tự động nói chung, chúng ta đều gặp phải 3 vấn đề lớn sau đây:

(1) Số lượng từ vựng của ngôn ngữ là rất nhiều và biến đổi phức tạp (chiangôi, giống, số, cách, )

(2) Ngữ pháp của ngôn ngữ chưa được khảo sát kỹ, quá nhiều ngoại lệ khi sửdụng (chẳng hạn văn nói - thường sử dụng nói tắt, thiếu các thành phần của câu),một số ngôn ngữ chưa có các nghiên cứu đầy đủ về ngữ pháp (ví dụ như tiếng Việt) (3) Ngữ nghĩa được sử dụng rất phong phú, phải sử dụng ngữ cảnh mới có thểhiểu đúng ý nghĩa của từ

Trang 19

9

-Trong 3 vấn đề trên, vấn đề (1) dễ giải quyết hơn và đã được giải quyết khátrọn vẹn với hầu hết các ngôn ngữ thông dụng trên thế giới; vấn đề (2) đã được giảiquyết một phần lớn trong nhiều ngôn ngữ thông dụng, đặc biệt là với các ngôn ngữ

ở châu Âu, nơi mà việc nghiên cứu về ngôn ngữ rất có hệ thống và có lịch sử đã vàitrăm năm Vấn đề xử lý ngữ nghĩa (3) là vấn đề khó nhất trong dịch tự động, hiệnđang được nghiên cứu rộng rãi và cũng đã đạt được nhiều kết quả hữu ích

Có nhiều chương trình dịch tự động khác nhau và các chương trình dịch nàycũng có cấu trúc chi tiết khác nhau, tuy nhiên về mặt cấu trúc tổng thể, tất cả cácchương trình đều được chia làm 3 khối chính: khối xử lý hình thái, khối xử lý ngữpháp và khối xử lý ngữ nghĩa Sự khác nhau giữa các chương trình nằm ở cách thức

và mức độ xử lý hình thái, ngữ pháp hay ngữ nghĩa khác nhau Một vài chươngtrình có modul xử lý hình thái đơn giản, việc xử lý tinh tế hơn được giao cho cácmodul phía sau, trong một vài chương trình khác, phần xử lý hình thái có thể có mộtvài thao tác ảnh hưởng cả đến modul xử lý ngữ nghĩa Vấn đề cũng tương tự đối vớicác modul khác như xử lý ngữ pháp và xử lý ngữ nghĩa, lý do có sự khác biệt giữacác cấu trúc nằm ở quan điểm về nhiệm vụ của mỗi modul và ở các thuật toán xử lýngôn ngữ Dù vậy, hầu hết các chương trình đều làm việc một cách đơn giản theo sơ

đồ sau:

Trang 20

10

-Hình 1.1 Quá trình xử lý của một chương trình dịch tự động

Khối xử lý hình thái

Khối xử lý hình thái là khối đầu tiên của chương trình dịch tự động, khối nhận

dữ liệu đầu vào là một câu của ngôn ngữ nguồn và phân tích hình thái của câu đó.Nói chung, một khối phân tích hình thái thường làm các nhiệm vụ sau:

(1) Chia cắt một câu trong ngôn ngữ nguồn thành các từ độc lập

(2) Tìm tất cả các hình thái và thông tin bổ sung của các từ trong câu để phục

vụ quá trình xử lý về sau

(Đại từ)

(Danh từ)

(Trợ động từ)(Ngoại động từ)(Danh từ)

Trang 21

11

-Thông thường, nhất là đối với các ngôn ngữ ở châu Âu, nhiệm vụ (1) của khối

xử lý hình thái là không khó vì hầu hết tất cả các từ đều nằm nguyên thành một chữ,không cần chia cắt – ngoại trừ một số trường hợp đặc biệt như viết tắt (có thể xử lýngoại lệ) Với một số ngôn ngữ (như với tiếng Việt, tiếng Nhật,…) vấn đề trở nênrất khó nếu các từ trong ngôn ngữ được chia thành nhiều cụm có thể hiểu nhậpnhằng, ví dụ, xét câu sau:

“Ông già đi nhanh quá”

Chúng ta có ít nhất 2 cách phân cách từ:

Cách 1: “Ông già” | “đi” | “nhanh” | “quá”

Cách 2: “Ông” | “già đi” | “nhanh” | “quá”

Trong trường hợp trên không có cách nào đánh giá cách phân cách từ nào tốthơn, chúng ta đành phải coi bài toán như là việc dịch 2 câu, đến phần xử lý ngữnghĩa sẽ tiến hành đánh giá xem trường hợp nào là hợp lý hơn và chọn lựa

Nhiệm vụ (2) của khối xử lý hình thái dễ dàng hơn, với đa số ngôn ngữ việctìm tất cả các hình thái và thông tin liên quan đến từ/cụm từ chỉ là vấn đề xử lý từ tố

và tra từ điển

Theo ý kiến của nhiều tác giả [7], khối xử lý hình thái còn có một nhiệm vụkhác, đó là nhiệm vụ cắt câu, hay nói cách khác là xác định xem nội dung của mộtcâu trong ngôn ngữ nguồn bắt đầu và kết thúc từ đâu Trong thực tế không thể giảiquyết trọn vẹn bài toán ngắt câu cho ngôn ngữ tự nhiên, nhưng may mắn là cáctrường hợp không ngắt câu được không ảnh hưởng nhiều đến kết quả cuối cùng[11] Một vài bộ dịch tự động thậm chí không quan tâm đến việc ngắt câu – xuấtphát từ quan điểm chỉ cần thông dịch tốt các cấu trúc ngôn ngữ nhỏ (ngữ danh từ,ngữ động từ, cụm từ,…)

Khối xử lý ngữ pháp

Khối xử lý ngữ pháp xây dựng cây phân tích ngữ pháp cho câu đầu vào dựa trên văn phạm của ngôn ngữ nguồn Khối này nhận danh sách các hình thái từ đãđược sinh ra bởi khối xử lý hình thái, tiếp đến, khối này sẽ tiến hành phân tích vănphạm của câu dựa trên văn phạm của ngôn ngữ nguồn và thông tin bổ sung –thường là các văn phạm bổ sung cho phép sinh cây phân tích chính xác hơn Nóichung, có thể áp dụng các phương pháp phân tích cú pháp của các ngôn ngữ nhân

Trang 22

12

-tạo cho ngôn ngữ tự nhiên [6] Tuy nhiên, vấn đề không suôn sẻ như các ngôn ngữnhân tạo, có những vấn đề chính sau đây thường gặp phải khi chúng ta sử dụng các

bộ phân tích văn phạm thông thường:

(1) Văn phạm của các ngôn ngữ tự nhiên thường rất phức tạp

(2) Trong ngôn ngữ nói, người sử dụng thường nói tắt, thậm chí nói sai ngữpháp – không thể phân tích ngữ pháp được

(3) Xuất phát hiện tượng có nhiều cây phân tích ứng với một câu – dẫn đếnnhiều khả năng dịch khác nhau cho một câu

Vấn đề ngữ pháp dù rất phức tạp nhưng nhiều bộ phân tích cú pháp cho cácngôn ngữ tự nhiên đã được xây dựng và chúng hoạt động rất tốt, như vậy đây khôngphải là vấn đề không thể vượt qua khi xây dựng các bộ dịch tự động các ngôn ngữ

tự nhiên [6]

Khối xử lý ngữ nghĩa

Xử lý ngữ nghĩa là khối cuối cùng trong dịch tự động Khối nhận đầu vào làcây phân tích từ khối xử lý ngữ pháp và thực hiện sinh câu ở ngôn ngữ đích Việcthực hiện để sinh câu được thực hiện dựa trên 4 nguồn thông tin chính: Cây phântích ngữ pháp (lấy từ khối xử lý ngữ pháp), nghĩa của các từ tố trong câu văn nguồn(lấy từ dãy hình thái từ tố của khối xử lý hình thái), cú pháp điều khiển (là thông tin

bổ sung của văn phạm, được sinh bởi khối xử lý hình thái) và thông tin ngữ cảnh(được tổng hợp từ việc xử lý ngữ nghĩa các câu trước và nhận vào từ người sử dụngchương trình) Nhiệm vụ chính của khối xử lý ngữ nghĩa là:

(1) Thực hiện việc đánh giá các cây phân tích cú pháp (nếu khối xử lý ngữpháp phân tích được nhiều cây phân tích) và lựa chọn cây tốt nhất

(2) Thực hiện việc chọn nghĩa thích hợp nhất cho các từ tố của ngôn ngữnguồn trong ngôn ngữ đích

(3) Sinh câu trong ngôn ngữ đích đúng với văn phạm của ngôn ngữ đó (vấn đề

xử lý thứ tự các từ)

Đôi khi nhiệm vụ (1) được xem là của khối xử lý ngữ pháp, nhưng trongphương pháp xử lý ngữ nghĩa bằng cú pháp điều khiển ta xem nhiệm vụ (1) là củakhối xử lý ngữ nghĩa vì việc này được thực hiện bằng cú pháp điều khiển

1.1.4 Một số hệ thống dịch tự động

Trang 23

13

-1.1.4.1 Babel Fish

Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng Web, được công cụtìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997, sau đó Yahoo mộtcông cụ tìm kiếm khác mua lại vào năm 2004 Hỗ trợ 38 cặp ngôn ngữ, trong đótiếng Anh, tiếng Pháp và tiếng Trung Quốc được hỗ trợ nhiều nhất; tiếp đến là tiếngĐức, Tây Ban Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp và Hà Lan và

Hình 1.1 Giao diện hệ thống dịch Babel Fish 1.1.4.2 Systran

Hiện tại, Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịchkhá tốt Systran có thể sử dụng được trên môi trường Internet, máy tính đơn hoặctrên các hệ thống mạng cục bộ Phiên bản dùng trên Internet có thể dịch cho 52 cặp

Trang 24

14

-Hình 2.1 Giao diện hệ thống dịch Systran

Bên cạnh đó, Systran 7.0 là một phần mềm cực mạnh với hệ thống nhận dạngvăn bản thông minh có thể dịch chính xác tài liệu mà người dùng cần Có thể tham

1.1.4.3 Reverso

Hình 3.1 Giao diện hệ thống dịch Reverso

Đây là hệ thống dịch của Softissimo để dịch các văn bản hoặc trang Web dướidạng HTML Hệ thống này có thể thực hiện được trên Internet hoặc như một ứngdụng độc lập trên máy tính đơn Địa chỉ của hệ thống dịch trên Internet là:

http://www.reverso.net/text_translation.aspx

Trang 25

15

-1.1.4.4 Google Translate

Dịch vụ này hỗ trợ 65 ngôn ngữ trong đó có tiếng Việt, hiện là dịch vụ trựctuyến duy nhất hỗ trợ khả năng dịch toàn trang Web cho tiếng Việt, không giốngYahoo do sử dụng kiểu dịch trung gian nên cặp ngôn ngữ có khả năng dịch qua lạivới nhau lên tới con số 2080 (65 * 64/2), tuy nhiên nhiều cặp chất lượng dịch cònthấp [2], [10], [15] Thực tế, đó là kiểu dịch tự động 2 lần qua một ngôn ngữ trunggian nào đó (thường là tiếng Anh), với tính năng này có thể dịch một câu tiếng Việtsang 64 ngôn ngữ còn lại Có tính năng tương tác với người nhằm tăng chất lượngdịch cho các lần sau nhưng không hỗ trợ dịch chuyên ngành

Hình 4.1 Giao diện màn hình dịch với Google translate

1.2 MÔI TRƯỜNG HỢP TÁC

1.2.1 Khái niệm

các nhóm đối tượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻnhững kiến thức, kỹ năng và những kinh nghiệm về một lĩnh vực mà họ cùng quantâm

Đối với một đơn vị cụ thể, môi trường hợp tác giúp cho các thành viên trongcùng một phòng ban và các phòng ban khác cùng nhau tác nghiệp trong một hệthống thống nhất, giúp đỡ nhau hoàn thành tốt công việc được giao, giúp cho cácđơn vị giảm thời gian và tăng năng xuất làm việc

Trang 26

16

-Môi trường hợp tác đã cung cấp cho lĩnh vực giáo dục và công nghệ dạy học,

đã phục vụ nhu cầu truyền thông và hợp tác của giảng viên, nhân viên, nhà nghiêncứu và sinh viên Hơn một chục ngàn người sử dụng môi trường hợp tác một cáchthường xuyên dựa trên E-mail, Web, media, file lưu trữ và các nhiệm vụ tính toánkhác Vào năm 2003 đã có 8.200 người tham gia phát triển gần 19.000 công cụ phụccho nhiều người sử dụng khác nhau, sinh viên xây dựng trên 12.000 danh mục đầu

tư trực tuyến mới và tổng số hoạt động học tập trực tuyến đã tăng đến 18.000.000.Trong bối cảnh hiện nay, việc sử dụng công nghệ thông tin là phổ biến, tuynhiên đa số các nhà biên dịch chuyên nghiệp đang làm việc để đáp ứng các nhu cầuđầu tư và phát triển các hệ thống dịch thuật cho các tài liệu khoa học và kỹ thuật,các giao dịch kinh doanh thương mại, cơ quan hành chính, tài liệu pháp lý, sổ tayhướng dẫn, các văn bản nông nghiệp và y tế, công nghiệp, tờ rơi, các báo cáo, …Các công việc này có nhiều thử thách và khó khăn trong khi cùng một lúc đòi hỏiphải có tính chính xác và nhất quán Do đó để có một bản dịch hoàn chỉnh hơn thìrất cần sự hỗ trợ của nhiều dịch giả về cùng một ngôn ngữ mà họ biết và quan tâmthông qua sự hỗ trợ của môi trường hợp tác Để tiến hành khai thác và nhận đượckết quả của những đóng góp cho bản dịch hoàn chỉnh; ta xây dựng một môi trườnghợp tác trên công nghệ Web và hạ tầng mạng máy tính cho phép các nhóm đốitượng có thể tham gia trao đổi, tranh luận, để cùng nhau chia sẻ những kiến thức, kỹnăng và những kinh nghiệm về một lĩnh vực mà họ quan cùng tâm

Những lợi ích mà môi trường hợp tác đem lại:

Giảng viên: Môi trường hợp tác giúp cho giảng viên dễ dàng hơn trong việc

quản lý các khoá học và tiến hành các hoạt động sư phạm trực tuyến

Sinh viên: Các sinh viên có thể sử dụng thông tin liên lạc và các công cụ cộng

tác thường được sử dụng từ các giáo viên để hình thành nhóm nghiên cứu

Nhà nghiên cứu: Môi trường hợp tác sẽ cung cấp phương tiện, thông tin cho

các nhà nghiên cứu để dễ dàng tiến hành các cuộc điều tra, tổ chức chia sẻ dữ liệu,thông tin và giao tiếp với người khác về công việc

Người dùng chung: Người dùng có thể tham gia vào môi trường hợp tác tại

một lĩnh vực mà họ quan tâm để khai thác tri thức được tích luỹ từ môi trường

1.2.2 Các công cụ dùng để giao tiếp và hợp tác

Trang 27

17

-Hiện nay, trên hệ thống mạng Internet nhiều nhà phát triển phần mềm đã tạo ramột số công cụ giúp cho con người có thể giao tiếp với nhau và cùng nhau hợp táctrong khi họ đang ở tại các vị trí địa lý khác nhau Một số công cụ điển hình nhưsau:

Hệ thống Website đã và đang đóng góp rất lớn vào việc phổ cập thông tin,Website đã làm thay đổi cả thế giới từ khi xuất hiện vào đầu những năm 90 của thế

kỷ trước Ngày nay, mọi giao tiếp thông qua Website đã trở thành phổ biến, nó cuốnhút mọi thành phần xã hội ở mọi nơi trên thế giới cùng tham gia Cùng nhau chia sẻthông tin cũng như tích luỹ những thông tin mới

E-mail là công cụ giao tiếp không đồng bộ trên Internet được sử dụng rộng rãinhất, cho phép mọi người có thể giao lưu trao đổi, chia sẻ thông tin với nhau Thôngtin được chia sẻ trên E-mail không chỉ bằng văn bản mà còn có thể bằng hình ảnhhoặc bằng video Hiện nay, đã có một số sản phẩm như Lotus Notes đã tích hợp E-mail với các công cụ hợp tác khác không đồng bộ giúp thực hiện công việc như lập

kế hoạch và tham gia vào các diễn đàn trên mạng hoặc các nhóm thảo luận

Không giống như E-mail, Chat cung cấp cho mọi người môi trường giao tiếpđồng bộ để nhiều người có thể trao đổi trực tiếp với nhau dựa trên Internet hoặcIntranet Đây là một môi trường ảo, chúng ta có thể giao tiếp với nhiều người cùngmột lúc

1.2.3 Các tính năng cơ bản của môi trường hợp tác

Tuy có nhiều loại môi trường hợp tác tích hợp, cung cấp nhiều loại dịch vụ vàứng dụng khác nhau, nhưng tất cả đều có chung một số tính năng sau:

Khả năng cá nhân hoá (Customization): Cho phép thiết đặt các thông tin khác

nhau, cho các loại đối tượng sử dụng khác nhau theo yêu cầu Tính năng này dựatrên hoạt động thu thập thông tin về người dùng và cộng đồng người dùng, từ đócung cấp các thông tin chính xác tại thời điểm được yêu cầu

Tập hợp nội dung (Content aggregation): Cho phép xây dựng nội dung thông

tin từ nhiều nguồn khác nhau cho nhiều đối tượng sử dụng Sự khác biệt giữa cácnội dung thông tin sẽ được xác định qua các ngữ cảnh hoạt động của người dùng(user – specific context), ví dụ như đối với từng đối tượng sử dụng sau khi thông

Trang 28

18

-qua quá trình xác thực thì sẽ được cung cấp thông tin khác nhau, hoặc nội dungthông tin sẽ được cung cấp khác nhau trong quá trình cá nhân hoá thông tin

Cung cấp nội dung (Content syndication): Thu thập nội dung thông tin từ

nhiều nguồn khác nhau, cung cấp cho người dùng thông qua các phương pháp hoặcgiao thức (protocol) một cách thích hợp Một hệ thống xuất bản nội dung thông tinchuyên nghiệp phải có khả năng xuất bản thông tin với các định dạng được quychuẩn, ví dụ như RDF (Resource Description Format), RSS (Realy SimpleSyndication), NITF (News Industry Text Format) và NewsXML Ngoài ra, các tiêuchuẩn dựa trên XML cũng phải được áp dụng để quản trị và hiển thị nội dung mộtcách thống nhất, xuyên suốt trong quá trình xuất bản nội dung thông tin Các tiêuchuẩn dựa trên XML này cho phép đưa ra giải pháp nhanh nhất để khai thác và sửdụng nội dung thông tin trên các Website khác nhau thông qua quá trình thu thập vàbóc tách nội dung thông tin với các định dạng được quy chuẩn

Quản trị hệ thống (Systeml administration): Xác định cách thức hiển thị thông

tin cho người dùng cuối Tính năng này không chỉ đơn giản là thiết lập các giaodiện người dùng với các chi tiết đồ hoạ (look-and-feel), với tính năng này, ngườiquản trị phải định nghĩa được các thành phần thông tin, các kênh tương tác vớingười sử dụng cuối, định nghĩa nhóm người dùng cùng với các quyền truy cập và sửdụng thông tin khác nhau

Quản trị người dùng (User management): Cung cấp các khả năng quản trị

người dùng cuối, tuỳ thuộc vào đối tượng sử dụng của môi trường Tại đây, người

sử dụng có thể tự đăng ký trở thành thành viên tại cổng thông tin công cộng nhưYahoo, MSN (Microsoft Network),… hoặc được người quản trị tạo lập và gánquyền sử dụng tương ứng đối với các cổng thông tin doanh nghiệp Mặt khác, tuỳthuộc vào từng kiểu môi trường mà số lượng thành viên có thể từ vài nghìn tới hàngtriệu

1.2.4 Các công nghệ hỗ trợ môi trường hợp tác

Để có các hệ thống môi trường hợp tác do người lập trình phát triển và các hệthống nền tảng có thể hoạt động tương thích được với nhau, các kỹ sư và các hãngphần mềm trên thế giới cùng nhau xây dựng bộ tiêu chuẩn công nghiệp Hiện tại đã

Trang 29

19

-1.2.4.1 Portlet API (JSR 168)

Portlet API (JSR 168): Là tiêu chuẩn do hiệp hội Java Community Processcông bố, hiện tại chủ yếu được áp dụng cho các cổng thông tin xây dựng trên nềntảng Java Chuẩn này chỉ ra cách tương tác giữa ứng dụng nghiệp vụ (portlet) vớiportal framework Các portlet tuân thủ tiêu chuẩn này có thể hoạt động được ở tất cảcác portal server tuân thủ/hỗ trợ tiêu chuẩn JSR 168 Ví dụ: Một ứng dụng nghiệp

vụ (portlet) do Oracke phát triển, tuân thủ theo tiêu chuẩn JSR 168 thì có thể chạytrên IBM WebSphere Portal mà không phải biên dịch lại hoặc sửa đổi mã cho tươngthích Cộng đồng.NET cybfx đã tích cực áp dụng tiêu chuẩn này để đưa ra chuẩnportlet cho portal xây dựng trên.NET Framework (còn gọi là.NET portlet API)

1.2.4.2 Web Services for Remote Portlet (WSRP)

WSRP là một chuẩn do OASIS (Organization for the Advancement ofStructured Information Standards) công bố Chuẩn này chỉ ra cách thức giao tiếpgiữa một portal server với một ứng dụng nghiệp vụ từ xa (remote portlet) thông quadịch vụ Web Services) Các ứng dụng nghiệp vụ tuân thủ tiêu chuẩn này có thể chạytrên bất kỳ một portal server nào áp dụng tiêu chuẩn WSRP, không cần quan tâmrằng ứng dụng hay portal server xây dựng trên công nghệ/ngôn ngữ nào Hiện tại,

có 2 loại công nghệ hỗ trợ Web Services tốt nhất là J2EE (Java 2 Enterprise Edition)và.NET Framework

1.2.5 Một số môi trường hợp tác trên mạng

1.2.5.1 Văn phòng điện tử (WebOffice)

WebOffice là một hệ thống văn phòng trực tuyến do công ty Giải pháp tổng thể công nghệ thông tin tại Việt Nam gọi là (VIETTOTAL) phát triển

Trang 30

20

-Hình 1.1 Giao diện trang WebOffice

Đây là một hệ thống được xây dựng trên cơ sở về môi trường cộng tác, chophép các thành viên trong một doanh nghiệp có thể tác động qua lại với nhau trongmột hệ thống thống nhất Hệ thống bao gồm một số dịch vụ cơ bản sau:

- Quản lý, kiểm soát, theo dõi việc thực hiện các công việc của dự án haynhóm công việc của cơ quan Tạo lập không giới hạn các dự án, nhóm công việccũng như các công việc trong dự án

- Cơ sở dữ liệu chứa các câu hỏi và câu trả lời cho những kiến thức chung màcán bộ, nhân viên cần để thực hiện công việc của mình, nâng cao hiệu quả và năngsuất làm việc

- Cho phép thành viên tạo các phòng họp không giới hạn, trò chuyện cùng mộtlúc nhiều phòng khác nhau, cho phép truyền file trực tiếp

1.2.5.2 Hệ thống Wiki

Wiki là ví dụ cho một môi trường cộng tác tích hợp tri thức, Wiki được thiết

kế dưới dạng một hệ thống Website có cấu trúc đơn giản cho phép mọi người truycập vào lĩnh vực mà mình quan tâm một cách dễ dàng Wiki cho phép người truycập có thể xoá một nội dung cũ, chỉnh sửa hoặc bổ sung nội dung mới, bằng cáchnày wiki có tích hợp các thông tin khác nhau về một chủ đề nào đó và làm phongphú từ điển tri thức dùng chung

Trang 31

21

-Hình 2.1 Giao diện trang Wikipedia

Wiki là nơi mà thông tin được cập nhật và chú trọng các nội dung mới, Wikiđược dùng để xây dựng và bổ sung cho những nội dung được sử dụng lâu dài.Wikipedia là minh chứng rõ nhất cho sự thành công của hình thức Wiki, nhiềungười có thể cùng chỉnh sửa một nội dung cho đến khi nó hoàn thiện Wikipedia trởthành một từ điển không thể thiếu cho nhiều người Ngày nay nhiều công ty tạo raWiki để làm dữ liệu cơ bản cho nội bộ, rất phù hợp để chia sẻ thông tin trong nhữngnhóm lớn

1.2.5.3 Hệ thống Windows Live Groups

Microsoft xây dựng môi trường cộng tác trực tuyến cho phép mọi người dễdàng tạo nhóm và cùng nhau làm việc trong cùng một môi trường nhằm cung cấpmột nền tảng ổn định miễn phí cho những người thường xuyên kết hợp các ý tưởnglại với nhau Nói cách khác Windows Live Groups là một thế giới cộng tác trựctuyến

Trong môi trường Windows Live Microsoft đã cung cấp rất nhiều dịch vụ đểngười sử dụng khai thác, trong đó có một số dịch vụ tiêu biểu như sau: WindowsLive Hotmail, Calendar, Sky driver, Windows Live Messenger, Spacer, Weather,Yellow Pages, Shopping, Map,… Ngoài ra Windows Live còn kết hợp với OficeWeb Apps, cho phép người dùng tạo nhóm và quản lý nhóm, để thực hiện một dự ánnào đó

Trang 32

22

-Hình 3.1 Giao diện trang Windows Live

Phiên bản Windows Live Messenger 9.0 (2009) được giới thiệu kèm theotrong gói ứng dụng Windows Live Essentials thuộc họ Live đã thật sự làm nhữngngười dùng Chat hài lòng qua những tính năng kết nối mang tính hướng mạng xãhội, các tuỳ chọn cá nhân hoá và giao diện mới rất hấp dẫn Ngoài ra còn có một sốtính năng khác như chia sẻ dữ liệu, tạo nhóm, làm cho Windows Live Messengermang tính chất mạng xã hội nhiều hơn

Windows Live Hotmail cung cấp dung lượng lưu trữ gigabyte, bộ kiểm trachính tả là tự động, bộ lọc tuỳ ý và các tính năng an toàn, công nghệ lập trình Ajax

và tích hợp với Windows Live Messenger, Sacer, Calendar và Contacts HiệnHotmail đang có hàng triệu người dùng trên khắp thế giới và có 36 phiên bản ngôn ngữ

1.3 KHO NGỮ LIỆU SONG NGỮ

1.3.1 Một số khái niệm

Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứ thực

tế sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là của ngônngữ nói mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạng ngônngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử

Trang 33

Kho ngữ liệu (Linguistic Corpus) là một tập hợp các mảnh ngôn ngữ đượcchọn lựa và sắp xếp theo một số tiêu chí ngôn ngữ học rõ ràng để được sử dụng nhưmột mẫu ngôn ngữ [19].

Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho ngữ liệu củangôn ngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho ngữ liệusong song, bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho ngữ liệu song songthì ngữ liệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông quamột ngôn ngữ trung gian Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thôngqua ngôn ngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từtiếng Pháp sang tiếng Việt

1.3.2 Ứng dụng của kho ngữ liệu song ngữ

Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn, nhưngchủ yếu là tiếng Anh, được rất nhiều nhà khoa học trên thế giới khai thác và sửdụng Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy

mô nhỏ hơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều cáckho dữ liệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển,dịch tự động, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, họcngoại ngữ,

Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp

ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, Ở

Trang 34

24

-Việt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đếnkho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứtiếng, truyện Harry Potter (Chinese-Korean-Japanese-Vietnamese), các trang Websong ngữ Anh-Việt như VOV online, ThanhNien, Vietnamnet, NhanDan, Riêngkho ngữ liệu song ngữ (dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có khongữ liệu song ngữ Anh - Việt có tên là EVC [1]

Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụcho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngônngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại ngữ,

1.3.2.1 Ứng dụng trong ngôn ngữ học – thống kê

Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào việc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợgiúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lênđáng kể [1]

1.3.2.3 Ứng dụng trong giảng dạy ngoại ngữ

Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu

và tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặcbiệt là kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đíchdạy tiếng Anh cho người Việt và dạy tiếng Việt cho người nước ngoài giúp chongười học tránh được các lỗi thường gặp như cách đặt câu, sử dụng từ như trongtiếng mẹ đẻ, Kho ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảngdạy tiếng Anh để lấp khoảng trống giữa thực hành và lý thuyết Đồng thời, các giáoviên khi sử dụng kho ngữ liệu song ngữ có thể làm giàu thêm kiến thức của họ,cung cấp thêm dữ liệu xác thực trong bài giảng và cũng là công cụ hữu ích trongviệc thiết kế giáo trình [22]

Trang 35

25

-1.3.2.4 Ứng dụng trong việc nghiên cứu dịch thuật

Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữangôn ngữ nguồn và đích Chúng cung cấp thông tin về tần suất của từ, sử dụng cụthể từ vựng và cú pháp Kho ngữ liệu song song có thể giúp phiên dịch để phát triểncác chiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu không có tươngđương trực tiếp bằng ngôn ngữ đích Trên cơ sở đó, tập hợp các bản dịch có thểđược xác định và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụthể và thể loại [22]

1.3.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới

1.3.3.1 British National Corpus (BNC)

Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn

Ấn bản mới nhất là BNC XML Edition, phát hành vào năm 2007

Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực vàquốc gia, các ấn phẩm đặc biệt xuất bản định kỳ và các tạp chí dành cho mọi lứatuổi, sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loạivăn bản khác Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộchội thoại không chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các

độ tuổi khác nhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nóiđược thu thập trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộchọp chính phủ đài phát thanh và điện thoại

Kho ngữ liệu bắt đầu xây dựng vào năm 1991 và được hoàn thành vào năm

1994 Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng cácngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC

World (2001) và phiên bản thứ ba BNC XML Edition (2007) Kể từ khi hoàn thành

dự án, có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNCSampler (một bộ sưu tập chung của một triệu chữ viết, một triệu từ đàm thoại) vàBNC Baby (bốn mốt triệu mẫu chữ từ bốn thể loại khác nhau: tiểu thuyết, báo chí,viết luận và đàm thoại) [20], [21]

1.3.3.2 Canadian Hansard Corpus (Anh – Pháp)

Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng đượctrích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chính

Trang 36

26

-thức tại Canada là tiếng Anh và tiếng Pháp Nội dung của nó được giới hạn trongluận lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụnhư thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu đượcchuẩn bị trước

Có một vài phiên bản của ngữ liệu song song Hansard Canada Các phiên bảnUSC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn)

từ các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với2.000.000 từ trong tiếng Anh và tiếng Pháp Phiên bản này được tự do tải về tạitrang Web USC TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùngđăng ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm

2003 (khoảng 235.000.000 từ) [23]

1.3.3.3 JENAAD Japanese – English Parallel Corpus (Anh – Nhật)

Kho ngữ liệu Japanese - English News Article Alignment Data (JENAAD)chứa 150.000 cặp câu Nguồn gốc của kho ngữ liệu được lấy từ Yomiuri Shimbun,một trong những tạp chí quốc gia của Nhật Bản và tờ báo tiếng Anh Daily Yomiuri.Các ngữ liệu đã được cấp phép từ Viện Công nghệ Thông tin và Truyền thông Quốc

gia (National Institute of Information and Communications Technology - NICT)

Nhật Bản nhằm phục vụ cho mục đích nghiên cứu và giáo dục [16]

1.3.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh

Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngônngữ học Tính toán của Trường đại học Peking Kho ngữ liệu gồm có hơn 200.000liên kết những cặp câu được lấy từ những văn bản song ngữ có chất lượng(3.066.435 từ tiếng Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực,

ví dụ những văn bản của chính phủ, những tài liệu chính thức, những văn bản tintức, những bài tiểu luận, những kịch bản bài phát biểu, những văn bản văn học, vănxuôi hàn lâm, cũng như văn học chính trị, luật, du lịch, công nghiệp thực phẩm,kinh tế và kinh doanh Đa số các văn bản được lấy từ các trang Web song ngữ trongkhi một số được số hoá bằng cách quét vào rồi qua công đoạn nhận dạng chữ(OCR: Optical Character Recognization) [26]

1.4 CÁC ĐỊNH DẠNG LƯU TRỮ KHO NGỮ LIỆU

Trang 37

27

-Xây dựng một kho ngữ liệu đơn ngữ, song ngữ hay đa ngữ thì công việc phứctạp và tốn nhiều thời gian công sức nhất là xây dựng một cơ sở dữ liệu (CSDL) vớinhiều định dạng Để có được CSDL đa dạng, phong phú chúng ta phải sưu tập vàlựa chọn nguồn ngữ liệu có thể có được bằng cách sử dụng các tài liệu gốc có sẵnnhư sách, các trang Web, kế thừa các CSDL có sẵn từ các từ điển, các kho ngữ liệusẵn có … Các CSDL này có thể tồn tại dưới nhiều định dạng khác nhau do đó mộtcông việc cần thiết nữa đó là lựa chọn công cụ để lưu trữ ngữ liệu

Hiện nay có nhiều công cụ cho phép tổ chức lưu trữ dữ liệu song ngữ như:XML (eXtensible Markup Language), Word, HTML (HyperText MarkupLanguage), các hệ quản trị CSDL như Access, SQL (Structured Query Language),Oracle,… Tuy nhiên tùy theo mục đích khai thác mà ta lực chọn một công cụ thíchhợp cho việc khai thác, sau đây chúng tôi xin giới thiệu đôi nét về công cụ lưu trữXML

1.4.1 Tổng quan về XML

XML ra đời vào tháng 2/1998, là ngôn ngữ đánh dấu mở rộng, có kiến trúcgần giống với HTML nhưng XML nhanh chóng trở thành một chuẩn phổ biếntrong việc chuyển đổi thông tin qua các trang Web sử dụng giao thức HTTP(Hyper Text Transfer Protocol) Trong khi HTML là ngôn ngữ chủ yếu về hiển thị

dữ liệu thì XML lại đang phát triển mạnh về việc chuyển tải, trao đổi và thao tác

dữ liệu bằng XML XML đưa ra một định dạng chuẩn cho cấu trúc của dữ liệuhoặc thông tin bằng việc tự định nghĩa định dạng của tài liệu Bằng cách này, dữliệu được lưu trữ bằng XML sẽ độc lập với việc xử lý

1.4.2 Thuật ngữ

Dưới đây là những từ chuyên môn cần được hiểu rõ khi làm việc với XML:

Document Type Definition (DTD) – Định nghĩa loại tài liệu

Mô tả cách thức tài liệu được thông dịch thông qua các thẻ đánh dấu DTDđịnh nghĩa cho các loại tài liệu khác nhau

Parser – Trình biên dịch

Mã chương trình nhận tài liệu XML, đọc, thông dịch và trình bày chúng dướidạng đối tượng mà những ứng dụng có thể truy cập đến

Tags – Thẻ

Trang 38

28

-Cách thức tài liệu được đánh dấu để hiển thị Thẻ sẽ định dạng dữ liệu của tàiliệu

1.4.3 Cấu trúc của một tập tin XML

Mục đích của việc tổ chức thông tin là để con người có thể đọc và hiểuđược những gì mà nó muốn truyền tải Chúng ta xem một tập tin văn bản sau đây:

Theo cách tổ chức thông tin của tập tin trên, chúng ta thật khó để hiểu tập tinnày muốn nói lên điều gì Bây giờ, chúng ta tổ chức tập tin trên theo định dạngmột tài liệu XML một cách đơn giản nhất

1.4.4 Những thành phần của một tài liệu XML

Khai báo: Mỗi một tài liệu XML có một chỉ thị khai báo

F10 Shimano Calcutta 47.76

F20 Bantam Lexica 49.99

Trang 39

Phần tử (Elements): Một tài liệu XML được cấu thành từ những phần tử.

Một phần tử có thẻ mở và thẻ đóng Giữa thẻ mở và thẻ đóng là nội dung củaphần tử đó Phần tử có thể chứa dữ liệu hoặc có thể lồng vào một phần tử khác

Phần tử gốc (root): Trong tài liệu XML, chỉ có một phần tử gốc và phần tử

này sẽ chứa tất cả những phần tử của tài liệu XML do chúng ta tạo ra Theo ví dụtrên, ta thấy chỉ có một phần tử “Catalog”

Thuộc tính (Attributes): Như đã trình bày ở trên, một phần tử có thể chứa dữ

liệu hoặc chứa phần tử khác hoặc cả hai Bên cạnh đó, phần tử có thể rỗng, khi

đó nó có thể chứa thuộc tính Một thuộc tính chỉ là một sự lựa chọn để gắn dữliệu đến phần tử Một thuộc tính đặt trong thẻ mở của phần tử và chỉ ra giá trị của

nó bằng cách sử dụng cặp “name=value”

Trang 40

30

-XML được xây dựng như là một chuẩn cho việc trình bày và trao đổi dữ

quan bao gồm XML DOM, XPath, XSL và XML Schema Vì XML là một chuẩncông cộng không thuộc về một công ty nào, nên người dùng có thể tự do trong việcphát triển các ứng dụng trên XML và không bị giới hạn cách sử dụng Vì thế, XMLngày nay đang được sử dụng rất phổ biến và tương lai sẽ là một chuẩn duy nhấtđược dùng trên Web và đặc biệt trong lĩnh vực Web đa ngữ thì XML là một công cụrất phù hợp bởi tính năng đặc biệt của nó

1.5 TỔNG KẾT CHƯƠNG

Trong chương này, luận văn đã tập trung tìm hiểu về các khái niệm của dịch tựđộng, lịch sử phát triển, cấu trúc và một số hệ thống dịch tự động trên mạng; cũngnhư tìm hiểu nghiên cứu khái niệm về môi trường hợp tác, các công cụ dùng để giaotiếp và hợp tác, các tính năng cơ bản của môi trường hợp tác, các công nghệ hỗ trợmôi trường hợp tác và một số môi trường hợp tác Bên cạnh đó, luận văn cònnghiên cứu một số khái niệm về kho ngữ liệu song ngữ, ứng dụng của kho ngữ liệusong ngữ và một số kho ngữ liệu song ngữ trên thế giới Đặc biệt luận văn còn tìmhiểu các định dạng để lưu trữ kho ngữ liệu; cụ thể ở đây là cách lưu trữ ngữ liệutheo XML Đó là những phần lý thuyết cơ bản hỗ trợ cho việc mở rộng các kho ngữliệu đa ngữ cho các chương sau

CHƯƠNG 2 GIẢI PHÁP MỞ RỘNG KHO NGỮ LIỆU

Trong chương này, chúng tôi xin trình bày các nguồn ngữ liệu thu thập được

và một số kỹ thuật xử lý dữ liệu thu thập để tạo kho ngữ liệu đầu vào Từ đó trìnhbày một số giải pháp mở rộng kho ngữ liệu đa ngữ nhờ vào các hệ thống dịch tựđộng trực tuyến

Định dạng
Số trang	101
Dung lượng	8,36 MB