Do đó tất cả các tài liệu xử lý ngôn ngữ tự nhiên đều dựa vào kho dữ liệu song ngữ ví dụ như dịch tự động, học tiếng Anh, khai thác thông tin trên web,…Vì vậy đòi hỏimột kho dữ liệu song
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
HOÀNG NHƯ QUỲNH
NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT
LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng - Năm 2011
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
HOÀNG NHƯ QUỲNH
NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng
Đà Nẵng - Năm 2011
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Võ Trung Hùng.
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.
trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả
Hoàng Như Quỳnh
Trang 4MỤC LỤC
LỜI CAM ĐOAN iii
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Võ Trung Hùng iii
MỤC LỤC iv
DANH MỤC CÁC TỪ VIẾT TẮT i
DANH MỤC HÌNH ii
MỞ ĐẦU 1
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 3
1.1 KHO DỮ LIỆU SONG NGỮ 3
1.2 MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 8 1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 17
CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 23
2.1 GIỚI THIỆU 23
2.2 MÔ HÌNH TỔNG THỂ 23
2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 25
CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 37
3.1 GIẢI PHÁP XỬ LÝ DỮ LIỆU 37
3.2 TRÍCH TỪ TỪ ĐIỂN LẠC VIỆT 47
3.3 TRÍCH TỪ VOV NEWS 55
3.4 TRÍCH TỪ CÁC KHO DỮ LIỆU SONG NGỮ ANH – PHÁP 66
3.5 MỘT SỐ NGUỒN DỮ LIỆU KHÁC 69
3.6 KHAI THÁC KHO DỮ LIỆU SONG NGỮ 69
KẾT LUẬN 74
DANH MỤC TÀI LIỆU THAM KHẢO 75
PHỤ LỤC 79
Trang 5i
DANH MỤC CÁC TỪ VIẾT TẮTTIẾNG VIỆT
TIẾNG ANH
Trang 6
ii DANH MỤC HÌNH Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ 15
Hình 1.1 Tách câu bằng mạng nơ-ron 21
Hình 1.1 Mô hình tổng thể hệ thống 25
Hình 1.1 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau 27
Hình 1.1 Các giải pháp tổ chức CSDL 28
Hình 1.2 Ví dụ dữ liệu lưu trên 1 tập tin 29
Hình 1.3 Ví dụ dữ liệu lưu trên 2 tập tin 30
Hình 1.1 Giao diện của Từ điển Lạc Việt 32
Hình 2.1 Ví dụ về trang web ngôn ngữ chính 34
Hình 2.2 Ví dụ về trang web có phiên bản ngôn ngữ khác 34
Hình 3.1 Sơ đồ dịch câu tiếng Anh sang tiếng Việt 36
Hình 1.1 Đăng nhập YouAlign 38
Hình 1.2 Giao diện gióng câu tài liệu 39
Hình 1.3 Kết quả canh tài liệu 40
Hình 1.4 Ví dụ kết quả canh tài liệu dạng tập tin HTML 41
Hình 1.1 Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML 44
Hình 1.2 Mẫu tập tin *.Doc 44
Hình 1.3 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin 45 Hình 1.4 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên một tập tin 45
Hình 1.1 Sơ đồ quá trình trích từ Từ điển Lạc Việt 48
Hình 1.2 Mục từ có các câu ví dụ Anh – Việt 49
Hình 1.3 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt 50
Hình 1.4 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt 50
Hình 1.5 Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục 53
Hình 1.6 Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục 54
Hình 1.1 Hệ thống bóc tách nội dung của VietSpider 56
Hình 1.2 Sơ đồ quá trình xử lý trích từ trang web sử dụngYouAlign 57
Hình 1.3 Trang web tiếng Việt trước khi tách lấy nội dung 58
Hình 1.4 Trang web tiếng Anh trước khi tách lấy nội dung 59
Trang 7
iii Hình 1.5 Ví dụ tạo luồng trang VOV News tiếng Việt 60
Hình 1.6 Trang web tiếng Việt khi thực hiện tách lấy nội dung 60
Hình 1.7 Trang web tiếng Anh khi thực hiện tách lấy nội dung 61
Hình 1.8 Dữ liệu sau khi bóc tách 62
Hình 1.9 Sơ đồ quá trình xử lý trích từ trang web sử dụng MorphAdorner 63
Hình 1.10 Tách câu trực tuyến của MorphAdorner 64
Hình 1.11 Kết quả tách câu tiếngAnh bằng công cụ trực tuyến MorphAdorner 65 Hình 1.12 Kết quả tách câu tiếngViệt bằng công cụ trực tuyến MorphAdorner 66 Hình 1.1 Sơ đồ quá trình xử lý nguồn dữ liệu có sẵn 67
Hình 1.2 Giao diện Vdict 68
Hình 1.1 Sơ đồ khai thác kho dữ liệu song ngữ Anh – Việt 70
Hình 1.2 Trò chơi học tiếng Anh qua mẫu câu Anh-Việt 71
Hình 1.3 Chương trình hiển thị mẫu câu tiếng Anh 71
Hình 1.4 NSD nhập câu dịch tiếng Việt 72
Hình 1.5 Kết quả sau khi dịch 72
Trang 8iv
Trang 9do và một trong những lý do quan trọng đó là rào cản về ngôn ngữ
Vấn đề xử lý ngôn ngữ tự nhiên hiện nay rất cần các tài liệu song ngữ, tuynhiên các tài liệu thường nằm rải rác nhiều nơi dưới nhiều hình thức khác nhau Do
đó tất cả các tài liệu xử lý ngôn ngữ tự nhiên đều dựa vào kho dữ liệu song ngữ ví
dụ như dịch tự động, học tiếng Anh, khai thác thông tin trên web,…Vì vậy đòi hỏimột kho dữ liệu song ngữ rất lớn
Hiện nay trên thế giới có rất nhiều kho dữ liệu song ngữ như Anh – Pháp,Pháp – Anh, Anh – Hoa,… Tuy nhiên, đối với tiếng Việt hiện nay chưa có kho dữliệu song ngữ nào như vậy được công bố chính thức và chia sẽ cho người sử dụng.Vấn đề đặt ra là làm thế nào để xây dựng được một kho dữ liệu song ngữ Anh – Việt
từ các nguồn dữ liệu rải rác
Để góp phần giải quyết vấn đề trên, chúng tôi đề xuất đề tài: “Nghiên cứu xây
dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt”.
2 Mục tiêu nghiên cứu
Mục tiêu chính mà đề tài hướng đến là nghiên cứu xây dựng kho dữ liệu chứacác cặp câu Anh – Việt từ các nguồn tài liệu khác nhau như: trang web, từ điển,sách, văn bản,… dưới nhiều định dạng khác nhau, như: XML, TXT, DOC, vànghiên cứu các nguồn tài liệu như từ điển Lạc Việt, báo tiếng Anh – tiếng Việt, vănbản song ngữ Anh – Việt,… Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyếtnhững vấn đề chính sau: tìm hiểu về các kho ngữ liệu song song, thu thập các nguồnngữ liệu song ngữ Anh – Việt, nghiên cứu các giải pháp xây dựng kho dữ liệu song
Trang 10
2
-ngữ Anh – Việt để tạo ra được một cơ sở dữ liệu phục vụ cho việc học tiếng Anh,dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các cơ sở dữ liệu của kho dữ liệu song ngữ, cácnguồn tài liệu có thể xây dựng nên kho dữ liệu song ngữ
4 Phương pháp nghiên cứu
Đề tài sử dụng các kỹ thuật tách câu từ một văn bản, bài báo, Tìm hiểu cách xây dựng kho dữ liệu song ngữ để xây dựng kho dữ liệu song ngữ Anh – Việt
5 Ý nghĩa khoa học và thực tiễn của đề tài:
Kho dữ liệu song ngữ Anh – Việt là tài nguyên có giá trị trong việc tạo ra đượcmột cơ sở dữ liệu phục vụ cho việc dạy và học tiếng Anh, dịch tự động, nghiên cứu
xử lý ngôn ngữ tự nhiên,
6 Cấu trúc luận văn
Báo cáo của luận văn được tổ chức thành 3 chương
Chương 1 Nghiên cứu tổng quan Trình bày khái niệm về kho ngữ liệu songngữ, các ứng dụng của kho, nghiên cứu một số kho ngữ liệu song ngữ đang có trênthế giới; nghiên cứu về XML, một số thuật toán về xử lý ngôn ngữ tự nhiên,… Chương 2 Giải pháp xây dựng kho dữ liệu song ngữ Chúng tôi trình bày một
số giải pháp xây dựng kho ngữ liệu song ngữ
Chương 3 Phát triển ứng dụng Trình bày kết quả xây dựng kho dữ liệu từnhiều nguồn dữ liệu khác nhau
Trang 11
3
-CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
Trong thời đại bùng nổ thông tin như hiện nay, nhu cầu tra cứu từ trên máytính rất lớn, vì vậy có một tài nguyên rất lớn đó là các kho ngữ liệu song ngữ Vàothập kỷ 1980, tài liệu song ngữ được đưa vào sử dụng trong các hệ thống xử lý ngôn
tự động, nhất là phục vụ cho việc dịch tự động Alan Melby đã có ý tưởng lưu trữlại các bản dịch song ngữ của người, để sau này các nhà nghiên cứu có thể khai thácđược gì từ đó Phương pháp liên kết song ngữ tự động được nghĩ ra đầu tiên bởiMartin Kay và Martin Roschéien vào năm 1987 và từ đó đến nay đã có nhiềuphương pháp liên kết văn bản song ngữ ra đời, liên kết trên các cấp độ khác nhau:đoạn, câu, từ, ngữ, Cho đến nay, việc nghiên cứu song ngữ đã được thực hiện vớicác cặp ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa, [1]Trong chương này chúng tôi trình bày các vấn đề liên quan đến kho dữ liệusong ngữ, các hệ cơ sở dữ liệu và phương pháp xử lý ngôn ngữ tự nhiên áp dụng khixây dựng các kho dữ liệu song ngữ
1.1 KHO DỮ LIỆU SONG NGỮ
1.1.1 Khái niệm
a Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứthực tế sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là củangôn ngữ nói mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạngngôn ngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử.Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ vàngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ Đề tài này tập trung nghiên cứu
để xây dựng kho dữ liệu đa ngữ Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữnày là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song Ngữ liệu song song cóthể gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ Trong đề tài này thực hiện xây
Trang 12Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho dữ liệu củangôn ngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho dữ liệu songsong, bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho dữ liệu song song thì dữliệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua một ngônngữ trung gian Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngônngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Phápsang tiếng Việt.
1.1.2 Ứng dụng của kho dữ liệu song ngữ
Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưngchủ yếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy mô nhỏhơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho dữliệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tựđộng, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoạingữ,
Trang 13
5
-Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp
ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, ỞViệt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đếnkho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứtiếng, truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang websong ngữ Anh-Việt như ThanhNien, Vietnamnet, NhanDan, Riêng kho ngữ liệusong ngữ (dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có kho ngữ liệu songngữ Anh - Việt có tên là EVC [1]
Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụcho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngônngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoạingữ,
1.1.2.1 Ứng dụng trong ngôn ngữ học – thống kê
Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vàoviệc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợgiúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lênđáng kể [1]
1.1.2.3 Ứng dụng trong giảng dạy ngoại ngữ
Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu
và tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặcbiệt là kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đích
Trang 14
6
-dạy tiếng Anh cho người Việt và -dạy tiếng Việt cho người nước ngoài giúp chongười học tránh được các lỗi thường gặp như cách đặt câu, sử dụng từ như trongtiếng mẹ đẻ, Kho ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảngdạy tiếng Anh để lấp khoảng trống giữa thực hành và lý thuyết Đồng thời, các giáoviên khi sử dụng kho song ngữ có thể làm giàu thêm kiến thức của họ, cung cấpthêm dữ liệu xác thực trong bài giảng và cũng là công cụ hữu ích trong việc thiết kếgiáo trình [17]
1.1.2.4 Ứng dụng trong việc nghiên cứu dịch thuật
Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữangôn ngữ nguồn và đích Chúng cung cấp thông tin về tần số của từ, sử dụng cụ thể
từ vựng và cú pháp Kho ngữ liệu song song có thể giúp phiên dịch để phát triển cácchiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu không có tương đươngtrực tiếp bằng ngôn ngữ đích Trên cơ sở đó, tập hợp các bản dịch có thể được xácđịnh và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụ thể và thểloại [17]
1.1.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới
1.1.3.1 British National Corpus (BNC)
Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn
Ấn bản mới nhất là BNC XML Edition, phát hành vào năm 2007
Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực vàquốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứatuổi, sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loạivăn bản khác Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộchội thoại không chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các
độ tuổi khác nhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nóiđược thu thập trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộchọp chính phủ đài phát thanh và điện thoại
Trang 15
7
-Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm
1994 Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng cácngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC
World (2001) và phiên bản thứ ba BNC XML Edition (2007) Kể từ khi hoàn thành
dự án, có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNCSampler (một bộ sưu tập chung của một triệu chữ viết, một triệu từ đàm thoại) vàBNC Baby (bốn mốt triệu mẫu chữ từ bốn thể loại khác nhau: tiểu thuyết, báo chí,viết luận và đàm thoại ) [14][15]
1.1.3.2 Canadian Hansard Corpus (Anh – Pháp)
Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng đượctrích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chínhthức tại Canada là tiếng Anh và tiếng Pháp Nội dung của nó được giới hạn trongluận lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụnhư thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu đượcchuẩn bị trước
Có một vài phiên bản của ngữ liệu song song Hansard Canada Các phiên bảnUSC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn)
từ các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với2.000.000 từ trong tiếng Anh và tiếng Pháp Phiên bản này được tự do tải về tạitrang web USC TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùngđăng ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm
Trang 16
8
-thông Quốc gia (National Institute of Information and Communications Technology
- NICT) Nhật Bản nhằm phục vụ cho mục đích nghiên cứu và giáo dục [20]
1.1.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh
Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngônngữ học Tính toán của Trường đại học Peking Kho ngữ liệu gồm có hơn 200.000liên kết những cặp câu được lấy từ những văn bản song ngữ có chất lượng(3.066.435 từ tiếng Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực,
ví dụ những văn bản của chính phủ, những tài liệu chính thức, những văn bản tintức, những bài tiểu luận, những kịch bản bài phát biểu, những văn bản văn học, vănxuôi hàn lâm, cũng như văn học chính trị, luật, du lịch, công nghiệp thực phẩm,kinh tế và kinh doanh Đa số các văn bản được lấy từ các trang web song ngữ trongkhi một số được số hoá bằng cách quét vào rồi qua công đoạn nhận dạng chữ(OCR: Optical Character Recognization) [26]
1.2 MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG NGỮ
1.2.1 Cơ sở dữ liệu
Xây dựng một kho dữ liệu đơn ngữ, song ngữ hay đa ngữ thì công việc phứctạp và tốn nhiều thời gian công sức nhất là xây dựng một cơ sở dữ liệu với nhiềuđịnh dạng trên máy tính và để có được nguồn cơ sở dữ liệu đa dạng, phong phúchúng ta phải sưu tập và lựa chọn nguồn dữ liệu có thể có được bằng cách sử dụngcác tài liệu gốc có sẵn như sách song ngữ, web song ngữ, kế thừa các CSDL có sẵn
từ các từ điển,… Các CSDL này có thể tồn tại dưới nhiều định dạng khác nhau do
đó một công việc cần thiết nữa đó là lựa chọn công cụ để lưu trữ dữ liệu song ngữ.Hiện nay có nhiều công cụ cho phép tổ chức lưu trữ dữ liệu song ngữ như:XML, Word, HTML, các hệ quản trị cơ sở dữ liệu như Access, SQL, Oracle,… tuy
Trang 17sẽ độc lập với việc xử lý
1.2.1.2 Thuật ngữ
Dưới đây là những từ chuyên môn cần được hiểu rõ khi làm việc vớiXML:
Document Type Definition (DTD) – Định nghĩa loại tài liệu
Mô tả cách thức tài liệu được thông dịch thông quá các thẻ đánh dấu.DTD định nghĩa cho các loại tài liệu khác nhau
Trang 19
11
-Như vậy, bằng cách sử dụng định dạng XML, người dùng có thể hiểu và biết được tập tin trên đang muốn truyền tải nội dung gì
1.2.1.4 Tạo lập một tài liệu XML
Chúng ta có thể sử dụng trình soạn thảo đơn giản nhất là Notepad để soạn thảo tài liệu XML, nhưng phải tuân thủ theo qui tắc sau:
1.2.1.5 Những thành phần của một tài liệu XML
Khai báo: Mỗi một tài liệu XML có một chỉ thị khai báo
Trang 20
12
-<! chú thích >
Phần tử (Elements): Một tài liệu XML được cấu thành từ những phần tử.
Một phần tử có thẻ mở và thẻ đóng Giữa thẻ mở và thẻ đóng là nội dung củaphần tử đó Phần tử có thể chứa dữ liệu hoặc có thể lồng vào một phần tử khác
Phần tử gốc (root): Trong tài liệu XML, chỉ có một phần tử gốc, và phần tử
này sẽ chứa tất cả những phần tử của tài liệu XML do chúng ta tạo ra Theo ví dụtrên, ta thấy chỉ có một phần tử “Catalog”
Thuộc tính (Attributes): Như đã trình bày ở trên, một phần tử có thể chứa
dữ liệu hoặc chứa phần tử khác hoặc cả hai Bên cạnh đó, phần tử có thể rỗng,khi đó nó có thể chứa thuộc tính Một thuộc tính chỉ là một sự lựa chọn để gắn
dữ liệu đến phần tử Một thuộc tính đặt trong thẻ mở của phần tử và chỉ ra giá trịcủa nó bằng cách sử dụng cặp “name=value”
Trang 211.2.2 Thu thập dữ liệu
Trang 22
14
-Với sự ra đời và phát triển mạnh mẽ của máy tính điện tử cũng như mạngInternet đi cùng theo nó là kho dữ liệu khổng lồ tồn tại dưới dạng điện tử thì việcthu thập ngữ liệu đã được tự động hóa rất nhiều Các kho ngữ liệu song song hiệnnay thường được chọn lọc từ các nguồn tài liệu như: báo chí, sách giáo khoa, cácwebsite song ngữ hoặc các ngữ liệu điện tử từ các sách, truyện nổi tiếng nhiều thứtiếng Tuy nhiên có một số hạn chế trong việc thu thập dữ liệu đó là các ngữ liệusong ngữ có sẵn trên mạng Internet đa số đều là các bản dịch thoát ý, hoặc dịch ýchính không dịch 1 -1
Với định hướng như trên, nên nguồn ngữ liệu song ngữ Anh - Việt đượcchọn là tập hợp các câu, văn bản song ngữ được rút ra từ các nguồn ngữ liệu phùhợp, như: các tài liệu về KHKT (đặc biệt là Tin học), các câu ví dụ Anh - Việttrong các từ điển, ngữ liệu SUSANNE,… Các nguồn này ở nhiều dạng khácnhau (sách, điện tử) và được nhập hay quét vào rồi qua công đoạn nhận dạngchữ OCR Sau đây là các nguồn ngữ liệu song ngữ Anh - Việt thô có thể thuthập được:
a Nguồn từ điển: trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví
dụ hướng dẫn sử dụng từ đó, và các ví dụ bằng tiếng Anh này cũng được dịch
chính xác (1-1) sang tiếng Việt Nếu xét về chuẩn ngôn ngữ thì ngữ liệu trongcác từ điển là đạt yêu cầu nhất (nhất là các từ điển nổi tiếng, nhiều người sửdụng, các từ điển được các cơ quan hay học giả uy tín biên soạn, các câutiếng Anh được các nhà làm từ điển trích từ từ điển Oxford, Webster) Hầu hếtcác ví dụ này đều là các câu thông thường (đáp ứng tiêu chuẩn về phongcách/lĩnh vực)
Trang 23
15
-Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ
b Ngữ liệu SUSANNE: đây là ngữ liệu điện tử tiếng Anh được xây dựng bởi một nhóm các nhà ngôn ngữ học - máy tính (đứng đầu là Geoffrey
Sampson) thuộc trường đại học Sussex, Anh SUSANNE (Surface andUnderlying Structural ANalyses of Naturalistic English) là một phần trong
dự án phân tích và đánh dấu tiếng Anh theo hướng ngôn ngữ học máy tính.SUSANNE gồm khoảng 128.000 từ được rút từ ngữ liệu Brown
c Nguồn Internet: đây là nguồn dữ liệu khổng lồ, nguồn ngữ liệu này
có lợi thế là chúng đã tồn tại sẵn dưới dạng điện tử (nên không phải nhập liệu
lại bằng tay) Kho ngữ liệu trên Internet thì vô cùng lớn với vô vàn các lĩnhvực/phong cách khác nhau, nhưng chỉ có một số ít các trang Web song ngữ làđáp ứng được đúng tiêu chuẩn
Trang 24
16
-d Nguồn sách: bao gồm các sách dạy tiếng Anh, các mẫu câu tiếng Anh,
sách song ngữ tin học, khoa học kỹ thuật,…
1.2.3 Xử lý ngôn ngữ tự nhiên
Song song với việc thu thập dữ liệu, với các nguồn dữ liệu đầu vào như văn bản, các trang web, ebook,… thì cần phải có một số công đoạn xử lý văn bản đầu vào, phân tích, tách đoạn, tách câu,…để đạt được mục đích
Các dữ liệu đầu vào là các văn bản, trang web được lấy về sẽ phải qua giai đoạn tiền xử lý gồm các công việc như sau:
là các quy ước trong việc trình bày văn bản bao gồm dấu hiệu bắt đầu đoạn và kết thúc đoạn
1.2.3.3 Tách câu
Trong văn bản tiếng Anh, tiếng Việt hay một số ngôn ngữ khác, thông thườngngười ta dùng dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu chấm câukhác để nhận biết kết thúc câu Tuy nhiên do tính nhập nhằng của dấu báo hiệu kếtthúc câu nên việc phân định ranh giới không đơn giản Ví dụ dấu chấm có thể biểuthị cho một dấu thập phân (1,234.567), một cụm từ viết tắt (Mr., Dr., GS., TS., …),kết thúc câu văn và một số trường hợp như địa chỉ trang web, email…(www.udn.vnhoặc abc@udn.vn) Dấu chấm hỏi hay dấu chấm thang có thể xuất hiện trong dấungoặc đơn, ngoặc kép hay ở cuối câu
Trang 25
17
-1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.3.1 Thuật toán liên kết từ
Liên kết từ trong ngữ liệu song ngữ là liên kết một từ ei trong ngôn ngữ E với
từ vi trong ngôn ngữ V tương ứng Ví dụ xét cặp câu Anh – Việt sau:
T h e pr o c es s or i s t h e ce n t r a l co m p o n e n t o f a c o m p u t er sy st e m
B ộ xử l ý l à th à nh p h ầ n t r u n g t â m củ a m ộ t h ệ th ố n g m á y t í nh
Thuật toán liên kết từ bằng từ điển song ngữ Anh – Việt DicAlign được
mô tả như sau:
Gọi câu tiếng Anh là S (Source sentence: câu nguồn), câu tiếng Việt là T(Target sentence: câu đích) Ta có cặp câu được dịch bởi nhau là (S,T) Gọi s là
từ (hoặc cụm từ) trong S; t là từ được dịch theo ngữ cảnh trong T ứng với strong S Gọi DTs là tập các nghĩa trong từ điển cho mục từ s, mỗi một nghĩađược ký hiệu là dt
WT = {wt | wt ∈ T Λ wt ∈ VD }, wt là các cụm từ/cụm từ tiếng Việt có
thể có trong T Trong đó: VD là từ điển các từ/cụm từ có thể có trong tiếngViệt
WS = { s }
Thuật toán DicAlign:
Đầu vào: Câu tiếng Anh và câu tiếng Việt
Đầu ra: Danh sách chứa các mối liên kết
B1: Phân tích câu tiếng Anh S để thu được danh sách WS Bỏ qua cácstop-word (là các từ chức năng, từ không được dịch, như: the, on, in,…)
Trang 26
18
-B2: Câu tiếng Việt T sau khi đã phân đoạn từ ta thu được danh sách các
từ và cụm từ tiếng Việt có thể có wt và đưa vào WT
B3: Với mỗi từ s trong WS sau khi đã chuyển về từ gốc ta xác định đượcnghĩa của s dựa vào từ điển Anh – Việt để đưa vào danh sách DTs
B4: Từ những kết quả chuẩn bị ở trên ta tính độ tương đồng về hình vịcủa các từ dt trong DTs đối với tất cả các từ wt trong WT theo công thức tínhnhư sau:
Sim (dt,wt)=
wt dt
wt dt
+
∩
*2
Trong đó Sim (dt,wt) là độ tương đồng về hình vị của dt với
|dt| và |wt| : số hình vị trong từ của dt và wt
|dt ∩ wt| : là số hình vị giao nhau giữa dt và wt
B5: Đối với mỗi cặp từ (s, wt) thu được từ tích Descartes (WS x WT ) tatính giá trị DTSim(s,wt) theo công thức DTSim(s,wt) = maxSim(dt,wt)
1.3.2 Thuật toán liên kết từ bằng lớp ngữ nghĩa ClassAlign
Sue Ker Chang đã dùng thêm thuật toán ClassAlign để liên kết lớp vớilớp thay vì liên kết từ với từ như thuật toán DictAlign Những lớp này là tậpcác từ đồng nghĩa /gần nghĩa với nhau Nghĩa là thay vì liên kết từ s với từ t thì
ta liên kết lớp X với lớp Y mà trong đó X⊃s, Y⊃t.
Do mỗi từ có nhiều nghĩa, chính vì vậy chắc chắn một từ tiếng Việt vi
hay từ tiếng Anh ei sẽ thuộc nhiều lớp VC (Vietnamese Class) hay EC (English
Trang 27
19
-Class) khác nhau, và giữa các lớp này có thể có sự tương đồng về mặt ngữnghĩa Vì vậy, để xác định độ tương đồng về mặt ngữ nghĩa giữa hai lớp X, Y,tác giả dùng công thức sau:
ClassSim (X,Y) =
Y X
b X to Y
a from
,(
Trong đó |X| = tổng số từ trong lớp X, |Y| = tổng số từ trong lớp Y
From (a, Y) = 1, nếu ∃y∈Y,(a,y)∈ALLCONN và = 0 nếu ngược lạiTo(X,b) = 1, nếu ∃x∈X,(X,b)∈ALLCONN và = 0 nếu ngược lại
ALLCONN = tất cả các cặp từ (s,t) được tạo ra khi chạy thuật toán
DictAlign trên toàn bộ các cặp câu dịch của tập ngữ liệu song ngữ dùng đểhuấn luyện Để minh họa công thức trên, chúng ta thử xét các lớp sau:
(EC): C5 = {lady, girl, female, dame, broad, madam, Mrs, missis, miss}(VC):C5 = {bà, quý bà, bà xã, bác gái, bu, bu nó, cô, cô bé, con mụ, con
mẹ, phu nhân, quý phu nhân, vợ, gái điếm}
Tính ClassSim(C5,C15): from(a,C15)= 1, với a ∈ {miss},
To(C5,b) = 1, với b ∈ {cô}
Trang 28
20
-ClassSim(C5,C15)=(1 + 1)/(10+12) = 0.091
Vậy theo công thức trên, thường thì hai lớp tiếng Anh và tiếng Việt mà
có cùng tên sẽ có độ tương đồng cao nhất
Thuật toán ClassAlign:
Đầu vào: Các cặp câu song ngữ
Đầu ra: Danh sách chứa các mối liên kết
B1: Chạy DictAlign trên tất cả các câu trong tập ngữ liệu song ngữ đểlấy được danh sách những liên kết khởi đầu ALLCONN
B2: Với tất cả X ∈ CX và Y ∈ CY, ta tính độ tương đồng ClassSim
(X,Y), với CX, CY là sự phân lớp ngữ nghĩa của những từ tương ứng trongngôn ngữ nguồn và ngôn ngữ đích
B3: Tạo một liên kết (X,Y) nếu ClassSim (X,Y) >h1 (h1 là ngưỡng đượcđặt trước) hay nếu ClassSim (X,Y) là cực đại trên tất cả những lớp X ∈CX hay
trên tất cả những lớp Y ∈CY.
B4: Biên dịch danh sách những cặp lớp mà thoã các điều kiện trong bước
3 và gọi chúng là những danh sách Luật
1.3.3 Thuật toán tách câu
Một câu bắt đầu bằng một chữ cái in hoa, kết thúc bằng dấu chấm (.), chấmthan (!), chấm hỏi (?) Tuy nhiên các có các trường hợp các dấu nêu trên xuất hiện ởnhiều trường hợp mơ hồ Vì vậy ta cần xử lý các trường hợp nhập nhằng đó trướctiên đặc biệt là dấu chấm (.) Phương pháp tách câu bằng mạng nơ-ron với mô hìnhtách câu tổng quát được trình bày như sau:
Bộ phận tách token
Bộ phận tìm kiếm từ loại
Xây dựng mảng mô tả
Sắp xếp bằng mạng nơ-ron Văn bản đầu vào
Văn bản đã được phân đoạn câu
Begin
End
Trang 29bộ phận tìm kiếm từ loại.
Ta có thể mô tả thuật toán tách câu thành các token như sau:
Trang 30
22
-Bước 1: Tách một chuỗi con từ văn bản đầu vào
Bước 2: Nếu chuỗi con không tồn tại (hết văn bản) thì kết thúc
Bước 3: Kiểm tra xem chuỗi con tồn tại trong từ điển hay không Nếu cótrong từ điển thì ta được một token và chuyển đến bước 5
Bước 4: Tách chuỗi con thành n chuỗi con (n>=1) nhờ vào các dấu câutrong chuỗi con Nếu tồn tại chuỗi con có trong từ điển thì ta được n token, nếukhông tồn tại thì ta được 1 token
Bước 5: Quay lại bước 1
Tách câu bằng mạng nơ-ron là cách tiếp cận do D Palmer đưa ra với độ chínhxác rất cao (99,5%)
Trang 312.1 GIỚI THIỆU
Ngày nay, nhu cầu về thông tin toàn cầu tăng cao, do đó kho ngữ liệu songngữ trở thành nguồn tài nguyên có giá trị cho các ứng dụng ngôn ngữ và xử lý ngônngữ tự nhiên để vượt qua ranh giới về sự khác biệt ngôn ngữ Trong nhiều năm trởlại đây, tầm quan trọng kho ngữ liệu song ngữ được đánh giá rất cao do đó việc xâydựng một kho ngữ liệu song ngữ nhằm đáp ứng nhu cầu về thông tin, về học tập,dịch thuật,… là rất cần thiết Hiện nay với lượng thông tin trên mạng toàn cầu đaphần là tiếng Anh, tại Việt Nam số lượng kho ngữ liệu song song Anh – Việt khôngnhiều và không được phổ biến rộng rãi, do đó trong luận văn này chúng tôi đưa ragiải pháp để xây dựng kho ngữ liệu song ngữ Anh – Việt phục vụ xử lý tiếng Việtnhằm đáp ứng nhu cầu sử dụng kho cho giảng dạy, học tập tiếng Anh, dịch máy, xử
lý ngôn ngữ tự nhiên,…
2.2 MÔ HÌNH TỔNG THỂ
Kiến trúc tổng thể của hệ thống bao gồm những thành phần sau:
- Bộ sưu tập dữ liệu: sưu tập các nguồn dữ liệu song ngữ Anh – Việt ban đầu
từ ebook, văn bản song ngữ, các trang web song ngữ, từ điển,
- Tiền xử lý dữ liệu: có thể nhập trực tiếp dữ liệu, xử lý thủ công hoặc hệthống, chuẩn hóa dữ liệu trước khi đưa vào kho Việc chuẩn hóa dữ liệu là việcchuyển đổi định dạng dữ liệu thành định dạng tương thích với mục đích của hệthống
Trang 32
24
Khai thác dữ liệu: những ứng dụng của dữ liệu song ngữ sau khi xử lý
Trang 33
25
-Hình 1.1 Mô hình tổng thể hệ thống
2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ
2.3.1 Các tiêu chí chọn mẫu ngữ liệu
Để bảo đảm được hiệu quả khai thác về sau, đồng thời để đáp ứng đúng mụctiêu nghiên cứu đã đặt ra, chúng ta cần áp dụng 4 tiêu chí trong khi xem xét lấymẫu ngữ liệu song ngữ Anh-Việt như sau:
a Chuẩn ngôn ngữ: ngữ liệu tiếng Anh cũng như tiếng Việt đều phải là những câu được xem là chuẩn mực, nghĩa là phải đúng ngữ pháp
Web CSDL Từ điển ebook
Trang 34
26
-và được nhiều người chấp nhận hay nhiều người sử dụng Không thuthập các bản dịch có tính cá nhân (chỉ sử dụng cho mục đích cá nhân),hoặc các câu tự nghĩ ra, vì như thế không đảm bảo được tính thực tế củangữ liệu
b Cách dịch 1 – 1: các ngữ liệu song ngữ Anh-Việt phải thực sự là
bản dịch 1 - 1 của nhau, không được dịch thoát ý, dịch tóm lược, dịchtương đương/ đồng nghĩa hay dịch theo kiểu giải thích, diễn giải Vì nếukhông phải là dịch 1 – 1 thì máy tính rất khó liên kết từ một cách tự
động cho song ngữ đó được Ngoài ra, chúng ta cần bản dịch 1 - 1 để
còn có thể so sánh, đối chiếu trên từng cấp độ giữa hai ngôn ngữ
c Ngữ liệu phải phù hợp với phong cách và lĩnh vực của đối tượng nghiên cứu: Đối tượng nghiên cứu của chúng tôi là các văn bản
và các câu thông thường
d Ngữ liệu dạng điện tử: ngoài 3 tiêu chuẩn bắt buộc trên, chúng ta
sẽ ưu tiên chọn những ngữ liệu song ngữ Anh-Việt nào mà đang tồn tại
dưới dạng điện tử, hoặc có thể chuyển tự động tương đối dễ dàng về dạngđiện tử, như vậy đỡ tốn công sức nhập liệu lại bằng tay vào máy tính
2.3.2 Chọn nguồn dữ liệu và chuẩn hóa
Ngoài các nguồn dữ liệu song ngữ thô có thể thu thập được đã nêu ở chương
1, hiện nay rất khó tìm ra được những ngữ liệu song ngữ Anh-Việt mà đáp ứngđầy đủ các tiêu chuẩn trên Trong các nguồn tài liệu thô ta thường thấy các câu ví
dụ song ngữ trong các nguồn ngữ liệu khác nhau thì có hình thức trình bày khácnhau Ví dụ như :
Trang 35
27
-Hoặc
Hình 1.1 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau
Chính vì vậy, sau khi thu thập ngữ liệu vào máy tính (bằng tay hay bằngmáy quét rồi qua công đoạn nhận dạng ký tự OCR), người nhập cần phải chỉnhcác dạng đó thành một định dạng (format) nhất định Ngoài ra, có những câu songngữ rất dài, hoặc việc ngắt câu ở phần tiếng Anh và tiếng Việt không khớp nhau.Chính vì vậy, người nhập cần phải chỉnh lại để hai câu Anh và Việt trùng khớpnhau
Để chuẩn hoá thành một dạng, một tiêu chuẩn duy nhất Việc chuẩn hoángữ liệu gồm hai nhiệm vụ chính:
1 Chuẩn hoá dạng ngữ liệu song ngữ Anh - Việt: đưa về đúng dạng điện tử, định dạng tập tin, mã/font tiếng Việt, chuẩn chính tả (bao gồm cả
việc bỏ dấu, viết i/y)
Trang 362.3.3 Xây dựng cấu trúc kho dữ liệu song ngữ
Về mặt tổ chức lưu trữ dữ liệu chúng tôi chọn việc lưu trữ kho trên XML Cóhai giải pháp có thể xử dụng để lưu trữ là lưu trữ toàn bộ dữ liệu (Anh, Việt) trêncùng một tập tin đa ngữ hay lưu trữ trên nhiều tập tin:
Sử dụng nhiều tập tin Sử dụng một tập tin
Trang 37
29
-Trong trường hợp dữ liệu được lưu trữ trên cùng một tập tin ví dụ có dạng nhưsau:
<endoc id="GENERAL.en">
<sentence id="1">80,000 Tonnes of crude oil from Bach Ho oilfield stored in the tanks </sentence>
</endoc>
<vndoc id="GENERAL.vn">
<sentence id="1">80.000 tấn dầu thô từ mỏ Bạch Hổ
đã được nạp vào bể chứa </sentence>
</vndoc>
<endoc id="GENERAL.en">
<sentence id="2">A variety of medicinal herb is planted by Red Dao
</sentence>
</endoc>
<vndoc id="GENERAL.vn">
<sentence id="2">Một loại lá thuốc tắm đã được trồng bởi người Dao Đỏ </sentence>
</vndoc>
Hình 1.2 Ví dụ dữ liệu lưu trên 1 tập tin
Trong trường hợp dữ liệu được lưu trữ trên nhiều tập tin, như vậy tương ứngvới mỗi ngôn ngữ sẽ được lưu trữ trên một tập tin và có được đánh số chỉ mụcgiống nhau, ví dụ có dạng như sau:
Trang 38couldn’t find a way to
counter the sharp reduction
in overseas sales
</Sen>
<Sen id="2">
The committee will
accept the revised proposal
to avoid political debate
</Sen>
<Sen id="1">
Ban quản lý của chúng
ta chưa tìm được một giải pháp nhằm đối phó với sự sụt giảm nghiêm trọng doanh
số bán hàng nước ngoài
</Sen>
<Sen id="2">
Ủy ban sẽ chấp nhận bản kiến nghị đã được sửa đổi nhằm tránh việc tranh cãi mang yếu tố chính trị
</Sen>
Hình 1.3 Ví dụ dữ liệu lưu trên 2 tập tin
Trong trường hợp này chúng tôi chọn giải pháp lưu trữ trên nhiều tập tin vớicác lý do sau:
- Khi cần thiết bổ sung ngôn ngữ sẽ dễ dàng, ta chỉ cần tạo ra một tập tin dữliệu ở ngôn ngữ mà ta muốn cùng cấu trúc sử dụng với các ngôn ngữ khác và lưutrữ song song với các tập tin khác
- Cấu trúc của tập tin không thay đổi, tất cả các tập tin dữ liệu đều có cùngmột cấu trúc và điều này rất có lợi khi lập trình để khai thác các dữ liệu
Trang 39
31
-2.3.4 Các nguồn dữ liệu thu thập
2.3.4.1 Nguồn Từ điển Lạc Việt
Từ điển là một thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vàomột từ, một cụm từ đơn giản, chúng ta có thể tìm được nghĩa giải thích, các thôngtin liên quan một cách nhanh chóng Có thể phân chia từ điển thành hai loại lớn:
Từ điển bách khoa Đây là loại từ điển không nhằm xây dựng các từ trong
ngôn ngữ nói chung, mà chủ yếu đưa ra và giải thích các khái niệm; trình bày
từ lai lịch của nó đến các quan điểm khác nhau, cùng với những thay đổi của
nó (nếu có) về mặt nội dung,…
Loại từ điển bách khoa cho tất cả các lĩnh vực được gọi là bách khoa toànthư, còn loại cho từng lĩnh vực một thì được gọi là từ điển bách khoa chuyênngành Ví dụ: Từ điển bách khoa nông nghiệp, từ điển bách khoa y học,…
Từ điển ngôn ngữ Đây là loại từ điển được xây dựng bằng những con
đường "ngôn ngữ học" Chúng được phân ra như sau:
Từ điển một ngôn ngữ: Được biên soạn cho một ngôn ngữ cụ thể nào đó
ở từng mặt, từng lĩnh vực Ví dụ: Từ điển giải thích, từ điển đồng nghĩa, từđiển chính tả,…
Từ điển nhiều ngôn ngữ: Được biên soạn trên cơ sở đối chiếu hai haynhiều ngôn ngữ Ở đây cũng có thể gồm từ điển đối chiếu phổ thông như: Từđiển Anh – Việt, từ điển Nga – Việt, từ điển Việt – Pháp,…; từ điển đối chiếuchuyên ngành như: Từ điển toán học Anh – Việt, từ điển y học Nga – Việt, từđiển hoá học Anh – Việt, từ điển công nghệ thông tin Anh – Việt,… [19]
Với loại từ điển nhiều ngôn ngữ, hiện nay, có nhiều loại từ điển bao gồm: từđiển giấy, từ điển điện tử, từ điển trực tuyến,… và bao gồm nhiều ngôn ngữ khácnhau Ví dụ như: từ điển Anh – Pháp - Việt, từ điển Anh – Anh - Việt,…
Từ điển điện tử là từ điển được lưu trữ và trình bày trên hệ thống thông tinđiện tử Trong đó có từ điển Lạc Việt là bộ từ điển song ngữ Anh - Việt đầu tiên,
Trang 40
32
-được sử dụng khá rộng rãi Số lượng từ trong phần mềm này rất lớn, -được chia vào
4 từ điển Anh - Việt, Việt - Anh, Anh - Anh và từ điển Tin học Chương trình rất dễ
sử dụng với giao diện hỗ trợ cả tiếng Việt và tiếng Anh Với mỗi từ được tra, chúng
sẽ có đầy đủ thông tin về từ loại, ngữ nghĩa, cách phát âm cũng như các câu ví dụkèm theo bao gồm một câu tiếng Anh và câu dịch tiếng Việt của nó
Giao diện của chương trình thể hiện qua hình:
Hình 1.1 Giao diện của Từ điển Lạc Việt
Tương ứng với mỗi mục từ sẽ có các ví dụ kèm theo khi tra cứu từ trong từđiển Lạc Việt, các mẫu câu ví dụ hướng dẫn trong từ điển Lạc Việt là bản dịch 1 - 1của nhau, vì vậy, các mẫu câu đó là một nguồn dữ liệu chuẩn để xây dựng kho dữliệu song ngữ Anh – Việt của chúng ta