1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

87 115 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 3,13 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Do đó tất cả các tài liệu xử lý ngôn ngữ tự nhiên đều dựa vào kho dữ liệu song ngữ ví dụ như dịch tự động, học tiếng Anh, khai thác thông tin trên web,…Vì vậy đòi hỏimột kho dữ liệu song

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

HOÀNG NHƯ QUỲNH

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2011

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

HOÀNG NHƯ QUỲNH

NGHIÊN CỨU XÂY DỰNG KHO DỮ LIỆU SONG NGỮ PHỤC VỤ XỬ LÝ TIẾNG VIỆT

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS Võ Trung Hùng

Đà Nẵng - Năm 2011

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Võ Trung Hùng.

2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố.

trá, tôi xin chịu hoàn toàn trách nhiệm.

Tác giả

Hoàng Như Quỳnh

Trang 4

MỤC LỤC

LỜI CAM ĐOAN iii

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Võ Trung Hùng iii

MỤC LỤC iv

DANH MỤC CÁC TỪ VIẾT TẮT i

DANH MỤC HÌNH ii

MỞ ĐẦU 1

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 3

1.1 KHO DỮ LIỆU SONG NGỮ 3

1.2 MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 8 1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 17

CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 23

2.1 GIỚI THIỆU 23

2.2 MÔ HÌNH TỔNG THỂ 23

2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ 25

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 37

3.1 GIẢI PHÁP XỬ LÝ DỮ LIỆU 37

3.2 TRÍCH TỪ TỪ ĐIỂN LẠC VIỆT 47

3.3 TRÍCH TỪ VOV NEWS 55

3.4 TRÍCH TỪ CÁC KHO DỮ LIỆU SONG NGỮ ANH – PHÁP 66

3.5 MỘT SỐ NGUỒN DỮ LIỆU KHÁC 69

3.6 KHAI THÁC KHO DỮ LIỆU SONG NGỮ 69

KẾT LUẬN 74

DANH MỤC TÀI LIỆU THAM KHẢO 75

PHỤ LỤC 79

Trang 5

i

DANH MỤC CÁC TỪ VIẾT TẮTTIẾNG VIỆT

TIẾNG ANH

Trang 6

ii DANH MỤC HÌNH Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ 15

Hình 1.1 Tách câu bằng mạng nơ-ron 21

Hình 1.1 Mô hình tổng thể hệ thống 25

Hình 1.1 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau 27

Hình 1.1 Các giải pháp tổ chức CSDL 28

Hình 1.2 Ví dụ dữ liệu lưu trên 1 tập tin 29

Hình 1.3 Ví dụ dữ liệu lưu trên 2 tập tin 30

Hình 1.1 Giao diện của Từ điển Lạc Việt 32

Hình 2.1 Ví dụ về trang web ngôn ngữ chính 34

Hình 2.2 Ví dụ về trang web có phiên bản ngôn ngữ khác 34

Hình 3.1 Sơ đồ dịch câu tiếng Anh sang tiếng Việt 36

Hình 1.1 Đăng nhập YouAlign 38

Hình 1.2 Giao diện gióng câu tài liệu 39

Hình 1.3 Kết quả canh tài liệu 40

Hình 1.4 Ví dụ kết quả canh tài liệu dạng tập tin HTML 41

Hình 1.1 Sơ đồ chuyển đổi từ tập tin * Doc sang tập tin * XML 44

Hình 1.2 Mẫu tập tin *.Doc 44

Hình 1.3 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên nhiều tập tin 45 Hình 1.4 Ví dụ về mẫu XML của dữ liệu chuyển đổi lưu trữ trên một tập tin 45

Hình 1.1 Sơ đồ quá trình trích từ Từ điển Lạc Việt 48

Hình 1.2 Mục từ có các câu ví dụ Anh – Việt 49

Hình 1.3 Tập tin tiếng Việt Doc trích từ Từ điển Lạc Việt 50

Hình 1.4 Tập tin tiếng Anh Doc trích từ Từ điển Lạc Việt 50

Hình 1.5 Thủ tục chuyển tập tin *.Doc sang định dạng XML và tạo chỉ mục 53

Hình 1.6 Kết quả sau khi chuyển đổi định dạng tập tin và tạo chỉ mục 54

Hình 1.1 Hệ thống bóc tách nội dung của VietSpider 56

Hình 1.2 Sơ đồ quá trình xử lý trích từ trang web sử dụngYouAlign 57

Hình 1.3 Trang web tiếng Việt trước khi tách lấy nội dung 58

Hình 1.4 Trang web tiếng Anh trước khi tách lấy nội dung 59

Trang 7

iii Hình 1.5 Ví dụ tạo luồng trang VOV News tiếng Việt 60

Hình 1.6 Trang web tiếng Việt khi thực hiện tách lấy nội dung 60

Hình 1.7 Trang web tiếng Anh khi thực hiện tách lấy nội dung 61

Hình 1.8 Dữ liệu sau khi bóc tách 62

Hình 1.9 Sơ đồ quá trình xử lý trích từ trang web sử dụng MorphAdorner 63

Hình 1.10 Tách câu trực tuyến của MorphAdorner 64

Hình 1.11 Kết quả tách câu tiếngAnh bằng công cụ trực tuyến MorphAdorner 65 Hình 1.12 Kết quả tách câu tiếngViệt bằng công cụ trực tuyến MorphAdorner 66 Hình 1.1 Sơ đồ quá trình xử lý nguồn dữ liệu có sẵn 67

Hình 1.2 Giao diện Vdict 68

Hình 1.1 Sơ đồ khai thác kho dữ liệu song ngữ Anh – Việt 70

Hình 1.2 Trò chơi học tiếng Anh qua mẫu câu Anh-Việt 71

Hình 1.3 Chương trình hiển thị mẫu câu tiếng Anh 71

Hình 1.4 NSD nhập câu dịch tiếng Việt 72

Hình 1.5 Kết quả sau khi dịch 72

Trang 8

iv

Trang 9

do và một trong những lý do quan trọng đó là rào cản về ngôn ngữ

Vấn đề xử lý ngôn ngữ tự nhiên hiện nay rất cần các tài liệu song ngữ, tuynhiên các tài liệu thường nằm rải rác nhiều nơi dưới nhiều hình thức khác nhau Do

đó tất cả các tài liệu xử lý ngôn ngữ tự nhiên đều dựa vào kho dữ liệu song ngữ ví

dụ như dịch tự động, học tiếng Anh, khai thác thông tin trên web,…Vì vậy đòi hỏimột kho dữ liệu song ngữ rất lớn

Hiện nay trên thế giới có rất nhiều kho dữ liệu song ngữ như Anh – Pháp,Pháp – Anh, Anh – Hoa,… Tuy nhiên, đối với tiếng Việt hiện nay chưa có kho dữliệu song ngữ nào như vậy được công bố chính thức và chia sẽ cho người sử dụng.Vấn đề đặt ra là làm thế nào để xây dựng được một kho dữ liệu song ngữ Anh – Việt

từ các nguồn dữ liệu rải rác

Để góp phần giải quyết vấn đề trên, chúng tôi đề xuất đề tài: “Nghiên cứu xây

dựng kho dữ liệu song ngữ phục vụ xử lý tiếng Việt”.

2 Mục tiêu nghiên cứu

Mục tiêu chính mà đề tài hướng đến là nghiên cứu xây dựng kho dữ liệu chứacác cặp câu Anh – Việt từ các nguồn tài liệu khác nhau như: trang web, từ điển,sách, văn bản,… dưới nhiều định dạng khác nhau, như: XML, TXT, DOC, vànghiên cứu các nguồn tài liệu như từ điển Lạc Việt, báo tiếng Anh – tiếng Việt, vănbản song ngữ Anh – Việt,… Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyếtnhững vấn đề chính sau: tìm hiểu về các kho ngữ liệu song song, thu thập các nguồnngữ liệu song ngữ Anh – Việt, nghiên cứu các giải pháp xây dựng kho dữ liệu song

Trang 10

2

-ngữ Anh – Việt để tạo ra được một cơ sở dữ liệu phục vụ cho việc học tiếng Anh,dịch tự động, nghiên cứu xử lý ngôn ngữ tự nhiên,

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu là các cơ sở dữ liệu của kho dữ liệu song ngữ, cácnguồn tài liệu có thể xây dựng nên kho dữ liệu song ngữ

4 Phương pháp nghiên cứu

Đề tài sử dụng các kỹ thuật tách câu từ một văn bản, bài báo, Tìm hiểu cách xây dựng kho dữ liệu song ngữ để xây dựng kho dữ liệu song ngữ Anh – Việt

5 Ý nghĩa khoa học và thực tiễn của đề tài:

Kho dữ liệu song ngữ Anh – Việt là tài nguyên có giá trị trong việc tạo ra đượcmột cơ sở dữ liệu phục vụ cho việc dạy và học tiếng Anh, dịch tự động, nghiên cứu

xử lý ngôn ngữ tự nhiên,

6 Cấu trúc luận văn

Báo cáo của luận văn được tổ chức thành 3 chương

Chương 1 Nghiên cứu tổng quan Trình bày khái niệm về kho ngữ liệu songngữ, các ứng dụng của kho, nghiên cứu một số kho ngữ liệu song ngữ đang có trênthế giới; nghiên cứu về XML, một số thuật toán về xử lý ngôn ngữ tự nhiên,… Chương 2 Giải pháp xây dựng kho dữ liệu song ngữ Chúng tôi trình bày một

số giải pháp xây dựng kho ngữ liệu song ngữ

Chương 3 Phát triển ứng dụng Trình bày kết quả xây dựng kho dữ liệu từnhiều nguồn dữ liệu khác nhau

Trang 11

3

-CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

Trong thời đại bùng nổ thông tin như hiện nay, nhu cầu tra cứu từ trên máytính rất lớn, vì vậy có một tài nguyên rất lớn đó là các kho ngữ liệu song ngữ Vàothập kỷ 1980, tài liệu song ngữ được đưa vào sử dụng trong các hệ thống xử lý ngôn

tự động, nhất là phục vụ cho việc dịch tự động Alan Melby đã có ý tưởng lưu trữlại các bản dịch song ngữ của người, để sau này các nhà nghiên cứu có thể khai thácđược gì từ đó Phương pháp liên kết song ngữ tự động được nghĩ ra đầu tiên bởiMartin Kay và Martin Roschéien vào năm 1987 và từ đó đến nay đã có nhiềuphương pháp liên kết văn bản song ngữ ra đời, liên kết trên các cấp độ khác nhau:đoạn, câu, từ, ngữ, Cho đến nay, việc nghiên cứu song ngữ đã được thực hiện vớicác cặp ngôn ngữ phổ biến như: Anh-Pháp, Anh-Nga, Anh-Nhật, Anh-Hoa, [1]Trong chương này chúng tôi trình bày các vấn đề liên quan đến kho dữ liệusong ngữ, các hệ cơ sở dữ liệu và phương pháp xử lý ngôn ngữ tự nhiên áp dụng khixây dựng các kho dữ liệu song ngữ

1.1 KHO DỮ LIỆU SONG NGỮ

1.1.1 Khái niệm

a Ngữ liệu là những dữ liệu, cứ liệu của ngôn ngữ, tức là những chứng cứthực tế sử dụng ngôn ngữ Những chứng cứ sử dụng ngôn ngữ này có thể là củangôn ngữ nói mà cũng có thể là ngôn ngữ viết Trong đó ngữ liệu tồn tại dưới dạngngôn ngữ viết bao gồm nhiều hình thức khác nhau như: dạng giấy, dạng điện tử.Ngữ liệu chỉ gồm các văn bản của một ngôn ngữ gọi là ngữ liệu đơn ngữ vàngữ liệu của nhiều ngôn ngữ gọi là ngữ liệu đa ngữ Đề tài này tập trung nghiên cứu

để xây dựng kho dữ liệu đa ngữ Trong ngữ liệu đa ngữ, nếu ngữ liệu của ngôn ngữnày là bản dịch của ngôn ngữ kia gọi là ngữ liệu song song Ngữ liệu song song cóthể gồm hai ngôn ngữ hoặc nhiều hơn hai ngôn ngữ Trong đề tài này thực hiện xây

Trang 12

Trường hợp đơn giản nhất là hai ngôn ngữ trong đó mỗi một kho dữ liệu củangôn ngữ này là một bản dịch chính xác của ngôn ngữ kia Một số kho dữ liệu songsong, bao gồm ngữ liệu của nhiều ngôn ngữ Một số kho dữ liệu song song thì dữliệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thông qua một ngônngữ trung gian Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngônngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Phápsang tiếng Việt.

1.1.2 Ứng dụng của kho dữ liệu song ngữ

Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưngchủ yếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật, nhưng với quy mô nhỏhơn Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho dữliệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tựđộng, tìm kiếm thông tin xuyên ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoạingữ,

Trang 13

5

-Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp

ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông, ỞViệt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đếnkho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứtiếng, truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang websong ngữ Anh-Việt như ThanhNien, Vietnamnet, NhanDan, Riêng kho ngữ liệusong ngữ (dịch 1-1) Anh - Việt có gán nhãn ngôn ngữ hiện nay có kho ngữ liệu songngữ Anh - Việt có tên là EVC [1]

Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụcho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngônngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoạingữ,

1.1.2.1 Ứng dụng trong ngôn ngữ học – thống kê

Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vàoviệc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học Cùng với sự trợgiúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lênđáng kể [1]

1.1.2.3 Ứng dụng trong giảng dạy ngoại ngữ

Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu

và tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặcbiệt là kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đích

Trang 14

6

-dạy tiếng Anh cho người Việt và -dạy tiếng Việt cho người nước ngoài giúp chongười học tránh được các lỗi thường gặp như cách đặt câu, sử dụng từ như trongtiếng mẹ đẻ, Kho ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảngdạy tiếng Anh để lấp khoảng trống giữa thực hành và lý thuyết Đồng thời, các giáoviên khi sử dụng kho song ngữ có thể làm giàu thêm kiến thức của họ, cung cấpthêm dữ liệu xác thực trong bài giảng và cũng là công cụ hữu ích trong việc thiết kếgiáo trình [17]

1.1.2.4 Ứng dụng trong việc nghiên cứu dịch thuật

Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữangôn ngữ nguồn và đích Chúng cung cấp thông tin về tần số của từ, sử dụng cụ thể

từ vựng và cú pháp Kho ngữ liệu song song có thể giúp phiên dịch để phát triển cácchiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu không có tương đươngtrực tiếp bằng ngôn ngữ đích Trên cơ sở đó, tập hợp các bản dịch có thể được xácđịnh và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụ thể và thểloại [17]

1.1.3 Nghiên cứu một số kho dữ liệu song ngữ trên thế giới

1.1.3.1 British National Corpus (BNC)

Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn

Ấn bản mới nhất là BNC XML Edition, phát hành vào năm 2007

Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực vàquốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứatuổi, sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loạivăn bản khác Phần ngôn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộchội thoại không chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các

độ tuổi khác nhau, khu vực và các lớp xã hội một cách cân bằng) và ngôn ngữ nóiđược thu thập trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộchọp chính phủ đài phát thanh và điện thoại

Trang 15

7

-Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm

1994 Sau đó không có văn bản mới thêm vào sau khi hoàn thành dự án nhưng cácngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC

World (2001) và phiên bản thứ ba BNC XML Edition (2007) Kể từ khi hoàn thành

dự án, có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNCSampler (một bộ sưu tập chung của một triệu chữ viết, một triệu từ đàm thoại) vàBNC Baby (bốn mốt triệu mẫu chữ từ bốn thể loại khác nhau: tiểu thuyết, báo chí,viết luận và đàm thoại ) [14][15]

1.1.3.2 Canadian Hansard Corpus (Anh – Pháp)

Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng đượctrích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngôn ngữ chínhthức tại Canada là tiếng Anh và tiếng Pháp Nội dung của nó được giới hạn trongluận lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụnhư thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu đượcchuẩn bị trước

Có một vài phiên bản của ngữ liệu song song Hansard Canada Các phiên bảnUSC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn)

từ các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với2.000.000 từ trong tiếng Anh và tiếng Pháp Phiên bản này được tự do tải về tạitrang web USC TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùngđăng ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm

Trang 16

8

-thông Quốc gia (National Institute of Information and Communications Technology

- NICT) Nhật Bản nhằm phục vụ cho mục đích nghiên cứu và giáo dục [20]

1.1.3.4 PKU 863 (Anh - Trung) của Đại học Bắc Kinh

Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngônngữ học Tính toán của Trường đại học Peking Kho ngữ liệu gồm có hơn 200.000liên kết những cặp câu được lấy từ những văn bản song ngữ có chất lượng(3.066.435 từ tiếng Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực,

ví dụ những văn bản của chính phủ, những tài liệu chính thức, những văn bản tintức, những bài tiểu luận, những kịch bản bài phát biểu, những văn bản văn học, vănxuôi hàn lâm, cũng như văn học chính trị, luật, du lịch, công nghiệp thực phẩm,kinh tế và kinh doanh Đa số các văn bản được lấy từ các trang web song ngữ trongkhi một số được số hoá bằng cách quét vào rồi qua công đoạn nhận dạng chữ(OCR: Optical Character Recognization) [26]

1.2 MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU SONG NGỮ

1.2.1 Cơ sở dữ liệu

Xây dựng một kho dữ liệu đơn ngữ, song ngữ hay đa ngữ thì công việc phứctạp và tốn nhiều thời gian công sức nhất là xây dựng một cơ sở dữ liệu với nhiềuđịnh dạng trên máy tính và để có được nguồn cơ sở dữ liệu đa dạng, phong phúchúng ta phải sưu tập và lựa chọn nguồn dữ liệu có thể có được bằng cách sử dụngcác tài liệu gốc có sẵn như sách song ngữ, web song ngữ, kế thừa các CSDL có sẵn

từ các từ điển,… Các CSDL này có thể tồn tại dưới nhiều định dạng khác nhau do

đó một công việc cần thiết nữa đó là lựa chọn công cụ để lưu trữ dữ liệu song ngữ.Hiện nay có nhiều công cụ cho phép tổ chức lưu trữ dữ liệu song ngữ như:XML, Word, HTML, các hệ quản trị cơ sở dữ liệu như Access, SQL, Oracle,… tuy

Trang 17

sẽ độc lập với việc xử lý

1.2.1.2 Thuật ngữ

Dưới đây là những từ chuyên môn cần được hiểu rõ khi làm việc vớiXML:

Document Type Definition (DTD) – Định nghĩa loại tài liệu

Mô tả cách thức tài liệu được thông dịch thông quá các thẻ đánh dấu.DTD định nghĩa cho các loại tài liệu khác nhau

Trang 19

11

-Như vậy, bằng cách sử dụng định dạng XML, người dùng có thể hiểu và biết được tập tin trên đang muốn truyền tải nội dung gì

1.2.1.4 Tạo lập một tài liệu XML

Chúng ta có thể sử dụng trình soạn thảo đơn giản nhất là Notepad để soạn thảo tài liệu XML, nhưng phải tuân thủ theo qui tắc sau:

1.2.1.5 Những thành phần của một tài liệu XML

Khai báo: Mỗi một tài liệu XML có một chỉ thị khai báo

Trang 20

12

-<! chú thích >

Phần tử (Elements): Một tài liệu XML được cấu thành từ những phần tử.

Một phần tử có thẻ mở và thẻ đóng Giữa thẻ mở và thẻ đóng là nội dung củaphần tử đó Phần tử có thể chứa dữ liệu hoặc có thể lồng vào một phần tử khác

Phần tử gốc (root): Trong tài liệu XML, chỉ có một phần tử gốc, và phần tử

này sẽ chứa tất cả những phần tử của tài liệu XML do chúng ta tạo ra Theo ví dụtrên, ta thấy chỉ có một phần tử “Catalog”

Thuộc tính (Attributes): Như đã trình bày ở trên, một phần tử có thể chứa

dữ liệu hoặc chứa phần tử khác hoặc cả hai Bên cạnh đó, phần tử có thể rỗng,khi đó nó có thể chứa thuộc tính Một thuộc tính chỉ là một sự lựa chọn để gắn

dữ liệu đến phần tử Một thuộc tính đặt trong thẻ mở của phần tử và chỉ ra giá trịcủa nó bằng cách sử dụng cặp “name=value”

Trang 21

1.2.2 Thu thập dữ liệu

Trang 22

14

-Với sự ra đời và phát triển mạnh mẽ của máy tính điện tử cũng như mạngInternet đi cùng theo nó là kho dữ liệu khổng lồ tồn tại dưới dạng điện tử thì việcthu thập ngữ liệu đã được tự động hóa rất nhiều Các kho ngữ liệu song song hiệnnay thường được chọn lọc từ các nguồn tài liệu như: báo chí, sách giáo khoa, cácwebsite song ngữ hoặc các ngữ liệu điện tử từ các sách, truyện nổi tiếng nhiều thứtiếng Tuy nhiên có một số hạn chế trong việc thu thập dữ liệu đó là các ngữ liệusong ngữ có sẵn trên mạng Internet đa số đều là các bản dịch thoát ý, hoặc dịch ýchính không dịch 1 -1

Với định hướng như trên, nên nguồn ngữ liệu song ngữ Anh - Việt đượcchọn là tập hợp các câu, văn bản song ngữ được rút ra từ các nguồn ngữ liệu phùhợp, như: các tài liệu về KHKT (đặc biệt là Tin học), các câu ví dụ Anh - Việttrong các từ điển, ngữ liệu SUSANNE,… Các nguồn này ở nhiều dạng khácnhau (sách, điện tử) và được nhập hay quét vào rồi qua công đoạn nhận dạngchữ OCR Sau đây là các nguồn ngữ liệu song ngữ Anh - Việt thô có thể thuthập được:

a Nguồn từ điển: trong mỗi từ điển, ở mỗi mục từ, thường chứa các ví

dụ hướng dẫn sử dụng từ đó, và các ví dụ bằng tiếng Anh này cũng được dịch

chính xác (1-1) sang tiếng Việt Nếu xét về chuẩn ngôn ngữ thì ngữ liệu trongcác từ điển là đạt yêu cầu nhất (nhất là các từ điển nổi tiếng, nhiều người sửdụng, các từ điển được các cơ quan hay học giả uy tín biên soạn, các câutiếng Anh được các nhà làm từ điển trích từ từ điển Oxford, Webster) Hầu hếtcác ví dụ này đều là các câu thông thường (đáp ứng tiêu chuẩn về phongcách/lĩnh vực)

Trang 23

15

-Hình 1.1 Từ điển Lạc Việt chứa các ví dụ hướng dẫn trong mỗi mục từ

b Ngữ liệu SUSANNE: đây là ngữ liệu điện tử tiếng Anh được xây dựng bởi một nhóm các nhà ngôn ngữ học - máy tính (đứng đầu là Geoffrey

Sampson) thuộc trường đại học Sussex, Anh SUSANNE (Surface andUnderlying Structural ANalyses of Naturalistic English) là một phần trong

dự án phân tích và đánh dấu tiếng Anh theo hướng ngôn ngữ học máy tính.SUSANNE gồm khoảng 128.000 từ được rút từ ngữ liệu Brown

c Nguồn Internet: đây là nguồn dữ liệu khổng lồ, nguồn ngữ liệu này

có lợi thế là chúng đã tồn tại sẵn dưới dạng điện tử (nên không phải nhập liệu

lại bằng tay) Kho ngữ liệu trên Internet thì vô cùng lớn với vô vàn các lĩnhvực/phong cách khác nhau, nhưng chỉ có một số ít các trang Web song ngữ làđáp ứng được đúng tiêu chuẩn

Trang 24

16

-d Nguồn sách: bao gồm các sách dạy tiếng Anh, các mẫu câu tiếng Anh,

sách song ngữ tin học, khoa học kỹ thuật,…

1.2.3 Xử lý ngôn ngữ tự nhiên

Song song với việc thu thập dữ liệu, với các nguồn dữ liệu đầu vào như văn bản, các trang web, ebook,… thì cần phải có một số công đoạn xử lý văn bản đầu vào, phân tích, tách đoạn, tách câu,…để đạt được mục đích

Các dữ liệu đầu vào là các văn bản, trang web được lấy về sẽ phải qua giai đoạn tiền xử lý gồm các công việc như sau:

là các quy ước trong việc trình bày văn bản bao gồm dấu hiệu bắt đầu đoạn và kết thúc đoạn

1.2.3.3 Tách câu

Trong văn bản tiếng Anh, tiếng Việt hay một số ngôn ngữ khác, thông thườngngười ta dùng dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu chấm câukhác để nhận biết kết thúc câu Tuy nhiên do tính nhập nhằng của dấu báo hiệu kếtthúc câu nên việc phân định ranh giới không đơn giản Ví dụ dấu chấm có thể biểuthị cho một dấu thập phân (1,234.567), một cụm từ viết tắt (Mr., Dr., GS., TS., …),kết thúc câu văn và một số trường hợp như địa chỉ trang web, email…(www.udn.vnhoặc abc@udn.vn) Dấu chấm hỏi hay dấu chấm thang có thể xuất hiện trong dấungoặc đơn, ngoặc kép hay ở cuối câu

Trang 25

17

-1.3 MỘT SỐ GIẢI THUẬT TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.3.1 Thuật toán liên kết từ

Liên kết từ trong ngữ liệu song ngữ là liên kết một từ ei trong ngôn ngữ E với

từ vi trong ngôn ngữ V tương ứng Ví dụ xét cặp câu Anh – Việt sau:

T h e pr o c es s or i s t h e ce n t r a l co m p o n e n t o f a c o m p u t er sy st e m

B ộ xử l ý l à th à nh p h ầ n t r u n g t â m củ a m ộ t h ệ th ố n g m á y t í nh

Thuật toán liên kết từ bằng từ điển song ngữ Anh – Việt DicAlign được

mô tả như sau:

Gọi câu tiếng Anh là S (Source sentence: câu nguồn), câu tiếng Việt là T(Target sentence: câu đích) Ta có cặp câu được dịch bởi nhau là (S,T) Gọi s là

từ (hoặc cụm từ) trong S; t là từ được dịch theo ngữ cảnh trong T ứng với strong S Gọi DTs là tập các nghĩa trong từ điển cho mục từ s, mỗi một nghĩađược ký hiệu là dt

WT = {wt | wt ∈ T Λ wt ∈ VD }, wt là các cụm từ/cụm từ tiếng Việt có

thể có trong T Trong đó: VD là từ điển các từ/cụm từ có thể có trong tiếngViệt

WS = { s }

Thuật toán DicAlign:

Đầu vào: Câu tiếng Anh và câu tiếng Việt

Đầu ra: Danh sách chứa các mối liên kết

B1: Phân tích câu tiếng Anh S để thu được danh sách WS Bỏ qua cácstop-word (là các từ chức năng, từ không được dịch, như: the, on, in,…)

Trang 26

18

-B2: Câu tiếng Việt T sau khi đã phân đoạn từ ta thu được danh sách các

từ và cụm từ tiếng Việt có thể có wt và đưa vào WT

B3: Với mỗi từ s trong WS sau khi đã chuyển về từ gốc ta xác định đượcnghĩa của s dựa vào từ điển Anh – Việt để đưa vào danh sách DTs

B4: Từ những kết quả chuẩn bị ở trên ta tính độ tương đồng về hình vịcủa các từ dt trong DTs đối với tất cả các từ wt trong WT theo công thức tínhnhư sau:

Sim (dt,wt)=

wt dt

wt dt

+

*2

Trong đó Sim (dt,wt) là độ tương đồng về hình vị của dt với

|dt| và |wt| : số hình vị trong từ của dt và wt

|dt ∩ wt| : là số hình vị giao nhau giữa dt và wt

B5: Đối với mỗi cặp từ (s, wt) thu được từ tích Descartes (WS x WT ) tatính giá trị DTSim(s,wt) theo công thức DTSim(s,wt) = maxSim(dt,wt)

1.3.2 Thuật toán liên kết từ bằng lớp ngữ nghĩa ClassAlign

Sue Ker Chang đã dùng thêm thuật toán ClassAlign để liên kết lớp vớilớp thay vì liên kết từ với từ như thuật toán DictAlign Những lớp này là tậpcác từ đồng nghĩa /gần nghĩa với nhau Nghĩa là thay vì liên kết từ s với từ t thì

ta liên kết lớp X với lớp Y mà trong đó X⊃s, Y⊃t.

Do mỗi từ có nhiều nghĩa, chính vì vậy chắc chắn một từ tiếng Việt vi

hay từ tiếng Anh ei sẽ thuộc nhiều lớp VC (Vietnamese Class) hay EC (English

Trang 27

19

-Class) khác nhau, và giữa các lớp này có thể có sự tương đồng về mặt ngữnghĩa Vì vậy, để xác định độ tương đồng về mặt ngữ nghĩa giữa hai lớp X, Y,tác giả dùng công thức sau:

ClassSim (X,Y) =

Y X

b X to Y

a from

,(

Trong đó |X| = tổng số từ trong lớp X, |Y| = tổng số từ trong lớp Y

From (a, Y) = 1, nếu ∃yY,(a,y)∈ALLCONN và = 0 nếu ngược lạiTo(X,b) = 1, nếu ∃xX,(X,b)∈ALLCONN và = 0 nếu ngược lại

ALLCONN = tất cả các cặp từ (s,t) được tạo ra khi chạy thuật toán

DictAlign trên toàn bộ các cặp câu dịch của tập ngữ liệu song ngữ dùng đểhuấn luyện Để minh họa công thức trên, chúng ta thử xét các lớp sau:

(EC): C5 = {lady, girl, female, dame, broad, madam, Mrs, missis, miss}(VC):C5 = {bà, quý bà, bà xã, bác gái, bu, bu nó, cô, cô bé, con mụ, con

mẹ, phu nhân, quý phu nhân, vợ, gái điếm}

Tính ClassSim(C5,C15): from(a,C15)= 1, với a ∈ {miss},

To(C5,b) = 1, với b ∈ {cô}

Trang 28

20

-ClassSim(C5,C15)=(1 + 1)/(10+12) = 0.091

Vậy theo công thức trên, thường thì hai lớp tiếng Anh và tiếng Việt mà

có cùng tên sẽ có độ tương đồng cao nhất

Thuật toán ClassAlign:

Đầu vào: Các cặp câu song ngữ

Đầu ra: Danh sách chứa các mối liên kết

B1: Chạy DictAlign trên tất cả các câu trong tập ngữ liệu song ngữ đểlấy được danh sách những liên kết khởi đầu ALLCONN

B2: Với tất cả X ∈ CX và Y ∈ CY, ta tính độ tương đồng ClassSim

(X,Y), với CX, CY là sự phân lớp ngữ nghĩa của những từ tương ứng trongngôn ngữ nguồn và ngôn ngữ đích

B3: Tạo một liên kết (X,Y) nếu ClassSim (X,Y) >h1 (h1 là ngưỡng đượcđặt trước) hay nếu ClassSim (X,Y) là cực đại trên tất cả những lớp X ∈CX hay

trên tất cả những lớp Y ∈CY.

B4: Biên dịch danh sách những cặp lớp mà thoã các điều kiện trong bước

3 và gọi chúng là những danh sách Luật

1.3.3 Thuật toán tách câu

Một câu bắt đầu bằng một chữ cái in hoa, kết thúc bằng dấu chấm (.), chấmthan (!), chấm hỏi (?) Tuy nhiên các có các trường hợp các dấu nêu trên xuất hiện ởnhiều trường hợp mơ hồ Vì vậy ta cần xử lý các trường hợp nhập nhằng đó trướctiên đặc biệt là dấu chấm (.) Phương pháp tách câu bằng mạng nơ-ron với mô hìnhtách câu tổng quát được trình bày như sau:

Bộ phận tách token

Bộ phận tìm kiếm từ loại

Xây dựng mảng mô tả

Sắp xếp bằng mạng nơ-ron Văn bản đầu vào

Văn bản đã được phân đoạn câu

Begin

End

Trang 29

bộ phận tìm kiếm từ loại.

Ta có thể mô tả thuật toán tách câu thành các token như sau:

Trang 30

22

-Bước 1: Tách một chuỗi con từ văn bản đầu vào

Bước 2: Nếu chuỗi con không tồn tại (hết văn bản) thì kết thúc

Bước 3: Kiểm tra xem chuỗi con tồn tại trong từ điển hay không Nếu cótrong từ điển thì ta được một token và chuyển đến bước 5

Bước 4: Tách chuỗi con thành n chuỗi con (n>=1) nhờ vào các dấu câutrong chuỗi con Nếu tồn tại chuỗi con có trong từ điển thì ta được n token, nếukhông tồn tại thì ta được 1 token

Bước 5: Quay lại bước 1

Tách câu bằng mạng nơ-ron là cách tiếp cận do D Palmer đưa ra với độ chínhxác rất cao (99,5%)

Trang 31

2.1 GIỚI THIỆU

Ngày nay, nhu cầu về thông tin toàn cầu tăng cao, do đó kho ngữ liệu songngữ trở thành nguồn tài nguyên có giá trị cho các ứng dụng ngôn ngữ và xử lý ngônngữ tự nhiên để vượt qua ranh giới về sự khác biệt ngôn ngữ Trong nhiều năm trởlại đây, tầm quan trọng kho ngữ liệu song ngữ được đánh giá rất cao do đó việc xâydựng một kho ngữ liệu song ngữ nhằm đáp ứng nhu cầu về thông tin, về học tập,dịch thuật,… là rất cần thiết Hiện nay với lượng thông tin trên mạng toàn cầu đaphần là tiếng Anh, tại Việt Nam số lượng kho ngữ liệu song song Anh – Việt khôngnhiều và không được phổ biến rộng rãi, do đó trong luận văn này chúng tôi đưa ragiải pháp để xây dựng kho ngữ liệu song ngữ Anh – Việt phục vụ xử lý tiếng Việtnhằm đáp ứng nhu cầu sử dụng kho cho giảng dạy, học tập tiếng Anh, dịch máy, xử

lý ngôn ngữ tự nhiên,…

2.2 MÔ HÌNH TỔNG THỂ

Kiến trúc tổng thể của hệ thống bao gồm những thành phần sau:

- Bộ sưu tập dữ liệu: sưu tập các nguồn dữ liệu song ngữ Anh – Việt ban đầu

từ ebook, văn bản song ngữ, các trang web song ngữ, từ điển,

- Tiền xử lý dữ liệu: có thể nhập trực tiếp dữ liệu, xử lý thủ công hoặc hệthống, chuẩn hóa dữ liệu trước khi đưa vào kho Việc chuẩn hóa dữ liệu là việcchuyển đổi định dạng dữ liệu thành định dạng tương thích với mục đích của hệthống

Trang 32

24

Khai thác dữ liệu: những ứng dụng của dữ liệu song ngữ sau khi xử lý

Trang 33

25

-Hình 1.1 Mô hình tổng thể hệ thống

2.3 XÂY DỰNG KHO DỮ LIỆU SONG NGỮ

2.3.1 Các tiêu chí chọn mẫu ngữ liệu

Để bảo đảm được hiệu quả khai thác về sau, đồng thời để đáp ứng đúng mụctiêu nghiên cứu đã đặt ra, chúng ta cần áp dụng 4 tiêu chí trong khi xem xét lấymẫu ngữ liệu song ngữ Anh-Việt như sau:

a Chuẩn ngôn ngữ: ngữ liệu tiếng Anh cũng như tiếng Việt đều phải là những câu được xem là chuẩn mực, nghĩa là phải đúng ngữ pháp

Web CSDL Từ điển ebook

Trang 34

26

-và được nhiều người chấp nhận hay nhiều người sử dụng Không thuthập các bản dịch có tính cá nhân (chỉ sử dụng cho mục đích cá nhân),hoặc các câu tự nghĩ ra, vì như thế không đảm bảo được tính thực tế củangữ liệu

b Cách dịch 1 – 1: các ngữ liệu song ngữ Anh-Việt phải thực sự là

bản dịch 1 - 1 của nhau, không được dịch thoát ý, dịch tóm lược, dịchtương đương/ đồng nghĩa hay dịch theo kiểu giải thích, diễn giải Vì nếukhông phải là dịch 1 – 1 thì máy tính rất khó liên kết từ một cách tự

động cho song ngữ đó được Ngoài ra, chúng ta cần bản dịch 1 - 1 để

còn có thể so sánh, đối chiếu trên từng cấp độ giữa hai ngôn ngữ

c Ngữ liệu phải phù hợp với phong cách và lĩnh vực của đối tượng nghiên cứu: Đối tượng nghiên cứu của chúng tôi là các văn bản

và các câu thông thường

d Ngữ liệu dạng điện tử: ngoài 3 tiêu chuẩn bắt buộc trên, chúng ta

sẽ ưu tiên chọn những ngữ liệu song ngữ Anh-Việt nào mà đang tồn tại

dưới dạng điện tử, hoặc có thể chuyển tự động tương đối dễ dàng về dạngđiện tử, như vậy đỡ tốn công sức nhập liệu lại bằng tay vào máy tính

2.3.2 Chọn nguồn dữ liệu và chuẩn hóa

Ngoài các nguồn dữ liệu song ngữ thô có thể thu thập được đã nêu ở chương

1, hiện nay rất khó tìm ra được những ngữ liệu song ngữ Anh-Việt mà đáp ứngđầy đủ các tiêu chuẩn trên Trong các nguồn tài liệu thô ta thường thấy các câu ví

dụ song ngữ trong các nguồn ngữ liệu khác nhau thì có hình thức trình bày khácnhau Ví dụ như :

Trang 35

27

-Hoặc

Hình 1.1 Ví dụ hình thức trình bày các nguồn dữ liệu khác nhau

Chính vì vậy, sau khi thu thập ngữ liệu vào máy tính (bằng tay hay bằngmáy quét rồi qua công đoạn nhận dạng ký tự OCR), người nhập cần phải chỉnhcác dạng đó thành một định dạng (format) nhất định Ngoài ra, có những câu songngữ rất dài, hoặc việc ngắt câu ở phần tiếng Anh và tiếng Việt không khớp nhau.Chính vì vậy, người nhập cần phải chỉnh lại để hai câu Anh và Việt trùng khớpnhau

Để chuẩn hoá thành một dạng, một tiêu chuẩn duy nhất Việc chuẩn hoángữ liệu gồm hai nhiệm vụ chính:

1 Chuẩn hoá dạng ngữ liệu song ngữ Anh - Việt: đưa về đúng dạng điện tử, định dạng tập tin, mã/font tiếng Việt, chuẩn chính tả (bao gồm cả

việc bỏ dấu, viết i/y)

Trang 36

2.3.3 Xây dựng cấu trúc kho dữ liệu song ngữ

Về mặt tổ chức lưu trữ dữ liệu chúng tôi chọn việc lưu trữ kho trên XML Cóhai giải pháp có thể xử dụng để lưu trữ là lưu trữ toàn bộ dữ liệu (Anh, Việt) trêncùng một tập tin đa ngữ hay lưu trữ trên nhiều tập tin:

Sử dụng nhiều tập tin Sử dụng một tập tin

Trang 37

29

-Trong trường hợp dữ liệu được lưu trữ trên cùng một tập tin ví dụ có dạng nhưsau:

<endoc id="GENERAL.en">

<sentence id="1">80,000 Tonnes of crude oil from Bach Ho oilfield stored in the tanks </sentence>

</endoc>

<vndoc id="GENERAL.vn">

<sentence id="1">80.000 tấn dầu thô từ mỏ Bạch Hổ

đã được nạp vào bể chứa </sentence>

</vndoc>

<endoc id="GENERAL.en">

<sentence id="2">A variety of medicinal herb is planted by Red Dao

</sentence>

</endoc>

<vndoc id="GENERAL.vn">

<sentence id="2">Một loại lá thuốc tắm đã được trồng bởi người Dao Đỏ </sentence>

</vndoc>

Hình 1.2 Ví dụ dữ liệu lưu trên 1 tập tin

Trong trường hợp dữ liệu được lưu trữ trên nhiều tập tin, như vậy tương ứngvới mỗi ngôn ngữ sẽ được lưu trữ trên một tập tin và có được đánh số chỉ mụcgiống nhau, ví dụ có dạng như sau:

Trang 38

couldn’t find a way to

counter the sharp reduction

in overseas sales

</Sen>

<Sen id="2">

The committee will

accept the revised proposal

to avoid political debate

</Sen>

<Sen id="1">

Ban quản lý của chúng

ta chưa tìm được một giải pháp nhằm đối phó với sự sụt giảm nghiêm trọng doanh

số bán hàng nước ngoài

</Sen>

<Sen id="2">

Ủy ban sẽ chấp nhận bản kiến nghị đã được sửa đổi nhằm tránh việc tranh cãi mang yếu tố chính trị

</Sen>

Hình 1.3 Ví dụ dữ liệu lưu trên 2 tập tin

Trong trường hợp này chúng tôi chọn giải pháp lưu trữ trên nhiều tập tin vớicác lý do sau:

- Khi cần thiết bổ sung ngôn ngữ sẽ dễ dàng, ta chỉ cần tạo ra một tập tin dữliệu ở ngôn ngữ mà ta muốn cùng cấu trúc sử dụng với các ngôn ngữ khác và lưutrữ song song với các tập tin khác

- Cấu trúc của tập tin không thay đổi, tất cả các tập tin dữ liệu đều có cùngmột cấu trúc và điều này rất có lợi khi lập trình để khai thác các dữ liệu

Trang 39

31

-2.3.4 Các nguồn dữ liệu thu thập

2.3.4.1 Nguồn Từ điển Lạc Việt

Từ điển là một thiết bị, công cụ cho phép lưu trữ thông tin mà qua đó, dựa vàomột từ, một cụm từ đơn giản, chúng ta có thể tìm được nghĩa giải thích, các thôngtin liên quan một cách nhanh chóng Có thể phân chia từ điển thành hai loại lớn:

Từ điển bách khoa Đây là loại từ điển không nhằm xây dựng các từ trong

ngôn ngữ nói chung, mà chủ yếu đưa ra và giải thích các khái niệm; trình bày

từ lai lịch của nó đến các quan điểm khác nhau, cùng với những thay đổi của

nó (nếu có) về mặt nội dung,…

Loại từ điển bách khoa cho tất cả các lĩnh vực được gọi là bách khoa toànthư, còn loại cho từng lĩnh vực một thì được gọi là từ điển bách khoa chuyênngành Ví dụ: Từ điển bách khoa nông nghiệp, từ điển bách khoa y học,…

Từ điển ngôn ngữ Đây là loại từ điển được xây dựng bằng những con

đường "ngôn ngữ học" Chúng được phân ra như sau:

Từ điển một ngôn ngữ: Được biên soạn cho một ngôn ngữ cụ thể nào đó

ở từng mặt, từng lĩnh vực Ví dụ: Từ điển giải thích, từ điển đồng nghĩa, từđiển chính tả,…

Từ điển nhiều ngôn ngữ: Được biên soạn trên cơ sở đối chiếu hai haynhiều ngôn ngữ Ở đây cũng có thể gồm từ điển đối chiếu phổ thông như: Từđiển Anh – Việt, từ điển Nga – Việt, từ điển Việt – Pháp,…; từ điển đối chiếuchuyên ngành như: Từ điển toán học Anh – Việt, từ điển y học Nga – Việt, từđiển hoá học Anh – Việt, từ điển công nghệ thông tin Anh – Việt,… [19]

Với loại từ điển nhiều ngôn ngữ, hiện nay, có nhiều loại từ điển bao gồm: từđiển giấy, từ điển điện tử, từ điển trực tuyến,… và bao gồm nhiều ngôn ngữ khácnhau Ví dụ như: từ điển Anh – Pháp - Việt, từ điển Anh – Anh - Việt,…

Từ điển điện tử là từ điển được lưu trữ và trình bày trên hệ thống thông tinđiện tử Trong đó có từ điển Lạc Việt là bộ từ điển song ngữ Anh - Việt đầu tiên,

Trang 40

32

-được sử dụng khá rộng rãi Số lượng từ trong phần mềm này rất lớn, -được chia vào

4 từ điển Anh - Việt, Việt - Anh, Anh - Anh và từ điển Tin học Chương trình rất dễ

sử dụng với giao diện hỗ trợ cả tiếng Việt và tiếng Anh Với mỗi từ được tra, chúng

sẽ có đầy đủ thông tin về từ loại, ngữ nghĩa, cách phát âm cũng như các câu ví dụkèm theo bao gồm một câu tiếng Anh và câu dịch tiếng Việt của nó

Giao diện của chương trình thể hiện qua hình:

Hình 1.1 Giao diện của Từ điển Lạc Việt

Tương ứng với mỗi mục từ sẽ có các ví dụ kèm theo khi tra cứu từ trong từđiển Lạc Việt, các mẫu câu ví dụ hướng dẫn trong từ điển Lạc Việt là bản dịch 1 - 1của nhau, vì vậy, các mẫu câu đó là một nguồn dữ liệu chuẩn để xây dựng kho dữliệu song ngữ Anh – Việt của chúng ta

Ngày đăng: 09/04/2019, 14:22

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w