BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG KIM PI SÍCH XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH Chuyên ngành: KHOA HỌC MÁY
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
KIM PI SÍCH
XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT - KHMER
TRỢ GIÚP DỰ BÁO THỜI TIẾT TẠI CÁC ĐÀI PHÁT THANH TRUYỀN HÌNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS.TS Phan Huy Khánh
Đà Nẵng - Năm 2014
Footer Page 1 of 126.
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới
sự hướng dẫn trực tiếp của PGS.TS Phan Huy Khánh
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm
Tác giả
Kim Pi Sích
Footer Page 2 of 126.
Trang 3MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC CÁC TỪ VIẾT TẮT vi
DANH MỤC BẢNG vii
DANH MỤC HÌNH vii
MỞ ĐẦU 1
CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 6
1.1 TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG 6
1.1.1 Lịch sử dịch máy 7
1.1.2 Vấn đề dịch tự động trong tiếng Việt 9
1.1.3 Một số phương pháp dịch máy 9
1.1.4 Một số dịch vụ dịch máy đã có 12
1.2 XỬ LÝ CÂU TIẾNG VIỆT 13
1.2.1 Tách câu 13
1.2.2.Tách từ 15
1.3 TÌM HIỂU TIẾNG KHMER 21
1.3.1 Giới thiệu dân tộc Khmer 21
1.3.2 Lịch sử hình thành tiếng Khmer 23
Footer Page 3 of 126.
Trang 41.3.3 Chữ viết Khmer 24
1.3.4 Đặc điểm ngữ âm tiếng Khmer 28
1.3.5 Đặc điểm từ vựng tiếng Khmer 30
1.3.6 Đặc điểm ngữ pháp tiếng Khmer 31
1.4 NHẬN XÉT HAI NGÔN NGỮ VIỆT VÀ KHMER 31
1.4.1 Những đặc điểm tương đồng 31
1.4.2 Những nét dị biệt 32
1.4.3 Khả năng xây dựng một hệ thống dịch tự động 34
1.5 HIỆN TRẠNG ỨNG DỤNG TIN HỌC HIỆN NAY 34
1.5.1 Hiện trạng 34
1.5.2 Một số kết quả hiện có 35
1.5.3 Nhu cầu xử lý ngôn ngữ tiếng Khmer 36
1.6 NGỮ LIỆU SONG NGỮ 37
1.6.1 Khái niệm 37
1.6.2 Vấn đề thu thập dữ liệu song ngữ 37
1.6.3 Công cụ xây dựng kho ngữ liệu song ngữ 38
1.6.4 Một số dữ liệu song ngữ Việt – Khmer 38
CHƯƠNG 2 GIẢI PHÁP XÂY DỰNG HỆ THỐNG DỊCH TỰ ĐỘNG VIỆT KHMER 40
2.1 PHÂN TÍCH BẢN TIN DỰ BÁO THỜI TIẾT 40
2.1.1 Phân loại các bản tin dự báo thời tiết 40
2.1.2 Phân tích các bản tin dự báo thời tiết 41
Footer Page 4 of 126.
Trang 52.1.3 Phân tích các mẫu câu dự báo thời tiết 52
2.2 MÔ HÌNH KIẾN TRÚC HỆ THỐNG DỊCH VIỆT – KHMER 53
2.2.1 Mô hình kiến trúc hệ thống 53
2.2.2 Phương pháp dịch 54
2.2.3 Phương tách từ 55
2.2.4 Dịch bản tin 57
2.2.5 Dịch số và dấu câu 58
2.2.6 Dịch giờ, ngày tháng 60
2.3 XÂY DỰNG CẤU TRÚC KHO NGỮ LIỆU SONG NGỮ 63
2.3.1 Tổng quan về quá trình xây dựng kho ngữ liệu 63
2.2 2 Cấu trúc kho ngữ liệu 64
2.2.3 Kỹ thuật chuyển đổi dữ liệu 66
CHƯƠNG 3 TRIỂN KHAI THỬ NGHIỆM HỆ THỐNG DỊCH VIỆT – KHMER 68
3.1 CHỌN MÔI TRƯỜNG, CÔNG CỤ XÂY DỰNG HỆ THỐNG 68 3.2 THU THẬP DỮ LIỆU VÀ CẬP NHẬT KHO NGỮ LIỆU SONG NGỮ 68
3.2.1 Chọn nguồn dữ liệu 68
3.2.2 Thu thập dữ liệu 69
3.2.3 Cập nhật dữ liệu cho kho ngữ liệu song ngữ 69
3.3 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 87
3.3.1 Giao diện hệ thống 87
Footer Page 5 of 126.
Trang 63.3.2 Kịch bản sử dụng hệ thống và thử nghiệm 88
3.3.3 Phương pháp đánh giá chất lượng hệ dịch 89
3.3.4 So sánh bản dịch thủ công và đánh giá kết quả 92
KẾT LUẬN 97
TÀI LIỆU THAM KHẢO 98 PHỤ LỤC
Footer Page 6 of 126.
Trang 7SMT Statistical-Based Machine Translation CBMT Corpus-Based Machine Translation BLEU Bilingual Evaluation Understudy NIST National Institute of Standards and Technology UNL Universal Networking Language
FMM Forward Maximum Matching BMM Backward Maximum Matching WFST Weighted Finit State Transducer TBL Transformation based Learning XML Extensible Markup Language HTTP Hypertext Transfer Protocol HTML HyperText Markup Language
Footer Page 7 of 126.
Trang 8DANH MỤC CÁC BẢNG
Bảng 1.1 Bảng con chữ Phụ âm giọng O 24
Bảng 1.2 Bảng chân Phụ âm giọng O 24
Bảng 1.3 Bảng con chữ Phụ âm giọng Ô 25
Bảng 1.4 Bảng chân Phụ âm giọng Ô 25
Bảng 1.5 Bảng phụ âm bổ sung biến đổi giọng Ô thành giọng O 25
Bảng 1.6 Bảng Nguyên âm thường ráp với Phụ âm giọng O 26
Bảng 1.7 Bảng Nguyên âm thường ráp với Phụ âm giọng Ô 26
Bảng 1.8 Bảng Nguyên âm độc lập 26
Bảng 1.9 Bảng số và cách đếm trong tiếng Khmer 28
Bảng 2.1 Bản tin dự báo thời tiết hằng ngày Việt – Khmer 41
Bảng 2.2 Bản tin dự báo thời tiết về bão Việt – Khmer 43
Bảng 2.3 Bản tin dự báo thời tiết về lũ Việt – Khmer 45
Bảng 3.1 Các tháng trong tiếng Khmer 63
Footer Page 8 of 126.
Trang 9DANH MỤC HÌNH
Hình 1.1 Giao diện dịch máy Google Translate 12
Hình 1.2 Giao diện dịch máy Systran 13
Hình 1.3 Cách gõ chữ Khmer trong bộ gõ Khmer Unicode của NiDA 36
Hình 2.1 Mô hình kiến trúc hệ thống 54
Hình 2.2 Mô hình tổng quát xây dựng kho ngữ liệu 64
Hình 2.3 Sơ đồ chuyển đổi kho ngữ liệu Word thành kho ngữ liệu XML 66
Hình 2.4 Kho ngữ liệu VietKhmer.xls 67
Hình 2.5 Kho ngữ liệu VietKhmer.xml 67
Hình 3.1 Giao diện hệ thống dịch Việt - Khmer 87
Hình 3.2 Kịch bản sử dụng hệ thống dịch 88
Footer Page 9 of 126.
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Việt Nam là một quốc gia của 54 dân tộc cùng chung sống hòa thuận, mỗi dân tộc điều có một nền văn hóa mang đặc sắc riêng gắn liền với truyền thống và phong tục riêng của dân tộc đó, các nền văn hóa tương đối thống nhất và hài hòa với nhau tạo nên sự phong phú, đa dạng trong thể thống nhất của nền văn hóa các dân tộc Việt Nam
Dân tộc Khmer có dân số khoảng 1382 ngàn người (năm 2009) tập trung
ở các tỉnh, thành phố thuộc Đồng bằng Sông Cửu Long và một số ở thành phố
Hồ Chí Minh và miền Đông Nam bộ[12], là dân tộc thiểu số có số dân đông nhất trong cộng đồng dân tộc thuộc nhóm ngữ hệ Môn - Khmer ở Việt Nam
Đa phần đời sống kinh tế của đồng bào dân tộc Khmer phụ thuộc chủ yếu vào nông nghiệp, cuộc sống đồng bào còn gặp rất nhiều khó khăn, các biến động của thời tiết như sương mù, sương muối, lũ lụt, mưa bão, triều cường nếu không phát hiện sớm và có các biện pháp để phòng tránh, ứng phó kịp thời, các biến động thời tiết này sẽ gây ảnh hưởng rất lớn đến đời sống sinh hoạt của người dân, hoa màu, cây trồng bị phá hoại, năng suất, chất lượng sản phẩm nông sản sẽ bị giảm làm cho cuộc sống đồng bào khó khăn nay còn khó khăn hơn
Chủ trương của Đảng và Nhà nước là tăng cường đẩy mạnh thực hiện tuyên truyền sâu rộng hơn nữa về công tác văn hóa – thông tin [25], để đưa thông tin hữu ích về khoa học kỹ thuật, dự báo thời tiết, chăm sóc sức khoẻ, bảo tồn và phát huy các giá trị văn hoá đặc sắc của các dân tộc, tuyên truyền đường lối, chủ trương, chính sách của Đảng và Nhà nước nhằm giúp đồng bào nâng cao tay nghề, ứng dụng tiến bộ khoa học - kỹ thuật vào sản xuất, thích ứng với cơ chế thị trường, giữ vững an ninh trật tự xã hội
Footer Page 10 of 126.
Trang 11Một số địa phương đã có các ấn phẩm báo, tạp chí, sản xuất và phát sóng các chương trình phát thanh, truyền hình dành cho đồng bào dân tộc Khmer Tuy nhiên, phần lớn các đài phát thanh truyền hình phát sóng bằng tiếng Khmer chưa có chương trình thông tin về thời tiết đến với người dân Vì vậy, cần có chương trình thông tin dự báo thời tiết bằng tiếng Khmer, việc này sẽ
bổ sung thêm kênh thông tin, giúp thông tin về thời tiết chính xác, kịp thời đến đồng bào Hiện nay, để sản xuất một chương trình phát thanh, truyền hình
về dự báo thời tiết bằng tiếng Khmer cần nhiều thời gian và công sức
Xuất phát từ thực tế trên, một giải pháp đưa thông tin dự báo thời tiết kịp thời và chính xác đến với đồng bào là vấn đề cần thiết, giúp đồng bào có cách ứng phó kịp thời với diễn biến phức tạp của thời tiết, để làm giảm tối đa sự thiệt hại do thời tiết gây ra
Từ các thực tế đó, tôi đề xuất đề tài: “Xây dựng hệ thống dịch tự
động Việt – Khmer trợ giúp dự báo thời tiết tại các đài phát thanh truyền hình”
2 Mục tiêu của đề tài
Mục tiêu chính mà đề tài hướng đến là nghiên cứu các vấn đề về xử lý ngôn ngữ tiếng Việt như phương pháp dịch máy, kỹ thuật tách từ tiếng Việt, kho ngữ liệu song ngữ,
Xây dựng kho ngữ liệu song ngữ Việt - Khmer có cấu trúc mở và dễ kế thừa để phục vụ cho các chương trình XLNNTN Việt – Khmer khác
Khai thác kho ngữ liệu, xây dựng hệ thống dịch tự động Việt - Khmer trong lĩnh vực dự báo thời tiết, nhằm trợ giúp cho các ban biên tập báo, phát thanh truyền hình trong việc biên tập các tin dự báo thời tiết bằng tiếng Khmer được dễ dàng, chính xác và nhanh chóng hơn
3 Đối tượng và phạm vi nghiên cứu
Footer Page 11 of 126.
Trang 12Để đáp ứng mục tiêu đã nêu, đề tài cần giải quyết những vấn đề chính sau:
Phân tích cấu trúc câu về dự báo thời tiết
Tài liệu Việt - Khmer thu thập được từ các chuyên gia và từ Internet Sách, giáo trình, từ điển song ngữ Việt-Khmer
Tập hợp các bản tin dự báo thời tiết Việt, Khmer của đài phát thanh, truyền hình
Các CSDL song ngữ Việt - Khmer thu thập được liên quan đến bài toán
dự báo thời tiết
Phân tích mẫu câu trong bản tin và đưa ra cấu trúc câu Việt - Khmer tương ứng cho các mẫu tin
Cập nhật kho ngữ liệu song ngữ Việt - Khmer
Thu thập dữ liệu từ các mẫu câu, trích rút từ vựng từ những bản tin dự báo thời tiết để xây dựng kho ngữ liệu Việt - Khmer phục vụ cho hệ thống dịch
Xây dựng ứng dụng
Xây dựng hệ thống dịch Việt – Khmer phục vụ dịch bản tin về dự báo thời tiết hỗ trợ cho các ban biên tập đài phát thanh, truyền hình trong việc biên tập chương trình dự báo thời tiết bằng tiếng Khmer
4 Phương pháp nghiên cứu
Footer Page 12 of 126.
Trang 13Thu thập dữ liệu từ các bản tin dự báo thời tiết
Phân tích từ vựng và mẫu câu Việt - Khmer tương ứng
Xây dựng kho ngữ liệu dễ dàng truy xuất, mở rộng, chuyển đổi các định dạng dữ liệu
Tìm hiểu các công cụ phù hợp để phục vụ cho công việc lập trình
Khai thác kho ngữ liệu để xây dựng ứng dụng dịch tương tác
Kiểm thử chương trình, nhận xét và đánh giá kết quả
5 Ý nghĩa khoa học và thực tiễn của đề tài:
Ý nghĩa khoa học: Nắm bắt được các vấn đề cơ bản trong xử lý tiếng
Việt Đây là tiền đề, nền tảng phát triển các ứng dụng XLNNTN cho tiếng Khmer (như dịch, từ điển, phần mềm học tập, website đa ngữ…)
Ý nghĩa thực tiễn: Trợ giúp cho công tác truyền thông của các đài phát
thanh truyền hình, nhằm thông tin dự báo thời tiết chính xác và kịp thời cho đồng bào dân tộc Khmer, giúp đồng bào giảm tối đa những thiệt hại do thời tiết gây ra
6 Bố cục của luận văn
Báo cáo của luận văn được tổ chức thành 3 chương
Chương 1 Cơ sở lý thuyết
Tìm hiểu về các bài toán dịch tự động, các vấn đề trong quá trình xây dựng kho ngữ liệu song ngữ, tìm hiểu tiếng Khmer, phân biệt giống nhau và khác nhau giữa hai ngôn ngữ tiếng Việt, tiếng Khmer, hiện trạng ứng dụng tin học trong tiếng Khmer hiện nay
Chương 2 Giải pháp xây dựng hệ thống dịch tự động Việt - Khmer
Chương này phân tích các bản tin dự báo thời tiết tiếng Việt, tiếng Khmer, đưa giải pháp xây dựng hệ thống dịch tự động Việt - Khmer
Footer Page 13 of 126.
Trang 14Chương 3 Triển khai thử nghiệm hệ thống dịch Việt - Khmer
Chọn môi trường công cụ xây dựng hệ thống, thu thập dữ liệu và cập nhật kho ngữ liệu song Xây dựng, cài đặt, thử nghiệm chương trình và đánh giá kết quả
Footer Page 14 of 126.
Trang 15CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 TỔNG QUAN VỀ BÀI TOÁN DỊCH TỰ ĐỘNG
Dịch tự động hay còn gọi là dịch máy (Machine Translation) là một
nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có
sự can thiệp của con người trong quá trình dịch
Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng hiệu quả Nói về tính nhập nhằng, đây là khái niệm chỉ tính không
rõ ràng của ngôn ngữ Trong tiếng Việt có các hiện tượng nhập nhằng như nhập nhằng đồng âm (hoặc đồng tự), nhập nhằng từ loại, nhập nhằng từ đa nghĩa Khi dịch tự động tiếng việt, khó khăn đầu tiên là xác định ranh giới từ, không giống như tiếng Anh (và nhiều ngôn ngữ khác) mỗi từ mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại với nhau Còn về từ đa nghĩa tiếng Anh cũng như tiếng Việt và hầu như tất cả các ngôn ngữ khác đều rất phức tạp, muốn xác định nghĩa chính xác phải thực hiện phân tích văn cảnh
Sau khi xác định nghĩa phù hợp của từ, công việc tiếp theo là sắp xếp để tạo thành câu hoàn chỉnh Nếu hai ngôn ngữ có cấu trúc càng khác nhau bao nhiêu công việc này càng phức tạp bấy nhiêu, với những ngôn ngữ gần nhau như tiếng Anh và tiếng Pháp công việc tương đối đơn giản, nhưng giữa tiếng Pháp và tiếng Trung thì rất khó khăn Để sắp xếp người ta đưa vào các cấu trúc ngữ pháp hết sức phức tạp, áp dụng nhiều kiến thức toán học nhưng thực
tế cho thấy hiệu quả của chúng vẫn không được tốt.[16]
Một cách tiếp cận khác là dự vào tư liệu đã dịch sẵn của con người, điển hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện các Footer Page 15 of 126.
Trang 16thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động sau này, kiểu dịch rất gần với thao tác tìm kiếm – lĩnh vực đặc biệt mạnh của Google.[5]
1.1.1 Lịch sử dịch máy
Lịch sử của dịch tự động bắt đầu từ thế kỷ 17, khi hai nhà triết học Leibniz và Descartes đưa ra những ý tưởng đầu tiên về các mã thực hiện mối liên hệ giữa nhiều ngôn ngữ, nhưng tất cả những đề xuất này chỉ dừng lại ở mức lý thuyết mà không có một ứng dụng thực tế nào
Sáng chế đầu tiên cho một "chương trình dịch tự động" được thực hiện vào khoảng giữa thập niên 1930 Vào thời điểm này Georges Artsruni đã tạo
ra một bộ từ điển song ngữ với chức năng tra từ tự động bằng các băng giấy, tiếp theo một người Nga là Pyotr Troyanskii tiếp tục phát triển với nhiều chi tiết hơn Nó không chỉ có một bộ từ điển song ngữ mà còn bao gồm các quy
tắc ngữ pháp cơ bản dựa trên quốc tế ngữ (Esperanto)
Lịch sử của dịch tự động được chính thức ghi nhận từ thập niên 1950 mặc dù như trên trình bày trước đó một số công việc ở dạng manh nha đã được thực hiện Vào năm 1954, thực nghiệm Georgetown-IBM đã thực hiện thành công thí nghiệm dịch tự động hoàn toàn hơn 60 câu tiếng Nga sang tiếng Anh Thành công bước đầu này đã tạo điều kiện để lập ra những quỹ đầu tư có giá trị cho các nghiên cứu Các tác giả (tại thời điểm đó) tuyên bố rằng chỉ trong vòng từ 3 đến 5 năm nữa vấn đề dịch máy sẽ được giải quyết Nhưng thực tế kết quả chậm hơn nhiều, báo cáo ALPAC vào năm 1966 cho thấy sau hơn 10 năm nghiên cứu lĩnh vực này vẫn không có những tiến bộ đáng kể và hệ quả là số tiền chi cho nghiên cứu giảm mạnh Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế
Footer Page 16 of 126.
Trang 17Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu Hiện nay
có một số công ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền Một hướng tiếp cận mới là kết hợp (lai ghép) các phương pháp với nhau, như những nghiên cứu phối hợp giữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê
Với tiếng Việt, từ năm 1960 vấn đề dịch tự động cho tiếng Việt đã bắt đầu được nghiên cứu, hầu hết đều do các nguyên nhân chính trị và quân sự Các tài liệu nước ngoài cho thấy, được sự bảo trợ của Không lực Hoa Kỳ, Bernard E Scott thành lập công ty Logos vào năm 1969 với mục đích tiếp tục nghiên cứu việc tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt Scott bắt đầu chuẩn bị cho việc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ máy tính tại New York, Mỹ Vào khoảng tháng 6 năm 1970 hệ thống dịch tự động có tên Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ có hơn 1.000 từ tiếng Việt, tác giả của hệ thống này là Byrne, Charles E.; Scott, Bernard E.; Binh, Truong N Nhưng hệ thống này không tồn tại được lâu, việc nghiên cứu của Scott chấm dứt vào năm 1973 Cũng trong khoảng thời gian này, một dự án khác về xây dựng hệ thống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành vào đầu thập niên
1970 tại Tập đoàn viễn thông Xyzyx, California Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh - Pháp về vũ trụ học trên máy IBM 360 theo nguyên tắc hoạt động tương tự như của hệ thống Logos Tuy nhiên, hệ dịch máy Anh-Việt được sử dụng rộng rãi tại Việt nam đầu tiên là EVTRAN -
1997 Và sau đó EVTRAN 2.0, 1999 với hơn 200.000 từ và cụm từ Từ năm
2006, bản EVTRAN 3.0 (được gọi là Ev-Shuttle) biên dịch văn bản hai chiều Anh-Việt và Việt-Anh (với hơn 500.000 mục từ vựng).[7]
Footer Page 17 of 126.
Trang 181.1.2 Vấn đề dịch tự động trong tiếng Việt
Mặc dù dịch tự động ở Việt Nam đã được nghiên cứu và phát triển hơn
20 năm qua, song vẫn tồn tại rất nhiều vấn đề để nghiên cứu Các công trình nghiên cứu hiện nay đang tập trung chủ yếu vào xử lý giữa tiếng Việt và ngôn ngữ của các nước khác như tiếng Anh, Pháp, Nhật, Hoa, Tuy nhiên chưa có sản phẩm dịch máy nào được hoàn thiện, chất lượng dịch còn nhiều hạn chế
Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều chỉ mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn bản Trong quá trình dịch thuật nếu lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng đến văn phong, bởi vì người dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường không chính xác, máy móc và thiếu "chất người" So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài liệu này từ vựng có nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc, đơn giản, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa, nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng [2]
1.1.3 Một số phương pháp dịch máy
1.1.3.1 Dịch máy dựa trên ví dụ (EBMT: Example-based MT)
Phương pháp dịch máy dựa trên ví dụ (EBMT: Example-Based Machine Translation) sử dụng các mẫu câu hay còn gọi là các câu ví dụ Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ
Phương pháp dịch máy dựa trên ví dụ dựa trên ngân hàng mẫu câu ví dụ, không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu Câu nguồn chỉ cần so khớp từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp Nó gần như kiểu dịch trực tiếp bằng cách thay thế theo kiểu 1-1 mà không cần hiểu biết gì nhiều về Footer Page 18 of 126.
Trang 19ngôn ngữ Độ chính xác của phương pháp này phụ thuộc vào số mẫu được lưu trong kho ngữ liệu song ngữ Một khi kho dữ liệu càng lớn thì chi phi tìm kiếm, xử lý thông tin để so trùng mẫu cũng rất lớn
Như vậy, theo phương pháp này ta cần xây dựng một kho ngữ liệu song ngữ rất lớn thì chất lượng của bản dịch sẽ được nâng cao Trong thực tế thật khó để chúng ta có thể lưu trữ tất cả các mẫu câu của ngôn ngữ tự nhiên mà chúng ta có thể gặp trên cơ sở dữ liệu Tuy nhiên, với sự phát triển của công nghệ máy tính với bộ lưu trữ ngày càng được gia tăng về dung lượng và tốc
độ truy xuất cũng có thể cho phép chúng ta lưu trữ một kho dữ liệu khổng lồ cho hệ dịch
Phương pháp dịch dựa trên cơ sở ví dụ này đơn giản về mặt mô hình lý thuyết và trong một số trường hợp (như dịch các văn bản gần giống nhau và hay lặp đi lặp lại) thì lại cho ra kết quả cao bất ngờ.[2]
1.1.3.2 Dịch máy dựa trên thống kê (SMT: Statistical-based MT)
Dịch máy dựa trên thống kê SMT: Statistical-Based Machine Translation) là cách tiếp cận dịch máy dựa trên thống kê để xây dựng từ điển
và các quy luật dịch một cách tự động, thay vì xây dựng các từ điển, các quy luật dịch bằng tay như trong hệ dịch RBMT Để thực hiện được điều này, cần
có một kho dữ liệu song ngữ rất lớn hệ thống sẽ thống kê và đưa ra các xác suất dịch tương ứng về từ/ngữ, cấu trúc hay xác suất chuyển dịch vị trí giữa hai ngôn ngữ và xác suất xuất hiện các từ/ngữ trong một ngữ cảnh nhất định nào đó
Cách tiếp cận SMT này không đòi hỏi sự phân tích sâu về ngôn ngữ, chúng hoàn toàn tự động thực hiện các quá trình phân tích, chuyển đổi, tạo câu bằng cách dựa trên kết quả thống kê được từ kho ngữ liệu song ngữ huấn luyện Ngày nay, với sự phát triển về bộ nhớ và tốc độ tính toán đã cho phép cách dịch ngày nay ngày càng hiệu quả Mặt khác, tính vận động và biến đổi của ngôn ngữ nên các từ vựng, văn phạm của ngôn ngữ sẽ biến đổi theo Footer Page 19 of 126.
Trang 20Chính vì vậy cách tiếp cận này có lợi thế hơn so với cách tiếp cận dựa vào từ vựng hay dựa vào luật ngôn ngữ, ngày nay nó là phương pháp dịch được nghiên cứu nhiều nhất [5]
1.1.3.3 Dịch máy dựa trên ngữ liệu (CBMT: Corpus-based MT)
Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based Machine Translation) đang được áp dụng vào nhiều hệ thống dịch tự động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động
là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu
Ở đây, việc phân thành loại tiếp cận có tên là “dựa trên ngữ liệu” có vẻ không được rõ ràng lắm, vì thật ra, các cách tiếp cận dựa trên thống kê hay dựa trên ví dụ nói trên đều dựa trên ngữ liệu Những điểm đặc biệt của cách tiếp cận này là dựa trên cơ sở ngôn ngữ học và dùng công nghệ máy học để các quy luật của ngôn ngữ từ ngữ liệu Hệ thống học dựa trên cấu trúc của ngôn ngữ chứ không phải học trên bề mặt của ngôn ngữ như trong SMT
Để thực hiện được điều này, máy cần có ngữ liệu rất lớn (corpus), dạng đơn ngữ (monolingual) hay song ngữ (bilingual) và máy sẽ khai thác trên các kho ngữ liệu này Đặc điểm của cách tiếp cận này là khả năng tự rút ra các quy luật của ngôn ngữ Nó có những ưu điểm của cách tiếp cận dựa trên luật (vì cuối cùng nó cũng dựa trên luật được rút ra) nhưng khắc phục được khuyết điểm của việc xây dựng luật thủ công bởi các chuyên gia Các luật được rút ra lại được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện), chính vì vậy, các luật rút ra được đảm bảo là chính xác, bao quát, không mâu thuẫn và không thừa
Cách tiếp cận dựa trên ngữ liệu là cách tiếp cận tiên tiến gần đây, khi mà kho ngữ liệu đơn ngữ hay đa ngữ dạng điện tử ngày càng có nhiều Cách tiếp cận này dựa trên công nghệ máy học để rút ra các quy luật ngôn ngữ một cách
tự động Ngoài ra, với sự biến đổi của ngôn ngữ hay chuyển đổi lĩnh vực dịch, thì cách tiếp cận này tỏ ra hiệu quả trong việc cập nhật bộ luật của nó [6] Footer Page 20 of 126.
Trang 211.1.4 Một số dịch vụ dịch máy đã có
1.1.4.1 Google
Google Dịch (lúc đầu gọi là Google Thông dịch, tên tiếng Anh là Google Translate) là một công cụ dịch trực tuyến được Google cung cấp Nó dùng để dịch tự động một đoạn ngắn, hoặc nguyên một trang web sang ngôn ngữ khác, đối với tài liệu có kích thước lớn người dùng cần tải lên cả tài liệu
để dịch Người dùng sau khi xem bản dịch có thể hỗ trợ Google cách dịch khác khi thấy kết quả không được tốt, hỗ trợ này có thể được sử dụng trong các lần dịch sau
Google Dịch dựa trên nền tảng gọi là dịch máy theo nguyên tắc dịch máy thống kê Người đứng đầu chương trình dịch máy của Google là Franz-Josef Och - từng đoạt giải nhất cuộc thi DARPA (viết tắt của từ Defense Advanced Research Projects Agency, một cơ quan của chính phủ Mỹ có trách nhiệm phát triển công nghệ mới phục vụ cho quân đội) về tốc độ dịch tự động vào năm 2003
Hình 1.1 Giao diện dịch máy Google Translate
Không giống như các công cụ khác như Babel Fish, AOL và Yahoo sử dụng SYSTRAN, Google Dịch sử dụng phần mềm của riêng họ, chương trình này không đi quá sâu vào các quy luật phức tạp về ngữ pháp mà sử dụng phương pháp được họ gọi là thống kê kiến thức, có nghĩa là chương trình sẽ được nạp vào hàng tỉ văn bản đã được dịch sẵn của con người sau đó thực hiện các thao tác phân tích nhằm tìm ra sự tương đồng với các yêu cầu của người dùng rồi trả về kết quả Chất lượng dịch được tăng lên theo thời gian Footer Page 21 of 126.
Trang 22khi mà các văn bản ngày càng được nạp vào nhiều hơn với cấu trúc và ngữ cảnh ngày càng đa dạng [7]
1.1.4.2 Systran
Systran là một hệ thống dịch tự động rất nổi tiếng và chất lượng dịch khá tốt Systran có thể sử dụng được trên môi trường Internet, máy đơn hoặc trên các hệ thống mạng cục bộ Phiên bản mới nhất hiện này của Systran là phiên bản 7 Systran hỗ trợ dịch tự động nhiều thứ tiếng như Đức, Tây Ban Nha, Thuỵ Điển, Anh, Pháp, Ý, Hàn Quốc, Nhật, Hà Lan, Ba Lan, Bồ Đào Nha, Nga, Trung Quốc, Ả Rập và Hy Lạp Phần mềm này có thể dùng độc lập và
có sự tích hợp với Microsoft Office để thuận lợi hơn cho quá trình sử dụng Tuy nhiên Systran chưa thấy hỗ trợ ngôn ngữ tiếng Việt Các nhà khai thác ngôn ngữ sử dụng nguồn dữ liệu Anh – Việt bắt cầu để khai thác các nguồn
dữ liệu khác từ Systran bằng các cặp song ngữ như Anh – Nhật, Anh- Pháp,
để được nguồn dữ liệu Nhật – Anh – Việt, Pháp – Anh – Việt, [2]
Hình 1.2 Giao diện dịch máy Systran
1.2 XỬ LÝ CÂU TIẾNG VIỆT
1.2.1 Tách câu
1.2.1.1 Xử lý đầu vào
Xóa các khoảng trắng thừa như hai hay nhiều khoảng trắng cùng một vị trí “ ” hoặc khoảng trắng trước dấu “,” ; dấu “.”, Thực hiện các công việc chuẩn hóa dữ liệu nhập vào Thay thế các ký tự tương tự
Footer Page 22 of 126.
Trang 231.2.1.2 Tách câu
Trong văn bản tiếng tiếng Việt hay một số ngôn ngữ khác người ta cũng dùng các dấu như dấu chấm (.), chấm than (!), chấm hỏi (?) và một số dấu chấm câu khác để nhận biết kết thúc câu Những dấu này thường được gọi là dấu chấm câu Tuy nhiên do tính nhập nhằng của các dấu báo hiệu kết thúc câu, vẫn có những câu tiếng Việt mà các dấu hiệu kết thúc câu đó vẫn chưa kết thúc câu, nên việc phân định ranh giới câu không đơn giản
Ví dụ:
Dấu chấm “.”: là dấu có nhiều trường hợp mơ hồ nhất Nó có thể biểu thị như một dấu chấm kết thúc câu, dấu chấm thập phân trong chữ số (8,220.78), dấu chấm trong chữ viết tắt (GS., PGS., TS., TP., ), dấu chấm trong các trường hợp khác như địa chỉ email, website (pisich@gmail.com,
www.udn.vn)
Dấu chấm hỏi, dấu chấm than có thể xuất hiện ở cuối câu hay trong dấu ngoặc đơn, ngoặc kép
Để nhận diện dấu chấm câu, người ta có thể dùng các heuristics hoặc các
mô hình học phức tạp hơn, như : mạng neural, TBL, Maximum Entropy Sau khi nhận đoạn văn bản đã được lọc các ký tự dư thừa, bộ phận tách câu bắt đầu phân tích dựa trên cách chấm câu và ngữ nghĩa một số từ để tách
ra các câu riêng biệt [2]
a Xử lý dấu chấm
Để có thể phân biệt được các trường hợp trên, dựa vào một số đặc trưng riêng trong cách trình bày của từng trường hợp:
Trường hợp là dấu chấm kết thúc câu thì dấu hiệu nhận biết kết thúc câu
sẽ là: Luôn luôn có ít nhất một khoảng trắng sau dấu chấm và ký tự tiếp theo
sẽ là chữ cái viết hoa
Footer Page 23 of 126.
Trang 24Trường hợp là dấu chấm thập phân thì có thể nhận biết bằng cách đọc toàn bộ phần liền trước và liền sau dấu chấm để phát hiện số có dấu chấm thập phân
Trường hợp là dấu chấm sau từ viết tắt thì có thể nhận biết bằng cách xây dựng một danh sách các từ viết tắt để tra cứu khi cần
Trường hợp dấu chấm trong các địa chỉ email, website thì dấu chấm luôn nằm giữa hai ký tự nào đó mà không có khoảng trắng nằm sau, dấu chấm trong trường hợp này không bao giờ nằm ở cuối từ nên cũng có thể dễ nhận biết được
Trong văn bản về dự báo thời tiết thì chủ yếu là dấu chấm là dấu kết thúc câu, dấu thập phân trong cách chữ số là dấu chấm hoặc dấu phẩy và trường hợp dấu chấm sau từ viết tắt
b Xử lý dấu chấm trong ngoặc
Khi bộ tách câu gặp dấu mở ngoặc đơn, hoặc ngoặc kép, thì nó sẽ quét trong đoạn văn đang xét để tìm dấu đóng tương ứng Nếu tìm thấy, toàn bộ phần trong ngoặc sẽ được giữ nguyên và tìm dấu kết thúc câu tiếp theo ngoài dấu ngoặc Nếu không tìm thấy dấu đóng tương ứng, dấu mở sẽ bị bỏ qua và
xử lý tiếp ký tự sau dấu mở như bình thường