1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ hệ thống dịch tự động sử dụng mạng nơ ron

64 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ hệ thống dịch tự động sử dụng mạng nơ ron
Tác giả Nguyễn Đức Lê Huy
Người hướng dẫn PGS. TS. Huỳnh Công Pháp
Trường học Đại học Đà Nẵng
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2018
Thành phố Đà Nẵng
Định dạng
Số trang 64
Dung lượng 5,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nguồn tài nguyên dữ liệu phục vụ xây dựng và phát triển hệ thống dịch tự động đóng vai trò rất quan trọng nhất là đối với các hệ thống dịch theo phương pháp thống kê hoặc sử dụng mạng Nơron Chất lượng và hiệu quả của các hệ thống dịch tự động sử dụng các phương pháp dịch hiện đại không chỉ phụ thuộc vào thuật toán mà còn phụ thuộc rất lớn vào khối lượng và chất lượng các nguồn tài nguyên dữ liệu hay còn gọi là các kho ngữ liệu Luận văn cũng đã đề xuất được giải pháp xây dựng nguồn tài nguyên phục vụ xây dựng hệ thống dịch sử dụng mạng nơron bao gồm tách từ sử dụng mạng nơron xây dựng vector đặc trưng xây dựng các bộ chuyển mã và giải mã luận văn cũng đã trình bày kết quả thực nghiệm của tác giả luận văn và nhóm nghiên cứu về việc cài đặt hệ thống dịch mạng nơ ron trên nguồn tài nguyên dữ liệu thu được

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN ĐỨC LÊ HUY

GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN

DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG

SỬ DỤNG MẠNG NƠ RON

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN ĐỨC LÊ HUY

GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn với tiêu đề “Giải pháp xây dựng nguồn tài nguyên

dữ liệu phục vụ hệ thống dịch tự động sử dụng mạng Nơ ron” hoàn toàn là kết quả

nghiên cứu của chính bản thân tôi và chưa được công bố trong bất cứ một công trình nghiên cứu nào của người khác Trong quá trình thực hiện luận văn, tôi đã thực hiện nghiêm túc các quy tắc đạo đức nghiên cứu; các kết quả trình bày trong luận văn là sản phẩm nghiên cứu, khảo sát của riêng cá nhân tôi; tất cả các tài liệu tham khảo sử dụng trong luận văn đều được trích dẫn tường minh, đúng theo quy định Tôi xin hoàn toàn chịu trách nhiệm về tính trung thực của số liệu và các nội dung khác trong luận văn của mình

Đà Nẵng, ngày 01 tháng 06 năm 2018

Tác giả luận văn ký và ghi rõ họ tên

Nguyễn Đức Lê Huy

Trang 4

LỜI CẢM ƠN

Tác giả xin chân thành cảm ơn thầy giáo – PGS TS Huỳnh Công Pháp đã định hướng khoa học, hướng dẫn tận tình, chu đáo trong suốt quá trình thực hiện luận văn

Xin được bày tỏ lòng biết ơn đến:

- Lãnh đạo phòng Công nghệ thông tin, lãnh đạo Công ty Điện lực Quảng Ngãi cùng bạn bè đồng nghiệp đã tạo điều kiện thuận lợi cho tác giả được theo học chương trình sau đại học và thực hiện luận văn này

- Quý thầy cô giáo, lãnh đạo khoa Công nghệ thông tin – Trường ĐHBK Đà Nẵng, Trường Cao đẵng Công nghệ thông tin Đà Nẵng, đã tạo điều kiện thuận lợi cho tác giả trong suốt thời gian học tập và thực hiện đề tài tại trường!

Trang 5

TÓM TẮT LUẬN VĂN GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ

HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON

Học viên: Nguyễn Đức Lê Huy

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01 Khóa: K33 Trường Đại học Bách khoa – ĐHĐN

Tóm tắt - Nguồn tài nguyên dữ liệu phục vụ xây dựng và phát triển hệ thống dịch tự

động đóng vai trò rất quan trọng, nhất là đối với các hệ thống dịch theo phương pháp thống kê hoặc sử dụng mạng Nơron Chất lượng và hiệu quả của các hệ thống dịch tự động sử dụng các phương pháp dịch hiện đại không chỉ phụ thuộc vào thuật toán mà còn phụ thuộc rất lớn vào khối lượng và chất lượng các nguồn tài nguyên dữ liệu hay còn gọi là các kho ngữ liệu Luận văn cũng đã đề xuất được giải pháp xây dựng nguồn tài nguyên phục vụ xây dựng hệ thống dịch sử dụng mạng nơron bao gồm tách từ sử dụng mạng nơron, xây dựng vector đặc trưng, xây dựng các bộ chuyển mã và giải mã luận văn cũng đã trình bày kết quả thực nghiệm của tác giả luận văn và nhóm nghiên cứu về việc cài đặt hệ thống dịch mạng nơ ron trên nguồn tài nguyên dữ liệu thu được

Từ khóa: Xử lý ngôn ngữ tự nhiên; Dịch tự động; Nguồn tài nguyên ngữ liệu; Mạng

Nơ ron; Trí tuệ nhân tạo

SOLUTIONS FOR RESOURCE DEVELOPMENT RESOURCES FOR SERVICE OF AUTOMATIC TRANSMISSION SYSTEMS

Abstract - Data sources for the construction and development of automatic translation

systems play a very important role, especially for statistical translation systems or using neural networks The quality and effectiveness of automated translation systems using modern translation methods depend not only on algorithms but also on the volume and quality of data resources, Language store The thesis also proposed a solution to build resources for the construction of a translation system using neural networks, including the separation using neural networks, the construction of characteristic vectors, the construction of transcodes and decoders The thesis also presents the experimental results of the thesis and the research team

on the installation of the neural network translation system on the collected data

Keyword: Natural language processing; Automatic translations; Material resources;

Neuron Network; Artificial intelligence

Trang 6

MỤC LỤC

Trang phụ bìa

Lời cam đoan

Lời cảm ơn

Tóm tắt luận văn

Danh mục các bảng

Danh mục các hình

MỞ ĐẦU 1

I Lý do chọn đề tài 1

II Mục đích nghiên cứu 1

III Đối tượng và phạm vi nghiên cứu 1

III.1 Đối tượng nghiên cứu: 1

III.2 Phạm vi nghiên cứu 2

IV Phương pháp nghiên cứu 2

IV.1 Phương pháp lý thuyết 2

IV.2 Phương pháp thực nghiệm 2

V Ý nghĩa của đề tài 2

V.1 Ý nghĩa khoa học: 2

V.2 Ý nghĩa thực tiễn: 2

VI Cấu trúc luận văn 2

CHƯƠNG 1 TỔNG QUAN NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG 4

1.1 Mở đầu 4

1.2 Xử lý ngôn ngữ tự nhiên và dịch tự động 4

1.3 Nguồn tài nguyên dữ liệu phục vụ dịch tự động 7

1.4 Thực trạng nguồn tài nguyên dữ liệu và chất lượng dịch tự động 13

1.5 Kết luận chương 1: 16

CHƯƠNG 2 MỘT SỐ GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG 17

2.1 Mở đầu 17

Trang 7

2.2 Các phương pháp phân lớp dữ liệu phục vụ xây dựng nguồn tài nguyên

17

2.3 Một số giải pháp xây dựng nguồn tài nguyên dữ liệu lớn 22

2.4 Kết luận chương 2 31

CHƯƠNG 3 GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON 33

3.1 Mở đầu 33

3.2 Mô hình dịch máy sử dụng mạng Nơ ron [1] 34

3.3 Xây dựng nguồn tài nguyên dựa vào tách từ mạng nơ ron 35

3.4 Thực nghiệm và khai thác nguồn tài nguyên dữ liệu xây dựng hệ thống dịch sử dụng mạng nơ ron 38

3.5 Kết luận chương 3 41

Kết luận 42

tài liệu tham khảo 43

Trang 8

Danh mục các bảng

1.1 Danh sách các kho ngữ liệu song song phổ biến 10

Danh mục các bản đổ, hình vẽ, đồ thị (Nếu có)

2.1 Mô hình quá xây dựng nguồn tài nguyên dữ liệu phục

vụ xử lý ngôn ngữ tự nhiên

18

2.2 Mô hình xây dựng nguồn tài nguyên từ internet 23 2.3 Hiệu chỉnh gióng hàng dữ liệu thu được 24 2.4 Xác nhận và hiệu chỉnh sự liên kết các cặp trang 25 2.5 Giải pháp chuyển đổi cấu trúc và định dạng các nguồn

tài nguyên

29

3.2 Nội dung tập tin từ điển khi sử dụng mô hình dịch

thống kê (a) và dịch sử dụng mạng nơ ron (b)(c)

Trang 9

Tuy nhiên, các nguồn tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự nhiên phổ biến đang tồn tại như các kho ngữ liệu: EuroParl, BTEC, ANC, ICE; các từ điển: Deutsches Wörterbuch, Oxford English, Gregg Cox [16] mặc dù được đánh giá là có kích thước rất lớn nhưng vẫn còn rất hạn chế so với nhu cầu sử dụng thực tiễn đối với các hệ thống dịch sử dụng mạng Nơron Đặc biệt, đối với các ngôn ngữ ít được đầu tư

và quan tâm phát triển như tiếng Việt và tiếng các dân tộc thiểu số ở Việt Nam, nguồn tài nguyên dữ liệu hiện nay còn rất hạn chế, chỉ tồn tại vài kho ngữ liệu với khối lượng nhỏ và chất lượng còn khiêm tốn

Xuất phát từ thực trạng hiện nay đối với nguồn tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung, phục vụ xây dựng và phát triển các hệ thống dịch tự động

sử dụng mạng Nơron nói riêng, tôi đã chọn thực hiện luận văn thạc sỹ với đề tài GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ HỆ THỐNG DỊCH

TỰ ĐỘNG SỬ DỤNG MẠNG NƠ RON

II Mục đích nghiên cứu

Mục đích của nghiên cứu này là nhằm đề xuất được giải pháp xây dựng nguồn tài nguyên dữ liệu có kích thước lớn và có chất lượng đảm bảo để phát triển các hệ thống dịch tự động sử dụng mạng Nơron

III Đối tượng và phạm vi nghiên cứu

III.1. Đối tượng nghiên cứu:

 Nguồn tài nguyên dữ liệu bao gồm các nguồn tài nguyên đa ngữ như các website, các văn bản đa ngữ

 Hệ thống dịch tự động sử dụng phương pháp mạng Nơron

Trang 10

 Các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đang sử dụng phổ biến

III.2. Phạm vi nghiên cứu

 Phạm vi của nghiên cứu chỉ tập trung vào giải pháp xây dựng nguồn tài nguyên

dữ liệu bao gồm ý tưởng, thuật toán và chương trình mô phỏng

 Nguồn tài nguyên dữ liệu dạng văn bản, phục vụ các hệ thống dịch tự động

sử dụng mạng Nơron

IV Phương pháp nghiên cứu

IV.1. Phương pháp lý thuyết

 Nghiên cứu các tài liệu về cơ sở lý thuyết: dịch tự động, trích rút, phân lớp dữ liệu

 Nghiên cứu thuật toán, phương pháp trích rút, phân lớp văn bản

 Nghiên cứu các phương pháp xây dựng nguồn tài nguyên dữ liệu phục vụ xử

lý ngôn ngữ tự nhiên

IV.2. Phương pháp thực nghiệm

 Nghiên cứu đề xuất giải pháp

 Xây dựng thuật toán, cài đặt chương trình và thử nghiệm

V Ý nghĩa của đề tài

V.1. Ý nghĩa khoa học:

Kết quả nghiên cứu có ý nghĩa khoa học, góp phần phát triển các công trình và

hệ thống xử lý trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và dịch tự động nói riêng

V.2. Ý nghĩa thực tiễn:

Kết quả của đề tài sẽ được sử dụng làm tài tham khảo nghiên cứu trong lĩnh vực

xử lý ngôn ngữ tự nhiên và dịch tự động Nguồn dữ liệu xây dựng được sẽ đóng vai trò rất quan trọng, góp phần phát triển các hệ thống dịch tự động nói chung, hệ thống dịch

sử dụng mạng Nơron nói riêng

VI Cấu trúc luận văn

Nội dung của luận văn được chia thành các phần như sau:

Để thực hiện đề tài này, luận văn được trình bày với cấu trúc gồm 03 chương chính:

+ Chương 1: Tổng quan nguồn tài nguyên dữ liệu phục vụ dịch tự động bao gồm

lý thuyết và nghiên cứu tổng quan về xử lý ngôn ngữ tự nhiên và dịch tự động; Nguồn

Trang 11

tài nguyên dữ liệu phục vụ dịch tự động; thực trạng nguồn tài nguyên dữ liệu và chất lượng dịch tự động

+ Chương 2: Một số giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch

tự động Chương này trình bày một số giải pháp khai thác, xây dựng nguồn tài nguyên

dữ liệu phục vụ dịch tự động đã có sẵn bao gồm các phương pháp phân lớp dữ liệu phục

vụ xây dựng nguồn tài nguyên; một số giải pháp xây dựng nguồn tài nguyên dữ liệu lớn; một số thuật toán khai thác và xây dựng nguồn tài nguyên dữ liệu lớn

+ Chương 3: Giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ hệ thống dịch

tự động sử dụng mạng Nơron Chương này đề xuất giải pháp xây dựng nguồn tài nguyên

dữ liệu trên cơ sở các nguồn tài nguyên xây dựng được và các nguồn tài nguyên đã tồn tại

Trang 12

CHƯƠNG 1 TỔNG QUAN NGUỒN TÀI NGUYÊN DỮ LIỆU

PHỤC VỤ DỊCH TỰ ĐỘNG

1.1 Mở đầu

Trong chương này, luận văn sẽ tập trung nghiên cứu một số cơ sở lý thuyết cơ bản liên quan đến các giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch tự động như khái niệm xử lý ngôn ngữ tự nhiên, khái niệm dịch tự động; giới thiệu một số ứng dụng xử lý ngôn ngữ tự nhiên đang ứng dụng trong thực tế, có ích và mang lại hiệu quả cho con người Qua đó, cũng giới thiệu một số hệ thống dịch tự động và dich tự động tiếng Việt có chất lượng rất tốt hiện nay Đồng thời, trong chương này, luận văn cũng trình bày nghiên cứu về nguồn tài nguyên dữ liệu phục vụ dịch tự động bao gồm nguồn tài nguyên các kho ngữ liệu và nguồn tài nguyên các từ điển; phân tích và nêu lên thực trạng nguồn tài nguyên dữ liệu và chất lượng của các hệ thống dịch tự động hiện hữu và

xu hướng xây dựng các hệ thống dịch trong tương lai

1.2 Xử lý ngôn ngữ tự nhiên và dịch tự động

1.2.1 Khái niệm xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu rất phổ biến, được ứng dụng rất hiệu quả và thiết thực trong cuộc sống Xử lý ngôn ngữ tự nhiên trên máy tính nhằm mục đích sử dụng máy tính để hỗ trợ con người trong những công việc có liên quan đến ngôn ngữ

Hiện nay, xử lý ngôn ngữ tự nhiên trên máy tính đã mang lại nhiều thành quả rõ rệt, kết quả nghiên cứu xử lý ngôn ngữ tự nhiên trên máy tính đã được ứng dụng và hỗ trợ cho con người trong giao tiếp và truyền thông rất hiệu quả như dịch máy, khai phá

dữ liệu, tìm kiếm thông tin, tra cứu từ điển trên máy tính

Xử lý ngôn ngữ tự nhiên đã đóng một vai trò rất lớn trong phát triển kinh tế, xã hội và nhất là trong thời kỳ hội nhập Tại Việt Nam, những năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên đã được quan tâm nghiên cứu và đã mang lại một số kết quả đáng chú ý như phát triển các hệ thống từ điển trên máy tính, dịch tự động tiếng Việt, khai phá dữ liệu văn bản để thu thập dữ liệu và thông tin quan tâm

1.2.2 Khái niệm dịch tự động

Dịch tự động hay còn gọi là dịch máy trong đó máy tính được sử dụng để dịch tự động văn bản hoặc tiếng nói từ ngôn ngữ này sang ngôn ngữ khác Các hệ thống dịch tự động phổ biến như Google Translate, Systran, Reverso, EVTrans…

Trang 13

Chất lượng dịch tự động hiện nay đã cải thiện rất nhiều, một số cặp ngôn ngữ phổ biến như Anh – Pháp có thể cho chất lượng đạt đến mức rất cao, có thể chuyển tải gần như đầy đủ nội dung và nghĩa của một số đoạn dịch thông dụng

Khái niệm dịch tự động có thể được diễn đạt như một số tài liệu như sau: Dịch

tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch

Khó khăn của việc thiết kế chương trình dịch tự động là làm sao khử nhập nhằng hiệu quả Nhập nhằng là khái niệm chỉ tính không rõ ràng của ngôn ngữ, chẳng hạn khi viết từ đường kính thì vẫn chưa rõ là nó chỉ một loại "chất ngọt dùng để pha làm đồ uống" hay là "đoạn thẳng đi qua tâm và nối hai điểm của đường tròn, của mặt cầu"

Đối với dịch tự động từ ngôn ngữ này sang ngôn ngữ khác, khó khăn đầu tiên lại

là việc tách từ tức là xác định ranh giới từ, không giống như tiếng Anh và nhiều ngôn ngữ khác mỗi từ đã mang trọn vẹn một nghĩa và được xác định ranh giới qua khoảng trắng, tiếng Việt hoặc một số ngôn ngữ khác là ngôn ngữ đơn lập do vậy có rất nhiều từ ghép, nếu không xác định đúng sẽ xuất hiện kiểu dịch từng từ rồi ghép lại

Một cách tiếp cận khác trong lĩnh vực này là dựa vào tư liệu đã dịch sẵn của con người, điển hình là Google Translate, nó nạp hàng triệu trang tư liệu sau đó thực hiện các thao tác mà nó gọi là thống kê kiến thức để phân tích cho các lần dịch tự động sau này, kiểu dịch rất gần với thao tác tìm kiếm - lĩnh vực đặc biệt mạnh của Google

1.2.3 Một số ứng dụng xử lý ngôn ngữ tự nhiên

Như đề cập ở phần trên, xử lý ngôn ngữ tự nhiên được ứng dụng rất phổ biến trong thực tế và mang lại rất nhiều lợi ích và hiệu quả cho con người Sau đây là một số ứng dụng phổ biến của xử lý ngôn ngữ tự nhiên:

 Nhận dạng chữ viết: Có hai kiểu nhận dạng, thứ nhất là nhận dạng chữ in, ví

dụ nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện

tử như dưới định dạng doc của Microsoft Word chẳng hạn Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng

rõ ràng và thay đổi từ người này sang người khác Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử)

 Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tương ứng Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn

Trang 14

giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra Đây cũng là bước đầu tiên cần phải thực hiện trong ước

mơ thực hiện giao tiếp giữa con người với robot

 Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói Thay

vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người

 Dịch tự động: Là chương trình dịch tự động từ ngôn ngữ này sang các ngôn ngữ khác Một phần mềm điển hình về tiếng Việt của chương trình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đây cũng là trang đầu tiên đưa ứng dụng này lên mạng Tháng 10 năm 2008 có hai công ty tham gia vào lĩnh vực này cho ngôn ngữ tiếng Việt là công ty Lạc Việt (công ty phát hành từ điển Lạc Việt) và Google, một thời gian sau đó Xalo_vn cũng đưa ra dịch vụ tương tự

 Tìm kiếm thông tin: Là ứng dụng cho phép con người tìm kiếm thông tin phù hợp nhất với mong muốn của mình Các máy tìm kiếm dựa trên giao diện web như Google hay Yahoo hiện nay chỉ phân tích nội dung rất đơn giản dựa trên tần suất của từ khoá và thứ hạng của trang và một số tiêu chí đánh giá khác để đưa ra kết luận, kết quả là rất nhiều tìm kiếm không nhận được câu trả lời phù hợp, thậm chí bị dẫn tới một liên kết không liên quan gì do thủ thuật đánh lừa của các trang web nhằm giới thiệu sản phẩm (có tên tiếng Anh là SEO viết tắt của từ search engine optimization)

 Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất

Khai phá dữ liệu (data mining) và phát hiện tri thức: Là các ứng dụng khai thác

dữ liệu bằng cách tìm ra các quy luật trong khối dữ liệu khổng lồ được lưu trữ Ở mức

độ đơn giản khi kết hợp với máy tìm kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời dựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời lưu trên web hay không (giống như trang Yahoo! hỏi và đáp, nơi chuyên đặt các câu hỏi

để người khác trả lời), nói một cách nôm na là nó đã biết xử lý dữ liệu để trả lời câu hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ nhớ

1.2.4 Một số hệ thống dịch tự động và dịch tự động tiếng Việt phổ biến

Trang 15

Ngày nay, con người đã xây dựng được một số hệ thống dịch tự động có chất lượng rất tốt Để có được các hệ thống dịch tự động có chất lượng tốt như vậy, con người

đã trải qua nhiều nghiên cứu thử nghiệm và nâng cấp phát triển các hệ thống dịch tự động một cách thường xuyên và liên tục

Sau đây là một số hệ thống dịch tự động đa ngữ phổ biến:

 Babel Fish: Một trong các tiện ích dịch tự động đầu tiên trên ứng dụng web, được công cụ tìm kiếm Alta Vista phát triển và đưa lên mạng vào năm 1997

 Yahoo Translation: Hỗ trợ 38 cặp ngôn ngữ, trong đó tiếng Anh, tiếng Pháp

và tiếng Trung Quốc (cả giản thể và phồn thể) được hỗ trợ nhiều nhất; tiếp đến

là các tiếng Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Nga, Triều Tiên, Nhật, Hy Lạp và Hà Lan

 Google Translate: Dịch vụ này tính đến thời điểm tháng 2 năm 2010 đã hỗ trợ

52 ngôn ngữ trong đó có tiếng Việt, hiện là dịch vụ trực tuyến duy nhất hỗ trợ khả năng dịch toàn trang web cho tiếng Việt Tốc độ dịch của Google là rất tốt

so với các dịch vụ trực tuyến tương tự khác dành cho người Việt, khi sử dụng người dùng sẽ dễ dàng nhận thấy Tốc độ, đơn giản dù sao vẫn là những đặc điểm vốn có từ lâu của người khổng lồ Internet này Liên kết: translate.google.com.vn

Một số hệ thống dịch tự động tiếng Việt phổ biến:

 Lạc Việt (công ty từng phát triển và đưa ra bộ từ điển Lạc Việt): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi người dùng

 Vdict: Dịch vụ trực tuyến đầu tiên dịch tự động Anh-Việt, sử dụng công nghệ của Google Translate Tuy nhiên, vì trong nhiều trường hợp EVTRAN dịch tốt hơn Google Translate nên Vdict đã sử dụng lại EVTRAN đồng thời với Google Translate: hiện nay khi dịch Anh<->Việt, vdict cho ra cả hai kết quả

 Baamboo: Là hệ thống dịch tự động có hỗ trợ tiếng Việt, dịch dưới 500 từ được hỗ trợ bởi Google

 Evtran: Phần mềm dịch tự động Anh-Việt, Việt-Anh đầu tiên do người Việt xây dựng và có chất lượng tương đối tốt

1.3 Nguồn tài nguyên dữ liệu phục vụ dịch tự động

Tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự nhiên bao gồm hai loại chính ở dạng dữ liệu từ điển và kho ngữ liệu Tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự

Trang 16

nhiên đóng vai trò quan trọng, quyết định lớn đến chất lượng của các hoạt động xử lý ngôn ngữ tự nhiên

1.3.1 Nguồn tài nguyên các kho ngữ liệu

a Khái niệm kho ngữ liệu

Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngôn ngữ khác nhau dưới dạng điện tử [3] Đây là một khái niệm cơ bản đối với Ngôn ngữ học khối liệu

Theo T McEnery và A Wilson, kho ngữ liệu phải thỏa các tính chất sau:

 Kho ngữ liệu gồm tập các văn bản bất kì

 Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên

 Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biểu cảm ngôn ngữ

Trong lĩnh vực Ngôn ngữ học, kho ngữ liệu theo tiếng Latin có nghĩa tức là bất

kỳ khối văn bản nào (any body of text) Tuy nhiên, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thông tin thì kho ngữ liệu gồm các đặc điểm cơ bản sau:

 Các ngôn ngữ phải đồng điển hình

 Có kích cỡ xác định

 Ở dạng đọc được trên máy tính

 Có các chú giải chuẩn về mặt ngôn ngữ

Các kho ngữ liệu có thể được sử dụng để nhận biết các thông tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngôn ngữ và lời nói Kho ngữ liệu có thể cung cấp cho người sử dụng các thông tin về tần số hoạt động của từ và cụm từ, lexeme và v.v…

Kho ngữ liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng

và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người Khi nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho ngữ liệu, người sử dụng có thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngôn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản

và của các tác giả khác nhau

Kho ngữ liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả Vai trò của Ngôn ngữ học khối liệu càng được khẳng định khi các công trình nghiên cứu về kho ngữ liệu cho thấy

Trang 17

kho ngữ liệu có thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật

b Các loại kho ngữ liệu

 Kho ngữ liệu song song (Parallel Corpus)

Kho ngữ liệu song song được định nghĩa là một tập các văn bản (tài liệu) trong nhiều ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một hoặc nhiều ngôn ngữ đích

Kho ngữ liệu song song có thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử Nguồn tài nguyên

ở dạng giấy viết có thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ Việc thu thập dữ liệu từ nguồn tài nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và công sức Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang Web đa ngữ

 Kho ngữ liệu đa ngữ (Multilingual Corpora)

Kho ngữ liệu đa ngữ được định nghĩa là một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ

Các tài liệu trong kho ngữ liệu đa ngữ thường được tổ chức theo một qui tắc để

dễ quản lý hoặc xác định nguồn gốc của chúng

 Kho ngữ liệu (có thể) so sánh (Comparable Corpus)

Kho ngữ liệu so sánh là một tập các tài liệu trong các ngôn ngữ khác nhau trình bày cùng chủ đề chính thì được gọi là kho ngữ liệu so sánh (Comparable Corpus)

Kho ngữ liệu này cũng còn gọi là kho ngữ liệu song song ở mức tài liệu nhưng không song song ở mức câu hoặc đoạn Thật vậy, các tài liệu ở các ngôn ngữ khác nhau trình bày cùng một chủ đề nhưng chưa hẳn các câu và các đoạn trong các văn bản đó song song với nhau

c Một số kho ngữ liệu phổ biến

Hiện nay tồn tại nhiều kho ngữ liệu song song, miễn phí hoặc thương mại đối với người dùng Tuy nhiên, việc khai thác và sử dụng các kho ngữ liệu này còn nhiều bất cập

Đối với các kho ngữ liệu miễn phí (bảng bên dưới), mặc dù có kích thước tương đối lớn nhưng chất lượng còn thô nên không thể áp dụng được trực tiếp vào một số hoạt động trong lĩnh vực dịch tự động Muốn sử dụng được các kho này, mỗi tổ chức hoặc

Trang 18

cá nhân phải thực hiện việc nâng cấp, trích lọc dữ liệu từ các kho ngữ liệu này trước khi

sử dụng

Đối với các kho ngữ liệu thương mại, mặc dù hầu hết các kho ngữ liệu này thường

có kích thước lớn và chất lượng tốt nhưng không chia sẽ cho cộng đồng người dùng mà chủ yếu mang tính thương mại hoặc phục vụ cho riêng các công ty như Systran, IBM…

Dưới đây là danh sách các kho ngữ liệu song song phổ biến hiện nay:

Bảng 1.1 Danh sách các kho ngữ liệu song song phổ biến

Dưới đây là kích thước chi tiết từng loại ngôn ngữ của kho ngữ liệu EuroParl :

Bảng 1.2 Kích thước chi tiết của EuroParl

Ngôn ngữ Số lượng câu Số lượng từ

Trang 19

Finnish 1,929,054 35,799,132

Hungarian 479,676 10,601,411 Italian 1,905,555 52,306,430 Lithuanian 493,204 9,731,052

Kho ngữ liệu song song Xinhua News với 2 ngôn ngữ Hoa-Anh gồm hơn 29.000.000 cặp câu thuộc nhiều lĩnh vực khác nhau

d Một số ứng dụng của kho ngữ liệu

Kho ngữ liệu được ứng dụng rất phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên như các hệ thống dịch tự động, các hệ thống tách từ, hệ thống tìm kiếm văn bản, thống

kê ngôn ngữ, giảng dạy ngoại ngữ

1.3.2 Nguồn tài nguyên các từ điển

Dữ liệu luôn đóng vai trò quyết định đến chất lượng hoạt động của các công cụ

và hệ thống xử lý ngôn ngữ tự nhiên Trong đó, dữ liệu từ điển có vai trò rất quan trọng

để phát triển các công cụ xử lý ngôn ngữ tự nhiên, chẳng hạn như các công cụ hỗ trợ học tập, tra cứu, các công cụ tách từ dựa trên thuật toán maximum matching, các công

cụ gióng hàng, các hệ thống dịch tự động sử dụng phương pháp dịch thống kê

Trang 20

a Khái niệm từ điển

Từ điển được xem là một trong những công cụ xử lý ngôn ngữ tự nhiên phổ biến

và hữu dụng nhất đối với con người trong việc hỗ trợ tra cứu và học ngoại ngữ Đối với nhiều hệ thống xử lý ngôn ngữ tự nhiên như hệ thống dịch, tách từ, gióng hàng, dữ liệu từ điển đóng vai trò vô cùng quan trọng, quyết định đến chất lượng và hiệu quả hoạt động của chúng

Theo một số tài liệu, khái niệm từ điển được hiểu như sau: Từ điển là danh sách các từ, ngữ được sắp xếp thành các từ vị chuẩn (lemma) Một từ điển thông thường cung cấp các giải nghĩa các từ ngữ đó hoặc các từ ngữ tương đương trong một hay nhiều thứ tiếng khác Ngoài ra còn có thể có thêm thông tin về cách phát âm, các chú ý ngữ pháp, các dạng biến thể của từ, lịch sử hay từ nguyên, cách sử dụng hay các câu ví dụ, trích dẫn

Đối với các ngôn ngữ sử dụng ký tự Latin thì các từ có thể được sắp xếp theo thứ

tự chữ cái Đối với các ngôn ngữ tại Đông Á chịu ảnh hưởng của chữ Hán, sử dụng ký

tự là đơn vị ngôn ngữ có nghĩa thì phân biệt từ điển và tự điển (tự=chữ, từ điển rộng hơn

tự điển và bao hàm tự điển) Thông thường từ điển được trình bày dưới dạng sách, ngày nay từ điển còn được số hóa và cung cấp dưới dạng phần mềm máy tính hay truy cập trực tuyến trên web, trên trình nhắn tin nhanh, hay có trong các thiết bị số cá nhân như PDA, điện thoại

Từ điển là nơi giải thích thông tin về ngôn ngữ của con người một cách dễ hiểu

và khách quan nhất Từ điển có nhiệm vụ, nhất là từ điển bách khoa toàn thư, giúp người xem hiểu và vận dụng (sử dụng) chính xác một từ, ngữ, thuật ngữ, thành ngữ, khái niệm, phạm trù hay một vấn đề cụ thể trong đời sống xã hội con người Từ nhiệm vụ này, từ điển đã được hình thành dưới nhiều dạng thức tồn tại khác nhau, góp phần giải quyết (hay đáp ứng) một hoặc nhiều nhu cầu khác nhau trong đời sống xã hội loài người Đến nay, đã có các dạng thức từ điển như: từ điển bách khoa toàn thư, từ điển luật học, từ điển triết học, từ điển thành ngữ, từ điển song ngữ, từ điển thần học, từ điển tiếng lóng,

từ điển ngôn ngữ phụ nữ

b Các loại từ điển

Từ điển có thể được phân loại theo nhiều cách khác nhau Xét về phương diện phiên bản tồn tại, từ điển được phân thành hai loại chính như sau: từ điển giấy và từ điển điện tử Từ điển giấy chủ yếu phục vụ cho con người trong việc tra cứu và học tập, nhược điểm của nó là việc tra cứu từ sẽ mất rất nhiều thời gian tìm kiếm do người học phải làm thủ công Trong khi đó, từ điển điện tử, đa số ở dạng phần mềm máy tính rất phổ biến hiện nay và có nhiều ưu điểm hơn từ điển giấy Từ điển máy tính không chỉ

Trang 21

phục vụ cho con người tra cứu mà còn được sử dụng cho nhiều mục đích khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên Xét về khía cạnh ngôn ngữ, từ điển có thể được chia thành các loại từ điển đơn ngữ (monolingual), từ điển song ngữ (bilingual) và từ điển đa ngữ (multilingual) Trong đó, các từ điển đơn ngữ lớn nhất hiện nay như: từ điển tiếng Hà Lan Woordenboek der Nederlandsche Taal được xem như từ điển đơn ngữ lớn nhất hiện, được xây dựng trong 134 năm (từ 1864 đến 1998) với 40 tập chứa hàng triệu từ; từ điển tiếng Đức Deutsches Wörterbuch, từ điển tiếng Anh Oxford English Dictionary chứa khoảng 600.000 từ Các từ điển song ngữ lớn nhất phải kể đến như từ điển tiếng Anh-Đức xuất bản bởi Langenscheidt chứa khoảng 400.000 từ và giải nghĩa,

từ điển Dai Kan-Wa jiten tiếng Trung – Nhật có hơn 50.000 ký tự và 500.000 từ ghép Các từ điển đa ngữ lớn nhất hiện nay như Gregg Cox chứa trên 5.000.000 từ ở 225 ngôn ngữ hoặc từ điển trực tuyến Logos chứa trên 8.000.000 từ ở 250 ngôn ngữ [8]

c Một số từ điển tiếng Việt phổ biến

Đối với tiếng Việt, hiện nay có các phần mềm từ điển phổ biến như:

 Lạc Việt từ điển: được xem là từ điển phổ biến nhất đối với cộng đồng người Việt Hiện nay, Lạc Việt từ điển không chỉ là phiên bản máy tính mà còn có phiên bản ứng dụng điện thoại di động Lạc Việt từ điển có 3 bộ gồm Anh – Việt, Việt – Anh và Việt – Việt với số lượng hơn 400.000 từ và cụm từ [9]

 Từ điển Tflat: là một trong số những ứng dụng từ điển được sử dụng nhiều nhất hiện nay Tflat được xây dựng cho cả phiên bản online và offline, bao gồm nhiều chức năng như tra cứu, sao lưu, dịch câu văn, tra cứu nhanh, phát âm Tflat chứa hơn 400.000 từ Anh-Việt, 150.000 từ Việt-Anh [10]

 Từ điển Vlook: là bộ từ điển Anh – Việt phổ biến hiện nay, Vlook có giao diện đơn giản và hỗ trợ tra từ không cần kết nối internet với gần 60,000 từ trong đó

có hơn 40,000 từ có phiên âm và khoảng 3,000 từ thông dụng của từ điển Oxford

 Từ điển Vdict: là từ điển phổ biến và có giao diện đơn giản, bao gồm các bộ

từ điển: Anh – Việt, Việt – Anh, Việt – Việt, Pháp – Việt, Việt – Pháp và Anh – Anh Từ điển Vdict chứa 450.000 từ và cụm từ

Ngoài ra còn có một số phần mềm từ điển thương mại nổi tiếng hiện nay như Evatran 2.0, English study 4.0, Babylon

1.4 Thực trạng nguồn tài nguyên dữ liệu và chất lượng dịch tự động

1.4.1 Thực trạng nguồn tài nguyên dữ liệu phục vụ dịch tự động

Trang 22

Các kho ngữ liệu dùng trong lĩnh vực dịch tự động hiện nay không chỉ thiếu về

số lượng mà còn chưa đáp ứng về mặt chất lượng, đặt biệt đối với các ngôn ngữ ít được đầu tư như tiếng Việt và tiếng các dân tộc thiểu số

Theo đó, đã có nhiều tổ chức, cá nhân đã nghiên cứu xây dựng và phát triển các kho ngữ liệu, các công cụ phục vụ xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (DTTS) Tuy nhiên, một trong những vấn đề lớn tồn tại hiện nay là các kho ngữ liệu tồn tại một cách rời rạc, có cấu trúc và định dạng rất khác nhau, dẫn đến việc sử dụng và khai thác chúng hiện nay là rất khó khăn Tình trạng này dẫn đến một thực tế là nhiều kho ngữ liệu đã xây dựng nhưng không thể phục vụ, chia sẽ cho việc nghiên cứu cũng như xử lý tiếng Việt và tiếng dân tộc thiểu số Một vấn đề tồn tại khác tương tự đó là nhiều tổ chức, cá nhân nghiên cứu phát triển các công cụ phục vụ dịch tự động một cách đơn lẽ, rời rạc, đôi lúc trùng lặp như các bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng, làm giàu thông tin…nên việc sử dụng, kế thừa các công cụ này cũng rất khó khăn và hạn chế

Đối với nguồn tài nguyên dữ liệu phục vụ cho các hệ thống dịch tự động, một trong những vấn đề bất cập và lãng phí đó các kho ngữ liệu không thể phục vụ cho các loại hệ thống dịch khác nhau do cấu trúc và định dạng của chúng khác nhau Do đó, để tăng tính hiệu quả và khắc phục vấn đề bất cập này, một trong những ý tưởng của luận văn là tìm cách chuyển đổi và đồng nhất định dạng và cấu trúc của các kho ngữ liệu để

có thể phục vụ chung cho các hệ thống dịch khác nhau

1.4.2 Chất lượng dịch tự động

Chất lượng dịch tự động là một trong những vấn đề rất được các nhà nghiên cứu

và cộng đồng những người sử dụng quan tâm Trong nhiều năm qua, mặc dù chất lượng dịch tự động đã được cải tiến liên tục và đã có những bước phát triển đáng kể, nhưng đến nay kết quả của các hệ thống dịch máy vẫn còn là một khoảng cách xa so với kỳ vọng và yêu cầu thực tế của con người [14] Trong đó, đối với các ngôn ngữ phổ biến như tiếng Anh, tiếng Pháp, chất lượng của các hệ thống có thể chấp nhận được trong một số lĩnh vực thông dụng [10], có thể sử dụng để tham khảo nghĩa của ngôn ngữ đích

mà không cần đến người phiên dịch [1] Tuy nhiên, đối với các ngôn ngữ ít phổ biến như tiếng Việt, chất lượng các câu dịch của hệ thống rất thấp, khó có thể áp dụng trong thực tế, nhất là ở các lĩnh vực chuyên ngành như y tế, kỹ thuật, pháp luật,… các hệ thống dịch không dịch đúng các khái niệm chuyên môn nên văn bản dịch trở nên khó hiểu, không có giá trị

Trong những năm gần đây, một số phương pháp dịch đã được nghiên cứu và áp dụng ở một số hệ thống dịch để dịch giữa hàng trăm ngôn ngữ khác nhau[17] Những

Trang 23

mô hình dịch mang lại hiệu quả cao có thể kể đến là phương pháp dịch dựa trên ví dụ, phương pháp dịch dựa trên luật và phương pháp dịch thống kê Tuy nhiên, các phương pháp này chỉ phát huy hiệu quả và chính xác cho một số ngôn ngữ phổ biến, tuyên nhiên khi áp dụng cho tiếng Việt, các mô hình dịch vẫn chưa cho thấy sự phù hợp và còn cho kết quả khá khiêm tốn

Chất lượng dịch của các hệ thống dịch tự động có hỗ trợ tiếng Việt hiện nay chưa thể ứng dụng vào cuộc sống hàng ngày, trong khi nhu cầu dịch thuật là rất lớn trong bối cảnh toàn cầu hóa Do đó, hiện nay cộng đồng những nhà nghiên cứu xử lý tiếng Việt

đã xây dựng và thực hiện các công trình và giải pháp cải tiến chất lượng dịch tự động tiếng Việt, trong đó gần đây nổi lên giải pháp ứng dụng phương pháp trí tuệ nhân tạo cho hệ thống dịch, kết hợp với xây dựng kho ngữ liệu lớn và chất lượng tốt được xem như một giải pháp tiềm năng [1]

1.4.3 Xu hướng dịch tự động hiện tại và lương lai

Trong nhiều năm qua, cộng đồng nghiên cứu đã xây dựng và liên tục phát triển các hệ thống dịch tự động với các phương pháp khác nhau Mỗi phương pháp đã mang lại hiệu quả nhất định đối với từng bài toán và lĩnh vực ứng dụng khác nhau Trong số

đó, các phương pháp dịch được áp dụng rộng rãi và cho kết quả khả quan nhất có thể kể đến là phương pháp dịch dựa trên ví dụ, phương pháp dịch thống kê

Phương pháp dịch dựa trên ví dụ sử dụng tập hợp các cặp câu song ngữ làm tập mẫu, từ đó các câu đầu vào sẽ được đối chiếu với những câu và đoạn gần giống nhất để đưa ra bản dịch [5] Phương pháp này sẽ có kết quả tốt khi có nhiều bộ dữ liệu mẫu và chính xác, có thể ứng dụng trong một số lĩnh vực chuyên ngành hẹp, có ít hiện tường nhập nhằng trong ngữ nghĩa, chẳng hạn có thể áp dụng khi dịch các bản tin dự báo thời tiết Tuy nhiên khó áp dụng để dịch các tài liệu, ngôn ngữ trong thực tế vì tập ví dụ mẫu luôn hữu hạn, không theo kịp sự phong phú và biến hóa của ngôn ngữ [20]

Phương pháp dịch thống kê sử dụng mô hình toán học thống kê để biểu diễn mô hình ngôn ngữ con người Các tham số của mô hình được tự động ước lượng thông qua quá trình huấn luyện kho ngữ liệu mẫu, kết hợp tự động xây dựng từ điển và mô hình ngôn ngữ đích Mô hình dịch thống kê khi áp dụng vào hệ thống dịch cần sử dụng các phương pháp gióng hàng giữa các cặp câu song ngữ nhằm đảo trật từ các từ, cụm từ tương ứng giữa câu nguồn và câu đích Dịch máy thống kê đã có nhiều bước tiến và được ứng dụng rộng rãi trong nhiều hệ thống dịch như của Google, Microsoft [18]

Đã có nhiều cách tiếp cận khác nhau nhằm cải tiến chất lượng dịch thống kê, như dịch thống kê dựa trên cụm từ (phrase-based) Mô hình dịch thống kê dựa trên cụm từ thực hiện dịch câu nguồn sang câu đích bằng cách phân tách câu nguồn thành các cụm

Trang 24

từ liên tục có nghĩa, mỗi cụm từ sẽ được dịch sang cụm từ tương ứng ở câu đích, sau đó thực hiện quá trình đảo trật tự các cụm từ thu được để xây dựng câu cần dịch Tuy nhiên

mô hình có thể thiếu hụt các thông tin về ngôn ngữ như thông tin về hình thái từ, phân loại từ, ngữ cảnh nên hệ thống dịch có thể không dịch được những từ không xuất hiện trong tập dữ liệu huấn luyện [5]

Các giải pháp này chỉ mới đề xuất và kiểm nghiệm trên kho ngữ liệu nhỏ và cho kết quả khiêm tốn

Một số vấn đề hạn chế đối với dịch tự động và các nguyên nhân chính dẫn đến các hạn chế này như sau:

- Phương pháp dịch chưa phù hợp: Các mô hình dịch truyền thống có nhiều ưu điểm, nhưng khi áp dụng đối với dịch tiếng Việt vẫn gặp nhiều hạn chế, cần có thêm các đánh giá, nghiên cứu bổ sung Tiếng Việt khác với một số ngôn ngữ khác, mỗi từ bao gồm nhiều âm tiết, trong khi các hệ thống đều làm việc trên đơn vị từ đơn lẻ, vì vậy sẽ làm giảm hiệu quả của các mô hình dịch này [12]

- Kho ngữ liệu chưa đầy đủ: Nghiên cứu tại [8] chỉ ra rằng, chất lượng và số lượng của kho ngữ liệu ảnh hưởng đến chất lượng các hệ thống dịch máy Hiện nay các nghiên cứu nhằm nâng cao chất lượng và số lượng kho ngữ liệu liên quan đến tiếng Việt còn khiêm tốn, chưa có các kho ngữ liệu chung nào được các nhà nghiên cứu lấy làm

bộ dữ liệu chuẩn để đánh giá các hệ thống trong lĩnh vực xử lý ngôn ngữ tự nhiên

1.5 Kết luận chương 1:

Trong chương này luận văn đã trình bày một số cơ sở lý thuyết cơ bản liên quan đến các giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch tự động như khái niệm xử lý ngôn ngữ tự nhiên, khái niệm dịch tự động; giới thiệu một số ứng dụng xử

lý ngôn ngữ tự nhiên đang ứng dụng trong thực tế, có ích và mang lại hiểu quả cho con người Luận văn cũng đã trình bày nghiên cứu và thực trạng một số hệ thống dịch tự động, dich tự động tiếng Việt hiện nay cũng như một số nguồn tài nguyên dữ liệu phục

vụ dịch tự động bao gồm nguồn tài nguyên các kho ngữ liệu và nguồn tài nguyên các từ điển; phân tích và nêu lên thực trạng nguồn tài nguyên dữ liệu, chất lượng của các hệ thống dịch tự động hiện hữu và xu hướng xây dựng các hệ thống dịch trong tương lai

Trang 25

CHƯƠNG 2 MỘT SỐ GIẢI PHÁP XÂY DỰNG NGUỒN TÀI NGUYÊN DỮ LIỆU PHỤC VỤ DỊCH TỰ ĐỘNG

2.1 Mở đầu

Xuất phát từ vai trò quan trọng của nguồn tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự nhiên nói chung và phục vụ dịch tự động nói riêng, các nhà nghiên cứu và các nhà phát triển trên thế giới cũng như trong nước đã xây dựng được nhiều nguồn tài nguyên dữ liệu hay còn gọi là các kho ngữ liệu Để xây dựng các nguồn tài nguyên dữ liệu này, người ta đã đề xuất và xây dựng nhiều giải pháp khác nhau nhằm mục đích khai phá dữ liệu từ tập văn bản và tài nguyên từ internet; trích rút dữ liệu; hợp nhất các nguồn tài nguyên đang tồn tại; mở rộng các kho ngữ liệu sẵn có

Trong chương này, luận văn sẽ tập trung trình bày một số vấn đề chính liên quan đến các giải pháp xây dựng nguồn tài nguyên dữ liệu phục vụ dịch tự động bao gồm các phương pháp phân lớp dữ liệu để lựa chọn tập dữ liệu theo chủ đề cụ thể; một số giải pháp xây dựng nguồn tài nguyên dữ liệu lớn như thu thập và xây dựng kho ngữ liệu từ các nguồn tài nguyên đa ngữ; hợp nhất các kho ngữ liệu để xây dựng nguồn dữ liệu đồng nhất; xây dựng cấu trúc và định dạng dữ liệu từ điển lớn và đồng nhất trên cơ sở phân tích cấu trúc và định dạng dữ liệu của các nguồn tài nguyên đang tồn tại Đồng thời, trong chương này, luận văn cũng trình bày nghiên cứu một số giải pháp, thuật toán được các nhóm nghiên cứu đề xuất giải quyết, đã mang lại kết quả và hiệu quả trong việc xây dựng nguồn tài nguyên phục vụ xử lý ngôn ngữ tự nhiên đó là các thuật toán hợp nhất nguồn tài nguyên đã tồn tại để xây dựng các nguồn tài nguyên đồng nhất về mặt cấu trúc, định dạng với kích thước lớn hơn và chất lượng tốt hơn

2.2 Các phương pháp phân lớp dữ liệu phục vụ xây dựng nguồn tài nguyên

2.2.1 Mô hình và qui trình tổng quát

Như đề cập ở phần trên, có nhiều giải pháp khác nhau nhằm xây dựng nguồn tài nguyên phục phục xử lý ngôn ngữ tự nhiên Trong đó, giải pháp phổ biến nhất và đã áp dụng để xây dựng thành công các nguồn tài nguyên là các kho ngữ liệu song ngữ đó là giải pháp phân tích, thu thập và trích rút dữ liệu từ các nguồn tài nguyên từ internet như

là các website đa ngữ Một trong các bước quan trọng đối với giải pháp này đó là phân lớp dữ liệu để phân loại được lớp dữ liệu quan tâm Từ dữ liệu quan tâm thu thập được, các bước tiếp theo sẽ là phân tích và trích rút để có được các đơn vị dữ liệu phù hợp với bài toán đang giải quyết Qui trình tổng quát quá trình xây dựng nguồn tài nguyên dữ liệu phục vụ xử lý ngôn ngữ tự nhiên có thể được biểu diễn bằng mô hình và qui trình như sau:

Trang 26

Hình 2.1 Mô hình quá xây dựng nguồn tài nguyên dữ liệu phục vụ xử lý

Bước 2: Phân lớp văn bản, bước này sẽ thực hiện việc phân lớp tập dữ liệu thành các lớp khác nhau theo lĩnh vực

Trang 27

Bước 3: Phân tích và trích rút dữ kiệu theo tiêu chí và yêu cầu, bước này sẽ bao gồm phân tích, tách đoạn/từ văn bản, gióng hàng, và xây dựng kho ngữ liệu Thông thường, kho ngữ liệu của quy trình này là các kho ngữ liệu song song, được gióng hàng

ở mức câu hoặc đoạn

2.2.2 Một số thuật toán phân lớp văn bản phổ biến

Một trong những vấn đề sử dụng xử lý ngôn ngữ tự nhiên và học có giám sát (ML) là phân lớp văn bản, đây là một ví dụ của học có giám sát từ nhãn và dữ liệu chứa trong một văn bản và những nhãn đó dùng để đào tạo một trình phân loại

Mục tiêu của phân lớp văn bản là tự động hóa phân loại văn bản vào một hoặc nhiều danh mục (chuyên mục) đã được xác định trước đó

Một vài ví dụ của phân lớp văn bản là:

 Phân loại cảm xúc của người viết bài (vui, buồn, tức giận ) từ mạng xã hội

 Phát hiện thư rác

 Tự động gán nhãn các truy vấn của khách hàng

 Phân loại các bài báo thành các chủ đề đã được xác định trước,

 Phân loại văn bản là một lĩnh vực nghiên cứu rất tích cực cả trong học tập và trong các ngành công nghiệp

a Thuật toán Suport Vector Machine (SVM) [25]

Thuật toán SVM được đề xuất bởi Vapnik từ những năm 1960 với ý tưởng chính

là chuyển tập mẫu từ không gian biểu diễn Rn sang không gian Rd có số chiều lớn hơn Trong không gian Rd, tìm một siêu phẳng tối ưu để phân hoạch tập mẫu này dựa trên phân lớp của chúng, cũng có nghĩa là tìm ra miền phân bố của từng lớp trong không gian

Rn để từ đó xác định được phân lớp của một mẫu cần định dạng, trong đó siêu phẳng là một mặt hình học f(x) trong không gian n chiều, với x  Rn

 Ưu điểm chính của thuật toán SVM

o SVM rất hiệu quả để giải quyết bài toán dữ liệu có số chiều lớn;

o SVM giải quyết vấn đề overfitting rất tốt (dữ liệu có nhiễu và tách rời nhóm hoặc dữ liệu huấn luyện quá ít);

o Là phương pháp phân lớp nhanh, có hiệu suất tổng hợp tốt và hiệu suất tính toán cao

 Các ứng dụng chính của SVM

o Nhận dạng: tiếng nói, ảnh, chữ viết tay (hơn mạng nơron);

o Phân loại văn bản, khai phá dữ liệu văn bản;

Trang 28

o Phân tích dữ liệu theo thời gian;

o Phân tích dữ liệu gen, nhận dạng bệnh, công nghệ bào chế thuốc;

o Phân tích dữ liệu marketing

b Thuật toán Convolution Neural Network (CNN) [25]

CNN là một lớp các mạng nơ-ron nhân tạo và sử dụng một biến thể của multilayer perceptrons được thiết kế để yêu cầu tiền xử lý tối thiểu Chúng được lấy cảm hứng từ

vỏ não thị giác động vật CNN thường được dùng trong lĩnh vực học máy, tuy nhiên, gần đây nó đã được áp dụng vào các vấn đề về xử lý ngôn ngữ tự nhiên và kết quả rất đáng mong đợi

Bằng việc thay đổi kích thước của các nhân và ghép các đầu ra của chúng lại, chúng ta sẽ cho phép mô hình của mình phát hiện ra những mẫu có các bội số khác nhau (2, 3, hoặc 5 từ liền kề) Các mẫu có thể là các biểu thức (n-gram) ví dụ như là "I hate",

"very good" và do đó CNN có thể nhận dạng chúng trong bất kể vị trí nào của chúng trong câu

c Thuật toán Native-Bayes[25]

Thuật toán Naive Bayes cũng dựa trên việc tính toán các xác suất có điều kiện

đó Trên thực tế, NBC hoạt động khá hiệu quả trong nhiều bài toán thực tế, đặc biệt là trong các bài toán phân loại văn bản, ví dụ như lọc tin nhắn rác hay lọc email spam

Ý tưởng chính của thuật toán là tính xác suất hậu nghiệm của sự kiện c xuất hiện sau khi sự kiện x đã có trong không gian ngữ cảnh t thông qua tổng hợp các xác suất tiên nghiệm của sự kiện c xuất hiện khi sự kiện x đã có trong tất cả các điều kiện T thuộc không gian t:

p(c|x,t) = p(c|x,T)p(T|x) (với T  t)

 Định lý Bayes:

Gọi X = {x1, x2, …, xn} là một mẫu, các thành phần của nó biểu diễn các giá trị được tạo ra trên một tập n thuộc tính Theo phương pháp Bayesian, X được xem là “bằng chứng” hay “dấu hiệu” H là một giả thuyết nào đó, chẳng hạn như dữ liệu X thuộc một lớp cụ thể C Với các bài toán phân lớp, mục tiêu của chúng ta là xác định P(H|X), xác suất mà giả định H xảy ra với các dấu hiệu cho trước Nói một cách khác, chúng ta đang

đi tìm xác suất để mẫu X thuộc về lớp C khi đã biết được các thuộc tính mô tả mẫu X Theo định lý Bayes, xác suất mà chúng ta muốn tính P(H|X) có thể được biểu diễn qua các xác suất P(H), P(X|H) và P(X) như sau:

Trang 29

𝑃 = 𝑃(𝑋|𝐻)𝑃(𝐻)

𝑃(𝑋)

Và các xác suất này có thể được thiết lập từ tập dữ liệu cho trước

d Thuật toán cây quyết định Decision Trees [25]

Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (predictive

model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong

cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn

là cây quyết định

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá

dữ liệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại [22]

e Thuật toán K-means[25]

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm dữ liệu Ý tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất

 Thuật toán K-Means thực hiện qua các bước chính sau:

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm

2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

3 Nhóm các đối tượng vào nhóm gần nhất

4 Xác định lại tâm mới cho các nhóm

Trang 30

5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng

2.3 Một số giải pháp xây dựng nguồn tài nguyên dữ liệu lớn

Xây dựng nguồn tài nguyên dữ liệu lớn là một trong những hoạt động rất được quan tâm của cộng đồng những nhà nghiên cứu và phát triển các hệ thống xử lý ngôn ngữ tự nhiên Hiện nay, internet là nguồn tài nguyên dữ liệu khổng lồ có thể được khai thác nhằm xây dựng các kho ngữ liệu lớn, do đó có rất nhiều công trình nghiên cứu phân tích, thu thập, trích rút dữ liệu từ internet phục vụ cho nhiều mục đích khác nhau Một trong những vấn đề rất khó đối với khai thác dữ liệu từ internet đó là nguồn dữ liệu này được tạo ra một cách ngẫu nhiên, có cấu trúc và định dạng khác nhau và tồn tại ở nhiều nguồn khác nhau Do đó, để thu thập và xây dựng nguồn tài nguyên dữ liệu này, chúng

ta cần phải tiến hành nhiều bước tiền xử lý và xử lý khác nhau để có thể thu được nguồn tài nguyên dữ liệu có thể dùng được trong lĩnh vực xử lý ngôn ngữ tự nhiên Trong số các bước xử lý, việc phân lớp văn bản là bước rất quan trọng đã trình bày ở phần trên, ngoài ra các bước trích rút, tách đơn vị dữ liệu, liên kết đơn vị dữ liệu, gán nhãn

Từ giải pháp trên, hiện nay người ta đã xây dựng được nhiều nguồn tài nguyên lớn, được khai thác và sử dụng cho các hệ thống xử lý ngôn ngữ tự nhiên khác nhau Tuy nhiên, mỗi nguồn tài nguyên tồn tại riêng lẻ và tách biệt như vậy cũng chỉ đáp ứng một phần nhu cầu và yêu cầu để phát triển các hệ thống xử lý ngôn ngữ tự nhiên đạt tiêu chuẩn chất lượng Chẳng hạn, các hệ thống dịch sử dụng các phương pháp dịch hiện đại (như phương pháp thống kê, mạng nơron) cần nguồn tài nguyên lớn gấp nhiều lần so với các nguồn tài nguyên đang tồn tại Do đó, bên cạnh các giải pháp xây dựng nguồn tài nguyên dữ liệu bằng cách phân tích và trích rút dữ liệu từ internet, một số giải pháp mới đề xuất trong thời gian gần đây, ban đầu đã mang lại kết quả rõ nét đó là hợp nhất các nguồn tài nguyên đang có để xây dựng nguồn tài nguyên lớn hơn về kích thước và

số cặp ngôn ngữ Trong phần này, luận văn sẽ trình bày một số giải pháp thu thập và xây dựng kho ngữ liệu từ các tài nguyên đa ngữ và giải pháp, thuật toán hợp nhất các nguồn tài nguyên đang tồn tại để xây dựng được nguồn tài nguyên lớn hơn về kích thước

Trang 31

 Xây dựng kho ngữ liệu đa ngữ bằng cách trích rút dữ liệu từ các các nguồn tài nguyên đa ngữ như website đa ngữ, các văn bản đa ngữ

 Xây dựng từ điển từ kho ngữ liệu đa ngữ, website, văn bản đa ngữ

Các giải pháp này được thực hiện và mô tả bằng sơ đồ tổng quát như sau :

Hình 2.2 Mô hình xây dựng nguồn tài nguyên từ internet [3]

Theo mô hình này, quá trình xây dựng kho ngữ liệu được thực hiện thông qua 6 công đoạn chính :

Công đoạn (1) có nhiệm vụ xác định xem nguồn tài nguyên dùng để khai thác có tin cậy không Công đoạn này có ý nghĩa then chốt, quyết định năng suất và chất lượng của việc khai thác kho ngữ liệu Bởi lẽ, hiện nay tồn tại rất nhiều nguồn tài nguyên đa ngữ, nhưng đôi lúc tỷ lệ phần trăm giữa các ngôn ngữ rất chệnh lệch, tức là chỉ số đa ngữ và tỷ lệ song song giữa các ngôn ngữ rất thấp Nếu không có công đoạn này, quá trình khai thác kho ngữ liệu song song nhiều lúc sẽ không hiệu quả

Sau công đoạn (2) xác định và liên kết các cặp trang song song là công đoạn thẩm định và hiệu chỉnh các liên kết nhận biết được Thật vậy, giai đoạn (2) là giai đoạn liên kết các cặp trang tự động nên chắc chắn có những sự liên kết không đúng Do đó, ở giai đoạn (3) cần phải hiệu chỉnh sự liên kết này bằng cách biểu diễn sao cho người dùng dễ dàng xem lại, hiệu chỉnh và thẩm định Người ta đã đề xuất việc hiển thị này theo cách hiển thị dạng "thu gọn", kết hợp với đồ thị để dễ dàng xem và hiệu chỉnh (Hình 2.3)

Xác định nguồn

tài nguyên đa ngữ

Nguồn tài nguyên

đa ngữ tin cậy

Internet

Xác định các cặp trang song song

Xác nhận &

hiệu chỉnh

Tách đoạn Liên kết các

cặp câu

Quản lý, hiệu chỉnh, nâng cấp, đánh giá

Trang 32

Hình 2.3 Hiệu chỉnh gióng hàng dữ liệu thu được [3]

Ở cửa sổ bên phải màn hình, người ta hiển thị sự liên kết tự động giữa các trang (tiếng Việt và tiếng Anh) dưới dạng nội dung thu gọn (như hot news), còn bên phải màn hình là cửa sổ cho phép người dùng hiệu chỉnh sự liên kết bằng cách dùng các biểu tượng: xóa liên kết, xác nhận liên kết, và thiết lập liên kết mới

Sau công đoạn xác nhận và hiệu chỉnh sự liên kết các cặp trang là công đoạn tách đoạn cặp trang liên kết Dưới đây là hình ảnh công cụ tách đoạn một tài liệu dạng HTML

Ngày đăng: 25/04/2021, 13:45

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[6] Wojciech Zaremba, Ilya Sutskever, Oriol Vinyals, Recurrent Neura Network Regularization ( https://arxiv.org/abs/1409.2329v5) Link
[8] 2017 Machine Translation Quality Evaluation, John Denero, Bridging Translation Research and Practice, https://labs.lilt.com/2017/01/10/mt-quality-evaluation Link
[13] 1000 câu đàm thoại tiếng Anh thông dụng nhất, https://www.hellochao.tv/2015/01/1001-cau-dam-thoai-tieng-anh-thong-dung.html[14]Bản dịch song ngữ Hiệp định đối tác thương mại xuyên Thái Bình Dương,https://thuvienphapluat.vn/tintuc/vn/hiep-dinh-TPP Link
[1] Nguyễn Văn Bình, Huỳnh Công Pháp, Cải tiến chất lượng dịch tiếng Việt bằng giải pháp kết hợp giữa phương pháp trí tuệ nhân tao và kho ngữ liệu lớn, Kỷ yếu Hội thảo Fair 2017 Khác
[2] Nguyễn Văn Bình, Huỳnh Công Pháp, Huỳnh Thị Tâm Thương, Giải pháp tách từ sử dụng mạng nơ ron nhằm nâng cao chất lượng dịch tự động tiếng Việt, Kỷ yếu Hội thảo Quốc gia CITA 2017 Khác
[3] Huỳnh Công Pháp, New approach for collecting high quality parallel corpora from multilingual Websites, Proceedings of the 13th International Conference on Information Integration and Web-based Applications &amp; Services 2011 Khác
[4] Huỳnh Công Pháp, Solutions of Creating Large Data Resources in Natural Language Processing. Studies in Computational Intelligence, Volume 642, Springer. No:ISSN: 1860-949X, E-ISSN: 1860-9503. Pages: 243-254 Khác
[5] Minh Quang Nguyen, Dang Hung Tran and Thi Anh Le Pham, Using example-based Machine Translation for English-Vietnamese Translation, Software Engineering Department, Faculty of Information Technology Hanoi National University of Education Khác
[7] Stanford Neural Machine Translation Systems for Spoken Language Domains, Minh-Thang Luong, Christopher D. Manning Khác
[9] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, BLEU: a Method for Automatic Evaluation of Machine Translation, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 311-318 Khác
[10] Boxing Chen and Colin Cherry, A Systematic Comparison of Smoothing Techniques for Sentence-Level, Proceedings of the Ninth Workshop on Statistical Machine Translation, pages 362–367, Baltimore, Maryland USA, June 26–27, 2014 Khác
[11] Nguyen Quang Phuoc, Yingxiu Quan, Cheol-Young Ock, Building a Bidirectional English-Vietnamese Statistical Machine Translation System by Using MOSES, International Journal of Computer and Electrical Engineering, Volume 8, Number 2, April 2016 Khác
[12] Viet Tran Hong, Huyen Vu Thuong, Trung Le Tien, Luan Nghia Pham, Vinh Nguyen Van, The English-Vietnamese Machine Translation System for IWSLT 2015 Khác
[15] Chris Callison-Burch, Cameron Fordyce, Philipp Koehn, Christof Monz, Josh Schroeder , (Meta-) Evaluation of Machine Translation Khác
[16] Duc Tam HOANG, Ondrej BOJAR, Pivoting Methods and Data for Czech- Vietnamese Translation via English, Charles University in Prague, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics, Baltic J Khác
[17] Och, F. J. (2000). Statistical machine translation: From single-word models to alignment templates. Technical Report Khác
[18] Kalchbrenner, N. and Blunsom, P. (2013). Recurrent continuous translation models. In Proceedings of the ACL Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1700–1709. Association for Computational Linguistics Khác
[19] Boitet C. (2007), Corpus pour la TA: types, tailles, et problèmes associés, selon leur usage et le type de systốme. Revue franỗaise de linguistique appliquộe. Vol. XII –2007, pp. 25-38 Khác
[20] Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, Cải tiến chất lượng dịch tự động bằng phương pháp mở rộng kho ngữ liệu, Kỷ yếu Hội thảo quốc gia FAIR 2015 Khác
[23] Ilya Sutskever, Oriol Vinyals, and Quoc Le. 2014. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems (NIPS 2014), December Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w