1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về machine translation

18 311 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 0,96 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1 Giới thiệu 1.1 Định nghĩa dịch máy Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên natural language processing định nghĩa, tuy có khác biệt đôi chút gi

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ- ĐHQGHN

KHOA CÔNG NGHỆ THÔNG TIN

- -

BÁO CÁO BÀI TẬP LỚN

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Đề tài: Tìm hiểu về Machine Translation

Thành viên: Mai Văn An

Trần Tuấn Linh Trần Đồng Hưng

Trang 2

Mục lục

1 Giới thiệu 3

1.1 Định nghĩa dịch máy 3

1.2 Vai trò của dịch máy 3

1.3 Lịch sử dịch máy 4

2 Phân loại dịch máy 5

2.1 Vấn đề ngôn ngữ trong dịch máy: 5

2.2 Phương pháp dịch máy dựa trên cơ sở luật 8

2.3 Phương pháp dịch máy dựa trên cơ sở ví dụ 8

2.4 Phương pháp dịch máy thống kê (Statistical Machine Translation) 9

2.4.1 Phương pháp dịch máy thống kê dựa vào từ 9

2.4.2 Phương pháp dịch máy thống kê dựa trên cơ sở cụm từ 10

2.4.3 Phương pháp dịch máy dựa trên thống kê cú pháp 10

3 Thuật toán dịch máy sử dụng mạng neuron (NMT) 10

3.1 Giới thiệu 10

3.2 Mô hình NMT 12

3.3 Mô hình NMT lai 14

3.3.1 Dịch máy dựa trên từ là xương sống 15

3.3.2 Biểu diễn các kí tự nguồn 15

3.3.3 Tạo các ký tự đích 15

3.3.4 Ghép từ vào trong câu 16

4 Thí nghiệm và kết luận .16

4.1 Dữ liệu 16

4.2 Kết quả 16

4.3 Kết Luận 17

Trang 3

1 Giới thiệu

1.1 Định nghĩa dịch máy

Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing) định nghĩa, tuy có khác biệt đôi chút giữa các định nghĩa này nhưng hầu hết đều tương đương như định nghĩa dưới đây:

Một hệ dịch máy (Machine Translation System) là một hệ thống sử dụng máy tính để chuyển đổi câu văn bản được viết trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác

Ngôn ngữ của văn bản cần dịch được gọi là văn bản nguồn,ngôn ngữ của bản dịch được gọi là ngôn ngữ đích

Đầu vào của một hệ dịch máy là một văn bản nguồn, đầu ra là văn bản đích Kết quả của văn bản đích có thể hiệu đính để trở thành bản dịch tốt, gần với ngôn ngữ tự nhiên của con người hơn

1.2 Vai trò của dịch máy

Từ xa xưa, con người đã có nhu cầu hiểu tiếng khác (giao lưu hàng hóa từ thời xưa), ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, giữa các văn hóa, giữa người với người càng làm cho việc dịch trở nên quan trọng Để giải quyết vấn đề này, ban đầu những người biết nhiều hơn hai ngôn ngữ đóng vai trò như thông dịch, tuy nhiên công việc dịch sử dụng sức người là công việc thủ công, chất lượng cao nhưng năng suất thấp và giá thành cũng không hề rẻ

Vào giữa thế kỉ 20, khi mà cách mạng về máy tính bùng nổ, việc tận dụng tài nguyên này để ứng dụng vào dịch là một trong những đề tài được nhiều nhà khoa học nghiên cứu cho đến tận bây giờ và kết quả nó mang lại rất khả quan Dịch với sự trợ giúp của máy tính còn tiến xa hơn, bằng cách kết hợp dùng phần mềm

có khả năng ví dụ như tự động ghi và lưu lại các cấu trức ngữ pháp hoặc cách sắp xếp từ nhất định trong ngôn ngữ đích và ngôn ngữ dịch

Tóm lại, với sự phát triển mạnh mẽ của khoa học công nghệ, khối lượng thông tin trao đổi của con người ngày càng nhiều Trong nhiều trường hợp có thể con người không cần đến chất lượng dịch cao như sử dụng phiên dịch viên mà chỉ

Trang 4

cần có một bản dịch tạm đủ để cung cấp đủ nội dung mà không phải chờ đợi lâu

Vì vậy, một hệ dịch máy chất lượng tương đối sẽ đáp ứng tốt hơn một người phiên dịch giỏi Nếu xây dựng hệ dịch máy thành công, đây là công cụ giúp con người tiếp cận với kho tri thức viết bằng các ngôn ngữ khác trên thế giới

1.3 Lịch sử dịch máy

Ngành dịch máy đã có quá trình phát triển trên 50 năm, tuy có những giai đoạn hầu như không có bất kì thành tựu nào đáng kể nhưng dịch máy vẫn là một trong những chuyên ngành phát triển của khoa học máy tính với nhiều kết quả về lý thuyết và ứng dụng thực tế Có thể chia sự phát triển của ngành dịch máy thành

4 giai đoạn chính như sau:

 Giai đoạn 1930 – 1940

Từ thế kỉ 17 nhiều nhà nghiên cứu đã nỗ lực trong việc xây dựng một cách biểu diễn chung cho các ngôn ngữ Năm 1933, George Artsrouni đã thiết kế một thiết

bị lưu trữ có thể tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai ngôn ngữ bất kỳ Đây được xem như cuốn từ điển số đầu tiên của nhân loại Cũng trong năm đó một người Nga là Petr Smirnov-Troyanskii đã thiết kế một thiết bị dịch gồm 3 công đoạn: phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích Thiết

kế của Troyanskii là ý tưởng cơ bản cho nhiều loại máy dịch được thiết kế sau này

Giai đoạn 1940-1970

Vào giai đoạn này, máy tính được phát minh và ứng dụng thành công vào việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính vào việc phiên dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kì sang tiếng Anh như việc giải mã văn bản tiêng Anh được viết bằng một loại mật mã nào đó Khái niệm dịch máy được hình thành và những chương trình dịch đầu tiên chỉ sử dụng phương pháp dịch từ sang từ đã được hình thành mặc dù kết quả còn rất hạn chế

Giai đoạn 1970-1990

Giai đoạn này đánh dấu một số thành công trong nghiên cứu về lý thuyết xử lí ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng kể nhiều trung

Trang 5

tâm nghiên cứu bắt đầu tập trung hơn vào lĩnh vực dịch máy và đã đạt được một

số các thành công nhất định Năm 1973, Yorick Wilks giới thiệu một hệ thống dịch tự động Anh – Pháp cho kết quả khá tốt khi một người Pháp có thể đọc hiểu được mà không cần đọc văn bản nguồn

Giai đoạn 1990-nay

Đầu những năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi thông tin bùng nổ, cộng với sự tích lũy kiến thức về mặt ngôn ngữ của nhân loại, sức mạnh của máy tính tăng mạnh đã thúc đẩy phát triển các hệ thống dịch Dịch máy đã bước sang giai đoạn phát triển mới, đạt nhiều thành tựu đáng khích lệ

2 Phân loại dịch máy

2.1 Vấn đề ngôn ngữ trong dịch máy:

Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công nghệ thông tin Những vấn đề gặp phải là làm sao cho máy hiểu được ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến hiểu nghĩa một câu, rồi cả văn bản Minh họa lại bằng ví dụ của Marvin Minsky (1992): xét từ “sợi dây” chẳng hạn Ngày nay không một máy tính nào

có thể hiểu nghĩa từ này như con người Chúng ta ai cũng biết có thể dùng sợi dây để kéo một vật, nhưng không thể đẩy vật bằng một sợi dây Ta có thể gói hàng bằng sợi dây, nhưng không thể ăn sợi dây Chúng ta có thể chỉ ra hàng trăm cách dùng hoặc không dùng một sợi dây nhưng không máy tính nào thực hiện được việc này

Tiếng anh và tiếng Việt là hai ngôn ngữ của hai quốc gia khác nhau, nền văn hóa khác nhau Nên yếu tố khác nhau giữa tiếng Anh và tiếng Việt là một khó khăn trong vấn đề xử lý ngữ nghĩa Hơn thế nữa, trong những ngữ cảnh khác nhau, ý nghĩa của một từ là khác nhau Ví dụ như: nếu ta viết “An old driver drives the car” thì nghĩa ở đây của an old driver là một người tài xế già và nếu ta viết “I installed that old driver into this computer” thì cụm từ đó lại mang nghĩa hoàn toàn khác Tham chiếu sang tiếng việt, chúng ta cũng gặp những sự nhập nhằng

Trang 6

của ngôn ngữ dưới nhiều góc độ, điển hình như là ví dụ kinh điển sau: “Ông già

đi nhanh quá”

Chúng ta có 3 cách hiểu:

Cách 1: Ông già | đi | nhanh quá

Cách 2: Ông | già đi | nhanh quá

Cách 3: Ông già đã chết một cách đột ngột

Ta có bảng so sánh sơ bộ về ngữ pháp tiếng Việt và tiếng Anh:

Trang 8

2.2 Phương pháp dịch máy dựa trên cơ sở luật (Rule Based Machine

Translation - RBMT)

Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ như thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả Tuy nhiên máy tính khó có thể phân tích cú pháp cho những câu có ngữ nghĩa phức tạp, và việc xây dựng tập luật và cú pháp

và luật chuyển đổi có thể bao quát được mọi trường hợp rất khó khăn đòi hỏi người thực hiện phải có kiến thức sâu về ngôn ngữ

Dịch dựa trên cơ sở luật thực hiện phân tích cú pháp câu được nhập vào và sau

đó áp dụng những luật ngôn ngữ và từ vựng (hay còn gọi là những luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ này sang ngôn ngữ khác Do đó, không thể giải quyết các trường hợp nhập nhằng ngữ nghĩa của câu có cùng cấu trúc những nghĩa khác nhau

Kết hợp giữa mức độ phân tích cú pháp và phân giải ngữ nghĩa Hệ dịch chủ yế dựa vào phân tích cú pháp, và phân giải ngữ nghĩa ở mức cần thiết để khử nhập nhằng nghĩa

2.3 Phương pháp dịch máy dựa trên cơ sở ví dụ (Example Based Machine Translation – EBMT)

Hướng dịch máy dựa trên mẫu ví dụ được giới thiệu lần đầu bởi Nagao vào năm

1984 trong nỗ lực xây dựng hệ dịch tự động Anh – Nhật Tư tưởng của tiếp cận dịch bằng ví dụ rất đơn giản: Để dịch một câu chúng ta có thể sử dụng kết quả dịch của một câu khác gần giống như vậy, sửa đổi đi đôi chút

Trang 9

Hướng tiếp cận này có nhiều ưu điểm:

 Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có một tập các ví dụ đủ lớn

 Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ vựng và ngữ pháp

 Tập dữ liệu càng phong phú, chất lượng dịch càng cao, đây là ưu thế lớn so với một số phương pháp khác, một vài tiếp cận dịch có thể bị giảm chất lượng nếu tri thức dịch tăng lên

Tuy nhiên nó cũng có nhược điểm là phụ thuộc vào chất lượng của các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối chiếu mẫu thực hiện khá chậm so với một số cách tiếp cận khác

2.4 Phương pháp dịch máy thống kê (Statistical Machine Translation)

Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm 1980, được

đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch máy Anh-Pháp Ý tưởng dịch máy bằng thống kê rất đơn giản và thuần túy toán học: thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên thống kê Cách tiếp cận này không đòi hỏi sự phân tích sâu về ngôn ngữ, chúng thực hiện hoàn toàn tự động các quát trình phân tích, chuyển đổi…

Phương pháp dịch máy dựa trên thống kê được chia thành 3 loại sau:

2.4.1 Phương pháp dịch máy thống kê dựa vào từ (word-based SMT)

Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngôn ngữ tự nhiên Dịch máy thống kê trên cơ sở từ không sử dụng rộng rãi ngày nay, thay vào đó là dịch máy thống kê trên cơ sở cụm từ Hầu hết các

hệ thống dựa trên cụm từ sử dụng Giza++ để gióng hàng câu, trích rút ra các cặp câu song ngữ và mô hình ngôn ngữ Vì những ưu thế của Giza++, hiện nay có một số nỗ lực đưa áp dụng tính toán phân tán trực tuyến cho phần mềm này

Trang 10

2.4.2 Phương pháp dịch máy thống kê dựa trên cơ sở cụm từ (pharse-based

SMT)

Dịch máy thống kê trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm

từ nguồn và cụm từ đích có thể khác nhau Các cụm từ trong kỹ thuật này thường không theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu

2.4.3 Phương pháp dịch máy dựa trên thống kê cú pháp (Syntax-based SMT)

Dịch máy thống kê trên cơ sở cú pháp dựa trên ý tưởng của dịch các đơn vị cú pháp (phân tích cây của câu), hơn là những từ đơn hay cụm từ (như trong dịch máy thống kê trên cơ sở cụm từ) Ý tưởng này đã xuất hiện từ lâu, tuy nhiên phiên bản thống kê của ý tưởng này chỉ được hình thành khi có những bộ phân tích ngẫu nhiên mạnh mẽ trong những năm 1990

3 Thuật toán dịch máy sử dụng mạng neuron (NMT)

3.1 Giới thiệu

 Dịch máy dùng mạng neuron(NMT) là một kiến trúc mới và đơn giản để cho máy tính có thể dịch được các ngôn ngữ ra các ngôn ngữ khác nhau NMT là một mạng neuron sâu được huấn luyện từ đâu đến cuối với nhiều lợi ích như đơn giản và tổng quan hóa Mặc dù khá mới ( được nghiên cứu và phát triển từ năm 2014) nhưng NMT đã đạt được những kết quả đáng mong đợi trong việc dịch máy với nhiều cặp ngôn ngữ khác nhau như Tiếng Anh – Tiếng Pháp, Tiếng Anh – Tiếng Đức hay tiếng Anh – tiếng Séc …

 NMT sử dụng nhiều phương pháp dịch cụm từ truyền thống nhưng gần đấy, NMT

sử dụng những từ mới được giới hạn và coi những từ khác là những ký tự <unk>

Trang 11

Những ký tự này sẽ được chú thích với thông tin như thông tin định vị, các từ liên quan, xác suất để theo dõi sự sắp xếp của các từ trong câu Sau đó, các thông tin này sẽ được tra trong từ điển hoặc những bản thông số sẽ được dùng để thay thế các kí hiệu <unk> này

 Mặc dù đơn giản nhưng phương pháp NMT này vẫn tồn tại nhiều vấn đề như:

- Đơn ngữ: Các từ được coi như những thực thể độc lập NMT có thể học được những từ phổ biến như “distinct” nhưng lại không thể học được những từ hiếm nhưng lại có liên quan đến những từ này như “distinctiveness”

- Đa ngữ: Những ngôn ngữ có thể có những bảng chữ cái khác nhau vì thế không thể chỉ ngây thơ ghi nhớ những từ dịch trên bề mặt như tiếng hán hay tiếng nôm…

 Để giải quyết những vấn đề này, một kiến trúc lai cho NMT được sử dụng ( hybrid NMT) NMT lai dịch hầu hết sử dụng NMT ở mức độ từ ( word level) và gợi ý các từ hiếm sử dụng các thành phần ký tự nếu cần thiết

Hình 1: Mô hình NMT lai

 Trong hình trên, việc dịch dùng NMT dựa vào từ được dùng với hầu hết các từ cần dịch, nhưng với các từ hiếm như “cute” và “joli”, chúng được xử lý riêng biệt Về phía nguồn (source), từ “cute” được dịch sử dụng mạng neuron hồi quy sâu ( deep recurrent neutral network) hoạt động ở mức độ ký tự Về phía đích ( target) , NMT có một mô hình riêng để hồi phục các hình thức bề mặt, tức đưa

Trang 12

từ <unk> thành “joli” Các thành phần này được học cùng nhau từ đầu đến cuối nên có sự chính xác cao

 Mô hình NMT lai có nhiều lợi ích:

- Mô hình nhanh hơn và dễ huấn luyện hơn so với mô hình dịch dựa trên kí tự

- Không bao giờ cung cấp những từ không biết như trong mô hình dịch dựa trên từ

3.2 Mô hình NMT

 NMT có mục đích trực tiếp mô hình các xác suất có điều kiện p(y|x) để dịch một câu nguồn: x1, x2, …, xn thành một câu đích: y1,y2,…,ym NMT đạt được bằng cách sử dụng một framework mã hóa – giải mã Mô hình mã hóa tính biểu diễn

s của mỗi câu nguồn Dựa trên biểu diễn này, mô hình giải mã tạo một bản dịch, một từ mục tiêu vào một thời điểm và do đó, phân tích log của xác suất có điều kiện:

 Mô hình mạng neuron tái phát (RNN) được sử dụng trong mô hình NMT này Tuy nhiên có một vài sự thay đổi so với mô hình mạng neuron tái phát truyền thống:

- Kiến trúc: từ một chiều thành hai chiều: dựa trên ý tưởng output tại thời điểm t không chỉ phụ thuộc vào các thành phần trước đó mà còn phụ thuộc vào các thành phần trong tương lai Ví dụ, để dự đoán một từ bị thiếu (missing word) trong chuỗi, ta cần quan sát các từ bên trái và bên phải xung quanh từ đó Mô hình này chỉ gồm hai RNNs nạp chồng lên nhau Trong đó, các hidden state được tính toán dựa trên cả hai thành phần bên trái và bên phải của mạng

- RNN hai chiều sâu: tương tự như RNNs hai chiều , điểm khác là mô hình gồm nhiều tầng RNN 2 chiều tại mỗi thời điểm Mô hình này sẽ cho phép thực hiện các tính toán nâng cao nhưng đòi hỏi tập dữ liệu phải đủ lớn

- Loại RNN: sử dụng mạng có độ dài trí nhớ ngắn dài(LTSM – long short-term memory network): mô hình này có cấu trúc tương tự RNNs nhưng có cách tính

Ngày đăng: 25/02/2019, 22:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w