1. Trang chủ
  2. » Luận Văn - Báo Cáo

TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ KHÔNG LIÊN TỤC

13 832 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 590,13 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ KHÔNG LIÊN TỤC Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như : dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin...

Trang 1

ĐẠI HỌC DUY TÂN

TIỂU LUẬN

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Đề tài:

DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ

KHÔNG LIÊN TỤC

Giảng viên: TS NGUYỄN THỊ THANH HUYỀN Học viên : LÊ VĂN TỊNH

ĐOÀN SINH CÔNG NGÔ MINH CƯỜNG Lớp : K7MCS

Đà Nẵng, 4/2014

Trang 2

MỤC LỤC

1 MỞ ĐẦU 3

2 GIỚI THIỆU 4

2.1 Tổng quan: 4

2.2 Các phương pháp dịch máy cơ sở: 4

3 PHƯƠNG PHÁP DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC (DPBT): 6

3.1 Mô tả: 6

3.2 Rút trích cụm từ không liên tục: 7

3.3 Giải mã: 8

4 KẾT QUẢ: 10

4.1 Môi trường thử nghiệm: 10

4.2 Kết quả thử nghiệm: 11

5 KẾT LUẬN 13

5.1 Kết quả đặt được của tiểu luận: 13

5.2 Hướng phát triển của tiểu luận: 13

Trang 3

1 MỞ ĐẦU

Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như : dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin

Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên Mặc dù dịch máy đã được nghiên cứu và phát triển trong hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu đối với từng loại ngôn ngữ, đối với từng chuyên ngành khác nhau (ví dụ: Y tế, luật )

Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều chỉ mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn bản Trong quá trình dịch thuật nếu lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng đến văn phong, bởi vì người dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường không chính xác, máy móc và thiếu "chất người"

So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài liệu này từ vựng có nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc, đơn giản, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa, nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng

Phương pháp “Dịch máy dựa trên cơ sở cụm từ“ được xây dựng trên cơ sở sử dụng hai phương pháp dịch máy thống kê và dịch máy trên cơ sở ví dụ với những nét ngữ cảnh trong cơ sở tri thức là phương pháp mới được quan tâm nhất Vì vậy nhóm thực hiện tìm hiểu phương pháp “Dịch máy dựa trên cơ sở cụm từ“ trong tiểu luận này

Trang 4

2 GIỚI THIỆU

2.1 Tổng quan:

Dịch máy là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác Một phần mềm điển hình Google, về tiếng Việt của chương trình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đây cũng là trang đầu tiên đưa ứng dụng này lên mạng Tháng 10 năm 2008 có hai công ty tham gia vào lĩnh vực này cho ngôn ngữ tiếng Việt là công ty Lạc Việt (công ty phát hành từ điển Lạc Việt) và một thời gian sau đó Xalo.vn cũng đưa ra dịch vụ tương tự

Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu Hiện nay có một số công ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền Một hướng tiếp cận mới là kết hợp (lai ghép) các phương pháp với nhau, như những nghiên cứu phối hợp giữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê

2.2 Các phương pháp dịch máy cơ sở:

Hiện nay, dịch máy được phân chia thành một số phương pháp như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ, dịch máy dựa trên cụm từ Do những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các phương pháp dịch máy hiện hữu thường gặp trở ngại Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp, ngữ nghĩa

và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa, ngữ dụng Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho một sô ngôn ngữ phổ biến Do sự khác biệt khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng đến chất lượng đối sánh, mà kết quả của đối sánh từ lại quyết định đến chất lượng

Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay

Trang 5

còn gọi là câu ví dụ Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn

để xây dựng cơ sở dữ liệu cho mẫu câu ví dụ Sự khác biệt từ sẽ được xác định thông qua từ điển phân lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của câu nguồn và câu đích Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là xây dựng ngân hàng mẫu câu ví dụ Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp) Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu Độ chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít Trong thực tế thật khó để có thể lưu trữ đầy

đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ trong kho ngữ liệu là nhiều vô kể

Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu Phương pháp dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các

mô hình huấn luyện không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ

đã cho kết quả khả quan Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm từ của ngôn ngữ học

Phương pháp dựa trên cơ sở từ (Single Word-Based Translation - SWB) có nhiều hạn chế Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh Ngữ nghĩa của từ khi dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó trong câu, ví dụ cụm từ “to kick the bucket” đồng nghĩa với “to die”, “around the clock” có nghĩa là

“continuously” và “as a matter of fact” mang nghĩa “actually” Đôi khi ngữ nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn

và ngược lại Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc

cú pháp Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn thêm từ hoặc xóa bớt từ Thực tế các mô hình dịch theo từ không bảo đảm đúng nghĩa cho câu đích là do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả

Trang 6

các câu trong thực tế và các đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi luật sinh của từng ngữ cảnh cụ thể

Để khắc phục những hạn chế đó thì phương pháp dịch máy dựa trên cơ sở cụm

từ (Phrase Based Machine Translation – PBT) sử dụng cách xác định ngữ nghĩa của cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch một lựa chọn mới cho mô hình dịch máy sắp tới Tuy nhiên mô hình trên chỉ có thể khai thác được các cụm từ liên tục còn gặp hạn chế đối với các cụm từ có phân cấp không liên tục (phrasal discontinuities) Dịch máy dựa trên cụm từ không liên tục

mở rộng dựa trên cụm từ giải mã để cho phép cả hai nguồn và đích mệnh đề gián đoạn, trong đó cung cấp tổng quát tốt hơn trên dữ liệu vô hình và cải thiện đáng kể năng suất một cụm từ dựa trên tiêu chuẩn hệ thống (Moses)

3 PHƯƠNG PHÁP DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC (DPBT):

3.1 Mô tả:

Mô hình dịch dựa vào cụm từ không liên tục (Discontinuous Phrases Based Machine Translation - DPBT) nhanh hơn so với state-of-the-art hierarchical system (Joshua) by a very significant margin (+1.03 BLEU on average on five Chinese-English NIST test sets)

- Đầu vào: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ.

- Đầu ra: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ.

Việc đánh giá chất lượng bản dịch thường sử dụng phương pháp BLEU (BiLingual Evaluation Understudy) hoặc NIST (National Institute of Standards and Technology)

Dịch dựa vào cụm từ không liên tục xác định đơn vị dịch thuật như bất kỳ tập hợp con của những nghĩa của một câu, tức là , một cụm từ không liên tục Việc khái quát đa chùm chuỗi dựa trên giải mã thông thường (Koehn, 2004) để cho phép gián đoạn biến kích thước trong cả hai dữ liệu cụm từ ở ngôn ngữ nguồn và cụm từ ở ngôn ngữ đích Vì mỗi cặp câu có thể được linh hoạt hơn phân hủy thành các đơn vị dịch, nó có thể khai thác bối cảnh phong phú của ngôn ngữ nguồn (có thể không liên tục ) cụm từ để cải thiện chất lượng bản dịch Bộ giải mã của cung cấp hai phần mở rộng cho Moses:

Trang 7

(a) Để đối phó với những khoảng trống ở câu nguồn, chúng tôi làm theo ( Lopez , 2007) để tìm một cách hiệu quả tất cả các cụm từ liên tục trong dữ liệu huấn luyện cũng xuất hiện trong câu ngôn ngữ nguồn ( Koehn et al , 2007 )

(b) Để cho phép gián đoạn ngôn ngữ xuất, chúng tôi tăng thêm giả thuyết dịch không chỉ ghi lại bản dịch một phần hiện tại, mà còn là một tập hợp các nhóm cụm

từ có thể được nối vào dịch một phần ở một số giai đoạn sau của giải mã

3.2 Rút trích cụm từ không liên tục:

Mục tiêu của dịch máy là tự động chuyển ý nghĩa của một câu từ ngôn ngữ nguồn

f =f1j=f❑1, … , fj , … fJ sang ngôn ngữ đích e=e1i=e1❑, … e i, … eI Trong dịch máy thống kê các điều kiện xác suất Pr(e1I∨f1J)2 để mô tả sự tướng ứng giữa 2 câu (theo Och and Ney, 2004) Mỗi cụm từ được đặc trưng bởi một giá trị chỉ số, tức là một tập hợp các chỉ số từ Giả định rằng cặp câu (f, e) được phân rã thành K cụm từ không liên tục, ta có: s=s❑1

, … , s k

t=t❑1

, …, tk

Để lần lượt đại diện cho sự phân hủy của câu ngôn ngữ nguồn và ngôn ngữ đích với K tập con từ đó được bổ sung và không chồng lấn Một cặp giá trị chỉ số phù hợp (sk, tk)

Đối với các cụm từ liên tục việc tìm kiếm tất cả các cặp cụm từ đó đáp ứng điều kiện này có thể được thực hiện trong O(nm3) lần ( Och and Ney , 2004), trong

đó n là độ dài của câu và m là chiều dài tối đa cụm từ Tập hợp các cụm từ không liên tục là theo cấp số nhân trong chiều dài khoảng tối đa, vì vậy cụm từ khai thác phải phù hợp với một văn bản cụ thể (e.g., a given test sentence) cho các giá trị m tương đối lớn Lopez (2007) trình bày một giải pháp hiệu quả sử dụng các mảng hậu

tố cho việc tìm kiếm tất cả các cụm từ liên tục của dữ liệu huấn luyện có liên quan đến một câu kiểm tra nhất định hoặc kiểm tra thiết lập Nó giải quyết một vấn đề cụm từ sắp xếp thứ tự bằng cách xác định hiệu quả vị trí cụm từ liên tục dữ liệu huấn luyện cũng xảy ra được tìm vị trí trong câu kiểm tra Với các mảng kỹ thuật hậu tố cho chúng ta cho mỗi câu đầu vào một danh sách các giá trị phù hợp có liên quan Đối với mỗi sk như vậy, chúng ta có thể dễ dàng liệt kê mỗi tk thỏa mãn phương trình (1)

Trang 8

Hình 1 – Ví dụ: về cách giải mã một câu sử dụng phương pháp dịch dựa trên cụm từ

không liên tục

Khi bộ giải mã của không áp đặt những hạn chế phân cấp thì việc khai thác tất

cả các cặp cụm từ không liên tục phù hợp với sự liên kết từ

3.3 Giải mã:

Vấn đề chính của việc giải mã hệ thống dựa trên cụm từ, theo mệnh đề (Cer et al., 2010), là một bộ giải mã đa ngăn xếp tương tự như Moses ( Koehn, 2004), Việc

mở rộng để hỗ trợ khoảng cách biến kích thước trong các ngôn ngữ nguồn và ngôn ngữ đích Trong Moses , giả thuyết dịch một phần được sắp xếp vào ngăn xếp khác nhau tùy theo tổng số từ đầu vào Từng bước dịch, ngăn xếp được chia bằng cách sử dụng điều kiện dịch một phần và thấp hơn ràng buộc về điều kiện ước tính trong tương lai

Đề xuất mới giải thích cho sự gián đoạn ngôn ngữ nguồn, cụm từ có chứa những khoảng trống trong các ngôn ngữ nguồn được nối vào một giả thuyết dịch một phần trong nhiều bước Cụ thể, mỗi giả thuyết dịch trong bộ giải mã là không chỉ biểu diễn như là một tiền tố dịch và giá trị phù hợp thiết lập như trong Moses, nhưng nó cũng chứa một tập hợp các cụm từ bị cô lập (hiển thị chữ in nghiêng trong hình 1) phải được bổ sung vào dịch tại một số lần sau đó Ví dụ , con số này cho thấy cách cặp cụm từ được thêm vào đoạn dịch Tiền tố (arrangements) được nối vào để tạo thành (he said arrangements), và cô lập cụm từ (made) được lưu lại để sử dụng sau

Bước 1: Phân tích câu nguồn để xác định các cụm từ không liên tục

Bước 2: Giá giá trị phù hợp cho câu nguồn

Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích dựa vào cặp giá trị phù hợp

Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích

Trang 9

Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán

nhãn

Bước 6: Rút trích cụm danh từ

Bảng 1 – Thuật toán tìm kiếm cụm từ không liên tục Thuật toán sử dụng 2J + 1 ngăn xếp S0g , S1g , … , S J gS0c , S1c , … , S J c trong đó mỗi ngăn xếp chứa đến N giả thuyết Hj1, ,HjN Thuật toán gồm 2 vòng lặp chính grow (dòng 7–15) và consolidate (dòng 3–6)

 Vòng lặp grow:

o tương tự như tiêu chuẩn cụm từ dựa dịch máy : lấy giả thuyết H g jn từ S g j

so sánh với tùy chọn (sk, tk), sau đó thêm giả thuyết mới phù hợp vào ngăn xếp S c j+l (với l = |sk|)

 Vòng lặp consolidate:

o Cho phép các bộ giải mã chọn bất kỳ số lượng các cụm từ bị cô lập (không nhất thiết tất cả , và có thể không) và nối thêm chúng trong bất kỳ thứ tự vào cuối của bản dịch hiện hành

o Bất kỳ giả thuyết trong chùm cuối cùng S g jđược tự động loại bỏ nếu nó chứa bất kỳ cụm từ bị cô lập

Trang 10

o Hàm chức năng translation_options(m) trả về tập hợp các tùy chọn áp dụng ở vị trí m sử dụng thuật toán ở vị trí phù hợp

Xử lý cụm từ không liên tục như là cụm từ liên tục cụ thể ´s=(´s1, … , ´s L) với L là danh sách tối đa của các cụm từ ngôn ngữ nguồn K (L≥K) được lựa chọn cho một giả thiết nhất định Với mỗi cụm từ ´sta được liệt kê theo trật tự của ngôn ngữ đích có thể khác so với ngôn ngữ nguồn sau đó tính toán sự biến dạng tuyến tính giữa cặp kế tiếp ( ´s i , ´s i+1), theo công thức sau:

Điều kiện là first và last tương ứng tham khảo vị trí nguồn của từ đầu tiên và cuối cùng của một cụm từ nhất định Hình 2, cho thấy một ví dụ về cách biến dạng được tính toán cho các cụm từ (s1,s2,s3) bao gồm cụm từ s2 không liên tục

Hình 2: Biến dạng tuyến tính tính toán sử dụng cụm từ liên tục

và không liên tục

4 KẾT QUẢ:

4.1 Môi trường thử nghiệm:

Hệ thống dịch dựa trên cụm từ không liên tục được tích hợp trong bộ công cụ dịch dựa trên cụm từ của đại học Standford (Stanford Phrasal is a state-of-the-art statistical phrase-based machine translation system) Thử nghiệm thực hiện trên phiên bản 3.3.1, phát hành ngày 04/01/2014 có thể tải về tại địa chỉ:

http://nlp.stanford.edu/software/phrasal/phrasal.3.3.1.tar.gz

http://nlp.stanford.edu/software/stanford-corenlp-full-2014-01-04.zip

Hướng dẫn cài đặt và thực nghiệm chi tiết:

http://www-nlp.stanford.edu/wiki/Software/Phrasal

Ngày đăng: 22/12/2014, 08:42

HÌNH ẢNH LIÊN QUAN

Hình 1 – Ví dụ: về cách giải mã một câu sử dụng phương pháp dịch dựa trên cụm từ - TIỂU LUẬN  XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ  KHÔNG LIÊN TỤC
Hình 1 – Ví dụ: về cách giải mã một câu sử dụng phương pháp dịch dựa trên cụm từ (Trang 8)
Bảng 1 – Thuật toán tìm kiếm cụm từ không liên tục Thuật toán sử dụng 2J + 1 ngăn xếp  S 0 g , S 1 g , … , S J g  và  S 0c , S 1c , … , S Jc  trong đó mỗi  ngăn xếp chứa đến N giả thuyết H j1 ,...,H jN - TIỂU LUẬN  XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ  KHÔNG LIÊN TỤC
Bảng 1 – Thuật toán tìm kiếm cụm từ không liên tục Thuật toán sử dụng 2J + 1 ngăn xếp S 0 g , S 1 g , … , S J g và S 0c , S 1c , … , S Jc trong đó mỗi ngăn xếp chứa đến N giả thuyết H j1 ,...,H jN (Trang 9)
Hình 2: Biến dạng tuyến tính tính toán sử dụng cụm từ liên tục - TIỂU LUẬN  XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ  KHÔNG LIÊN TỤC
Hình 2 Biến dạng tuyến tính tính toán sử dụng cụm từ liên tục (Trang 10)
Hình 3 – Mô tả các cụm từ không liên tục mũi tên màu xanh - TIỂU LUẬN  XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ  KHÔNG LIÊN TỤC
Hình 3 – Mô tả các cụm từ không liên tục mũi tên màu xanh (Trang 11)
Bảng 2 – So sánh với các mô hình của (Joshua) và (Moses) các giá trị đều tăng đối - TIỂU LUẬN  XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ  KHÔNG LIÊN TỤC
Bảng 2 – So sánh với các mô hình của (Joshua) và (Moses) các giá trị đều tăng đối (Trang 12)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w