1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt

15 104 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 300,69 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hiện nay, có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant, … [1, 2] hay những hệ dịch máy mở tiêu biểu như hệ dịch của Google [3] hỗ trợ hơn 10 cặp ngôn ng

Trang 1

BÁO CÁO KĨ THUẬT

SP3 - Hệ dịch Anh-Việt

1 Khảo sát các mô hình dịch máy

Dịch máy là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50 và được phát triển mạnh mẽ vào thập kỷ 80 [7] Hiện nay, có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant, … [1, 2] hay những hệ dịch máy mở tiêu biểu như hệ dịch của Google [3] hỗ trợ hơn 10 cặp ngôn ngữ phổ biến như Anh-Pháp, Anh-Trung,

Anh-Nhật, Anh-Đức, … Các cách tiếp cận dịch máy chủ yếu dựa vào luật chuyển đổi, dịch liên ngữ và dịch dựa vào dữ liệu [6] Các hệ dịch máy này đã đạt được kết quả khá

tốt với những cặp ngôn ngữ tương đồng nhau về cú pháp như các cặp ngôn ngữ Anh-Pháp, Anh-Tây Ban Nha, … và còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như Anh-Trung, Anh-Nhật, …

Ở Việt Nam, dịch Anh-Việt cũng gặp phải những khó khăn về sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng về ngữ nghĩa giữa hai ngôn ngữ Hơn 10 năm nay

dịch máy đã trở thành đề tài được một số nhóm tập trung nghiên cứu, tuy nhiên chất lượng cũng như phạm vi ứng dụng của các hệ dịch đó vẫn còn nhiều hạn chế Trong

nhiều nhóm nghiên cứu chỉ có một hệ dịch Anh-Việt được đưa ra làm sản phẩm thương mại có ứng dụng trong thực tế

- Nhóm nghiên cứu của TS Đinh Điền (ĐHKHTN-ĐHQGTPHCM): Dự án nghiên

cứu của nhóm dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ

- Nhóm nghiên cứu của PGS TS Phan Thị Tươi (ĐHBKTPHCM): Nhóm sử dụng

phương pháp phân tích cú pháp có xác suất để dịch văn bản Anh-Việt và Việt-Anh

Trang 2

- Nhóm nghiên cứu của TS Lê Khánh Hùng (Viện NCUDCN-Bộ KHCN): Đây là nhóm nghiên cứu duy nhất đã đưa hệ dịch vào sử dụng trong thực tế và thương mại hoá sản phẩm EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử dụng các luật được xây dựng bằng tay để dịch văn bản từ Anh sang Việt Phiên bản 3 mới

EVTRAN ra đời cuối năm 2005 cho phép dịch văn bản hai chiều Anh-Việt Do hệ dịch dựa trên luật nên kết quả của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù

hợp với các luật đã được thiết lập hay không

- Nhóm dự án ERIM của ĐHBKĐN kết hợp với GETA – ĐHBK Grenoble, thử

(http://www.latl.unige.ch/vietnamese/) tại LATL

- Ngoài ra còn kể đến một số nỗ lực xây dựng phần mềm dịch máy có tiếng Việt của

Stuart và Sandra trường Western Sydney Macarthur và sản phẩm Universal Translator 2000 (http://www.languagetranslator.com/software/unidelux.html) Hiện nay, các nghiên cứu để làm tăng chất lượng hệ dịch vẫn đang được tiến hành phù

hợp với đặc điểm của các cặp ngôn ngữ Trong đó, phương pháp dịch dựa trên thống kê

là một hướng tiếp cận đang được phát triển mạnh từ những năm của thập kỷ 90 [4], đang được xem là cách tiếp cận khả thi và hiệu quả của việc dịch tự động với nhiều bước đột phá

2 Khảo sát phương pháp dịch máy thống kê

Dịch máy dựa trên phương pháp thống kê đang là một hướng phát triển đầy tiềm năng bởi những ưu điểm vượt trội so với các phương pháp khác Thay vì xây dựng các

từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ các kho ngữ liệu Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao áp dụng được cho bất kỳ cặp ngôn ngữ nào

Dịch máy dựa trên phương pháp thống kê sẽ tìm câu ngôn ngữ đích e phù hợp nhất (có xác suất cao nhất) khi cho trước câu ngôn ngữ nguồn f

Trang 3

( )

* arg max |

e

Một hệ dịch máy dựa trên phương pháp thống kê có thể được mô hình hoá như sau:

Dịch máy thống kê lần đầu tiên được đề cập trong bài báo [5] với phương pháp sử dụng

là mô hình Kênh nhiễu (Noisy Channel Model)

Mô hình kênh nhiễu được Brown áp dụng trong bài toán dịch máy như sau:

Cho câu tiếng Pháp f1J = f …1 f … j f cần dịch sang câu tiếng Anh J e1I =

1

e … e … i e Brown dựng lên mô hình kênh nhiễu với e là đầu vào bộ mã hoá I

(Encoder), qua kênh nhiễu được chuyển hoá thành f và sau đó, gửi f đến bộ giải mã (Decoder) Như vậy, trong các câu tiếng Anh, ta chọn câu sao cho xác suất hậu nghiệm Pr (e1I| f1J ) là lớn nhất, theo luật quyết định Bayes :

1

I

I

e

e

=

=

Trang 4

Như vậy, ta có thể xây dựng mô hình chung của hệ dịch máy bằng phương pháp thống

kê thông qua hình ảnh kênh nhiễu:

Mô hình ngôn ngữ thường được giải quyết bằng mô hình n-gram

Pha giải mã thường được giải quyết bằng các thuật toán Search như Viterbi Beam, A* stack, Graph Model

Trong mô hình dịch, vấn đề trọng tâm của việc mô hình hoá xác suất dịch Pr ( f1J| e1I)

là việc định nghĩa sự tương ứng giữa các từ của câu nguồn với các từ của câu đích Mô hình thực hiện việc đó gọi là mô hình gióng hàng từ (alignment model) Brown đã đưa

ra năm mô hình gióng khác nhau từ IBM1 đến IBM5 [12] Sau đó, một loạt các nghiên cứu với nhiều cách tiếp cận khác nhau ra đời phù hợp với đặc điểm của các ngôn ngữ khác nhau

Phương pháp dịch máy thống kê truyền thống dựa trên đơn vị từ (word-based) Trong phương pháp dịch word-based, đơn vị được dịch là các từ Số từ trong câu được dịch là khác nhau phụ thuộc vào các từ ghép, hình thái từ và thành ngữ Tham số độ dài của chuỗi từ được dịch gọi là độ hỗn loạn (“fertility”) [10], tức là số từ của ngôn ngữ đích mà từ của ngôn ngữ nguồn sinh ra Tuy nhiên, tuỳ vào đặc điểm của ngôn ngữ, như cặp ngôn ngữ Anh-Việt cũng giống với cặp ngôn ngữ Anh-Trung, Anh-Nhật, , hệ dịch phải đối mặt với khó khăn trong quá trình sắp xếp trật tự của các từ tiếng Anh tương ứng khi dịch sang câu tiếng Việt Trong quá trình dịch, kết nối từ tiếng Anh tương ứng với từ tiếng Việt có thể là 1-1, 1-không, 1-nhiều, nhiều-1 hoặc nhiều-nhiều Mô hình

dịch dựa trên đơn vị từ không cho kết quả tốt trong trường hợp kết nối nhiều-1 hoặc

f

Mô hình

ngôn ngữ

Pr (e ) I

Mô hình dịch

Pr ( f1J| e1I)

Giải mã

)

| Pr(

max arg

e

f e

e= e

Trang 5

nhiều-nhiều với trật tự các từ trong câu tương ứng là khác nhau Khi đó, phân tích dựa

trên đơn vị cụm từ (phrase-based) được đề xuất để giải quyết vấn đề này

Ở đây, khái niệm cụm từ (phrase) không theo định nghĩa của ngôn ngữ học mà các cụm

từ này được sinh ra dựa vào các phương pháp thống kê áp dụng trên ngữ liệu học

Trong [11], Koehn mô tả một cách khái quát quá trình dịch thống kê dựa trên cụm từ như sau:

♦ Câu nguồn được tách thành các cụm từ

♦ Mỗi cụm từ được dịch sang ngôn ngữ đích

♦ Các cụm từ đã dịch được sắp xếp theo một thứ từ phù hợp

Phương pháp dịch máy thống kê dựa trên đơn vị cụm từ là phương pháp mới được phát triển, có một số mô hình đã được xây dựng và chất lượng được đánh giá là khá cao khi

áp dụng cho các cặp ngôn ngữ như Anh-Trung, Anh-Arab, [9] Tuy chất lượng có tốt hơn mô hình dịch thống kê dựa trên đơn vị từ, mô hình dịch thống kê dựa trên cụm từ vẫn chưa giải quyết được một số vấn đề như ngữ pháp, khả năng lựa chọn cụm từ với tính chính xác cao, dịch tên, lượng từ vựng có hạn và việc chuyển đổi cú pháp [8] Hiện nay, rất nhiều cách tiếp cận khác ra đời nhằm cải thiện chất lượng của hệ dịch, tích hợp thêm các thông tin ngôn ngữ như tiến hành tiền xử lý, sử dụng các thông tin về ngữ pháp để chuyển đổi câu ngôn ngữ nguồn e về một dạng e’ gần với ngôn ngữ đích trước khi thực hiện việc gióng hàng từ [13]

3 Các mô hình dịch máy thống kê mã nguồn mở

Hiện có rất nhiều diễn đàn chia sẻ những tài nguyên, công cụ mã nguồn mở hỗ trợ cho hệ dịch máy thống kê http://www.statmt.org/ là trang web tiêu biểu giới thiệu đầy

đủ các tài liệu, các hội thảo liên quan đến SMT, parallel corpus, mã nguồn liên quan tới dịch máy thống kê được cập nhật một cách thường xuyên

Các nhóm nghiên cứu mở về SMT:

Trang 6

- Nhóm nghiên cứu về Statistical MT ở trường Johns Hopkins đã dựng lên EGYPT (http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/), một Open source Statistical MT Toolkit Trong đó có GIZA, một training tool cho mô hình IBM 1-5, được sử dụng để tạo bảng ánh xạ từ-từ cho nhiều mô hình dịch theo phương pháp phrase-based

- Nhóm nghiên cứu về MT của ISI (Koehn, Och and Marcu) cũng sử dụng một Toolkit khác, SRILM (http://www.speech.sri.com/projects/srilm/), để xây dựng hệ dịch máy nghiên cứu theo phương pháp Phrase-based Statistical MT Pharaoh (http://www.isi.edu/licensed-sw/pharaoh/) (Koehn cũng là một trong số những người tham gia phát triển hệ dịch Moses sau này)

- Và gần đây nhất là sự xuất hiện của Moses (http://www.statmt.org/moses/), một hệ thống nguồn mở phrase-based SMT hoàn chỉnh Moses thực chất là phiên bản cao hơn của Pharaoh, là phần mềm được nhiều trường đại học, nhóm nghiên cứu nổi tiếng về xử

lý ngôn ngữ tự nhiên và dịch máy thống kê như Edinburg (Scotland), RWTH Aachen (Germany), tham gia phát triển Đây là phần mềm có chất lượng khá tốt, khả năng mở rộng cao được dùng để xây dựng nhiều hệ thống dịch thử nghiệm cho nhiều cặp ngôn ngữ như Anh-Czech, Anh-Trung, Anh-Pháp, Hệ thống đã được sử dụng làm baseline trong cuộc thi về các hệ thống dịch máy thống kê tại hội nghị ACL 2007

Ưu điểm vượt trội của Moses là cho phép người dùng tích hợp thêm các thông tin ngôn ngữ một cách mềm dẻo bằng cách thêm các tham số (factors) vào hệ thống [14] giới thiệu một cách cụ thể ý tưởng, tính năng và các thực nghiệm đối với hệ dịch các cặp ngôn ngữ Anh-Đức, Anh-Tây Ban Nha, Anh-Séc

Ý tưởng cơ bản của Moses dựa trên những hạn chế của mô hình phrase-based truyền thống Đó là sự thiếu hụt các thông tin về ngôn ngữ như lemma, POS tag, mophology, syntax, … dẫn đến hệ thống không có khả năng dịch được những từ không xuất hiện trong tập dữ liệu học (ví dụ đơn giản như từ “house” có trong từ điển, nhưng từ

“houses” thì không), không có khả năng phân biệt được ngữ cảnh khác nhau của câu

Trang 7

cần dịch, sự khác nhau về cú pháp của các cặp ngôn ngữ, Moses mở rộng khả năng cho phép người dùng thêm vào các lớp thông tin về ngôn ngữ (các factor) vào mô hình dịch (hình 1) và trong dữ liệu huấn luyện (hình 2)

Hình 1: Một ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích

Hình 2: Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện

Hệ thống có những tính năng cần thiết giải quyết các vấn đề chung của nhiều cặp ngôn ngữ có sự khác biệt lớn về mặt cấu trúc ngữ pháp và tính nhập nhằng ngữ nghĩa như đối với hệ dịch Anh-Việt của chúng ta

4 Thu thập ngữ liệu, rút trích và xử lý tài nguyên, tiền xử lý dữ liệu

Trang 8

Một trong những mục tiêu của đề tài là nhằm minh họa việc sử dụng, giá trị và kết quả các tài nguyên và công cụ của đề tài chính, chúng tôi sẽ kế thừa và áp dụng kết quả của các công cụ và tài nguyên từ các nhánh khác của đề tài Tuy nhiên, hiện tại chúng tôi phải xây dựng một tập dữ liệu song ngữ vừa đủ để có thể tiến hành thử nghiệm và đánh giá sơ bộ các mô hình dịch mã nguồn mở, từ đó dẫn đến việc tiến hành sử dụng phương pháp thích hợp với hệ dịch Anh-Việt

Ngữ liệu song ngữ đã được tiến hành thu thập một cách thủ công từ các bản tin công nghệ song ngữ trên Internet Số lượng cặp câu song ngữ thu thập được là 8500 cặp câu

4.1 Ngữ liệu song ngữ

Một trong những mục tiêu của đề tài là nhằm minh họa việc sử dụng, giá trị và kết quả các tài nguyên và công cụ của đề tài chính, chúng tôi sẽ kế thừa và áp dụng kết quả của các công cụ và tài nguyên từ các nhánh khác của đề tài Tuy nhiên, hiện tại chúng tôi phải xây dựng một tập dữ liệu song ngữ vừa đủ để có thể tiến hành thử nghiệm và đánh giá sơ bộ các mô hình dịch mã nguồn mở, từ đó dẫn đến việc tiến hành sử dụng phương pháp thích hợp với hệ dịch Anh-Việt

Ngữ liệu song ngữ đã được tiến hành thu thập một cách thủ công từ các bản tin công nghệ song ngữ trên Internet Số lượng cặp câu song ngữ thu thập được là 8500 cặp câu

4.2 Ngữ liệu đơn ngữ

Để phục vụ cho xây dựng một mô hình ngôn ngữ (language model) có chất lượng tốt cho tiếng Việt, chúng tôi cũng tiến hành thu thập các tài liệu tiếng Việt từ các bản tin của báo điện tử trực tuyến trên mạng Việc thu thập và các thao tác hậu xử lí được tiến hành tự động Chúng tôi đã tiến hành thu thập ngữ liệu đơn ngữ từ trang web báo điện

tử www.vnexpress.net, tách câu, tách token và tách từ thu được Kết quả thu thập ngữ liệu đơn ngữ phục vụ cho việc xây dựng mô hình ngôn ngữ cho tiếng Việt được liệt kê trong bảng 5.1

Trang 9

STT Lĩnh vực Số lượng

4 Luật 154,556

Bảng 5.1: Dữ liệu đơn ngữ phục vụ cho việc xây dựng language model

5.3 Các công cụ tiền xử lí dùng cho hệ dịch

Để phục vụ cho việc thử nghiệm hệ dịch sử dùng phần mềm opensource Moses, nhóm

nghiên cứu đã sử dụng các công cụ tiền xử lí cho tiếng Anh và tiếng Việt như sau

Công cụ cho tiếng Việt

- Bộ Tokenizer: sử dụng bộ Tokenizer trong bộ ngữ liệu Europarl corpus[16], do

Koehn phát triển

- Bộ tách từ: sử dụng công cụ JvnSegmenter[17] được cung cấp dưới dạng mã

nguồn mở do nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử dụng kĩ

thuật Conditional Random Field Chất lượng của bộ tách từ là 94%

- Bộ gán nhãn từ loại (Pos tagger): Sử dụng công cụ VnQTag được cung cấp miễn

phí bởi nhóm Nguyễn Thị Minh Huyền

Công cụ cho tiếng Anh

- Bộ Tokenizer: sử dụng bộ Tokenizer trong bộ ngữ liệu Europarl corpus, do

Koehn phát triển

Trang 10

- Bộ gán nhãn từ loại (Pos tagger): sử dụng công cụ CRFTagger[18] được cung cấp dưới dạng mã nguồn mở do nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử dụng kĩ thuật Conditional Random Field Chất lượng của bộ gán nhãn này theo báo cáo nhóm tác giả cung cấp đạt 97%

- Bộ phân tích hình thái từ (Morphological Analyzer): sử dụng công cụ morpha[15] được cung cấp miễn phí bởi nhóm Minnen, G., J Carroll and D Pearce (2001)

5 Kết quả thử nghiệm

5.1 Chuẩn bị dữ liệu đầu vào cho hệ dịch

5.1.1 Ngữ liệu song ngữ và đơn ngữ

Dữ liệu đơn ngữ tiếng Việt: Sử dụng ngữ liệu đơn ngữ thu thập từ Internet

Dữ liệu song ngữ Anh-Việt: Sử dụng 8500 cặp câu (tuy nhiên trong quá trình đưa vào Moses, hệ thống đã lọc bớt khá nhiều cặp câu không đáp ứng được yêu cầu)

5.1.2.Công cụ tiền xử lí

- Để gán các factors cho các từ trong dữ liệu huấn luyện của hệ dịch, chúng tôi thực hiện gán nhãn từ loại cho tiếng Việt sử dụng phần mềm VnQtag [19] với gán nhãn mức 1 (9 nhãn từ vựng, 10 nhãn cho các loại ký hiệu) và tiếng Anh với phần mềm CRFTagger (http://crftagger.sourceforge.net/) (nhãn theo PennTree Bank); phân tích hình thái cho tiếng Anh sử dụng phần mềm morpha [15] để trích ra lemma cho các

từ tiếng Anh

- Ngoài ra chúng tôi cũng phát triển các công cụ chuyển đổi dữ liệu cho phù hợp với định dạng và yêu cầu đầu vào của Moses

5.1.3 Công cụ đánh giá chất lượng hệ dịch

Các mô hình dịch được đánh giá và so sánh thông qua điểm NIST và BLEU (http://www.nist.gov/speech/tests/mt/2008/scoring.html)

5.1.4 Baseline system

Trang 11

Baseline system dùng Moses decoder (http://www.statmt.org/moses/) - một hệ thống nguồn mở phrase-based SMT hoàn chỉnh với mô hình ngôn ngữ sử dụng SRILM toolkit (http://www.speech.sri.com/projects/srilm/), gióng hàng từ trong quá trình training được thực hiện thông qua GIZA++ (http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/)

Hệ thống baseline được thử nghiệm trên máy Intel Xeon 3.4GHz, 1GB RAM

5.2 Các kết quả ban đầu

Hệ thống được thực nghiệm dựa trên baseline system với mô hình ngôn ngữ (LM) được huấn luyện bằng SRILM toolkit với 268MB dữ liệu đơn ngữ tiếng Việt Dữ liệu song ngữ về lĩnh vực công nghệ thông tin chúng tôi thu thập được là 4843 cặp câu song ngữ được mô tả chi tiết như sau:

Corpus Độ dài TB câu Tokens Token types

Chúng tôi đã tiến hành thực nghiệm với dữ liệu gồm: Tập huấn luyện gồm 4843 cặp câu

và tập kiểm thử 186 câu tiếng Anh trích ra từ tập huấn luyện

5.2.1 Các mô hình thực nghiệm

Do đặc điểm của tiếng Việt là ngôn ngữ đơn lập, không có sự biến đổi hình thái của từ nên thông tin về hình thái từ (morphology) chỉ có đối với ngôn ngữ nguồn (tiếng Anh) Chúng tôi tiến hành 3 thử nghiệm sau:

5.2.1.1 Baseline system (T) – word level only

Ngày đăng: 20/10/2016, 07:33

HÌNH ẢNH LIÊN QUAN

Hình 2: Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện. - BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt
Hình 2 Tích hợp thêm các lớp thông tin về lemma, POS vào dữ liệu huấn luyện (Trang 7)
Hình 1: Một ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích. - BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt
Hình 1 Một ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích (Trang 7)
Bảng 5.1: Dữ liệu đơn ngữ phục vụ cho việc xây dựng language model - BÁO CÁO KĨ THUẬT SP3 - Hệ dịch Anh-Việt
Bảng 5.1 Dữ liệu đơn ngữ phục vụ cho việc xây dựng language model (Trang 9)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w