THAY đổi TRỌNG số mô HÌNH GIẢI mã TRONG DỊCH máy THỐNG kê

VII-O-13 THAY ĐỔI TRỌNG SỐ MÔ HÌNH GIẢI MÃ TRONG DỊCH MÁY THỐNG KÊ Lê Phúc Thịnh Trường Đại học Tôn Đức Thắng lephucthinh@tdt.edu.vn TÓM TẮT Mỗi cặp ngôn ngữ khác nhau sẽ có những đặc

Trang 1

VII-O-13

THAY ĐỔI TRỌNG SỐ MÔ HÌNH GIẢI MÃ TRONG DỊCH MÁY THỐNG KÊ

Lê Phúc Thịnh

Trường Đại học Tôn Đức Thắng

lephucthinh@tdt.edu.vn

TÓM TẮT

Mỗi cặp ngôn ngữ khác nhau sẽ có những đặc thù khác nhau, vì thế mô hình dịch máy thống kê dựa trên cụm từ (Phrase-based Statistical Machine Translation – PBSMT) dùng bộ trọng số để điều chỉnh cho phù hợp với các đặc thù này và giá trị của chúng được học từ ngữ liệu trong giai đoạn tối ưu các tham số Giai đoạn này cải thiện chất lượng dịch một cách rõ rệt Tuy nhiên, trên cùng một ngôn ngữ thì các đặc thù này cũng không đồng nhất, do đó việc sử dụng giá trị bộ trọng số này một cách cứng nhắc không thay đổi trong suốt quá trình dịch sau này là một hạn chế của PBSMT Để khắc phục hạn chế này, chúng tôi phân chia ngôn ngữ ra thành những phạm vi riêng biệt sao cho trên mỗi phạm vi thì sự đa dạng và phức tạp không còn nữa và chúng tôi sẽ học các giá trị của bộ trọng số trên từng phạm vi riêng này Khi cần dịch một câu chúng tôi phân tích xem câu này thuộc phạm vi nào để dịch với bộ trọng số tương ứng Để phân chia ngôn ngữ thành các phạm vi riêng biệt chúng tôi thực hiện theo hai cách: phân chia theo đặc trưng ngôn ngữ và phân chia theo thuật toán tối đa hóa điểm BLEU Kết quả thực nghiệm trên tập ngữ liệu song ngữ Anh-Việt cho thấy hướng tiếp cận của chúng tôi giúp PBSMT tăng 0.6 điểm BLEU

Từ khóa: dịch máy thống kê, tối ưu trọng số, trọng số của mô hình giải mã

GIỚI THIỆU

Dịch máy (Machine Translation - MT) là một trong những hướng ứng dụn g chính của xử lý ngôn ngữ tự

nhiên (Natural Language Processing - NLP) Trong dịch máy có các hướng tiếp cận như: dịch máy dựa trên luật (Rule-based Machine Translation - RBMT), dịch máy dựa trên thống kê (Statistic Machine Translation - SMT), dịch máy dựa trên phương pháp lai giữa luật và thống kê (Hybrid Machine Translation) Trong các hướng tiếp

cận này, dịch máy thống kê dựa trên cụm từ (Phrase-based SMT) là mô hình dịch hiệu quả nhất

Mỗi cặp ngôn ngữ khác nhau có đặc thù khác nhau, vì thế mô hình dịch dựa trên ngữ dùng bộ trọng số để điều chỉnh cho phù hợp với các đặc thù này và giá trị của chúng được học từ ngữ liệu trong giai đoạn tối ưu các tham số.Giai đoạn này cải thiện chất lượng dịch một cách rõ rệt Tuy nhiên, trên cùng một cặp ngôn ngữ thì các đặc thù này cũng không đồng nhất, do đó việc sử dụng giá trị bộ trọng số này một cách cứng nhắc không thay đổi trong suốt quá trình dịch sau này là một hạn chế của mô hình

Nếu trong quá trình dịch ta chọn các giá trị trọng số khác nhau cho phù hợp với sự không đồng nhất của ngôn ngữ thì có thể sẽ làm tăng cao hiệu quả của quá trình dịch Xét các trường hợp về sự thay đổi trọng số của

ví dụ sau đây:

Ví dụ

Nguồn "protecting life and property is not as simple as issuing

a forecast," Hayes said

Tham khảo Ông Hayes nói , "bảo vệ cuộc sống và tài sản là không

đơn giản như việc ban hành dự báo"

Dịch với bộ

trọng số MERT

"bảo vệ tài sản và không đơn giản như phát hành một

Dịch với trọng

số khác

"bảo vệ cuộc sống và tài sản là không đơn giản như phát hành một dự báo Hayes nói, " 0.0265924 0.6703

Với ví dụ này chúng ta nhận thấy rằng chất lượng dịch có thể được cải tiến bằng cách linh động thay đổi trọng số mô hình ngôn ngữ cho phù hợp.Nhưng vấn đề đặt ra ở đây là thay đổi trọng số như thế nào là phù hợp.Để giải quyết vấn đề vừa nêu chúng tôi đi tìm cách để hiệu chỉnh trọng số của mô hình giải mã theo sự

không đồng nhất của ngôn ngữ Hướng tiếp cận của chúng tôi là sử dụng phương pháp chia để trị Chúng tôi

thực hiện gom nhóm sao cho một tập ngữ liệu không đồng nhất ban đầu sẽ được gom lại thành các tập con có sự đồng nhất cao hơn, sau đó sẽ tìm bộ trọng số tối ưu cho từng tập con này, mỗi tập con sẽ cho một bộ trọng số tối

ưu Như vậy tập hợp các bộ trọng số này sẽ giải quyết được bài toán tối ưu trọng số trên toàn cục theo phương

Trang 2

pháp chia để trị Tương tự cho khi dịch một câu ta phân lớp câu này vào một trong số các nhóm đã được chia và

dịch nó với bộ trọng số tương ứng của nhóm đó

Phần còn lại của bài báo sẽ bao gồm các nội dung sau: phần 2 trình bày về những hướng tiếp cận liên quan hiện nay, phần 3 trình bày chi tiết các bước xây dựng mô hình để giải quyết bài toán, phần 4 trình bày các thực nghiệm để đánh giá mô hình, phần 5 kết luận về tính khả thi của mô hình và định hướng phát triển

Các Công Trình Liên Quan

Các công trình tối ưu trọng số dựa trên một số phương thức như: sự tương tự (Och và Ney 2002), tối thiểu hóa tỷ lệ lỗi (MERT) (Och 2003; Bertoldi cùng cộng sự 2009; Galley và Quirk 2011), biên độ (Chiang cùng cộng sự 2008), xếp hạng (Hopkins và May 2011)trong đó MERT là phổ biến nhất

Để khắc phục sự không đồng nhất và đa dạng của ngôn ngữthì có hai nhánh chính là chọn dữ liệu và chọn trọng số: các công trình theo hướng tiếp cận chọn dữ liệu rút trích từ tập tổng quát ra tập câu có liên quan với tập hoặc câu cần dịchsau đó tối ưu lại bộ trọng số trước khi dịch (Zhao 2004;Hildebrand 2005; Lü 2007; Moore và Lewis 2010; Axelrod 2011;Liu 2012), các công trình theo hướng tiếp cận chọn trọng số gán lại trọng số cho phù hợp giữa ngữ liệu huấn luyện với câu hoặc tập các câu cần dịch (Matsoukas 2009;Mohit và cộng sự 2010; Zhao2011)

Không giống như các công trình của Zhao (2011) và Matsoukas (2009) chỉ xử lý trên những lĩnh vực chuyên biệt nào đó ví dụ như văn bản luật, văn bản thể thao…, phương pháp của chúng tôi xử lý các câu trên lĩnh vực bất kỳ Trong khi các công trình của Liu (2012), Axelrod (2011) và Lewis (2010) phải tối ưu lại giá trị

bộ trọng số trước khi dịch, phương pháp của chúng tôi tính trước giá trị các bộ trọng số, do đó tối ưu hơn về mặt thời gian

Mô Hình

Trong các hướng tiếp cận dịch máy liên quan đến việc tối ưu bộ trọng số, chúng tôi chọn hướng tiếp cận là

phân chia tập ngữ liệudùng để tối ưu bộ trọng số (chúng tôi tạm gọi tập ngữ liệu này là tập dev) thành các tập

con có tính đồng nhất cao hơn tập dev Tính đồng nhất ở đây có nghĩa là giá trị trọng số giữa các câu tương đương và xấp xỉ nhau.Tương ứng với mỗi tập con và tập dev chúng tôi tìm được một giá trị tối ưu của bộ trọng

số Khi cần dịch một câu chúng tôi phân tích xem câu này cần dịch với bộ trọng số nào trong số các bộ trọng số vừa tìm là phù hợp nhất Để phân tập dev thành các tập con chúng tôi sử dụng hai phương pháp:Gom nhóm dựa trên đặc trưng ngôn ngữ và gom nhóm dựa trên tối đa hóa điểm BLEU mà chúng tôi sẽ trình bày ở các phần tiếp theo

Mô hình gom nhóm dựa trên đặc trƣng ngôn ngữ

Trong mô hình này chúng tôi cố gắng tìm kiếm khai thác các đặc trưng ngôn ngữ có thể dùng để gom nhóm nhằm phát hiện ra các đặc trưng có ảnh hưởng đến sự phân bố giá trị của các trọng số.Đồng thời cũng dùng đặc trưng này để quyết định một câu đầu vào sẽ được dịch bằng bộ giá trị trọng số nào.Đầu tiên, chúng tôi

áp dụng cho từng đặc trưng riêng biệt để phát hiện đặc trưng nào thật sự có ảnh hưởng đến giá trị của bộ trọng

số, sau đó kết hợp các đặc trưng này lại để gom nhóm

Các đặc trưng mà chúng tôi sử dụng là cross-entropy, chiều dài câu nguồn, từ chưa biết, từ không được gióng hàng, từ được gióng hàng với nhiều từ, gióng hàng chéo

Cross-entropy

Cross-entropy của một câu cho ta biết mức độ phổ biến của câu đó, nếu một câu có cross-entropy càng nhỏ thì câu đó càng phổ biến tức là xác suất câu đó xuất hiện trong ngữ liệu càng lớn.Ngược lại nếu cross-entropy càng lớn thì xác suất xuất hiện của nó càng nhỏ

Chiều dài câu nguồn

Chiều dài của một câu cũng có thể ảnh hưởng đến bộ trọng số, vì một câu dài thì cấu trúc và ngữ nghĩa phức tạp hơn một câu ngắn.Trong thực tế, một câu dài có cấu trúc phức tạp vì nó chứa các mệnh đề chính/phụ hoặc các cấu trúc lồng ghép nhau Do đó, việc phân chúng ra thành hai nhóm: nhóm câu dài và nhóm câu ngắn

để xử lý cũng có thể đem lại hiệu quả tốt hơn

Từ chưa biết

Khi dịch một câu đầu vào hệ thống có thể gặp phải một từ chưa từng xuất hiện trong dữ liệu học.Trong trường hợp ngữ liệu song ngữ đủ lớn, từ này có thể là dấu hiệu cho một câu ít xuất hiện hoặc thuộc một lĩnh vực khác Do đó, từ chưa biết cũng có thể là một đặc trưng để gom nhóm ngữ liệu

Từ không được gióng hàng

Từ không được gióng hàng thể hiện sự không đồng bộ giữa hai ngôn ngữ Ta có thể hiểu một từ không được gióng hàng của ngôn ngữ nguồn là từ mà không được dịch bằng bất kỳ từ nào trong ngôn ngữ đích Từ không được gióng hàng là một thách thức lớn đối với dịch máy thống kê.Khi xuất hiện một từ không được gióng hàng thì có thể coi đây là một trường hợp đặc biệt và được xử lý riêng Do đó trong phương pháp này chúng tôi

Trang 3

chia tập dev thành hai nhóm, nhóm các câu có từ không được gióng hàng và nhóm các câu không có từ không được gióng hàng

Từ được gióng hàng với nhiều từ

Một thử thách nữa của hệ thống dịch máy thống kê là trường hợp một từ được gióng hàng với nhiều từ.Từ gióng hàng với nhiều từ là từ (thuộc ngôn ngữ nguồn) được dịch thành 1 ngữ (gồm nhiều từ) trong ngôn ngữ đích.Từ gióng hàng với nhiều từ sẽ dẫn đến chiều dài câu nguồn và câu đích không đồng bộ với nhau Nó có thể

là nhân tố ảnh hưởng đến bộ trọng số, do đó trong phương pháp này chúng tôi chia tập tối thành hai nhóm, nhóm các câu có từ gióng hàng với nhiều từ (nhóm đa gióng hàng) và nhóm các câu không có từ gióng hàng với nhiều

từ (nhóm đơn gióng hàng)

Gióng hàng chéo

Gióng hàng chéo là một thách thức lớn nhất đối với dịch máy thống kê, đặc biệt là đối cặp song ngữ Anh-Việt thì mức độ gióng hàng chéo rất cao.Đây cũng là một yếu tố có thể ảnh hưởng rất lớn đến bộ trọng số.Vì thế chúng tôi cố gắng phân chúng ra thành những trường hợp riêng biệt để xử lý.Trong phần này chúng tôi phân tập dev thành hai nhóm là nhóm gióng hàng chéo và nhóm thường

Gom nhóm dựa trên tối đa hóa điểm BLEU

MERT thực hiện tối ưu bộ trọng số bằng cách giảm tối đa tỉ lệ lỗi nhằm tăng tối đa điểm BLEU trong tập dev với kỳ vọng rằng bộ trọng số này cũng đem lại hiệu quả cao nhất cho tập kiểm nghiệm Áp dụng ý tưởng này chúng tôi cũng tìm phương pháp để tối đa hóa điểm BLEU trên tập dev và sau đó áp dụng lại cho tập kiểm nghiệm với hy vọng là mang lại hiệu quả tốt nhất cho tập kiểm nghiệm

Bộ giá trị trọng số mà MERT tìm được chỉ là bộ trọng số tối ưu trên toàn tập dev chứ không tối ưu trên tất

cả các câu Có rất nhiều câu dịch bằng trọng số khác cho điểm BLEU cao hơn nhiều so với trọng số của MERT, bảng 1 trình bày kết quả thống kê của chúng tôi về việc tăng điểm BLEU bằng cách dịch với những trọng số khác Điều này cho thấy rằng chỉ có một bộ trọng số sẽ không thể hiện được sự đa dạng của ngôn ngữ.Do đó cần phải chia tập dev thành các tập con có độ đồng nhất cao hơn

Một cách tiếp cận khác ngoài cách tiếp cận sử dụng đặc trưng ngôn ngữ để phân chia tập dev thành các tập con có độ đồng nhất cao hơn là dựa trực tiếp trên điểm BLEU Điểm BLEU là tiêu chuẩn vàng để đánh giá độ đồng nhất giữa hai tập câu A và B Chúng tôi gọi 𝜆𝐴 là bộ giá trị tối ưu của tập A, 𝜆𝐵 là bộ giá trị tối ưu của tập

B, độ bất đồng nhất của tập A là Δ𝐴𝐵𝐿𝐸𝑈 =𝑛1 𝑛 (𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝜆𝐴)

𝑖=1 và độ bất đồng nhất của tập B là

Δ𝐵𝐵𝐿𝐸𝑈 =𝑚1 𝑚 (𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝜆𝐵)

𝑖=1 trong đó n là số câu của tập A, m là số câu tập B, 𝐵𝐿𝐸𝑈𝑖𝜆𝐴 là điểm

BLEU của câu thứ i dịch với bộ trọng số 𝜆𝐴, 𝐵𝐿𝐸𝑈𝑖𝜆𝐵 là điểm BLEU của câu thứ i dịch với bộ trọng số 𝜆𝐴, 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 là điểm BLEU tối đa của câu thứ i có thể dịch bằng bất cứ bộ trọng số nào Nếu Δ𝐴𝐵𝐿𝐸𝑈 < Δ𝐵𝐿𝐸𝑈𝐵 ta nói tập A có độ đồng nhất cao hơn tập B

Bảng 1 So sánh điểm BLEU giữa bộ trọng số của MERT và 9 bộ trọng số khác trên tập dev

Tổng số câu Số câu tăng điểm Trung bình số điểm tăng/1 câu

Mục đích của việc chia tập dev thành các tập con là nhằm tìm cho mỗi câu một bộ trọng số tối ưu sao cho điểm BLEU của câu đó cao nhất Chúng tôi lấy điểm BLEU tối ưu của MERT làm điểm cơ sở Thuật toán gồm các bước như sau:

Bước 1: Tính điểm BLEU cao nhất cho từng câu trong tập dev (𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥), tối ưu và dịch tương ứng trên từng câu

Bước 2: Tính điểm BLEU trên từng câu trong tập dev (𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇) bằng trọng số của tập dev

Bước 3: Tính (∆𝐵𝐿𝐸𝑈𝑖) khả năng điểm BLEU có thể tăng so với điểm BLEU trong bước 1 cho từng câu trong tập dev bằng công thức (3.2.5)

∆𝐵𝐿𝐸𝑈𝑖 = Max 0, 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇

(3.2.5) Khởi tạo cho tổng số nhóm (N=0)

Bước 4: Tìm trong tập dev câu có BLEU lớn nhất (chỉ tìm một câu) Tối ưu trọng số cho câu vừa tìm được bằng MERT

Bước 5: Dịch lại tập dev sử dụng bộ trọng số vừa tìm được ở bước 4 và tính điểm BLEU cho từng câu (𝐵𝐿𝐸𝑈𝑖𝑗)

Trang 4

Bước 6: Lưu danh sách điểm BLEU vào mảng, tăng số nhóm lên 1 (N=N+1) và cập nhật ∆BLEU cho từng câu bằng công thức (3.2.6)

∆𝐵𝐿𝐸𝑈𝑖 = Min 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑗, 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇

(3.2.6) Bước 7: Nếu còn tồn tại ∆𝐵𝐿𝐸𝑈𝑖 > 0 thì quay về bước 4

Bước 8: Nếu không còn ∆BLEUi> 0 thì ta có kết quả tổng số nhóm là N nhóm Câu i thuộc vào nhóm j khi mà điểm BLEUij là lớn nhất với 1  i  tổng số câu trong tập dev, 1  j  N

Sau khi áp dụng thuật toán tối đa hóa điểm BLEU thì sẽ xuất hiện nhiều nhóm nhỏ rất đặc thù với số lượng câu rất ít, để giảm độ phức tạp tính toán và nhiễu chúng tôi nhập những nhóm này vào nhóm lớn gần nhất với nó.Các nhóm có số câu lớn hơn số câu của nhóm dịch bằng trọng số của MERT là nhóm lớn, các nhóm còn lại là nhóm nhỏ.Sau đó đi tìm giá trị tối ưu tương ứng cho tường nhóm lớn này

Một vấn đề ở đây là khi cần dịch câu đầu vào chúng tôi sẽ phải dịch bằng bộ trọng số nào? Chúng tôi sẽ giải quyết bài toán này theo hai cách Thứ nhất chúng tôi sẽ dùng các đặc trưng như TF-IDF, cross-entropy, chiều dài câu nguồn, từ chưa biết, từ không được gióng hàng, từ được gióng hàng với nhiều từ, gióng hàng chéo

để phân lớp cho câu đầu vào, thứ hai chúng tôi dịch câu đầu vào với tất cả các bộ trọng số và sử dụng mô hình xếp hạng để chọn câu đầu ra tốt nhất

Phân lớp cho câu đầu vào theo các đặc trƣng

Phân lớp dựa trên TF-IDF

Tương tự như các công trình Lü cùng cộng sự (2007) và Liu cùng cộng sự (2012) chúng tôi sử dụng tf-idf

để đo sự tương tự của câu đầu vào với các phân nhóm Sau đó phân nhóm cho câu đầu vào dựa vào độ đo này, câu được phân vào nhóm nào sẽ được dịch bằng bộ trọng số của nhóm đó

Phân lớp dựa trên các đặc trưng ngôn ngữ

Một khi chúng tôi đã gom nhóm được ngữ liệu huấn luyện và có các bộ trọng số tối ưu tương ứng, thì vấn

đề còn lại là làm thế nào để phân lớp chính xác câu đầu vào để nó được dịch với bộ trọng số tốt nhất và mang lại kết quả cao nhất Chúng tôi chọn một công cụ điển hình cho bài toán phân lớp là công cụ SVM(Support Vecter Machine) Trong thử nghiệm này chúng tôi sử dụng công cụ multi-SVM để phân lớp

Để SVM đạt được hiệu quả tốt thì cần có một tập các đặc trưng tốt vì câu đầu vào thuộc ngôn ngữ nguồn nên chúng tôi chỉ có thể khai thác các đặc trưng trên ngôn ngữ nguồn Các đặc trưng mà chúng tôi sử dụng để phân lớp gồm các đặc trưng như sau:

Trung bình tần số của các từ trong câu

Cross-entropy của câu

Chiều dài câu

Số từ chưa biết trong câu

Trung bình xác suất gióng hàng chéo của các từ trong câu

Trung bình số từ không gióng hàng của một câu

Trung bình số từ đa gióng hàng trong một câu

Số từ chức năng trong một câu

Các từ xuất hiện trên 5 lần

Công cụ multi-SVM cần một tập huấn luyện để học trước khi phân lớp và chúng tôi sử dụng tập dev để làm tập huấn luyện với số phân lớp chính là số nhóm đã được gom bằng phương pháp tối đa hóa điểm BLEU Sau khi phân lớp cho các đầu vào thì chúng tôi tiến hành dịch với trọng số tương ứng cho từng câu

Xếp hạng câu đầu ra

Tương ứng với số bộ trọng số của giai đoạn gom nhóm chúng tôi có số câu dịch ứng cử viên Chúng tôi phải cho ra một ứng cử viên dịch tốt nhất Chúng tôi so sánh ứng cử viên của MERT lần lượt với các ứng cử viên khác Như vậy mỗi lần so sánh chúng tôi chỉ so sánh hai ứng cử viên Nếu không có ứng viên nào tốt hơn ứng viên của MERT chúng tôi sẽ chọn nó làm câu dịch cuối cùng, nếu có nhiều ứng viên tốt hơn MERT chúng tôi sẽ chọn ứng viên của bộ trọng số có số câu trong nhóm nhiềuhơn

Mô hình xếp hạng của chúng tôi phân làm hai giai đoạn: giai đoạn phân loại các cặp câu dịch và giai đoạn phân tích quyết định chọn ứng cử viên tốt nhất

Phân loại các cặp câu dịch

Theo quan sát và phân tích của chúng tôi thì sự khác biệt của hai ứng cử viên dịch bắt nguồn từ ba lỗi sai

cơ bản sau: lỗi chọn sai nghĩa, lỗi trật tự từ, lỗi chèn hoặc xóa từ không hợp lý Dựa trên nguồn gốc hình thành

sự khác biệt này chúng tôi chia chúng thành bốn loại để xử lý riêng

Trang 5

Loại 1: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi chọn sai từ

Loại 2: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi trật tự từ

Loại 3: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi chèn hoặc xóa từ không hợp lý

Loại 4: Tổng hợp các trường hợp, có thể bao gồm cả ba lỗi

Chọn ứng cử viên tốt nhất

Để xếp hạng cho hai ứng cử viên dịch, một là ứng cử viên dịch bằng bộ trọng số của MERT và ứng cử viên còn lại là ứng cử viên được dịch bằng một trong số các bộ trọng số của nhóm lớn được tạo ra trong giai đoạn tối

ưu hóa điểm BLEU, chúng tôi phân loại chúng vào một trong số bốn loại đã nêu như trên vàsau đó xử lý như sau:

Nếu là loại 1, 2, 3 chúng tôi sử dụng tiêu chí Ngram trùng khớp với ngữ liệu để so sánh hai ứng cử viên dịch và chọn ứng cử viêntốt hơn.Nếu tiêu chí này không phân biệt ứng cử viên nào tốt hơn chúng tôi sẽ chọn ứng

cử viên dịchbằngbộ trọng số của MERT.Nếu là loại 4 chúng tôi sẽ chọn ứng cử viên của MERT

KÊT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của chúng tôi, đồng thời so sánh hiệu quả dịch của mô hình với mô hình của Och (2003)

Ngữ liệu

Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là một phần của bộ ngữ liệu song ngữ Anh – Việt của nhóm VCL (Vietnamese Computation Linguistic) gồm 20000 câu được chuẩn hóa theo tiêu chí: đồng bộ về mặt nội dung, đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng,…), kiểm lỗi chính

tả, loại bỏ câu trùng, tất cả các từ trong câu đều được viết thường nhằm làm giảm độ nhiễu loạn trong đánh giá chất lượng dịch

Ngữ liệu được chia ngẫu nhiên thành 3 tập con: tập huấn luyện (Train), tập tối ưu (Dev), tập kiểm nghiệm (Test) lần lượt theo tỉ lệ 9:0,5:0,5 Các đặc trưng của ngữ liệu được trình bày trong bảng 2

Bảng 2 Các đặc trưng của ngữ liệu Tập NL Số cặp câu Chiều dài trung bình câu

Tiêu chuẩn đánh giá chất lƣợng dịch

Trong bài báo này, chúng tôi sử dụng BLEU (Bilingual Evaluation Understudy) của Kishore Papineni và cộng sự (2002), đây là một độ đo thường được sử dụng trong dịch máy thống kê BLEU là thuật giải đánh giá chất lượng của kết quả do máy dịch so với câu tham chiếu do con người dịch và được dùng phổ biến nhất hiện nay Câu kết quả càng gần với người dịch thì được đánh giá càng cao.Ý tưởng chính của phương pháp này là tìm xem n-gram trong câu dịch có thuộc câu tham chiếu không Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4-gram BLEU sẽ được tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các n-gram ở câu dịch tự động và câu dịch tham chiếu Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới Với độ đo BLEU thì điểm càng cao nghĩa là hệ thống dịch càng tốt

Kết quả thực nghiệm

Mô hình gom nhóm dựa trên đặc trưng ngôn ngữ

Để tránh trường hợp số lượng câu trong từng nhóm con không đủ lớn để tiến hành tối ưu trọng số, chúng tôi chỉ chia tập dev (1000 câu) thành hai nhóm và chọn ngưỡng sau cho hai nhóm con có số lượng câu gần bằng nhau

Cross-entropy

Trong thử nghiệm này chúng tôi chỉchia tập devthành hai nhóm.Nhóm phổ biến là nhóm các câu có perplexity nhỏ hơn 5.8, nhóm không phổ biếnlà nhóm các câu có perplexity lớn hơn 5.8.sau đó dụng phương pháp MERT để tối ưu hóa trọng số và cũng dùng ngưỡng này cho câu đầu vào

Chúng tôi thử nghiệm trên 3 hình thức dịch như sau và so sánh với MERT:

Dịch PB-M: dịch phân lớp phổ biến bằng bộ trọng số phổ biến, phân lớp không phổ biến bằng bộ trọng số của MERT

Trang 6

Dịch M-KPB: dịch phân lớp phổ biến bằng bộ trọng số MERT, phân lớp không phổ biến bằng bộ trọng số không phổ biến

Dịch PB-KPB: dịch tương ứng phân lớp phổ biến bằng bộ trọng số phổ biến, phân lớp không phổ biến bằng bộ trọng số không phổ biến

Chiều dài câu nguồn

Trong thử nghiệm này, chúng tôi dùng ngưỡng 26 từ (token) phân lớp cũng như chia nhóm.Câu có số từ nhỏ hơn 26được xem là câu ngắn, câu có số từ lớn hơn 26được xem là câu dài

Chúng tôi cũng thử nghiệm trên 3 hình thức dịch như sau và so sánh với MERT:

Dịch N-M: dịch phân lớp câu ngắn bằng bộ trọng số câu ngắn, phân lớp câu dài bằng bộ trọng số MERT Dịch M-D: dịch phân lớp câu ngắn bằng bộ trọng số MERT, phân lớp câu dài bằng bộ trọng số câu dài Dịch N-D: dịch tương ứng phân lớp câu ngắn bằng bộ trọng số câu ngắn, phân lớp câu dài bằng bộ trọng số câu dài

Từ chưa biết

Trong thử nghiệm này, chúng tôi chia tập dev vào hai nhóm, nhóm dễ dịch và nhóm khó dịch.Các câu có từ chưa biết vào nhóm khó dịch, các câu còn lại vào nhóm dễ dịch.Và cũng thử nghiệm trên 3 hình thức dịch sau đó

so sánh với MERT

Dịch DB-M: dịch phân lớp chưa biết với bộ trọng số chưa biết, phân lớp chưa biết với bộ trọng số MERT Dịch M-CB: dịch phân lớp chưa biết với bộ trọng số MERT, phân lớp chưa biết với bộ trọng số chưa biết Dịch CB-DB: dịch tương ứng phân lớp chưa biết với bộ trọng số chưa biết, phân lớp đã biết với bộ trọng số

đã biết

Từ không được gióng hàng

Kết quả tính toán trên tập dev cho ta thấy rằng trung bình xác suất số từ không gióng hàng trong một câu

lớn nhất là 0.140284 nhỏ nhất là 0.006356 và trung bình là 0.055114.Chúng tôi quyết định dùng giá trị trung

bình làm ngưỡng để chia tập dev thành hai nhóm và khi dịch chúng tôi cũng thử nghiệm trên 3 hình thức và so sánh với MERT

Dịch KGH-M: dịch phân lớp từ không gióng hàng với bộ trọng từ không gióng hàng, phân lớp không có từ không gióng hàng với bộ trọng số MERT

Dịch M-GH: dịch phân lớp từ không gióng hàng với bộ trọng số MERT, phân lớp không có từ không gióng hàng với bộ trọng số không có từ không gióng hàng

Dịch KGH-GH: dịch phân lớp từ không gióng hàng với bộ trọng từ không gióng hàng, phân lớp không có

từ không gióng hàng với bộ trọng số không có từ không gióng

Từ được gióng hàng với nhiều từ

Chúng tôi sử dụng 0.817738 làm ngưỡng để phân chia tập dev và phân lớp câu đầu vào thành hai

nhóm.Chúng tôi cũng thử nghiệm trên 3 hình thức dịch và so sánh với MERT

Dịch DA-M: dịch phân lớp từ đa gióng hàng với bộ trọng từ đa gióng hàng, phân lớp đơn gióng hàng với

bộ trọng số MERT

Dịch M-DON: dịch phân lớp đa gióng hàng với bộ trọng số MERT, phân lớp đơn gióng hàng với bộ trọng

số đơn gióng hàng

Dịch DA-DON: dịch phân lớp từ đa gióng hàng với bộ trọng từ đa gióng hàng, phân lớp đơn gióng hàng với bộ trọng số đơn gióng hàng

Gióng hàng chéo

Chúng tôi cũng tính toán được xác suất gióng hàng chéo trên từng câu trong tập dev với giá cao nhất

0.6327, thấp nhất 0.2005 và trung bình 0.3960.Chúng tôi sử dụng ngưỡng 0.3960 để chia tập dev thành hai

nhóm, sau đó sử dụng chúng để tối ưu trọng số.Chúng tôi cũng thử nghiệm trên 3 hình thức dịch và so sánh với MERT

Dịch GHC-M: dịch phân lớp gióng hàng chéo với bộ trọng gióng hàng chéo, phân lớp gióng hàng thường với bộ trọng số MERT

Dịch M-GHT: dịch phân lớp gióng hàng chéo với bộ trọng số MERT, phân lớp gióng hàng thường với bộ trọng số gióng hàng thường

Dịch GHC-GHT: dịch phân lớp gióng hàng chéo với bộ trọng gióng hàng chéo, phân lớp gióng hàng thường với bộ trọng số gióng hàng thường

Kết hợp các đặc trưng

Trang 7

Chúng tôi sử dùng 6 đặc trưng trên để gom nhóm và sử dụng phương pháp K-Means và độ đo khoảng cách euclidean để gom nhóm

Kết quả

Toàn bộ kết quả thực nghiệm của phương pháp gom nhóm dựa trên các đặc trưng ngôn ngữ được trình bày trong bảng 3, kết quả này cho thấy rằng việc thay đổi trọng số theo các đặc trưng hầu hết là giúp cho hệ thống dịch tốt hơn Có trường hợp cho điểm BLEU tăng đến 0.65 điểm

Bảng 3 Kết quả thực nghiệm trên đặc trưng ngôn ngữ

Cross entropy

Chiều dài câu

Từ chưa biết

Từ không gióng

hàng

Không gióng hàng-gióng hàng 43.95 9.7315

Từ đa gióng hàng Đa gióng hàng-MERT 43.70 9.6901

Đa gióng hàng-đơn gióng hàng 43.95 9.7327 Gióng hàng chéo

Gióng Hàng Chéo-Gióng HàngThường 43.42 9.6160 Tổng hợp các đặc

Gom nhóm dựa trên tối đa hóa điểm BLEU

Chúng tôi áp dụng thuật toán này lên 1000 câu của tập dev và thu được 83 nhóm Trong các nhóm này, nhóm có số câu ít nhất là 1 câu, nhóm có số câu nhiều nhất là 57 câu, nhóm với trọng số của MERT là 39 câu Chúng tôi lấy con số 39 này làm ngưỡng cho việc loại bỏ các nhóm quá đặc trưng (các nhóm có số câu <39) Sau khi loại bỏ các nhóm đặc trưng quá riêng biệt chúng tôi giữ lại 14 nhóm trong đó nhóm 0 là nhóm sử dụng trọng

số của MERT (39 câu) 13 nhóm còn lại là 13 nhóm có số lượng câu lớn hơn 39, chúng tôi tạm gọi các nhóm này

là các nhóm MAX BLEU Các câu thuộc các nhóm bị loại bỏ sẽ được phân lại vào 14 nhóm MAX BLEU dựa vào điểm BLEU của chúng Các câu này sẽ được dịch bằng 14 bộ trọng số của các nhóm MAX BLEU, câu có điểm BLEU lớn nhất với trọng số nào sẽ được phân vào nhóm đó Bảng 4 trình bày số lượng câu của 14 nhóm MAX BLEU sau khi được phân phối lại

Bảng 4 Số câu của các nhóm MAX BLEU

Số câu 218 117 142 129 126 110 105 128 120 116 133 128 89 122 Sau khi đã phân phối lại 14 nhóm chúng tôi tiến hành khảo sự gia tăng điểm BLEU của phương pháp gom nhóm này so với MERT Bảng 5 trình bày kết quả khảo sát của chúng tôi Kết quả trong bảng 5 cho thấy rằng MERT tăng được gần 4 điểm BLEU trong khi phương pháp gom nhóm tăng hơn 9 điểm BLEU

Bảng 5 Khảo sát sự tăng điểm BLEU trên tập dev

Trang 8

Mặt khác, chúng tôi cũng khảo sát chất lượng của 14 nhóm này bằng cách dùng chúng để dịch và tính điểm BLEU trên tập kiểm nghiệm Bảng 6 trình bày điểm BLEU của tập kiểm nghiệm với 14 bộ trọng số trên.Đồng thời chúng tôi cũng thống kê số câu có điểm BLEU tốt nhất tương ứng với từng bộ trọng số trong bảng 7

Bảng 6 Kết quả dịch tập kiểm nghiệm với các bộ trọng số MAX BLEU

BLEU 43.7

9

39.2

0

41.5

1

42.2

0

42.6

8

41.0

2

39.0

7

43.8

7

42.6

4

40.4

6

43.4

8

41.5

1

35.4

8

42.7

0

Bảng 7 Tỉ lệ các câu có điểm BLEU tốt nhất trên các nhóm

3

05.2

5

06.8

7

07.5

1

08.3

7

06.7

6

04.6

2

09.2

4

07.5

6

05.4

3

08.5

5

08.0

8

03.6

4

07.7

9

Phân lớp cho câu đầu vào theo các đặc trưng

Bảng 8 Kết quả thử nghiệm trên tf-idf

Xếp hạng câu đầu ra

Bảng 9 Kết quả thử nghiệm trên mô hình gom nhóm - xếp hạng

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong luận văn này, chúng tôi đã xây dựng được một hệ thống dịch máy thống kê Anh-Việt có thể tự động chọn bộ giá trị trọng số cho phù hợp với một câu đầu vào bất kỳ Các đặc trưng ngôn ngữ như cross-entropy, chiều dài câu nguồn, từ chưa biết, từ không được gióng hàng, từ được gióng hàng với nhiều từ và gióng hàng chéo là các đặc trưng tốt giúp hệ thống chọn lựa đúng giá trị trọng số làm cho chất lượng dịch của hệ thống cải thiện lên đến 0.6 điểm BLEU

Ngoài ra, chúng tôi cũng xây dựng được một thuật toán để gom nhóm tập dev thành các nhóm con có sự đồng nhất về trọng số dựa trên điểm BLEU Tuy nhiên, độ đo TF-IDF và các đặc trưng ngôn ngữ dùng trong phân lớp SVM không nhận biết được chính xác các nhóm này Bên cạnh đó chúng tôi xây dựng một phương pháp xếp hạng câu đầu ra với ứng cử viên xếp hạng là các câu dịch với bộ trọng số của các nhóm trên, với phương pháp này tuy không làm tăng điểm BLEU nhưng cho ra các câu dịch tốt hơn về mặt ý nghĩa

Thế mạnh của các phương pháp trong luận văn này là đơn giản và có thể áp dụng cho bất kỳ cặp ngôn ngữ nào Các đặc trưng mà chúng tôi sử dụng là các đặc trưng rất phổ biến

Hạn chế của chúng tôi là chỉ khai thác trên tập dev do đó kết quả phụ thuộc rất nhiều vào tập ngữ liệu này Nếu tập dev không đại diện được cho sự đa dạng của ngôn ngữ hoặc bị nhiễu hoặc quá chuyên biệt sẽ ảnh hưởng xấu đến kết quả dịch

Trong tương lai, đề tài có thể phát triển theo các hướng như sau:

Áp dụng cho các cặp ngôn ngữ khác

Khảo sát thêm các đặc trưng khác, đặc biệt là các đặc trưng trên ngôn ngữ tiếng Việt để có thể tăng độ chính xác cho giai đoạn phân lớp câu đầu vào

Tìm kiếm một phương pháp để chọn lọc ngữ liệu cho tập dev đảm bảo được chất lượng

TÀI LIỆU THAM KHẢO

[1] Stolcke (2002), SRILM An Extensible Language Modeling Toolkit Proc Intl Conf on Spoken Language Processing, vol 2, pp 901-904, Denver

Trang 9

[2] Almut Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel 2005 Adaptation of the Translation Model for Statistical Machine translation based on Information Retrieval In Proceedings of EAMT,

Budapest, Hungary

[3] Amittai Axelrod, Xiaodong He and Jianfeng Gao 2011 Domain Adaptation via Pseudo Indomain Data

Selection Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing ,

355-362, Edinburgh, July, 2011

[4] Behrang Mohit, Rebecca Hwa and Alon Lavie 2010 Using Variable Decoding Weight for Language

Model in Statistical Machine Translation In The Proceedings of the 9th Conference of the Association for Machine Translation in the Americas, Colorado

[5] Bing Zhao, Matthias Eck and Stephan Vogel 2004 Language Model Adaptation for Statistical Machine

Translation with Structured Query Models In Proceedings of International Conference on Computational Linguistics(COLING), Geneva, August

[6] Bing Zhao and Shengyuan Chen 2009 A simplex armijo downhill algorithm for optimizing statistical

machine translation decoding parameters In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, NAACL-Short ’09, pages 21–24, Stroudsburg, PA, USA Association

for Computational Linguistics

[7] Cortes, C., & Vapnik, V (1995) Support-vector networks Machine learning, 20(3), 273-297

[8] David Chiang, Yuval Marton, and Philip Resnik 2008 Online large-margin training of syntactic and

structural translation features In Proceedings of the Conference on Empirical Methods in Natural Language Processing, EMNLP ’08, pages 224–233, Stroudsburg, PA, USA Association for

Computational Linguistics

[9] Eisen, Michael B., et al "Cluster analysis and display of genome-wide expression patterns." Proceedings

of the National Academy of Sciences 95.25 (1998): 14863-14868

[10] Franz Josef Och and Hermann Ney 2002 Discriminative training and maximum entropy models for

statistical machine translation In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, ACL ’02, pages 295–302, Stroudsburg, PA, USA Association for

Computational Linguistics

[11] Franz Josef Och and Hermann Ney "A Systematic Comparison of Various Statistical Alignment

Models", Computational Linguistics, volume 29, number 1, pp 19-51 March 2003

[12] Franz Och 2003 Minimum Error Rate Training in Statistical Machine Translation In Proceedings of the 41th Annual Meeting of the Association for Computational Linguistic (ACL), Sapporo, Japan

[13] George Foster, Cyril Goutte and Roland Kuhn 2010 Discriminative Instance Weighting for Domain

Adaptation in Statistical Machine Translation Proceedings of the 2010 Conference on Empirical Methods

in Natural Language Processing, 451-459, MIT, Massachusetts, USA, October 2010

[14] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu 2002 Bleu: a Method for Automatic

Evaluation of Machine Translation In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistic (ACL) 311-318

[15] Lemao Liu, Hailong Cao, TaroWatanabe, Tiejun Zhao, Mo Yu, CongHui Zhu 2012 Locally Training the

Log-Linear Model for SMT Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 402–411, Jeju Island,

Korea, 12–14 July 2012 2012 Association for Computational Linguistics

[16] Manning, C D.; Raghavan, P.; Schutze, H (2008) "Scoring, term weighting, and the vector space

model" Introduction to Information Retrieval p 100

[17] Mark Hopkins and Jonathan May 2011 Tuning as ranking In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 1352–1362, Edinburgh, Scotland, UK., July

Association for Computational Linguistics

[18] Michel Galley and Chris Quirk 2011 Optimal search for minimum error rate training In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pages 38–49, Edinburgh,

Scotland, UK., July Association for Computational Linguistics.ssociation for Computational Linguistics [19] Phil Blunsom, Trevor Cohn, and Miles Osborne 2008 A discriminative latent variable model for

statistical machine translation In Proceedings of ACL, pages 200–208, Columbus, Ohio, June

[20] Philipp Koehn and Josh Schroeder 2007 Experiments in Domain Adaptation for Statistical Machine

Translation In Proceedings of the Second Workshop on Statistical Machine Translation, 224-227,

Prague, June 2007

[21] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondˇej Bojar, Alexandrar

Trang 10

Constantin, and Evan Herbst 2007 Moses: open source toolkit for statistical machine translation In Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions, ACL ’07, pages 177–180, Stroudsburg, PA, USA Association for Computational Linguistics

[22] Philipp Koehn Statistical machine translation Cambridge University Press, 2009

[23] Robert C Moore and William Lewis 2010 Intelligent Selection of Language Model Training Data In Proceedings of the ACL 2010 Conference Short Papers, 220-224, Uppsala, Sweden

[24] Spyros Matsoukas, Antti-Veikko Rosti and Bing Zhang 2009 Discriminative Corpus Weight Estimation

for Machine Translation In Proc of the Conference on Empirical Methods in Natural Language Processing, 160-167

[25] Yajuan Lü, Jin Huang and Qun Liu 2007 Improving Statistical Machine Translation Performance by Training Data Selection and Optimization Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 343-350

[26] Yinggong Zhao, Yangsheng Ji, Ning Xi, Shujian Huang and Jiajun Chen 2011 Language ModelWeight Adaptation Based on Cross-entropy for Statistical Machine Translation In Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation, page 20-30

Định dạng
Số trang	10
Dung lượng	1,16 MB