Phương pháp chuyển ngữ dựa trên kỹ thuật dịch máy thống kê: Kỹ thuật dịch máy thống kê đã phát triển từ rất lâu, kỹ thuật này thực hiện việc dịch một ngôn ngữ này hay còn gọi là ngôn ngữ
Trang 1CAO XUÂN NAM
MÔ HÌNH CHUYỂN NGỮ TIẾNG NƯỚC NGOÀI TRONG HỆ THỐNG TỔNG HỢP TIẾNG NÓI
Trang 2MỤC LỤC
MỤC LỤC i
DANH SÁCH CÁC HÌNH iii
DANH SÁCH CÁC BẢNG iv
DANH SÁCH CÁC TỪ VIẾT TẮT v
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Đặt vấn đề 1
1.2 Hướng tiếp cận đề tài 3
1.3 Nội dung luận văn 4
CHƯƠNG 2 TỔNG QUÁT 6
2.1 Bài toán chuyển ngữ 6
2.2 Các hướng tiếp cận giải quyết bài toán 6
2.2.1 Phương pháp dựa trên từ điển 6
2.2.2 Phương pháp dựa trên luật 6
2.2.3 Phương pháp hướng dữ liệu 8
2.2.3.1 Những kỹ thuật dựa trên phân lớp cục bộ 8
2.2.3.2 Những kỹ thuật dựa trên cách phát âm tương đồng 10
2.2.3.3 Những kỹ thuật dựa trên xác suất 11
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT 13
3.1 Mô hình N-gram 13
3.1.1 Thuật toán Good-Turing Discounting 14
3.1.2 Thuật toán Backoff 15
3.2 Căn chỉnh từ 16
3.3 Thuật toán Beam Search 20
3.3.1 Translation Options 22
3.3.2 Beam Search 22
3.3.3 Cải tiến 25
Trang 33.3.3.1 Tái kết hợp giả thuyết 26
3.3.3.2 Tỉa 27
CHƯƠNG 4 CÁC MÔ HÌNH CHUYỂN NGỮ 29
4.1 Mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê 29
4.1.1 Chuẩn bị ngữ liệu 29
4.1.2 Xây dựng hệ thống chuyển ngữ 30
4.2 Mô hình Joint-Sequence 32
4.2.1 Chuẩn bị ngữ liệu 36
4.2.2 Xây dựng tập graphones 36
4.2.3 Quá trình chuyển ngữ 39
CHƯƠNG 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ 41
5.1 Dữ liệu thực nghiệm 41
5.2 Phương pháp và tiêu chí đánh giá 41
5.3 Các kết quả thực nghiệm 42
5.3.1 Mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê 42
5.3.1.1 Quá trình thực nghiệm 42
5.3.1.2 Các thí nghiệm liên quan 45
5.3.2 Mô hình joint-sequence 48
5.3.2.1 Quá trình thực nghiệm 48
5.3.2.2 Các thí nghiệm liên quan 50
5.4 So sánh kết quả thực nghiệm của hai mô hình 52
5.5 Đánh giá chung 52
CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54
6.1 Kết luận 54
6.2 Hướng phát triển 55
TÀI LIỆU TRÍCH DẪN 56
PHỤ LỤC 63
Các mô hình của GIZA++ 63
Trang 4DANH SÁCH CÁC BẢNG
Bảng 5.1 - Bảng âm vị (nguyên âm) tiếng Việt 43
Bảng 5.2 - Bảng âm vị (phụ âm) tiếng Việt 43
Bảng 5.3 - Âm vị tiếng nước ngoài với xác suất ánh xạ sang âm vị tiếng Việt 44
Bảng 5.4 - Kết quả đánh giá tỉ lệ lỗi của mô hình chuyển ngữ dựa trên dịch máy thống kê 46
Bảng 5.5 - Bảng đánh giá tỷ lệ lỗi khi áp dụng những mô hình ngôn ngữ và mô hình dịch khác nhau 47
Bảng 5.6 - Tỷ lệ lỗi trên tiếng (WER) đánh giá trên nhiều bộ dữ liệu 50
Bảng 5.7 - Tỷ lệ lỗi trên âm vị (PER) đánh giá trên nhiều bộ dữ liệu 50
Bảng 5.8 - So sánh tỷ lệ lỗi trên tiếng giữa hai mô hình 52
Bảng 5.9 - So sánh tỷ lệ lỗi âm vị giữa hai mô hình 52
Trang 5E’MEM : Eagle’s minimum essential media
EDTA : Ethylenediaminetetraacetic acid
EGFP : Enhanced green fluorescent protein
ELISA : Enzyme-linked immunosorbent assay
FBS : Fetal bovine serum
KTĐD : Kháng thể đơn dòng
HEPES : 4-(2-hydroxyethyl)-1-piperazineethanesulfonic acid
HPV : Human papillomavirus
LCR : Long control region
mAb : Monoclonal antibody
OD : Optical density
PBS : Phosphate buffered saline
PCR : Polymerase chain reaction
PFA : Paraformaldehyde
PLL : Poly – L – lysine
pRB : Retinoblastoma tumor suppressor protein
STD : Standard deviation
URR : Upstream regulatory region
UTCTC : Ung thư cổ tử cung
Trang 6v
DANH MỤC CÁC HÌNH VÀ ĐỒ THỊ
Trang
Hình 1.1 Cấu trúc bộ gene của HPV 3
Hình 1.2 Cấu trúc của protein E7 5
Hình 1.3 Tác động của protein E7 lên các quá trình nội bào 6
Hình 1.4 Hệ thống phát hiện trực tiếp 13
Hình 1.5 Hệ thống avidin-biotin 13
Hình 1.6 Hệ thống polymer – kháng thể thứ cấp – enzyme 14
Hình 1.7 ELISA và immuno PCR Nguyên lý và độ nhạy của hai phương pháp 15
Hình 1.8 Immuno-PCR cổ điển, sử dụng protein lai giữa protein A và streptavidin 17
Hình 1.9 Immuno-PCR phổ biến 18
Hình 1.10 Sơ đồ mô tả đoạn DNA marker được gắn cộng hợp vào kháng thể 19
Hình 1.11 Immuno-PCR trực tiếp 20
Hình 1.12 Immuno-PCR sử dụng các hạt từ phủ kháng thể 21
Hình 1.13 Immuno-PCR sử dụng “bio-barcode” 21
Hình 1.14 Immuno-PCR sử dụng LG protein và hệ thống phát hiện Tus-Ter 22
Hình 2.1 Buồng đếm hồng cầu 31
Hình 2.2 Sơ đồ phương pháp ELISA 38
Hình 2.3 Sơ đồ phương pháp checkerboard 38
Hình 2.4 Sơ đồ phương pháp immuno-PCR 39
Hình 3.1 Mô hình phương pháp lai hóa tế bào miễn dịch sử dụng trong đề tài 41
Hình 3.2 Lai hóa tế bào miễn dịch sử dụng KTĐD 1D5 trên dòng tế bào HeLa và C33A với các nồng độ kháng thể 10 µg/ml (A1, A2), 5 µg/ml (B1, B2), 2,5 µg/ml (C1, C2) 42
Hình 3.3 Lai hóa tế bào miễn dịch sử dụng KTĐD 4H5 trên dòng tế bào HeLa và C33A với các nồng độ kháng thể 10 µg/ml (A1, A2), 5 µg/ml (B1, B2), 2,5 µg/ml (C1, C2) 43
Trang 7vi
Hình 3.4 Lai hóa tế bào miễn dịch sử dụng kháng thể 1D5 (10 µg/ml) trên các dòng
tế bào HeLa (A), C33A (B), K1 chuyển vector pEGFP-E7HPV18 (C),
CHO-K1 chuyển vector pEGFP-C2 (D), CaSki (E) 44
Hình 3.5 Lai hóa tế bào miễn dịch sử dụng kháng thể 4H5 (10 µg/ml) trên các dòng tế bào HeLa (A), C33A (B), K1 chuyển vector pEGFP-E7HPV18 (C), CHO-K1 chuyển vector pEGFP-C2 (D), CaSki (E) 45
Hình 3.6 Lai hóa tế bào miễn dịch trên dòng tế bào HeLa với kháng thể 1D5 (10 µg/ml), sử dụng tác nhân bộc lộ kháng nguyên là citrate pH 6 10 mM (A), EDTA pH 8 1 mM (B), không xử lý với tác nhân bộc lộ kháng nguyên (C) 46
Hình 3.7 Lai hóa tế bào miễn dịch trên mẫu tế bào HeLa (A), CaSki (B), C33A (C) xử lý theo phương pháp ly tâm và trải lên 47
Hình 3.8 Lai hóa tế bào miễn dịch trên các mẫu tế bào dịch phết cổ tử cung 49
Hình 3.9 Mô hình kĩ thuật immuno-PCR và ELISA sử dụng trong đề tài 50
Hình 3.10 Đồ thị xác định hằng số ái lực của KTĐD 4H5-biotin với kháng nguyên E7 HPV 18 tái tổ hợp tinh sạch 53
Hình 3.11 PCR tạo DNA đánh dấu biotin 54
Hình 3.12 Đồ thị khảo sát nồng độ kháng thể “bắt giữ” 1D5 55
Hình 3.13 Đồ thị khảo sát nồng độ kháng thể “phát hiện” 4H5-biotin 56
Hình 3.14 Đồ thị khảo sát nồng độ STV-AP 57
Hình 3.15 Tối ưu hóa nồng độ DNA đánh dấu biotin sử dụng cho immuno-PCR 58
Hình 3.16 Tối ưu hóa nồng độ streptavidin sử dụng cho immuno-PCR 59
Hình 3.17 Tối ưu hóa tác nhân khóa giếng 60
Hình 3.18 Kết quả immuno-PCR với protein E7 HPV 18 tái tổ hợp 61
Trang 8CHƯƠNG 1 GIỚI THIỆU
1.1 Đặt vấn đề
Tổng hợp tiếng nói (TTS)1 là quá trình tạo ra giọng nói nhân tạo của người trên máy tính từ dữ liệu đầu vào là văn bản
Một hệ thống TTS gồm hai phần chính: phần đầu FE (front-end) và phần cuối
BE (back-end) Phần đầu có hai nhiệm vụ cơ sở Trước tiên FE nhận văn bản và chuyển đổi các ký tự như các chữ số hay các chữ viết tắt sang dạng viết đầy đủ Quá trình này được gọi là quá trình chuẩn hoá hay tiền xử lý văn bản Sau đó FE
sẽ chuyển từng từ thành các đơn vị ngữ âm, rồi phân chia đánh dấu văn bản thành từng đoạn, từng câu, hay từng cụm từ Quá trình chuyển từng từ sang các đơn vị ngữ âm được gọi là phép chuyển văn bản sang âm vị (text-to-phoneme) Các đơn
vị ngữ âm và các thông tin về ngữ điệu của đoạn văn kết hợp với nhau tạo nên thể hiện biểu tượng ngôn ngữ - đây chính là đầu ra của FE BE nhận diện biểu tượng ngôn ngữ từ FE và chuyển nó thành âm thanh
Hình 1.1 - Mô hình tổng hợp tiếng nói cơ bản
Các hệ thống TTS có nhiều ứng dụng trong cuộc sống hằng ngày Ví dụ như nó
có thể giúp cho người khiếm thị nghe được máy đọc ra nội dung của văn bản Hệ thống TTS cũng có thể được lắp đặt trong các phần mềm xử lý văn bản hay trình duyệt mạng Tuy nhiên khả năng áp dụng nhiều nhất của TTS là ở các ứng dụng hỏi đáp trực tiếp giữa người và máy Chính vì khả năng ứng dụng thực tiễn lớn như vậy cho nên trên thế giới, các nghiên cứu về TTS đã được thực hiện rất sớm,
từ những năm 1930 và tiếp tục phát triển đến ngày nay
1 TTS là từ viết tắt của Text-To-Speech
Phones + Ngữ âm
Xử lý văn bản
Tổng hợp tiếng nói
Trang 9Các nghiên cứu trên thế giới về TTS vẫn đang hướng đến giải quyết hai yêu cầu
cơ bản về chất lượng của tiếng nói tổng hợp, đó là mức độ tự nhiên và mức độ dễ nghe Một hệ thống tổng hợp tiếng nói lý tưởng là phải thỏa mãn ở mức tối đa hai tính chất này
- Mức độ tự nhiên chỉ sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật Việc cải tiến hệ thống tổng hợp tiếng nói theo hướng nâng mức độ tự nhiên lên là làm sao cho giọng đọc nhân tạo gần giống với giọng con người nhất, và thậm chí chúng ta muốn hệ thống có thể tạo ra nhiều giọng đọc khác nhau của con người Chúng ta có thể sử dụng phương pháp tổng hợp ghép nối để ghép các đoạn âm thanh đã thu sẵn giọng đọc con người lại tạo thành âm thanh tổng hợp, kết hợp phương pháp chọn lựa đơn vị để chọn đơn vị âm thanh nào phù hợp với ngữ cảnh tổng hợp nhất Hoặc có thể sử dụng kỹ thuật xử lý tín hiệu số để tạo ra giọng đọc mới dựa trên những thông số về cách phát âm của con người và làm trơn các đoạn ghép nối Hoặc cũng có thể điều chỉnh ngữ điệu của giọng đọc sau khi tổng hợp cho phù hợp với ngữ cảnh, trạng thái cảm xúc của người đọc trong ngữ cảnh đó chẳng hạn như buồn, vui, ngạc nhiên
- Mức độ dễ nghe chỉ đến việc câu phát âm có thể hiểu được dễ dàng không Để hiểu được văn bản nói một cách dễ dàng, vấn đề trước tiên cần phải giải quyết là văn bản nói phải phát âm gần như đầy đủ tất cả các từ ngữ chính trong văn bản đó Một số trường hợp có thể làm hệ thống TTS phát âm sai hoặc thậm chí là không phát âm được như chữ số, ký hiệu, từ viết tắt, tiếng nước ngoài Như vậy, vấn đề nâng cao mức độ dễ nghe của
hệ thống TTS là giải quyết nhập nhằng của các trường hợp trên
Trong thực tế, một số hệ thống thiên về mức độ dễ nghe hơn, hoặc mức độ tự nhiên hơn tùy thuộc vào mục đích và công nghệ được lựa chọn
Đối với mức độ dễ nghe, các nghiên cứu trước đây đa phần chỉ tập trung vào chuẩn hoá chữ số, ký hiệu, từ viết tắt, khử nhập nhằng từ ngữ Riêng phần hiểu tiếng nước ngoài ít được tập trung nghiên cứu Các hệ thống TTS hiện tại đa số
Trang 10chỉ làm việc tốt trên văn bản thuần ngữ Bởi vì các nghiên cứu này giả định làm việc trên văn bản thuần ngữ để tập trung nâng cao chất lượng tổng hợp theo hướng mức độ tự nhiên Tuy nhiên, trên thực tế tin tức trên các trang web xuất hiện ngày càng nhiều tiếng nước ngoài, đặc biệt là tên riêng Do đó, vấn đề hiểu tiếng nước ngoài trong quá trình tổng hợp tiếng nói là nhu cầu cần thiết
Một số khó khăn trong vấn đề hiểu tiếng nước ngoài có thể chỉ ra như sau:
- Số lượng từ nước ngoài quá lớn, đặc biệt là tên riêng nước ngoài, các tên mới gần như xuất hiện mỗi ngày
- Các hệ thống khác nhau có giọng đọc khác nhau tuỳ thuộc vào dữ liệu huấn luyện Do đó, khó có thể phối hợp giữa các hệ thống khác nhau được Ví dụ như khó có thể sử dụng hệ thống tổng hợp tiếng nước ngoài ráp vào hệ thống tổng hợp tiếng Việt được
Vì những khó khăn kể trên cũng như tầm quan trọng của bài toán, vấn đề đặt ra cho đề tài là tìm ra phương pháp hiệu quả có thể giải quyết được phần lớn các khó khăn kể trên để nâng cao chất lượng của hệ thống tổng hợp tiếng nói
1.2 Hướng tiếp cận đề tài
Để giải quyết bài toán đặt ra, hướng tiếp cận chính của đề tài là dựa trên sự tương đồng về cách phát âm, chuyển tiếng nước ngoài thành chuỗi tiếng của ngôn ngữ gốc mà có cùng cách phát âm Ví dụ, “David” (tên riêng tiếng Anh) sẽ được chuyển thành “đa vít” (có cùng cách phát âm trong tiếng Việt) Quá trình này gọi
là quá trình chuyển ngữ
Trong đề này này, tôi sử dụng hai phương pháp để thực hiện chuyển ngữ cụ thể như sau:
1 Phương pháp chuyển ngữ dựa trên kỹ thuật dịch máy thống kê:
Kỹ thuật dịch máy thống kê đã phát triển từ rất lâu, kỹ thuật này thực hiện việc dịch một ngôn ngữ này (hay còn gọi là ngôn ngữ nguồn) sang ngôn ngữ khác (hay còn gọi là ngôn ngữ đích) một cách tự động Những đơn vị cơ bản dùng để dịch có thể là tiếng, từ hoặc cụm từ Dựa trên ý tưởng của dịch máy thống kê,
Trang 11trong bài toán chuyển ngữ, mỗi đơn vị dịch là âm vị Ví dụ, để chuyển ngữ
“David” thành “đa vít” thì đầu tiên “David” sẽ được chuyển thành chuỗi âm vị tiếng Anh “D EY V IH D” Sử dụng hệ thống dịch đã được huấn luyện để dịch chuỗi âm vị tiếng Anh thành chuỗi âm vị tiếng Việt “Đ A V I T” Sau đó, dựa trên một số luật tạo tiếng của ngôn ngữ tiếng Việt để gom nhóm các âm vị thích hợp lại với nhau tạo thành tiếng Việt không dấu “ĐA VIT” Cuối cùng, sẽ chuyển tiếng Việt không dấu thành tiếng Việt có dấu “ĐA VÍT”
2 Phương pháp chuyển ngữ dựa trên chuỗi kết nối (joint-sequence)2:
Giả sử chúng ta đã có một tập những đơn vị kết nối (trong đề tài này tôi gọi là graphone) Các đơn vị kết nối này gồm 2 phần: phần âm vị tiếng nước ngoài và phần âm vị tiếng Việt Bài toán chuyển ngữ được chuyển về bài toán tìm chuỗi các đơn vị kết nối từ tập graphone như thế nào, sao cho phần âm vị tiếng nước ngoài ghép lại tạo thành tiếng nước ngoài cần chuyển ngữ và xác suất của chuỗi đơn vị kết nối đó phải có xác suất lớn nhất trong ngữ cảnh huấn luyện Ghép các phần âm vị tiếng Việt trong chuỗi kết nối có xác suất lớn nhất, đó là kết quả chuyển ngữ tiếng Việt của tiếng nước ngoài ban đầu
1.3 Nội dung luận văn
Những đóng góp quan trọng của luận văn đối với đề tài này là: cung cấp một bộ
từ điển chuyển ngữ tiếng nước ngoài sang cách phát âm tiếng Việt được thiết kế thủ công với khoảng 7543 cặp từ; xây dựng các mô hình chuyển ngữ tiếng nước ngoài sang cách phiên âm tiếng Việt trong văn bản tiếng Việt; so sánh đánh giá những phương pháp chuyển ngữ được áp dụng trong tiếng Việt và chọn ra phương pháp chuyển ngữ cho độ chính xác cao nhất ứng dụng vào hệ thống tổng hợp tiếng nói phương Nam (VOS)3 Tất cả các phần này sẽ được thể hiện chi tiết trong các phần tiếp theo của luận văn, bố cục như sau:
Chương 2 - TỔNG QUAN: trong chương này, chúng tôi sẽ trình bày về
2 Từ đây trở đi, tôi sẽ giữ nguyên thuật ngữ “joint-sequence” thay cho “chuỗi kết nối”
3 VOS viết tắt của từ Voice of Southern
Trang 12các mô hình và phương pháp tiện cận trong bài toán chuyển ngữ Bên cạnh đó chúng tôi cũng trình bày những hạn chế cũng như ưu điểm của từng phương pháp
Chương 3 – CƠ SỞ LÝ THUYẾT: trình bày tổng quan các lý thuyết mô hình được dùng trong đề tài như mô hình dịch, mô hình ngôn ngữ N-gram, thuật toán Beam Search
Chương 4 – CÁC MÔ HÌNH CHUYỂN NGỮ: trình bày hai mô hình chuyển ngữ trong đề tài là mô hình chuyển ngữ dựa trên kỹ thuật dịch máy thống kê và mô hình chuyển ngữ joint-sequence, quá trình chuẩn bị dữ liệu huấn luyện cho từng mô hình, xây dựng mô hình và quá trình chuyển ngữ
Chương 5 - THỰC NGHIỆM VÀ ĐÁNH GIÁ: chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả của từng hướng tiếp cận của đề tài, so sánh đánh giá giữa các hướng tiếp cận được trình bày trong đề tài và giữa hướng tiếp cận của đề tài so với các nghiên cứu khác
Chương 6 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: nêu lên những kết quả mà đề tài đã đạt được và hướng phát triển trong tương lai
TÀI LIỆU TRÍCH DẪN VÀ PHỤ LỤC: trình bày các thông tin khác có liên quan và được sử dụng trong tài liệu
Trang 13CHƯƠNG 2 TỔNG QUÁT
Chương này sẽ mô tả các vấn đề lý thuyết về bài toán chuyển ngữ và các mô hình khác nhau để giải quyết bài toán này
2.1 Bài toán chuyển ngữ
Chuyển ngữ là quá trình chuyển một chuỗi từ trong ngôn ngữ nguồn thành một chuỗi từ trong ngôn ngữ đích có cùng cách phát âm
Chuyển ngữ được phân thành hai hướng chính: cho một cặp (o,t) trong đó o là một từ trong ngôn ngữ nguồn và t là một từ được chuyển ngữ trong ngôn ngữ đích Chuyển ngữ theo chiều thuận (FT)4
là quá trình chuyển o thành t Chuyển ngữ theo chiều nghịch (BT)5 là quá trình xác định các ứng viên thích hợp trong ngôn ngữ đích và chọn ra ứng viên đúng nhất o để chuyển o thành t
2.2 Các hướng tiếp cận giải quyết bài toán
2.2.1 Phương pháp dựa trên từ điển
Phương pháp đơn giản để xử lý tiếng nước ngoài là dựa trên một từ điển ánh xạ tiếng nước ngoài thành dạng phát âm tương ứng trong ngôn ngữ đích Tuy nhiên,
kĩ thuật chuyển ngữ dựa vào từ điển này không hiệu quả đối với tên riêng nước ngoài Cụ thể, xây dựng từ điển chuyển ngữ có kích thước đủ lớn bằng tay tốn nhiều chi phí và thời gian Bộ nhớ được yêu cầu để lưu trữ cơ sở dữ liệu từ điển như trên khó đáp ứng cho các hệ thống nhúng hoặc các thiết bị di động Đặc biệt,
từ điển sau khi xây dựng không thể phủ toàn bộ tên riêng nước ngoài và hơn nữa các tên mới gần như xuất hiện mỗi ngày, trong khi hệ thống TTS thường được mong đợi có thể xử lý một từ bất kỳ
2.2.2 Phương pháp dựa trên luật
Để vượt qua sự hạn chế tìm kiếm trong một từ điển chuyển ngữ đơn giản, các hệ
4 FT là viết tắt của Forward Transliteration
5 BT là viết tắt của Backward Transliteration
Trang 14thống chuyển đổi dựa trên luật được phát triển Các hệ thống này được đề xuất
trong framework của finite-state automata (Kaplan and Kay, 1994)[24] Thông
thường, các hệ thống chuyển ngữ dựa trên luật gắn liền với một từ điển như là một danh sách ngoại lệ Mặc dù các hệ thống dựa trên luật có thể phủ gần như toàn bộ (hoặc thâm chí là phủ đủ) tiếng nước ngoài nhưng vẫn có hai mặt hạn chế: thứ nhất, thiết kế luật rất khó và đòi hỏi phải có những kĩ năng ngôn ngữ đặc biệt; thứ hai, ngôn ngữ tự nhiên thường không theo quy luật, nên cần được ghi nhận bởi các luật ngoại lệ hoặc các danh sách ngoại lệ Sự phụ thuộc giữa các luật khá phức tạp, như vậy những người thiết kế luật phải kiểm tra chéo nếu kết quả áp dụng các luật là đúng trong tất cả các trường hợp Điều này làm việc phát triển và bảo trì các hệ thống luật rất khó khăn trong thực tế Hơn nữa, một hệ thống chuyển ngữ dựa trên luật vẫn bị lỗi khi đưa vào một từ ngoài lệ chưa được xem xét bởi người thiết kế luật
Một số công trình nghiên cứu theo hướng này như Wan và Verspoor (1998)[55]
phát triển một hệ thống chuyển ngữ dựa trên luật được thiết kế thủ công cho danh
từ riêng tiếng Anh sang tiếng Trung Quốc Đầu tiên hệ thống sẽ tách từ tiếng Anh thành chuỗi các âm tiết dựa trên tập luật và ngữ cảnh học Môđun phân tích
âm tiết nhận dạng ranh giới giữa các âm tiết dựa vào thành phần nguyên âm và phụ âm Sau đó một thủ tục phân tích âm tiết con chia mỗi âm tiết đã được nhận dạng ranh giới thành dạng ghép đôi nguyên âm - phụ âm, để cho phù hợp với bản chất âm tiết của tiếng Trung Quốc Sau đó, những âm tiết con được ánh xạ sang dạng pinyin tương ứng bằng một bảng ánh xạ được làm thủ công
Meng và các đồng sự (2001)[34] mô tả một thuật toán học để chuyển ngữ các từ
không có trong bộ từ vựng (OOV)6 từ tiếng Anh sang tiếng Trung Quốc trong ngữ cảnh của hệ thống truy vấn tài liệu âm thanh xuyên ngôn ngữ (CLSDR)7 Đầu tiên, họ sử dụng tập luật âm vị học được làm thủ công bằng cách thêm vào hoặc loại bỏ những âm vị riêng để chuẩn hoá âm tiết tiếng Anh sang định dạng
6 OOV là viết tắt của Out Of Vocabulary
7 CLSDR viết tắt của Cross-Language Spoken Document Retrieval
Trang 15nguyên âm-phụ âm Sau đó quá trình ánh xạ âm vị xuyên ngôn ngữ (CLPM)8 sẽ
áp dụng một tập luật chuyển đổi được phát sinh tự động để ánh xạ chuỗi âm vị tiếng Anh sang chuỗi các thành phần tiếng Trung Quốc Những luật này được học từ dữ liệu song ngữ đã được căn chỉnh sử dụng kỹ thuật học hướng lỗi dựa trên cải biến (TEL)9 Tuy nhiên, những luật được thiết kế thủ công khởi động cho quá trình CLPM không thể cân bằng tất cả những sai biệt và có lẽ sẽ gây ra nhiều lỗi
2.2.3 Phương pháp hướng dữ liệu
Trái với các cách tiếp cận dựa trên tri thức được nêu ra ở trên, cách tiếp cận hướng dữ liệu trong chuyển ngữ được dựa trên ý tưởng là giả sử có đủ số lượng mẫu học, hệ thống sẽ có thể dự đoán cách phát âm của những từ chưa được huấn luyện dựa trên sự tương đồng Ưu điểm của cách tiếp cận hướng dữ liệu là nhiệm
vụ “thách thức trí tuệ” của việc thiết kế các luật chuyển ngữ sẽ được thay thế bằng nhiệm vụ đơn giản hơn là cung cấp các dữ liệu chuyển ngữ mẫu Bắt đầu
với công việc của Sejnowski và Rosenberg (1987)[43], nhiều kỹ thuật máy học
khác nhau đã được áp dụng cho vấn đề này trước đây
2.2.3.1 Những kỹ thuật dựa trên phân lớp cục bộ
Trong kỹ thuật này, chuỗi đầu vào sẽ được xử lý tuần tự từ trái sang phải Với mỗi từ đầu vào, một chuỗi âm vị được chọn từ một tập nhỏ Chuỗi âm vị đầu ra được dự đoán dựa trên ngữ cảnh của từ hiện tại Bởi vì mỗi vị trí được quyết định ngay trước khi xử lý từ tiếp theo, nên chúng ta gọi là kỹ thuật phân lớp cục bộ
Kỹ thuật phổ biến nhất sử dụng cho dự đoán này là mạng neural và cây quyết định Thực hiện quyết định cho mỗi âm vị cục bộ rõ ràng không tối ưu từ quan niệm lý thuyết quyết định Tuy nhiên, kỹ thuật này tránh việc sử dụng thuật toán tìm kiếm để tìm ra giải pháp tối ưu toàn cục
Sejnowski và Rosenberg (1987)[43] cũng như McCulloch và các đồng sự (1987)
8 CLPM viết tắt của Cross-Language Phonetic Mapping
9 TEL viết tắt của Transformation-based Error-driven Learning
Trang 16[33] đã áp dụng mạng neural cho vấn đề phân lớp này Họ sử dụng mạng neural 3
lớp Đầu vào của mạng neural là một cửa sổ ngữ cảnh với 3 từ bên trái và 3 từ bên phải Lớp đầu vào sử dụng một đặc trưng từ vựng, chẳng hạn như mỗi đầu vào cho mỗi loại từ Lớp đầu ra tượng trưng cho âm vị được tiên đoán bằng
phương pháp so khớp đặc trưng Jensen và Riis (2000)[21], Hakkinen và các đồng sự (2003)[19] cải tiến cách tiếp cận này bằng cách sử dụng một tượng trưng
code-book của từ tinh vi hơn trong lớp đầu vào
Torkkola (1993)[48] sử dụng một kỹ thuật được gọi là mở rộng ngữ cảnh động,
phát sinh một cây quyết định mà lấy một cửa sổ bất đối xứng xung quanh từ hiện
tại vào bảng tra cứu Daelemans và van den Bosch (1996)[13] đề xuất sử dụng
cây quyết định để huấn luyện sử dụng tiêu chuẩn thông tin tăng cường Những câu hỏi được sử dụng chỉ liên quan đến những từ xung quanh và thông tin tăng cường được tính toán chỉ một lần cho mỗi thuộc tính Andersen và các đồng sự
(1996)[2] phát triển cây quyết định nhị phân sử dụng tiêu chuẩn Gini Họ cho
phép hỏi năm từ bên trái và năm từ bên phải của từ hiện tại Ngoài những câu hỏi cho những từ độc lập, kiểm tra tính liên đới trong 10 lớp vị từ được cho phép
Pagel và các đồng sự (1998)[42] cũng phát triển cây quyết định sử dụng tiêu
chuẩn thông tin tăng cường nhưng tính toán lại thông tin tăng cường cho mỗi node bị tách ra Ngoài ba từ trước và sau, họ cũng cho phép lấy ba âm vị theo sau vào bảng tra cứu Điều này yêu cầu xử lý từ theo thứ tự ngược lại từ phải sang trái, bởi vì những âm vị được xem xét là kết quả của những quyết định trước đó
Họ cũng báo cáo những cải tiến về việc thêm những câu hỏi về từ loại của từ
được xem xét Suontausta và Hakkinen (2000)[44], Hakkinen và các đồng sự (2003)[19] cũng dùng thông tin tăng cường để tạo ra cây quyết định Tập những
câu hỏi bao gồm bốn từ trước và 4 từ sau, những âm vị trước và những lớp âm vị của chúng
Trang 172.2.3.2 Những kỹ thuật dựa trên cách phát âm tương đồng
Thuật ngữ cách phát âm tương đồng (PbA)10 sẽ thích hợp cho tất cả những kỹ thuật chuyển grapheme-to-phoneme hướng dữ liệu, nhưng điển hình nó được sử dụng đặc biệt hơn cho những cách tiếp cận mà có thể được mô tả như “tương đồng” Mẫu chung của kỹ thuật PbA là nó quét các từ hoặc một phần của từ huấn luyện mà có ngữ cảnh tương đồng với từ cần được dịch Sau đó, cách phát âm đầu ra được chọn lựa để khớp với những mẫu truy vấn này Bằng việc xem xét mỗi từ trên toàn cục, PbA vượt hơn hẳn kỹ thuật phân lớp cục bộ, nhưng nó vẫn chưa phải là mô hình xác suất
Mô hình được đề xuất bởi Dedina và Nusbaum (1991)[14] khai thác mọi từ trong
từ vựng và xây dựng một cấu trúc mạng phát âm sử dụng đặc trưng âm vị của các
từ mà khớp với chuỗi đầu vào Trong mạng phát âm, mỗi node tượng trưng một
âm vị ứng viên, một con đường trên mạng tượng trưng một cách phát âm hợp lệ
Marchand và Damper (2000)[30] mở rộng và cải tiến cách tiếp cận này bằng
cách kết hợp nhiều cách tính điểm trên những con đường khác nhau Yvon
(1996)[57] xây dựng mạng tượng trưng cho tất cả cách phát âm có thể có của một
từ bằng cách rút trích những đoạn trùng nhau từ các từ trong bộ từ vựng huấn luyện Kết quả chuyển ngữ đạt được bằng cách xác định con đường tốt nhất trên mạng dựa trên sự chồng chéo của đoạn dữ liệu và tần suất của đoạn dữ liệu cực đại
Phương pháp được mô tả bởi Bagshaw (1998)[3] làm việc với một tập grapheme
và phoneme tương ứng được đặc tả thủ công và tạo ra những luật phụ thuộc ngữ cảnh trên những đơn vị này Kết quả chuyển ngữ cuối cùng có được bằng cách tìm kiếm toàn cục trên mạng của những phân đoạn cạnh tranh với điểm dựa trên trọng số của luật và những điểm phạt vi phạm luật
Bellegarda (2005)[5] sử dụng phân tích ngữ nghĩa ẩn để định nghĩa độ tương
đồng toàn cục cho các từ Để chuyển ngữ một từ chưa được huấn luyện, đầu tiên một tập những phần tử có từ vựng tương đồng được kết hợp, sau đó tất cả chuỗi
10 PbA viết tắt của Pronunciation by Analogy
Trang 18trong danh sách này được căn chỉnh và với mỗi vị trí căn chỉnh, âm vị có tần suất cao nhất sẽ được chọn
2.2.3.3 Những kỹ thuật dựa trên xác suất
Nhiều nhà nghiên cứu đã tiếp cận vấn đề chuyển ngữ từ góc nhìn xác suất
Lucassen và Mercer (1984)[29] tạo ra căn chỉnh 1-n của tập dữ liệu huấn luyện
sử dụng mô hình kênh độc lập ngữ cảnh Dự đoán âm vị tiếp theo dựa trên cửa sổ đối xứng của từ và cửa sổ trái của các âm vị Thực hiện đến cuối, nó sẽ tạo ra hàm đặc trưng nhị phân sử dụng tiêu chuẩn thông tin tương hỗ và sau đó khởi tạo một cây hồi quy Lá của cây này mang phân bố xác suất trên tập âm vị Jiang và
các đồng sự (1997)[22] đưa ra một cách tiếp cận cây hồi quy cải tiến, sử dụng
một lược đồ trọng số entropy cải tiến, là mượt các phân bố xác suất trên lá, đóng gói và tính điểm lại với một trigram âm vị Một trong hai mô hình được nghiên
cứu bởi Chen (2003)[12] sử dụng một tập những hàm đặc trưng tương tự nhưng
sử dụng một mô hình entropy cực đại có điều kiện để dự đoán âm vị
Meng và các đồng sự (1994)[35] mô hình cách phát âm của từ bằng cây phân tích
hình thái sử dụng bigram đã được phân lớp như cách tiếp cận phân tích thống kê
Besling (1994)[6] có được căn chỉnh 1-n bằng lập trình động sử dụng một phân
bố chuẩn và định nghĩa trước Anh ta sử dụng công thức Bayes để phân tích xác suất của các cách phát âm ứng viên vào một mô hình âm vị, trong trường hợp này
là mô hình âm vị 7-gram, và một mô hình so khớp, là xác suất có điều kiện của từ hiện tại được cho trước âm vị hiện tại cũng như là các từ và âm vị trước đó Nhiều nghiên cứu cũng được thực hiện trên chuyển ngữ máy cho nhiều cặp ngôn ngữ như tiếng Anh/Ả rập (Al-Onaizan và Knight,2002), tiếng Anh/Trung Quốc
(Chen và các đồng sự, 1998[11]; Lin và Chen, 2002[28]; Wan và Verspoor, 1998)[56], tiếng Anh/Nhật (Knight và Graehl, 1997)[26], và tiếng Anh/Hàn Quốc (Lee và Choi, 1997[27]; Oh và Choi, 2002[41]) Cách tiếp cận chính cho
các nghiên cứu này là sử dụng kỹ thuật dịch máy thống kê được huấn luyện tự động trên dữ liệu song ngữ thông qua học không giám sát
Trang 19Một vài nhà nghiên cứu cũng đề xuất những mô hình chuỗi kết nối [15][7][17] và
đây cũng là một trong hai mô hình mà đề tài đề cập đến
Trang 20CHƯƠNG 3 CƠ SỞ LÝ THUYẾT
Chương này trình bày các cơ sở lý thuyết được dùng trong đề tài này, cung cấp góc nhìn tổng quan về quá trình dịch máy thống kê như mô hình ngôn ngữ N-gram, xây dựng mô hình dịch thông qua công cụ căn chỉnh từ và thuật toán Beam Seach để dịch chuỗi ngôn ngữ nguồn sang ngôn ngữ đích
n n
1 2
1 3 1 2 1 1
1 , , ) ( ) ( ) ( | ) ( | ) ( | ) ( | )
Chúng ta xấp xỉ xác suất của một từ dựa vào những từ trước nó bằng cách xấp xỉ xác suất của từ liền trước nó Mô hình bigram xấp xỉ xác suất của một từ dựa vào xác suất của từ liền trước P(w n|w n1) Giả định rằng xác suất của một từ chỉ phụ thuộc vào từ liền trước nó, được gọi là giả định Markov Những mô hình Markov
là những mô hình mà chúng ta giả định rằng chúng ta có thể dự đoán xác suất một đơn vị mà không cần phải tìm kiếm quá xa những đơn vị trước nó
Mô hình N-gram xấp xỉ xác suất điều kiện :
)
| ( )
| ( 11 n11
N n n n
n w P w w w
w w P w
)(
)(
)(
)(
)
|(
1 1 1
1 1
w n
n n n
n
w C
w w C w w C
w w C w
w
Để ước lượng tham số N-gram trong trường hợp tổng quát:
Trang 21)(
N n n
w C
w w C w
Do đó, cần một số kỹ thuật làm mượt (smoothing)12 để đánh giá lại một số gram có xác suất zero và xác suất thấp và gán chúng với những giá trị khác zero
N-Có nhiều thuật toán smoothing như Add-One, Witten-Bell, Good-Turing Discounting, Backoff, Deleted Interpolation Thông thường sử dụng kết hợp thuật toán Backoff hoặc Deleted Interpolation với thuật toán Witten-Bell hoặc Good-Turing Discounting Trong đề tài này, tôi tập trung khai thác 2 thuật toán smoothing là Good-Turing Discounting và Backoff
3.1.1 Thuật toán Good-Turing Discounting
Ý tưởng cơ bản của thuật toán smoothing Good-Turing là ước lượng lại đa số xác suất để gán cho các N-gram với số lượng đếm được từ kho ngữ liệu là zero hoặc
có số lượng thấp bằng cách nhìn vào số lượng N-gram xảy ra c lần
N0 là số lượng bigram b có số lượng đếm là zero và N1 là số lượng bigram với số lượng đếm là 1
c b c c N
) ( :
Ước lượng Good-Turing cho kết quả là một số đếm được làm mượt c*
dựa trên tập Nc cho tất cả c theo công thức sau:
11 MLE là viết tắt của Maximum Likelihood Estimation
12 Từ đây về sau sử dụng thuật ngữ “smoothing” thay cho “làm mượt”
Trang 22c
N
N c
) 1 (
Số lượng đếm (c*0) được cập nhật cho các bigram mà chưa từng xảy ra (c0) được ước lượng bằng cách lấy số lượng bigram xảy ra 1 lần (N1) chia cho số lượng bigram chưa từng xảy ra (N0)
Ước lượng Good-Turing dựa trên giả định rằng phân phối của mỗi bigram là phân bố nhị thức Ước lượng cũng giả định rằng chúng ta biết N0, số lượng bigram chưa được quan sát (N0=V2 trừ cho tất cả các bigram đã được quan sát) Trên thực tế, ước lượng c* không được dùng cho tất cả số lượng đếm c Các số lượng đếm lớn (với c lớn hơn một ngưỡng k định trước) được giả định là đáng tin cậy c*=c với c>k
Công thức chính xác cho c* với ngưỡng k cho trước là:
1 1 1
1 1
*
) 1 ( 1
) 1 ( )
1 (
N
N k
N
N k c N
N c c
k
k
c c
Trong thuật toán Good-Turing Discounting thông thường xem các N-gram có số lượng đếm thấp (đặc biệt là số lượng đếm bằng 1) như các N-gram có số lượng đếm là 0
3.1.2 Thuật toán Backoff
Trong mô hình Backoff, chúng ta xây dựng mô hình N-gram dựa trên mô hình (N-1)-gram Chúng ta quay lui trở lại một N-gram cấp thấp hơn nếu chúng ta có giá trị 0 cho N-gram cấp cao hơn
Phiên bản trigram của Backoff có thể được trình bày như sau:
)
|()
|
(
ˆ
1 2 1
|
(
ˆ
1 1
|
(
ˆ
2 1
Trang 23|(ˆ))
|(()
|(
~)
|
(
2 1
1 1
1 1
N n n n
N n n n
được dùng để chỉ hàm nhị phân mà lựa chọn một mô hình cấp thấp hơn chỉ khi
mô hình cấp cao hơn có xác suất zero
1
nếu x 0 0
ngược lại
Bỏ qua các giá trị α, kết quả của công thức sẽ không còn là xác suất đúng Khi xác suất là zero, chúng ta thêm phần mở rộng vào công thức và xác suất tổng hợp của một từ sẽ lớn hơn 1
P~ dùng để giảm xác suất MLE để lưu trữ xác suất cho các N-gram cấp thấp hơn
Nó được định nghĩa như là ước lượng MLE c*:
)(
)(
)
|(
~
1 1 1
* 1
w c
w c w
w
Vì c*<c, nên xác suất này sẽ nhỏ hơn
)(
)(
1 1
n N n w c
w c
Điều này sẽ giữ lại một vài xác
suất có N-gram thấp hơn
1 1
1 1
1
)
|(
~1
)(
n N n
n c w w
n N n n
n N
1 2
0 ) ( :
1 1 1
~ 1
)
| (
~ 1
) (
n N n n
n N n n
w c w
n N n n
w c w
n N n n n
N n
w w P
w w P w
Trang 24Kỹ thuật dịch máy thống kê đã được nghiên cứu từ rất sớm đầu những năm 1980 với dự án Candide của IBM Cách tiếp cận truyền thống của IBM là ánh xạ từng
từ riêng lẻ và cho phép thêm xoá từ để có được kết quả dịch hoàn chỉnh Gần đây, nhiều nhà nghiên cứu khác đã chỉ ra rằng sử dụng “dịch dựa trên cụm từ” (phrase based translation) sẽ cho kết quả dịch tốt hơn Đầu vào của mô hình dịch dựa trên cụm từ được phân đoạn thành nhiều chuỗi từ liên tiếp, được gọi là cụm
từ Mỗi cụm từ sẽ được dịch sang ngôn ngữ đích và các cụm từ sau khi dịch có thể thay đổi trật tự Hầu hết các phương pháp dựa trên dịch cụm từ đã được công
bố gần đây đều sử dụng một “bảng dịch cụm từ” (phrase translation table) được rút trích từ ngữ liệu song ngữ Quá trình này được gọi là “căn chỉnh từ” (word alignment)
michael geht davon
aus dass er im haus
michael assumes
Xác suất của một căn chỉnh a cho trước một câu nguồn e có chiều dài I và câu dịch của nó f có chiều dài J có thể được mô tả như sau:
Trang 25|(
)
|,(),
|(
e f P
e f a P f e a
e a P
)
|(
)
|,()
P và P(f |e) không phụ thuộc vào căn chỉnh a và cuối
cùng chúng ta có công thức mô hình dịch như sau:
a
e f a P e
f
Như vậy, xác suất của mô hình dịch là tổng tất cả xác suất của việc tạo ra chuỗi đích f và một căn chỉnh a từ chuỗi nguồn e
Để ước lượng xác suất P(a,f |e), Brown và các đồng sự[9] đã giới thiệu một loạt
5 mô hình thống kê, mỗi mô hình sẽ đóng góp một cách tính toán xác suất
)
|
,
P Vogel và các đồng sự[53] giới thiệu mô hình HMM như là một thay
thế cho mô hình 2 chuẩn
Hiện nay, công cụ thông dụng nhất để thiết lập căn chỉnh từ là bộ công cụ GIZA++ Công cụ này là một thiết kế của những mô hình IBM truyền thống GIZA++ bao gồm 5 mô hình của IBM được ký hiệu là IBM-1, ,IBM-5 và mô hình HMM Tất cả mô hình này cung cấp những phân tích khác nhau của xác suất P(a,f |e) Tất cả mô hình đều bao gồm những tham số từ vựng P(f |e) và những tham số bổ sung mô tả xác suất của một phép căn chỉnh
Cấu trúc sơ lược của 6 mô hình trên như sau[40]:
Mô hình IBM-1 : trong mô hình này, tất cả các phép căn chỉnh đều có cùng xác suất
Mô hình IBM-2 : sử dụng mô hình căn chỉnh zero-order14
) , ,
| (a j I J
p j
trong đó những vị trí căn chỉnh khác nhau sẽ độc lập với nhau
Mô hình HMM : sử dụng mô hình căn chỉnh first-order15
)
| (a j a j1
p trong
14 Zero-order chỉ xác suất của một từ không phụ thuộc vào bất kỳ từ nào trước nó
15 First-order chỉ xác suất của một từ phụ thuộc vào một từ trước nó
Trang 26đó vị trí căn chỉnh aj phụ thuộc và vị trí căn chỉnh trước đó aj-1
Mô hình IBM-3 : trong mô hình này chúng ta có một mô hình căn chỉnh zero-order đảo ngược p(j|a j,I,J) với mô hình fertility16 bổ sung p(|e)
mà mô tả số lượng từ được căn chỉnh với một từ trong chuỗi đích e
Mô hình IBM-4 : trong mô hình này chúng ta có một mô hình căn chỉnh first-order đảo ngược p(j| j') và một mô hình fertility p(|e)
Mô hình IBM-5 : các mô hình IBM-3 và IBM-4 chưa hoàn chỉnh bởi vì chúng bỏ đi phần xác suất trên các non-string17 Mô hình IBM-5 là một cải tiến của mô hình IBM-4 với một mô hình căn chỉnh được tinh chỉnh phù hợp để tránh những thiếu sót của mô hình trên
Như vậy điểm khác nhau chủ yếu giữa các mô hình nằm trong mô hình căn chỉnh, có thể là zero-order hoặc first-order, cùng với sự tồn tại của mô hình fertility mở rộng để cải tiến bất kỳ lúc nào mô hình chưa hoàn chỉnh Đối với mô hình HMM, IBM-4 và IBM-5 đơn giản chỉ là sự mở rộng tham số căn chỉnh bao gồm sự phụ thuộc của các từ xung quanh vị trí căn chỉnh
Để huấn luyện mô hình dịch, chúng ta sử dụng 6 mô hình trên tích hợp lại với nhau, đầu ra của mô hình này sẽ là đầu vào của mô hình tiếp theo Mỗi mô hình
có thể thực hiện nhiều lần Các pha huấn luyện mô hình dịch bằng GIZA++ được
mô tả trong Hình 3.2
Hình 3.2 - Các pha huấn luyện mô hình dịch
16 Fertility vẫn được giữ nguyên không dịch vì đây là thuật ngữ chuyên ngành, tránh làm mất ý nghĩa gốc
17 Non-string là những thành phần không thuộc bộ từ vựng, chẳng hạn như các ký hiệu
5 lần
mô hình
1
3 lần
mô hình
2
3 lần
mô hình
3
3 lần
mô hình
4
Trang 27Mặc định GIZA++ sử dụng 5 lần mô hình 1; 3 lần mô hình 2; 3 lần mô hình 3 và
3 lần mô hình 4 Chúng ta có thể thiết lập lại các thông số này cho lược đồ huấn
luyện khác, trong đó có thể thay thế mô hình 2 bằng mô hình HMM[36] Tuy
nhiên, HMM có một vấn đề là nó không chạy tốt nếu có bước nhảy lớn bởi vì thứ
tự từ khác nhau trong những cặp ngôn ngữ[20] Thực nghiệm trên hệ thống dịch tiếng Ả rập sang tiếng Anh [36], mô hình 2 thực hiện tốt hơn mô hình HMM với
những giá trị tham số mặc định
Mỗi mô hình có một tập tham số tự do θ Để huấn luyện các tham số θ, chúng ta
sử dụng cách tiếp cận hợp lý cực đại bằng cách áp dụng thuật toán EM18 Sử dụng một kho ngữ liệu song ngữ huấn luyện bao gồm S cặp câu
}, ,1
1
)
| , ( max
arg ˆ
3.3 Thuật toán Beam Search 19
Quá trình dịch từ ngôn ngữ nguồn sang ngôn ngữ đích về cơ bản được thực hiện như sau, lấy ví dụ dịch câu tiếng Tây Ban Nha “Maria no dio una bofetada a la bruja verde” sang tiếng Anh “Maria did not slap the green witch”:
- Tiến hành dịch từ trái sang phải, lựa chọn những từ nước ngoài để được dịch
Maria no dio una bofetada a la bruja verde
- Tìm cụm dịch tiếng Anh tương ứng
18 EM là viết tắt của Expectation Maximization
19 “Beam search” là một thuật toán tìm kiếm dạng A* có tỉa nhánh, từ đây về sau sử dụng thuật ngữ
“Beam search”
Trang 28- Thêm cụm tiếng Anh vào cuối chuỗi dịch cuối cùng
Maria no dio una bofetada a la bruja verde
Maria no dio una bofetada a la bruja verde
Mary did not
- Dịch nhiều sang một
Maria no dio una bofetada a la bruja verde
Mary did not slap
Maria no dio una bofetada a la bruja verde
- Đảo trật tự
Maria no dio una bofetada a la bruja verde
Mary did not slap the green
Maria no dio una bofetada a la bruja verde
Mary did not slap the green witch
Trang 293.3.1 Translation Options
Cho một chuỗi đầu vào, nhiều cách dịch cụm khác nhau có thể được áp dụng Chúng ta gọi mỗi cách dịch cụm như vậy là một translation option Điều này được minh hoạ ở hình bên dưới, mô tả nhiều cách dịch cụm cho câu tiếng Tây Ban Nha “Maria no daba uma bofetada a la bruja verde”
Hình 3.3 - Một câu có thể có nhiều cách dịch khác nhau
Translation option được lưu trữ những thông tin sau:
- Từ nước ngoài đầu tiên được phủ
- Bắt đầu với giả thuyết null
o e : không có từ tiếng Anh
o f : không có từ nước ngoài được phủ
o p : xác suất 1
Trang 30- Chọn một translation option mới với tiêu chí duyệt các cụm từ từ trái sang phải
- Tạo giả thuyết
o e : thêm cụm tiếng Anh “Mary”
o f : từ tiếng Anh đầu tiên đƣợc phủ
o p : xác suất 0.534
e: Mary f: * - p: 534
Trang 31- Thêm một giả thuyết khác
- Mở rộng giả thuyết
e: Mary f: * - p: 534
e:
f: -
p: 1
e: slap f: *-*** p: 043
e: witch f: -*- p: 182
e: Mary f: * - p: 534
e:
f: -
p: 1
e: witch f: -*- p: 182
Trang 32- Mở rộng giả thuyết cho tới khi tất cả từ nước ngoài được phủ
o Tìm giả thuyết tốt nhất mà phủ tất cả từ nước ngoài
- Risk free : tái kết hợp giả thuyết
- Risky : tỉa dựa trên histogram/ngưỡng
e: green witch f: ********* p: 000271
e: the f: ******* p: 004283
e: slap f: ***** p: 015
e: did not f: ** - p: 154
e: Mary f: * - p: 534
e:
f: -
p: 1
e: slap f: *-*** p: 043
e: witch f: -*- p: 182
Trang 333.3.3.1 Tái kết hợp giả thuyết
Những con đường khác nhau có cùng kết quả dịch sẽ kết hợp lại với nhau
- Bỏ những giả thuyết yếu
- Giữ lại con trỏ từ con đường xấu hơn
Tái kết hợp giả thuyết không cần phải so khớp hoàn chỉnh Con đường yếu hơn
có thể bị bỏ đi nếu :
- Hai từ tiếng Anh cuối cùng được so khớp
- Vector phủ từ nước ngoài được so khớp