NỘI DUNG TRÌNH BÀY1 2 Tổng quan về dịch máy Mô hình dịch máy thống kê Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy 2 1 3... Một số kỹ thuật dịch máy Dịch máy dựa trên luật Á
Trang 1BÁO CÁO CHUYÊN ĐỀ
TRƯỜNG ĐẠI HỌC DUY TÂN
KHOA SAU ĐẠI HỌC
DỊCH MÁY
VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN
Môn học: TOÁN TRONG CÔNG NGHỆ THÔNG TIN
ĐÀ NẴNG, 11/2013
Nhóm: Hoàng Xuân Đăng Cường
Lê Đình Phúc Trần Đình Hoàng Huy
Lê Văn Tịnh
Trang 2NỘI DUNG TRÌNH BÀY
1
2
Tổng quan về dịch máy
Mô hình dịch máy thống kê
Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy
2
1
3
Trang 3NỘI DUNG TRÌNH BÀY
1
2
Tổng quan về dịch máy
2 1
Trang 5Lịch sử dịch máy
1 Thời kì sơ khai: thế kỷ 17, nghiên cứu triết học
2 Những năm đầu tiên: Warren Weaver (1949),
Georgetown-IBM (1954),
3 Những năm 1960, bản báo cáo ALPAC (chỉ ra sự tốn
kém so với người) và những năm 70 (xuất hiện hệ thống giá rẻ và dược thương mại)
4 Những năm 1980 và đầu 1990: phát triển mạnh mẽ
5 Hiện nay: kết hợp tri thức, hình thái học, thống kê,
Trang 6Các loại hình dịch máy phổ biến
Thứ nhất: sử dụng phương pháp tiếp cận dịch thuật trực tiếp Hệ thống được thiết kế một cách cụ thể, chi tiết cho một cặp ngôn ngữ đặc biệt
Thứ hai: sử dụng phương pháp tiếp cận ngôn ngữ trung gian, là việc chuyển đổi các văn bản từ các nghĩa đại diện phổ biến đến nhiều hơn một ngôn ngữ
Thứ ba: cũng là phương pháp tiếp cận qua ngôn ngữ
trung gian nhưng xét đến cấu trúc cú pháp cho cả văn bản nguồn và văn bản mục tiêu
Trang 7Cấu trúc hệ thống dịch máy
Trang 8Một số kỹ thuật dịch máy
Dịch máy dựa trên luật
Áp dụng các tri thức ngôn ngữ của các cặp ngôn ngữ nguồn và
ngôn ngữ đích do các nhà ngôn ngữ học xây dựng (rule – based machine translation)
Dịch máy dựa trên ví dụ
Không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ
nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu căn cứ kho ngữ liệu song ngữ.
Dịch máy dựa trên thống kê
Dịch máy dựa trên thống kê là hướng tiếp cận hoàn toàn dựa trên ngữ liệu nên nó có tính độc lập với ngôn ngữ Những tham số thống
kê thu được từ việc huấn luyện trên ngữ liệu song ngữ sẽ được sử dụng cho việc dịch ở lần sau
Trang 9NỘI DUNG TRÌNH BÀY
2
Mô hình dịch máy thống kê
2
Trang 10Lịch sử dịch máy thống kê
Được giới thiệu bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon
Bị gián đoạn và bế tắc một thời gian
Năm 1991, dịch máy thông kê được tái giới thiệu bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu
Thomas J Watson của IBM
Trang 12Mô hình dịch máy thống kê
1 Dịch máy thống kê dựa trên từ
Mô hình dịch máy thống kê dựa trên từ được đưa ra bởi Brown vào năm 1990
Mô hình này giả sử rằng câu e ở ngôn ngữ nguồn có câu dịch là câu
v ở ngôn ngữ đích Một câu e có thể dịch sang được nhiều câu v
Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là nhiều nhất Với mỗi cặp câu (v|e) ta gọi p(v|e) là xác suất mà e có thể dịch thành v
Mục đích của dịch máy thống kê là tìm câu v có xác suất p(v|e) là cao nhất Tuy nhiên, việc tính xác suất p(v|e) không khả thi vì câu đích được tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp Do đó, công thức Bayes được dùng để triển khai cho xác suất p(v|e):
Trang 13Mô hình dịch máy thống kê
1 Dịch máy thống kê dựa trên từ
Hệ dịch máy thống kê gồm 3 phần:
- Mô hình ngôn ngữ p(v) (language model): Phản ánh độ
trôi chảy của câu dịch Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất p(v) cao hơn Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ
- Mô hình dịch p(v) (translation model): Đưa ra sự tương
ứng giữa các từ, ngữ trong các cặp ngôn ngữ Với câu e
cho trước, câu dịch v nào có xác suất p(v) cao hơn thì sẽ
là câu dịch hợp lý hơn Mô hình này được huấn luyện dựa trên các cặp câu song ngữ
- Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô
hình ngôn ngữ để thực hiện quá trình dịch
Trang 14Mô hình dịch máy thống kê
1 Dịch máy thống kê dựa trên từ
Trang 15Mô hình dịch máy thống kê
2 Dịch máy thống kê dựa trên ngữ
Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ Điều này cho phép hệ thống có thể dịch các cụm từ tránh được dịch word-by-word
Trang 16Mô hình dịch máy thống kê
2 Dịch máy thống kê dựa trên ngữ
Trang 17Mô hình dịch máy thống kê
2 Dịch máy thống kê dựa trên ngữ
(Google Translate)
Hình 2.2: Ví dụ về dịch thống kê dựa trên ngữ
Trang 18Mô hình dịch máy thống kê
Một hạn chế của hệ dịch thống kê dựa trên ngữ là
vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch
Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem
các dạng biến cách như là những từ phân biệt, do hệ
dịch chỉ nhận diện bề mặt chữ chứ không có thông
tin liên hệ nào giữa các dạng biến cách
Trang 19
Mô hình dịch máy thống kê
Dịch từ cây cú pháp sang câu (tree-to-string )
- Quá trình học: Từ câu nguồn phân tích thành cây cú pháp Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích
- Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích
dựa vào xác suất chèn từ Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL)
Trang 20Mô hình dịch máy thống kê
Mô hình cây cú pháp
Trang 21Mô hình dịch máy thống kê
Chuyển đổi dựa trên cây cú pháp của cả hai ngôn
ngữ (tree-based transfer)
- Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự
Trang 22Mô hình dịch máy thống kê
Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer)
- Cây cú pháp của câu đích được đổi trật tự và kết hợp với cây cú pháp của câu nguồn
- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical
transfer)
- Dịch dựa trên mệnh đề (clause level restructuring)
Trang 23Mô hình dịch máy thống kê
Các ưu điểm của dịch máy thống kê dựa trên cú pháp:
- Có thể chuyển đổi trật tự dựa trên thông tin cú pháp
Chẳng hạn như chuyển tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức
- Dịch những từ chức năng (giới từ, mạo từ, ) tốt hơn
- Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong
câu Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và tân ngữ
- Có thể khai thác mô hình ngôn ngữ cú pháp:
Trang 24
Mô hình dịch máy thống kê
Các nhược điểm của dịch máy thống kê dựa trên cú
rõ về lý thuyết ngôn ngữ
Trang 25NỘI DUNG TRÌNH BÀY
Trang 26Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Hiện trạng dịch máy thống kê
Giới thiệu phương pháp
Mô hình túi từ liên tục và Skip-gram
Kết quả và khả năng ứng dụng
Trang 27Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Hiện trạng dịch máy thống kê
Nền tảng: các từ điển và bảng cụm từ
Đòi hỏi nhiều công sức của các chuyên gia ngôn ngữ
Không dịch được các từ chưa tồn tại trong từ điển
Trang 28Khai thác sự tương tự giữa các ngôn
Trang 29Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Giới thiệu phương pháp
Các vec tơ biểu diễn số và động
vật trong tiếng Anh và Tây Ban Nha
Có sự tương tự về sắp xếp
hình học
Lí do: các khái niệm tương tự
giữa các ngôn ngữ điều
xuất phát từ thế giới thực
Chó và mèo hay được nuôi trong gia đình
Mèo là động vật nhỏ hơn chó
Có sự sắp xếp hình học tương tự nhau trong các không gian vec
tơ là mấu chốt của phương pháp
Ví dụ mô tả trực quan phương pháp
Trang 30Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Giới thiệu phương pháp
Trang 31Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Mô hình túi từ liên tục và Skip-gram
Một mô hình ngôn ngữ để biểu diễn ngôn ngữ
Đề xuất bởi Mikolov và các cộng sự năm 2013 (tác giả bài báo??)
Trang 32Khai thác sự tương tự giữa các ngôn
Trang 33Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Mô hình túi từ liên tục và Skip-gram
Sử dụng biểu diễn phân tán các từ, cụm từ để suy luận các mục từ còn thiếu
Các từ tương tự nhau sẽ gần nhau khi biểu diễn trong không gian vec tơ
Học phép chiếu tuyến tính giữa các không gian vec tơ biểu diễn các ngôn ngữ
Nhiều khái niệm tương tự có thể biểu diễn bằng phép chiếu tuyến tính
Vec tơ biểu diễn “king” – “man” + “woman” gần vec tơ “queen”
“school”, “university” hoặc “river”, “lake” có vec tơ biểu diễn gần nhau
Trang 34Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Kết quả và khả năng ứng dụng
Ví dụ dịch từ ngoài từ điển (tiếng
Tây Ban Nha sang tiếng anh)
Hiển thị 3 khả năng dịch sát nghĩa
nhất
Các từ trong ví dụ được chọn
ngẫu nhiên
Trang 35Khai thác sự tương tự giữa các ngôn
ngữ trong dịch máy
Kết quả và khả năng ứng dụng
Hiệu quả đáng ngạc nhiên
Dịch các từ giữa tiếng Anh và Tây Ban Nha cho độ chính xác lên đến 90%
Dịch các từ giữa tiếng Anh và Tây Ban Nha, Séc, Việt Nam cũng cho
độ chính xác cao
Bổ sung, lọc từ điển, bảng cụm từ, là thành phần quan trọng trong dịch máy thống kê hiện tại
Trang 36THANKS !