1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÁO CÁO CHUYÊN ĐỀ DỊCH MÁY VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN

36 756 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 0,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NỘI DUNG TRÌNH BÀY1 2 Tổng quan về dịch máy Mô hình dịch máy thống kê Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy 2 1 3... Một số kỹ thuật dịch máy Dịch máy dựa trên luật  Á

Trang 1

BÁO CÁO CHUYÊN ĐỀ

TRƯỜNG ĐẠI HỌC DUY TÂN

KHOA SAU ĐẠI HỌC

DỊCH MÁY

VÀ MỘT SỐ MÔ HÌNH DỊCH MÁY CẢI TIẾN

Môn học: TOÁN TRONG CÔNG NGHỆ THÔNG TIN

ĐÀ NẴNG, 11/2013

Nhóm: Hoàng Xuân Đăng Cường

Lê Đình Phúc Trần Đình Hoàng Huy

Lê Văn Tịnh

Trang 2

NỘI DUNG TRÌNH BÀY

1

2

Tổng quan về dịch máy

Mô hình dịch máy thống kê

Khai thác sự tương tự giữa các ngôn ngữ trong dịch máy

2

1

3

Trang 3

NỘI DUNG TRÌNH BÀY

1

2

Tổng quan về dịch máy

2 1

Trang 5

Lịch sử dịch máy

1 Thời kì sơ khai: thế kỷ 17, nghiên cứu triết học

2 Những năm đầu tiên: Warren Weaver (1949),

Georgetown-IBM (1954),

3 Những năm 1960, bản báo cáo ALPAC (chỉ ra sự tốn

kém so với người) và những năm 70 (xuất hiện hệ thống giá rẻ và dược thương mại)

4 Những năm 1980 và đầu 1990: phát triển mạnh mẽ

5 Hiện nay: kết hợp tri thức, hình thái học, thống kê,

Trang 6

Các loại hình dịch máy phổ biến

 Thứ nhất: sử dụng phương pháp tiếp cận dịch thuật trực tiếp Hệ thống được thiết kế một cách cụ thể, chi tiết cho một cặp ngôn ngữ đặc biệt

 Thứ hai: sử dụng phương pháp tiếp cận ngôn ngữ trung gian, là việc chuyển đổi các văn bản từ các nghĩa đại diện phổ biến đến nhiều hơn một ngôn ngữ

 Thứ ba: cũng là phương pháp tiếp cận qua ngôn ngữ

trung gian nhưng xét đến cấu trúc cú pháp cho cả văn bản nguồn và văn bản mục tiêu

Trang 7

Cấu trúc hệ thống dịch máy

Trang 8

Một số kỹ thuật dịch máy

 Dịch máy dựa trên luật

 Áp dụng các tri thức ngôn ngữ của các cặp ngôn ngữ nguồn và

ngôn ngữ đích do các nhà ngôn ngữ học xây dựng (rule – based machine translation)

 Dịch máy dựa trên ví dụ

 Không đòi hỏi phải có sự phân tích ngôn ngữ học, cú pháp, ngữ

nghĩa vì mọi câu dịch đều dựa vào việc “so khớp” mẫu căn cứ kho ngữ liệu song ngữ.

 Dịch máy dựa trên thống kê

 Dịch máy dựa trên thống kê là hướng tiếp cận hoàn toàn dựa trên ngữ liệu nên nó có tính độc lập với ngôn ngữ Những tham số thống

kê thu được từ việc huấn luyện trên ngữ liệu song ngữ sẽ được sử dụng cho việc dịch ở lần sau

Trang 9

NỘI DUNG TRÌNH BÀY

2

Mô hình dịch máy thống kê

2

Trang 10

Lịch sử dịch máy thống kê

 Được giới thiệu bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon

 Bị gián đoạn và bế tắc một thời gian

 Năm 1991, dịch máy thông kê được tái giới thiệu bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu

Thomas J Watson của IBM

Trang 12

Mô hình dịch máy thống kê

1 Dịch máy thống kê dựa trên từ

 Mô hình dịch máy thống kê dựa trên từ được đưa ra bởi Brown vào năm 1990

 Mô hình này giả sử rằng câu e ở ngôn ngữ nguồn có câu dịch là câu

v ở ngôn ngữ đích Một câu e có thể dịch sang được nhiều câu v

Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là nhiều nhất Với mỗi cặp câu (v|e) ta gọi p(v|e) là xác suất mà e có thể dịch thành v

 Mục đích của dịch máy thống kê là tìm câu v có xác suất p(v|e) là cao nhất Tuy nhiên, việc tính xác suất p(v|e) không khả thi vì câu đích được tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp Do đó, công thức Bayes được dùng để triển khai cho xác suất p(v|e):

Trang 13

Mô hình dịch máy thống kê

1 Dịch máy thống kê dựa trên từ

 Hệ dịch máy thống kê gồm 3 phần:

- Mô hình ngôn ngữ p(v) (language model): Phản ánh độ

trôi chảy của câu dịch Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất p(v) cao hơn Mô hình này được huấn luyện dựa trên ngữ liệu đơn ngữ

- Mô hình dịch p(v) (translation model): Đưa ra sự tương

ứng giữa các từ, ngữ trong các cặp ngôn ngữ Với câu e

cho trước, câu dịch v nào có xác suất p(v) cao hơn thì sẽ

là câu dịch hợp lý hơn Mô hình này được huấn luyện dựa trên các cặp câu song ngữ

- Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô

hình ngôn ngữ để thực hiện quá trình dịch

Trang 14

Mô hình dịch máy thống kê

1 Dịch máy thống kê dựa trên từ

Trang 15

Mô hình dịch máy thống kê

2 Dịch máy thống kê dựa trên ngữ

 Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy được thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ Điều này cho phép hệ thống có thể dịch các cụm từ tránh được dịch word-by-word

Trang 16

Mô hình dịch máy thống kê

2 Dịch máy thống kê dựa trên ngữ

Trang 17

Mô hình dịch máy thống kê

2 Dịch máy thống kê dựa trên ngữ

(Google Translate)

Hình 2.2: Ví dụ về dịch thống kê dựa trên ngữ

Trang 18

Mô hình dịch máy thống kê

 Một hạn chế của hệ dịch thống kê dựa trên ngữ là

vẫn chưa sử dụng thông tin ngôn ngữ vào hệ dịch

Đối với các ngôn ngữ biến đổi hình thái, hệ dịch xem

các dạng biến cách như là những từ phân biệt, do hệ

dịch chỉ nhận diện bề mặt chữ chứ không có thông

tin liên hệ nào giữa các dạng biến cách

Trang 19

Mô hình dịch máy thống kê

Dịch từ cây cú pháp sang câu (tree-to-string )

- Quá trình học: Từ câu nguồn phân tích thành cây cú pháp Mô hình này học xác suất chuyển đổi trật tự giữa các nút có nút con trong cây, xác suất chèn từ vào các nút và xác suất dịch các nút lá thành câu đích

- Quá trình dịch: Với mỗi câu đầu vào, hệ dịch phân tích cú pháp Dựa vào bảng xác suất chuyển đổi trật tự, mô hình sẽ đổi trật tự giữa các nút Từ cây cú pháp mới, mô hình thêm các từ của ngôn ngữ đích

dựa vào xác suất chèn từ Cuối cùng, hệ dịch các từ ở nút lá ra ngôn ngữ đích, nút lá có thể dịch ra thành từ rỗng (NULL)

Trang 20

Mô hình dịch máy thống kê

Mô hình cây cú pháp

Trang 21

Mô hình dịch máy thống kê

Chuyển đổi dựa trên cây cú pháp của cả hai ngôn

ngữ (tree-based transfer)

- Câu nguồn và câu đích được phân tích ra thành cây cú pháp, thường là cây nhị phân để giảm độ phức tạp khi chuyển đổi trật tự

Trang 22

Mô hình dịch máy thống kê

Chuyển đổi dựa trên cây cú pháp của cả hai ngôn ngữ (tree-based transfer)

- Cây cú pháp của câu đích được đổi trật tự và kết hợp với cây cú pháp của câu nguồn

- Chuyển đổi dựa trên cấu trúc kế thừa (hierarchical

transfer)

- Dịch dựa trên mệnh đề (clause level restructuring)

Trang 23

Mô hình dịch máy thống kê

Các ưu điểm của dịch máy thống kê dựa trên cú pháp:

- Có thể chuyển đổi trật tự dựa trên thông tin cú pháp

Chẳng hạn như chuyển tân ngữ của câu tiếng Anh sang cuối câu trước khi dịch sang tiếng Đức

- Dịch những từ chức năng (giới từ, mạo từ, ) tốt hơn

- Có thể lấy thông tin về quan hệ cú pháp giữa các từ trong

câu Chẳng hạn như chuyển đổi trật tự giữa chủ ngữ và tân ngữ

- Có thể khai thác mô hình ngôn ngữ cú pháp:

Trang 24

Mô hình dịch máy thống kê

Các nhược điểm của dịch máy thống kê dựa trên cú

rõ về lý thuyết ngôn ngữ

Trang 25

NỘI DUNG TRÌNH BÀY

Trang 26

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Hiện trạng dịch máy thống kê

Giới thiệu phương pháp

Mô hình túi từ liên tục và Skip-gram

Kết quả và khả năng ứng dụng

Trang 27

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Hiện trạng dịch máy thống kê

Nền tảng: các từ điển và bảng cụm từ

Đòi hỏi nhiều công sức của các chuyên gia ngôn ngữ

Không dịch được các từ chưa tồn tại trong từ điển

Trang 28

Khai thác sự tương tự giữa các ngôn

Trang 29

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Giới thiệu phương pháp

Các vec tơ biểu diễn số và động

vật trong tiếng Anh và Tây Ban Nha

Có sự tương tự về sắp xếp

hình học

Lí do: các khái niệm tương tự

giữa các ngôn ngữ điều

xuất phát từ thế giới thực

Chó và mèo hay được nuôi trong gia đình

Mèo là động vật nhỏ hơn chó

Có sự sắp xếp hình học tương tự nhau trong các không gian vec

tơ là mấu chốt của phương pháp

Ví dụ mô tả trực quan phương pháp

Trang 30

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Giới thiệu phương pháp

Trang 31

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Mô hình túi từ liên tục và Skip-gram

Một mô hình ngôn ngữ để biểu diễn ngôn ngữ

Đề xuất bởi Mikolov và các cộng sự năm 2013 (tác giả bài báo??)

Trang 32

Khai thác sự tương tự giữa các ngôn

Trang 33

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Mô hình túi từ liên tục và Skip-gram

Sử dụng biểu diễn phân tán các từ, cụm từ để suy luận các mục từ còn thiếu

Các từ tương tự nhau sẽ gần nhau khi biểu diễn trong không gian vec tơ

Học phép chiếu tuyến tính giữa các không gian vec tơ biểu diễn các ngôn ngữ

Nhiều khái niệm tương tự có thể biểu diễn bằng phép chiếu tuyến tính

Vec tơ biểu diễn “king” – “man” + “woman” gần vec tơ “queen”

“school”, “university” hoặc “river”, “lake” có vec tơ biểu diễn gần nhau

Trang 34

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Kết quả và khả năng ứng dụng

Ví dụ dịch từ ngoài từ điển (tiếng

Tây Ban Nha sang tiếng anh)

Hiển thị 3 khả năng dịch sát nghĩa

nhất

Các từ trong ví dụ được chọn

ngẫu nhiên

Trang 35

Khai thác sự tương tự giữa các ngôn

ngữ trong dịch máy

Kết quả và khả năng ứng dụng

Hiệu quả đáng ngạc nhiên

Dịch các từ giữa tiếng Anh và Tây Ban Nha cho độ chính xác lên đến 90%

Dịch các từ giữa tiếng Anh và Tây Ban Nha, Séc, Việt Nam cũng cho

độ chính xác cao

Bổ sung, lọc từ điển, bảng cụm từ, là thành phần quan trọng trong dịch máy thống kê hiện tại

Trang 36

THANKS !

Ngày đăng: 04/04/2015, 16:00

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w