1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động

101 928 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 101
Dung lượng 39,06 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trương Xuân Nam - Trang 17 - Luận văn thạc sĩSo với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả dịch tôt hơn do câu đích sinh ra chuyển tải đ ượ c cả nội d ung về ngữ pháp và n gữ

Trang 1

Đ Ạ I H Ọ C Q U Ố C G I A H À N Ộ I

K H O A C Ô N G N G H Ệ

TRƯƠNG XUÂN NAM

MỘT PHƯƠNG PHÁP XÂY DựNG HỆ CO SỞ TRI THỨC

Trang 2

Đ Ạ I H Ọ C Q U Ố C G I A H À N Ộ I

K H O A C Ô N G N G H Ệ

TRƯƠNG XUÂN NAM

MỘT PHƯƠNG PHÁP XÂY DựNG HỆ CO SỞ TRI THỨC

Trang 3

1 rương Xuân Nam - Trang I - Luận văn thạc sĩ

MỤC LỤC

M Ò Đ Ầ U 4

C H Ư Ơ N G 1 - T Ổ N G Q U A N V Ề D Ị C H T ự Đ Ộ N G N G Ô N N G Ữ T ự N H I Ê N 7

1.1 V ấn đề dịch máy - dịch tự độn g ngôn ngữ tự n h i ê n 7

1.1.1 Định nghĩa dịch m á y 7

1.1.2 Vai trò của dịch m á y 8

1.1.3 Phân loại dịch m á y 8

1.2 Lịch sử của ngành dịch m á y 9

1.2.1 Giai đoạn tiền m á y t í n h 9

1.2.2 Giai đoạn t rước A L P A C 10

1.2.3 Giai đoạn phục h ồ i 11

1.2.4 Giai đoạn hiện n a y 12

1.3 M ộ t số chiến lược dịch m á y 14

1.3.1 D ịc h trực tiếp 14

1.3.2 Dị ch chuyển đ ổ i 15

1.3.3 Dịch liên n g ữ 17

1.3.4 Dịch b ằng thống kê (Statistical M ac h in e T r a n s l a t i o n ) 18

1.3.5 Dịch bằng ví dụ ( Ex a mp l e - B a s e d M ac h in e T r a n s l a t i o n ) 19

1.4 P h ạ m vi nghiên cứu của luận v ă n 20

1.4.1 T r ọ n g tâm nghiên c ứu c ủa luận v ă n 21

1.4.2 M ụ c tiêu của luận v ă n 22

C H Ư Ơ N G 2 - C A U T R Ú C C Ủ A M Ộ T H Ệ D ỊC H T ự Đ Ộ N G Đ Ơ N G I Ả N 23

2 1 M ộ t s ố k h á i n i ệ m c ơ b ả n 2 3 2.1.1 T ừ vựng ’ 23

2.1.2 Phân loại ngữ p h á p 23

2.1.3 Luật văn p h ạ m 24

2 1.4 Phâ n loại ngữ n g h ĩ a 25

2.1.5 Cú ph á p điều k h i ể n 25

2.2 C ấ u trúc của một hệ dịch t ự đ ộng đ ơn g i ả n 25

2.2.1 Sơ đồ hệ dịch tự đ ộ n g 26

2.2.2 Hoạ t đ ộng của hệ d ị c h 27

2.3 P h ầ n x ử lý từ v ự n g 27

2.3.1 C hức năng, n hi ệ m vụ của x ử lý từ v ự n g 27

2.3.2 Hoạ t đ ộng của p hầ n x ử lý từ v ự n g 27

2.3.3 Các k ĩ thuật s ử dụ ng t rong p hầ n x ử lý từ v ự n g 28

2 3 4 M ộ t số vấn đề t rong x ử lý từ v ự n g 29

2.4 P h ầ n x ử lý n g ữ p h á p 30

2.4.1 C h ức năng, n h i ệ m v ụ c ủ a x ử lý n gữ p h á p 30

2 4 2 H o ạt đ ộng c ủa p h ần x ử lý n g ữ p h á p 31

2.4.3 Các k ĩ thuật sử dụn g t rong phần x ử lý n g ữ p h á p 32

2 4 4 M ộ t sổ vấn đề t rong x ử lý n g ữ p h á p 33

2.5 P h ầ n xử lý n g ữ n g h ĩ a 34

MỞ Đ ÂU

Trang 4

T'rurcmg Xu -11 Nam - Trang 2 - Luận văn thạc sĩ

2.5.1 C h ứ c năng, n hi ệm vụ của xử lý ng ừ n g h ĩ a 34

2.52 H o ạ t động của phần xử lý ngữ n g h ĩ a 34

2.53 C ác kĩ thuật s ử dụn g trong phần xử iý n g ữ n g h ĩ a 35

2.5 l M ộ t số vấn đề trong x ử lý n g ữ n g h ĩ a 35

2.6 Các thành p h ần k h á c 36

2.61 K h ố i tiền xử l ý 36

2.62 Kh ối thu thập và quản lý tri t h ứ c 37

.2.7 Nhìn lại các vấn đề c ủa hệ d ị c h 37

C H Ư Ơ N 3 3 - X Ử L Ý N G Ữ N G H I A B Ằ N G c ú P H Á P Đ IỀ U K H I Ế N 40

3.1 Một số p h ư ơ n g pháp x ử lý n g ữ nghĩa trong dịch tự đ ộ n g 40

3.11 C h ọ n n g h ĩa đơn g i ả n 40

3.12 C h ọn n g h ĩa dự a trên t hố ng kê - xác s u ấ t 41

3.13 C h ọ n n gh ĩ a dựa trên ph ân tích và tổ họp n g ữ n g h ĩ a 42

3.2 X ử lý na;ữ n g hĩ a bà ng cú pháp điều k h i ể n 43

3.21 Khái n i ệ m cú pháp điều k h i ể n 43

3.22 Phân loại cú p há p điều k h i ể n 43

3.23 H o ạt đ ộ n g của cú p há p điều khiển trong việc x ử lý n g ữ n g h ĩ a 44

-3.3 Các vấn đề t r o n g x ử lý n g ữ nghĩa bằng cú ph áp điều k h i ể n 48

3.3J T í n h p h ứ c tạp của cú p há p điều k h i ể n 48

3.32 Tí nh c ứ n g nhắc của cú p há p điều k h i ể n 50

3.33 Đ á n h g i á hiệu quả ứn g dụng cú pháp điều k h i ể n 51

-3.4 P h ư ơ n g h ư ớ n g giải quyết bằng học tự đ ộ n g 53

3.41 Đ ơ n g i ả n hoá cú ph á p điều k h i ể n 53

3.4- K h ả n ă n g sinh tri thức dịch từ m ẫ u dịch đã c ó 54

3.43 Sử d ụ n g tri thức dịch để sinh tự động cú p há p điều k h i ể n 54

C H Ư Ơ Kj 4 - M Ô H I N H T Ả N G T R Ư Ở N G T R O N G x ử L Ý N G Ữ N G H Ĩ A 56

‘4.1 Giới thiệu m ô hình tăng t r ư ở n g 56

4.11 Đ ặ t v ấ n đ ề 56

4 11 C ấ u t rúc các thành p h ần t rong cơ s ở tri t h ứ c 56

4.13 S ơ đồ h o ạ t độn g của m ô hình tăng t r ư ở n g 59

l \ 2 X ử lý mẫ u dịch bằng d ón g hà ng văn b ả n 61

4.21 Bài to án dó ng h àng vă n b ả n 61

4.22 V ị trí c ủ a dó n g h à n g văn bản trong hệ học d ị c h 62

4.23 Th u ậ t toán dóng h à ng văn bản n h a n h 63

4.21 Đ á n h g iá về dón g h à n g văn b ả n 66

<4.3 X â y d ự n g c ú p h á p điều khiển đơn giản từ m ẫ u đã dó ng h à n g 67

4.31 C á c loại cú p há p điều khiển đ ược sinh tự đ ộ n g 67

4.32 K i ể m tra sự t ư ơ n g đ ư ơ n g giữa các m ẫ u 68

4.33 T h u ậ t t o á n sinh cú ph áp điều khiển chọn n g h ĩ a 70

4.3 \ T h u ậ t to án sinh cú pháp điều khiển sinh c â u 71

l A A Đ á n h giá về m ô h ình tăng t r ư ở n g 73

4.41 Đ á n h giá chất lượng tri thức xây dựng đ ư ợ c 73

4.42 Đ á n h giá hiệu năng hoạt động của m ô h ì n h 74

MỞ Đ À U

Trang 5

Trưong Xuâ n Nam - T r a n g 3 - Luận văn thạc sĩ

C H Ư Ơ N G 5 - C H Ư Ơ N G T R Ì N H V À T H Ử N G H I Ệ M 76

5.1 Kiến trúc của hệ t h ố n g 76

5.1.1 Kiến trúc c ủ a hệ d ị c h 77

5.1.2 Kiến trúc củ a hệ học d ị c h 78

5.2 Một số cấu trúc d ữ liệu chính t rong c h ư ơ n g t r ì n h 80

5.2.1 Luậ t n g ữ p h á p 80

5.2.2 T h ô n g tin về từ t ố 80

5.2.3 Cây p h â n tích n g ữ p h á p 82

5.3 Các số liệu v à thử n g h i ệ m 82

5.4 M ột số đá nh giá về c h ươ n g t r ì n h 83

K Ế T L U Ậ N 85

T ÀI L I Ệ U T H A M K H Ả O 88

P H Ụ L Ụ C A - G I A O D I Ệ N C Ủ A H Ệ D Ị C H 93

P H Ụ L Ự C B - G I A O D I Ẹ N C Ử A H Ẹ H Ọ C D Ị C H 95

P H Ụ L Ụ C c - D A N H M Ụ C C Á C T H U Ạ T t o á n 97

P H Ụ L Ự C D - D A N H M Ụ C C Á C H Ì N H V Ẽ 98

]>HỰ L Ự C E - D A N H M Ụ C C Á C B Ả N G B I Ê U 99

Trang 6

T rưoTg Xuân Nam - Trang 4 - Luận văn thạc sĩ

MỜ ĐẦU

Tr or g n h ữ n g n ă m gần đây, do sự phát triển n ha nh c hóng c ủa m ạ n g Internet và khả

n iant của má y tính, con người ngày c àng có điều kiện tiếp xúc với n g u ồ n tri thức

p h o n g phú ở rất nhiều dạng khác nhau (c hữ viết, hình ảnh, â m thanh, ) và được thể

h i ệ n ở rất nhiề u ngôn n g ữ khác nhau N h u cầu đọc hiểu và trao đổi t hông tin ngày

c à n g trở n ên cần thiết h ơ n bao giờ hết, thế nhưng, nhu cầu này đã và đa ng gặp một

r à o cản lớn, đó là sự khác biệt về mặ t ngôn ngữ

T ừ xa xưa, người ta đã tìm cách vượt qua rào cản ngôn n g ữ theo nhiề u cách khác

n h a i , từ việc xây d ựn g các bộ từ điển s ong ngữ, các nghiên c ứu về dịch thuật giữa

c á c Igôn ngữ, các cách học ngoại n g ữ nhanh chóng, cho đến cả hi v ọ n g tạo được

m ộ t ngôn n g ữ c h ung c ho loài người (ngôn n g ữ Es pe ra nto - quố c tế ngữ) Khi sức mạn.1 của má y tính đã đư ợ c khẳ ng định, bài toán sử dụng m á y tính để chu yển đổi tri

t h ứ c được viết bằng n g ô n ngữ này sang mộ t ngô n n gữ khác c ũ ng đ ượ c đặt ra Trong gầm 50 năm, có rất nhiều p h ư ơ n g ph áp dịch m á y đã đư ợ c giới thiệu và triển khai Hi'êr nay, đ ã có nhiều hệ dịch tự độn g đ ượ c t hương mại h óa ở d ạ ng các c hương

t r ì n h m á y tính hoặc các dịch vụ w e b [7]

Đ ò i với nhiề u nh à n g hi ê n cứu Việt N a m, việc xây dự ng một hệ dịch má y, đặc biệt

là 'dịch tự đ ộn g từ tiếng A n h s an g tiếng Việt đã được đặt ra từ ỉâu [6] K h ó khăn lớn nhiất trong việc x ây d ự n g một c h ư ơ n g trình dịch là việc xây d ự n g cơ s ở tri thức về

ng<ôn n g ữ cho hệ dịch [1], C hính vì lý do đó, tôi đã lựa c h ọn đề tài “M ộ t phư ơng

p h áp x â y d ự n g h ệ c ơ s ở t r i t h ứ c c ho c h ư ơ n g trình d ị c h t ự đ ộ n g ” cho luận văn

củ;a n i n h L u ậ n văn trình bày mộ t p h ư ơ n g p h á p xây dự ng hệ c ơ sở tri thức cho hệ

d ị c h tự đ ộ n g d ự a trên việc học và trích rút các tri thức từ các m ẫ u dịch đã có Mặ c dầm chưa giải q uy ết tr ọn vẹn các vấn đề đặt ra cho việc thu thập t hô n g tin và xây dựing hệ tri t hức dịch, n h ư n g đây là p h ư ơ n g phá p có nhiều ư u điể m n h ư k hả năng chịịu lỗi và k h ô n g cần s ự tham gia quá nhiều của các c h uy ên gia ngô n n g ữ vào quá

t r ì n h xây d ự n g tri thức

Trang 7

Trưcmg Xuân Nam - Trang 5 - Luận văn thạc sĩ

L u ậ n văn được trình bày tr on g 5 chươn g, trone, đó t rọng t â m n g h i ê n c ứ u v à triển khai được trình bày ở c h ư ơ n g 4 và c h ư ơ n e 5

C h ư o ìig 1: T ổ n g q u an về dịch tự đ ộ n g ngôn ngũ' tự nhiên

Giới thiệu tổng qua n về bài toán dịch t ự đ ộ n g v à các p h ư ơ n g p h á p giải quyết bài toán này t rong n h ữ n g n ă m đã qua T r o n g đó c ũ n g đã đ ư a ra m ộ t số đánh giá về ưu điểm v à n h ư ợ c điể m c ủ a các p h ư ơ n g p h áp tiếp cận

C h ư o n g 2: c ấ u trúc của m ột hệ dịch tự đ ộ n g đ o n giản

Trình bày chi tiết về n hi ệm vụ, cách t hức hoạ t đ ộng, các kỹ th u ật d ư ợ c sử

d ụn g và các v ấn đề gặp phải củ a n h ữ n g t h à n h p h ầ n c ơ bản nh ất tạo nên m ộ t

hệ dịch tự động

Ch iron g 3: X ử lý n g ữ nghĩa b ằn g cú p h áp điều khiển

Đe cập đến các p h ư ơ n g ph áp x ử lý n g ữ n gh ĩ a t rong dịch t ự đ ộ n g, h o ạ t đ ộn g

c ủ a p h ầ n x ử lý n g ữ n g h ĩ a và các v ấn đề gặp phải t r on g q u á trình x ử lý n g ữ nghĩa N ộ i d u n g của c h ư ơ n g c ũ ng đề cập đ ến đ ịnh h ư ớ n g giải q u y ế t các vấn

đề đó, đ ây là tiền đề c ho việc x ây d ự n g m ô h ỉn h dịch t ự đ ộ n g có k h ả n ă n g tự

h ọc th ê m tri th ức mới

Chvương 4: M ô hình tăn g tr ư ỏ ìig tro n g x ử lý n g ữ nghĩa

Tr ì n h b ày p h ư ơ n g p h á p xây d ự n g m ộ t m ô h ì n h sinh tri t h ức dịch t ự đ ộ n g dựa

t rên các cặp m ẫ u câu V ới m ô hì nh n à y có thể x ây d ự n g đ ư ợ c m ộ t c h ư ơ n g trình dịch t ự đ ộn g t ă n g t rư ở n g có k h ả n ă n e h ọc t h ê m c ác m ẫ u dịch m ớ i để

t ăn g c hất lượ ng dịch c ủ a c h ư ơ n g trình n h ư n g lại k h ô n g n ả y sinh v ấ n đề x u n g đột tri t hức, v ố n là m ộ t đ iể m y ế u c ủ a n h i ề u m ô hì nh dịch t ự đ ộ n g khác

Chiưcmg 5: C h ư ơ n g trình và th ử n g h iệm

Tr ì n h b ày m ộ t số kh ía c ạn h khi triển khai x ây d ự n g m ô h ì n h t ă n g t r ư ở n g n h ư

v iệ c x â y d ự n g t ừ điển, cấu t rúc từ, c ấ u trúc nghĩa, luật n g ữ p h á p v à t h ô n g tin

MỜĐẢU

Trang 8

Trương Xuân N a m - Trang 6 - Luận văn thạc sĩ

tri thức cho hệ dịch Phần cuối c ủa c h ư ơ n g c ũ n g trình bày m ộ t vài kết quả đã đạt được

Phần kết luận c ủ a luận văn tổng kết các kết q u ả đạt đ ư ợ c c ủ a luận vă n và nêu một

số h ư ớ n g p h á t triển tr on g t ư ơ n g lai

N g o à i ra, p h ầ n cuối luận v ăn còn có da nh sách các tài liệu t h a m k h ả o đ ư ợ c s ử dụng

t rong luận vă n và c ác p h ụ lục trình b à y về gi ao diện của hệ dịch t ự đ ộ n g và hệ học dịch

M Ở ĐÂU

Trang 9

Trươi; Xuân Nam - Trang 7 - Luận văn thạc sĩ

CH-PƠNG 1 - TỐNG QUAN VÈ DỊCH Tự ĐỘNG NGÔN

M ộ t hệ dịch m áy (M achine Translation System) là một hệ thong sử dụng máy tính để chuyển đ ổ i văn bản được viết tro n g ngôn ngữ tự nhiên này thành bản dịch tương đương tro n g ngôn ngữ khác.

Ngô i n g ữ c ủ a văn bản cần dịch còn gọi là ngôn ngữ nguồn, còn n g ô n n g ữ c ủ a bản dịch đ ượ c gọi là ngôn ngữ đích. Sơ đồ trong Hình 1-1 thể hiện vị trí của hệ dịch

H ìn h 1-1: Q u á trình x ử lý tài liệu dịch máy.

T ỎNG Q U AN VÈ DỊ CH T ự Đ Ộ N G N G Ô N N G Ữ T ự N H I Ê N

Trang 10

Tnrơng Xutn Nam - Tra ng 8 - Luận văn thạc sĩ

Đầu vào của mộ t hệ dịch m á y t h ườ n » là mộ t văn bản viết t rong n g ô n n g ữ nsuồn, quá trinh dịch có thể chia thành hai giai đoạn, đầu tiên, v ăn b ản đ ư ợ c p hâ n tích thành cá: thành phần, sau đó đư ợ c dịch t hà nh v ă n bản ờ d ạ n g n g ô n n g ữ đích Kết quả dịch có thể đư ợ c con n gư ờ i hiệu đính để trở t hà nh b ản dịch tốt N h ư v ậy trong một quá trình dịch, con n g ư ờ i có thể tác đ ộ n g v à o tất cả c ác b ư ớ c x ử lý với mục đích làm cho kết quả dịch t ốt hơn

1.1.2 Vai trò của dịch máy

T ừ xa xua, con người đã có m ơ ước về m ộ t vậ t g iúp con n gư ờ i có t hể hi ểu mọi thứ tiếng khac N g à y nay, nhu c ầ u trao đổi t h ô n g tin g iữa các q u ố c gia, các n ền văn hóa

c àng làn cho việc dịch trở n ê n quan trọng Đ ể giải q uyế t v ấ n đề dị ch thuật, mộ t đội ngũ n h ữ i g người phiên d ị c h , dịch giả đ ư ợ c h ình t hà nh và d u y trì để c h u y ể n các lời nói, văn bản từ ngôn ngữ n à y s an g n g ô n n g ữ khác C ô n g vi ệ c dị ch s ử d ụ n g con người là công việc có tính t h ủ công, n ă n g s uất thấp n h ư n g c h ất l ư ợ n g cao với giá thành cao

V ớ i sự phát triển m ạ n h m ẽ c ủ a Internet, khối l ư ợ n g t hô n g tin trao đổi c ủ a c on người

n g à y càng nhiều, việc sử d ụ n g p h i ê n dịch con ngườ i t r ong n h iề u tình h u ố n g là

k hô ng thích hợp T r o n g rất nhiều t r ư ờ n g h ợp, ng ườ i ta k h ô n g cần đến c hấ t lượng dịch cac n h ư sử d ụ n g p h i ê n dịch c on ng ườ i m à chỉ c ần có m ộ t b ả n dị ch nháp có

c hất lượng k h ô n g quá thấp n h ư n g k h ô n g ph ải c h ờ đợi lâu, t r o n g t r ư ờ n g h ợ p này,

m ộ t hệ dịch m á y c hất l ượ ng bình t h ư ờ n g tốt h ơ n m ộ t ng ườ i p h i ê n dịch giỏi D o vậy,

n h u cầu cần có các hệ dịch m á y là tất yếu N ế u x ây d ự n g hệ dị ch m á y t h à n h công,

đ â y sẽ lồ c ô n g cụ x ó a b ỏ h à n g rào n g ô n n g ữ g i ữa các dân tộc v à là c ô n g cụ giúp con

n gư ờ i tiếp cận với k h o tri t h ức viết b ằ n g các n g ô n n g ữ khác

1.1.3 Phân loại dịch máy

C ỏ nhiều q u a n đ i ể m p h â n loại dịch m á y k h á c nhau, c h ẳ n g hạn: P h â n loại the o m ục

đ í c h hệ dịch, p h â n loại theo k ĩ t huật dịch, Với tiêu chí p h â n loại d ịc h m á y theo

m ụ c đích h ệ dịch, H u t c hi n s v à S o me r s [16] c hi a các hệ dịch m á y t h à n h 3 loại:

T Ổ N G Q U A N V Ề D Ị C H T ự Đ Ộ N G N G Ô N N G Ữ T Ụ ' N H I Ê N

Trang 11

Trurơn; Xuân Nam - Trang 9 - Luận văn thạc sĩ

• M á y trọ' dịch ( M a c h i n e - A i d e d H u m a n T r a n s l a t i o n ) : L à các hệ thống giúp con người dịch, ngườ i dịch là chính Ví dụ: Bộ k iể m tra c h ín h tả, kiểm tra ngữ pháp, từ điển,

• M áy dịch có trọ' g iú p của ngưòi (H u m a n -A id ed M a ch in e Translation):

Là các hệ thống dịch với sự trợ giúp của con người, má y dịch là chính,

n hi ệm vụ của con n gư ờ i là trợ giúp má y để nâ ng cao chất l ượ ng dịch (chẳng hạn c họ n cho m á y c h u y ên ngà nh thích hợp với tài liệu cần d ịc h để m á y có thể có n hững lựa c họn n ghĩa chính xác hơn) và sau đó ngườ i sẽ hiệu đính để tạo được bản dịch cuối c ùn g có chất lượng cao

• M á y dịch hoàn toàn t ự độn g (F ully-autom ated M a ch in e T r a n s l a t i o n ) : Là

các hệ thống dịch hoà n toàn tự động, k hô ng hề có bàn tay c on người từ khi bắt đầu x ử lý cho đến khi ra bản dịch H ệ thống này c ũ n g là m ơ ước và là

m ụ c đích sau c ù n g c ủ a n h ữn g người xây dựn g hệ t h ốn g dịch H i ệ n nay, các

h ệ th ốn g dịch h o à n to àn tự độn g đã có mặ t t rong m ộ t số lĩnh v ự c hẹp, khi mà

c h ấ t lượng c ủa b ản d ịc h k h ôn g phải là yêu cầu quan tr ọn g nhất

1.2 Lịch sử của ngành dịch máy

N g à i h dịch m á y đã có q uá trình phát triển trên 50 năm, tuy có n h ữ n g giai đoạn

n g í ắ r h ầ u n h ư k hô ng p h á t triển n h ưn g dịch m á y vẫn là m ộ t tr on g n h ữ n g chuyên

n g í à n p h á t triển n ha nh c h ó n g c ủa kh o a học m á y tính với nhiề u kết q u ả rất lớn cả về

lý 1 thuyết v à ứ n g dụng thực tế Có thể chia sự phá t triển của n g à n h dịch má y t hành 3 thờri vỳ, kể từ nă m 1949 với n h ữ n g ý tưở ng s ơ khai về m ộ t h ệ dịch m á y cho đến

h i ệ ì n i a y (2 00 3) với s ự ra đời c ủa nhiều server dịch m á y t ư ơ n g đổi h o à n thiện, đã có ứnịg iụng và o cuộc s ố n g [6] [7]

1.2.' Giai đoạn tiền máy tính

Mcơ ' ớ c về vi ệ c có thể h i ể u n g ô n n g ữ của dân tộc khác c ủa con ng ườ i đã có từ rất lâui, ừ t hê kỷ 17 n hi ề u n h à n g hi ê n cứu đã có n h ữ n g nỗ lực đầu tiên t rong việc xây

d ự m i m ộ t cách biểu diễn c h u n g cho tất cả các ngôn ngữ N ă m 1933, đ ã có hai phát

T Ô N G Q U A N VỀ DỊCH T ự ' Đ Ộ N G N G Ô N N G Ữ T ự NHI ÊN

Trang 12

Trư Trụ Xuân Na m - Trang 10 - Luận văn thạc sĩ

riinh được cấp b à n g sáng chế liên quan đến việc xây dựn g các thiết bị dịch ngôn rgữ j e o r g e A rts rouni một người Pháp gốc A r m e ni a đã thiết kế một thiết bị lưu trữ

có thì tìm ki ế m n h a n h chó ng các cặp từ - giải nghĩa của hai cặp n gôn n g ữ bất kì,

c ũ n s c ù n g n ă m đó, m ộ t người N g a tên là Petr Smi rnov-Troyans kii đã thiết kế một thiết )ị dịch m á y g ồ m 3 cô ng đoạn: Ph â n tích câu nguồn, chuyển đổi từ n g ữ và sinh câu tích Th iế t kế của Troyanskii tuy c hưa bao giờ trở thành hiện thực n h ư n g nó là

\ tưcng cơ b ản cho nhiề u loại má y dịch được thiết kế sau này [25],

1.2.2 Giai đoạn trước ALPAC

Vào :uối n h ữ n g n ă m 1940, khi m á y tính đã được phát mi nh v à ứ n g d ụ n g thành công v ào việc giải mậ t mã, nhiều người đã n g h ĩ đến khả n ă ng ứn g d ụn g m á y tính vào \i ệ c phiên dịch với quan đ iể m coi việc dịch từ một n gô n n g ữ bất kỳ sang tiếng

A n h ư ơ n g tự n h ư việc giải m ã mộ t văn bản tiếng A n h đ ược viết b ằn g m ộ t loại mật

mã nìo đó K h ái n i ệ m dịch m á y ( ma ch ine translation) đư ợ c W ar r e n W e a v e r [6] đề

ra vào n ă m 1949 N h ữ n g c h ư ơ n g trình dịch t ự độn g đầu tiên đơn giản chỉ sử dụng

p hưo ng ph áp dịch t ừ sang từ ( wo rd- for-wo rd translation) đã cho n h ữ n g kết quả rất giới hạn vì từ n g ữ có nghĩa k hác n h au t rong n h ữ n g ngữ c ảnh khác nhau N ă m 1954,

c ô n s t y I B M và t r ư ờ n g đại h ọ c tổ n g hợp G e o r g et o w n h ợp tác xây d ự n g m ộ t c hương trình dịch tự đ ộ n g N g a - A n h n h ư n g kết quả rất hạn chế Với kh ả nă ng giới hạn của

m á y tính t r on g n h ữ n g n ă m 1950-1960 và việc nghiên cứu lý t huyết x ử lý n gô n ngữ

tự nhiên còn c hập c hững, các kết quả thu được trong lĩnh vực dịch tự đ ộ n g thời kỳ

n à v không đạt đ ượ c k ế t q uả k h ả quan

T r on g b áo c áo của m ì n h viết n ă m 1960, Bar-Hillel cho rằng k h ô n g có hệ t hố n g dịch

tự đọng nào có thể dịch m ộ t cách trọn vẹn n ếu nó k hô ng biết đ ược kiến t hức về thế

g i ớ i xung q u a n h v à t h ôn g tin về n g ữ c ảnh hi ện tại Ví dụ m à Bar-Hillel [6] đư a ra là

c â u liếng A n h “ T h e p e n is in the b o x and the b o x is in the p e n ” và k h ẳ n g định

k h ô n g có hệ dịch n à o có thể chỉ d ự a vào từ điển m à phân biệt đ ượ c nghĩa của từ

“ p e n ’ thứ nhấ t (có n gh ĩa là “ cái b ú t ” ) và từ “p e n ” thứ hai (có n ghĩ a là “ cái c ũi ”)

T Ô N G Q U A N VÈ DỊCH T ự Đ Ộ N G N G Ô N N G Ữ T ự N H I Ê N

Trang 13

Trương Xiân Nam - Trang 11 - Luận văn thạc sĩ

Nă m 1*66, tại Mỹ, Hội đồng c ố vấn X ử lý N gôn n gừ T ự độn g (Automatic

L a n g a g e Pr oce ssing A dv is o ry C o mm it te e - A L P A C ) đã soạn một báo cáo nhận định rằig k h ô n g thể xây d ựn g mộ t hệ thống dịch tự đ ộ n e có hiệu quả Sau báo cáo này, i h n h p h ủ M ỹ và nhiều c ông ty đã cắt tài trợ cho các c h ư ơn g trình nghiên cứu

về d ị : h m á y Vi ệ c n ghi ên cứu và phát triển dịch má y đi v à o một giai đoạn im ắng chỉ vửi u ộ t vài hoạt đ ộ n g lẻ tẻ của các cá nhân và tổ chức nhỏ bên ngoài nước Mỹ Tuy ĩ h ê n các đ ầu tư cho dịch m á y trong lĩnh vực quân sự vẫn đ ược tiếp tục n hư hệ thốn£ (Ịch N g a - A n h của k h ô n s quâ n M ỹ (hệ M ar k II, phát triển từ n ă m 1964) [7] [16] 2:]

1.2.3 Giai đoạn phục hồi

Vào lầu n h ữ n g n ă m 1970, sau m ộ t số thành cô ng trong nghiên cứu về lý thuyết xử

lý ng')n n g ữ tự nhiên v à sức mạ nh của má y tính cũ ng tăng lên đá ng kể (với sự ra đời của nạch tích hợp), n hi ề u trung tâ m nghiên cứu bắt đầu quay lại đầu tư vào dịch máy Ná m 1973, Y or ic k Wilks [6] giới thiệu m ộ t hệ thống dịch tự đ ộn g A nh -Phá p cho tết q u ả k h á tốt ( m ộ t người chỉ biết tiếng Phá p có thể đọc và hiểu đ ược kết quả dịch :hỏng c ần t h a m k h ả o bản gốc tiếng Anh) Đ ể đạt đ ược t hà nh q u ả này, hệ thống của Vilks đ ã s ử d ụ n g các tri thức có tính “ khái n i ệ m ” (concepts) trong việc dịch thuật Ví dụ: T ừ “ d r i n k ” k hô n g đ ơn t huầ n là đ ộn g từ “ u ổ n g ” , t rong hệ thố ng của Wilk., từ “ d r i n k ” g ồ m n h ữ n g khái n iệ m n h ư “ động từ có tính hoạt đ ộ n g ” (activity verb) “ có liên hệ đ ến n h ữ n g chất lỏ n g” , N h ữ n g tri thức n h ư vậy giúp cho hệ thốru c ủ a W i l k s biết đ ư ợ c mối liên hệ giữa các t ừ t rong câu và từ đó xác định được ngh ũ c h ính xác hơn, p h ù h ợp với n g ữ c ảnh hơn

Th àm c ô n g c ủ a W il ks là chất x úc tác cho v iệc phụ c hồi lại n h ữ n g nghiên cứu về dịch n á y , m ộ t loại các đề án dịch tự độn g của rất nhiều tổ c hức v à quốc gia được triển chai, ví dụ [6] [25]:

T Ổ N G Q U A N VỀ DỊCH T ự Đ Ộ N G N G Ô N N G Ũ' TỤ' NHI ÊN

Trang 14

xrưcng Xuân N a m - Trang 12 - Luận văn thạc sĩ

• Hai hệ t hố ng c ủ a Liên X ô cũ, đều được bắt đầu n ăm 1976, đó là hệ thống

A M P A R dịch từ tiếng Anh sang tiếng N g a và hệ thống N E R P A dịch từ tiếng

Đ ứ c sanR t iếng Nga

• H ệ t h ố n g T A U M - M E T E O (1977) của đại học Montréal - C a n a d a chuyên dịch tin tức khí t ượ ng từ tiếng An h sang tiếng Pháp

• D ự án E U R O T R A (1982) của C ộ ng Đ ồ n g Châu  u với m ục đích dịch từ

m ột n g ô n n g ữ này sang ngôn n g ữ khác t rong khối, c h ư ơ n g trình hỗ trợ các

t h ứ tiếng: A n h , Pháp, Đức, Ý, H à Lan, Đan M ạc h và H y Lạp

• H ệ t h ố n g M E T A L (1985) của Linguistic Res ear ch Center, đại họ c Texas, dịch từ tiếng Đ ứ c sang tiếng Anh

• C h ư ơ n g trình m á y tính thế hệ thứ 5 (The Fifth Generation) của chính phủ

N h ậ t Bản, m ộ t trong các m ụ c tiêu của c h ươ n g trình này là một hệ thống dịch

tự đ ộ n g A n h - N h ậ t v à Nh ật-Anh

1.2.4 Giai đoạn hiện nay

Đầu n h ữ n g n ă m 1990, với sự ph át triển mạ n h mẽ của Internet, n h u cầu trao đổi thông tin b ù n g nổ, c ộ n g với sự tích lũy kiến thức về mặ t n gô n ngữ, sức mạ n h của máv tính tă ng lên h à n g ngày và nhiều thành tựu mới về m ặ t lý thuyết, việc phát triển các hệ t h ố n g dị ch tự động trở nên rất cần thiết và dịch m á y đã b ướ c sang một giai đo ạn p há t triển mới , đạt được nhiều thành tựu đáng khích lệ Cá c p h ư ơ n g pháp dịch tiên tiến áp d ụ n g các kĩ thuật khai p h á tri thức từ kh o d ữ liệu, điều m à trước kia chưa thể thực hi ện đ ượ c do khả n ă n g hạn chế của má y tính, đã thay đổi h oà n toàn các p h ư ơ n g p h á p dịch truyền thống v à đ e m lại m ộ t chất lượng mới cho các hệ thông dịch N g à y nay, c hất lượ ng của n hiề u hệ t hố ng dịch đã ở m ứ c c hấp n hậ n đ ược và một số các ứ n g d ụ n g dịch tự đ ộn g đã đi vào cuộc sống t rong m ộ t số lĩnh vực hẹp

T he o ư ớ c tính củ a J o h n Hutchins [16], và o n ă m 2001, có k h o ả n g 1000 p h ần m ề m dịch tự đ ộn g c ác n g ô n n g ữ được bán trên thị trường Ti êu biểu nhấ t t rong thời điểm hiện n a y là các s er ver dịch tự độn g trên Internet; c hẳn g hạn dịch vụ Babe l Fish:

D ị ch t ừ 9 n g ô n n g ữ t hô ng d ụng s an g tiếng A n h (g ồ m tiếng Trung, tiếng Nhậ t, tiếng

T Ổ N G Q U A N VỀ DỊ CH T ự Đ Ộ N G N G Ô N N G Ũ ' T ự N H I Ê N

Trang 15

Trươm Xuân Nam - Tr a n g ] 3 - Luận văn thạc sĩ

Hàn, tiếng Đức, tiens; Ý, tiếng Tâ y Ban Nh a, tiếng Pháp, tiếng B ồ Đ ào N h a v à tiêng

N2a ) h o ặ c dịch vụ WorldLingo: Dịch tự độ ng giữa 11 ngôn ng ữ khác nh a u (gồm tiếng A nh , tiếng Tr un g, tiếng N hậ t , tiếng Hàn, tiếng Đức, tiếng Ý, tiêng T â y Ban Nha, tiếng Pháp, tiếng Bồ Đào N h a , tiếng N g a v à tiếng Hy Lạp), các serv er này cung cấp dịch vụ dịch từng câu hoặ c cả m ộ t trang vveb mà ngườ i d ùn g yê u câu từ ngôn ngữ này sang n g ô n n g ữ khác, để làm đ ư ợ c điều này tất n hiê n tốc độ c ủ a các hệ thốnc dịch phải rất cao và chất lư ợ ng dịch c ũ n g phải ở m ứ c tư ơ ng đổi tốt

N h ắ n tới thị tr ư ờn g về công n g hệ tri thức, n hi ề u tập đoàn ở M ỹ và C h â u  u đã đầu

tư rấ: lớn v ào các d ự án về x ử lý ngôn n g ữ tự nhiên, nhậ n d ạ ng và m ô p hỏ n g Ti êu

bi ểu ;ó d ự án củ a c ô n g ty M ic r os of t cộng tác với tr ư ờn g đại h ọc t ổng h ợp Stanford

c ho \i ệ c nh ận d ạng c h ữ viết, n h ận d ạ ng tiêng nói, dịch tự động, tóm tăt nội dung,

m ớ i ùó m ộ t vài ứ n g d ụn g trên m á y c ầ m tay P o c k e t P C hoặc tích h ợp vào bộ Office Được ứ n g d ụ n g p h ổ biến h ơn có các kết qu ả của các p h ò n g thí n g h i ệ m c ủ a c ô n g ty

I B M đ ã đ ư ợ c ứn g d ụ n g vào các hệ t hố n g lái xe th ôn g minh, hệ t hố ng đặt vé má y

b a v nội địa t ự động, về phía C h â u Âu, c ó các sản p h ẩ m củ a c ô n g ty L e m o u t &

H auspie (sau này là M e n d e z ) với các hệ n h ậ n d ạ n g tiếng nói, m ô p h ỏ n g t iếng nói,

d ị c h máy,

T ạ i Việt N a m ' , việc xây d ựn g các c h ư ơ n g trình dịch tự đ ộ n g đ ư ợ c bắt đầu vào

kh o ản g cuối n h ữ n g n ă m 1980 tại m ộ t sổ viện n gh iê n cứu, t rư ờ n g đại học v à m ộ t sô

c ô n g ty tin học Sau gần 25 n ă m phá t triển đ ã có n hiề u kết qu ả cụ thể n h ư n g vẫn

c h u a có c h ư ơ n g trình dịch tự đ ộ n g n ào đ ư ợ c c hấp n h ậ n và s ử dụn g r ộng rãi vì kết

q u ả dịch v ẫn còn rất hạn chế, c h ư ơ n g trình đ ư ợ c biết đến nhiề u n hấ t là c h ư ơ n g trình

d ị c h tự đ ộ n g A n h - V i ệ t E V T r a n 2.0 của tác gi ả N g u y ễ n K h á n h H ù ng , ngoài ra có mộit 50 các c h ư ơ n g trình khác n h ư n g mới chỉ đ a n g đ ượ c t hử n g h i ệ m t r on g p h ạ m vi

h ẹ p chứ c h ư a đ ư ợ c đư a ra thị trường C á c c h ư ơ n g trình dịch tự đ ộ n g đ ư ợ c n gh iê n

c ứ u :ại Việt N a m chủ yếu h ư ớ n g v ào v iệ c dịch tự độn g A n h - V i ệ t do c ó sẵn khá

1 Điiềi đ á n g n g ạ c n h iê n là c h ư ơ n g trình d ịc h A n h - V i ệ t đ ầ u tiê n lại k h ô n g p h ả i d o n g ư ờ i V i ệ t N a m p h á t triển

v à c:ũrg k h ô n g đ ư ợ c p h á t tr iể n ở V iệ t N a m , đ ó là c h ư ơ n g tr ìn h d ịc h A n h - V i ệ t c ù a B e r n a r d E S c o tt v iê t vào nhữ:n£ n ă m 19 70, đ â y là h ệ d ịc h tiền th â n c ù a d ự án L o g o s k h á nổi tiếng.

T Ỏ N G Q U A N VÈ D Ị C H T ự Đ Ộ N G N G Ô N N G Ũ ' T ự N H I Ê N

Trang 16

T IƯƠIIL' Xuân Nam - Trang 14 - Luận văn thạc sĩ

nhiều kết q u ả n gh iê n c ứu về tiếng A n h và về việc dịch từ tiens; A n h s a n g n g ô n ngừ

k hác :ó thể áp d ụ n g vào c h ư ơ n s trình Việc nghiên c ứu dịch các n g ô n n g ữ khác

s ang :iếng V i ệ t và từ tiếng Việt s a ng các ngô n n g ữ khác (kê cả t iếng A n h ) vẫn hâu

n h ư còn bỏ ngỏ

1.3 Một số chiến lược dịch máy

C ó nhiều q u a n đi ể m ph ân loại các hệ dịch m á y k h á c nhau, t h ô n g d ụ n g n h ấ t là phân loại theo m ụ c đích củ a hệ dịch (dịch t ự đ ộ n g hoà n toàn, dị ch b án tự động, trợ dịch,

từ đién, ) v à phâ n loại theo h ư ớ n g tiếp cận k ĩ thuật Ph ầ n sau đâ y sẽ đề cập đến

p h â n oại hệ dịch theo h ướ n g tiếp cận kĩ t huậ t vì đây c ũ n g là c ơ s ở để p h á t triển các

n g h i ê i c ứu của luận văn Các triển khai hệ t h ố n g dịch t rong t h ực tế k h ô n g phải luôn

lu ô n sử d ụ n g chỉ m ộ t h ư ớ n g tiếp cận, nhiề u hệ th ống kết h ợp các p h ư ơ n g p há p tiếp

c ận k.iác n h a u để đạt đư ợ c kết q uả tốt nhất

1 3 / Dịch trực tiếp

T i ế p ;ận dịch trực tiếp đ ược áp d ụ n g v ào c ác c h ư ơ n g trình dịch t ừ s ớ m n h ất so với các hướng tiếp cận khác, đây là h ư ớ n g tiếp cận đ ư ợ c s ử d ụ n g v à p h át triển khá

t h à nh c ô ng t rong hệ thống dịch M a r k II (1 96 4) [17] Dị ch trực tiếp là p h ư ơ n g pháp

p h á t iriển c ho từ cặp ngôn n g ữ cụ thể, tiến trình dịch là m ộ t q u á trình bi ến đổi từ

n g ô n n gữ n g u ồ n s ang n gô n n g ữ đích d ự a trên t ừ điển s o ng n g ừ v à m ộ t số q uy tắc từ

v ự n g kết h ợp với m ộ í số quy tắc x ử lý n g ữ p há p đ ơ n giản S ơ đồ h ệ dị ch trực tiếp

đ ư ợ c thể hiện ở H ìn h 1-2 dưới đ ây [25]:

T Ô N G Q U A N VÈ DỊ C H T ự Đ Ộ N G N G Ô N N G Ũ ' T ự N H I Ê N

Trang 17

T r ư ơ n g Xuân N a m - Trang 15 - Luận văn thạc sĩ

Hình 1-2: Sơ đồ một hệ dịch trực tiếp.

M ộ t hậ dịch trực tiếp hoạt động theo 3 giai đoạn:

• P h â n tích: D ựa trên từ điển song ngữ, hệ phân tích câu cần dịch t hà n h dãy các từ, s au đó t ì m hình thái và n ghĩa cho t ừng từ

• T ổ n g h ọ p : D ự a trên các quy tắc từ v ự n g và n gữ pháp để lựa ch ọn h ình thái

v à ng h ĩ a thích h ợp cho mỗi từ

• S i n h c â u : Sinh câu đích thích hợp

C á c hậ dịch trực tiếp có ưu điểm là đơn giản và có tốc độ nhanh P h ư ơ n g p h á p rất thíclh 'lợp với việc dịch trong n h ữn g lĩnh vực chuyên mô n ( không có quá n h iề u nhập

n h ằ n e v ề n g ữ nghĩa) v à cho kết quả khá tốt khi áp dụng cho các cặp n g ô n n g ữ có

n h i ề u đ i ể m t ư ơ n g đ ồ n g về n g ữ p h áp và từ v ự n g (như tiếng Tâ y B a N h a v à tiếng

P h á p , t iếng P h á p và tiếng Anh, )- V ới n h ữ n g cặp ngôn n g ữ ít tươns; đồne; hơn, cách tiếp càn này tỏ ra thiếu hiệu quả

1.3.2 Dịch chuyến đổi

C á c hệ t h ố n g dịch ch uy ển đổi đi xa hơ n các hệ dịch trực tiếp t rong việc p h â n tích

n g ữ pháp ( v à cả n g ữ nghĩa) của ngô n n g ữ n guồn và n gô n n g ữ đích Đ ầ u tiên, hệ

d ị c h chuyển đổi tiến h à nh phân tích n g ữ p h á p của n gôn n gữ nguồn, sau đó cố g ắ ng

c h u y ê n đôi s á n g câu trúc n g ữ phá p tư ơ ng đ ư ơ n g ở n gôn n g ữ đích v à cuôi c ù n g sinh

T Ổ N G Q U AN VỀ DỊCH T Ụ ' Đ Ộ N G N G Ô N N G Ữ T ự N H I Ê N

Trang 18

Tr ươi g Xuân Nam - Trang 16 - Luận văn thạc sĩ

c â u iíeh từ cấu trúc n g ữ pháp đă chuyển đôi Sơ đồ hoạt đ ộng của hệ dịch chuyển đổ»i lược thể hiện ở Hì nh 1-3 dưới đây [1] [25]:

H ì n h 1-3: Sơ đô một hệ dịch chuyên đôi

MỘI hệ dịch c h u y ể n đổi hoạt động theo 3 giai đoạn:

• P h â n t í c h : D ự a trên từ điển s ong n g ừ và kiến thức về v ăn p h ạ m c ủa ngôn

n g ữ nguồ n, hệ p hâ n tích câu cần dịch thành dãy hình thái củ a các từ sau đó

d ựn g c ây cú p h á p cho câu

• C h u y ể n đổi: D ự a trên các quy tắc n g ữ p há p để sinh cây cú p h á p t ươ n g ứng

c ho c âu đích

• S i n h c â u : Sinh câu đích từ cây cú pháp

Việc p h â n tích v ă n p h ạ m của hệ dịch c hu y ển đổi có thể d ừ n g ở nhiều m ứ c độ, tùy

v ào s ự chi tiết của b ộ luật vă n p h ạ m m à hệ dịch sử dụng M ứ c độ chi tiết của hệ luật

v ă n p h ạ m c àn g c ao thì hệ dịch c àng p h â n tích đ ược chính xác các thành p h ầ n trong

c âu n g u ồ n v à kết q u ả dịch c ũn g càng chính x ác hơn; n hưng, m ứ c độ chi tiết cao

c ũ n g ké o theo sự p h ứ c tạp của bộ luật v ăn p h ạ m v à khả n ă n g phải đổi m ặ t với sự

n h ập n h ằ n g c ủ a hệ dị ch c ũn g tăng lên

T Ổ N G Q U A N VÈ DỊ C H T ự Đ Ộ N G N G Ô N N G Ũ ' T ự NHI ÊN

Trang 19

Trương Xuân Nam - Trang 17 - Luận văn thạc sĩ

So với dịch trực tiếp, các hệ dịch chuyển đổi cho kết quả dịch tôt hơn do câu đích sinh ra chuyển tải đ ượ c cả nội d ung về ngữ pháp và n gữ nghĩa Các hệ dịch chuyển đổi phải đối mặt với vấn đề nhập n hằ ng về văn phạ m và nhập n hằ ng về ngữ nghĩa,

có nhiều p h ư ơ n g pháp được xây d ựng để vượt qua hai vấn đề nan giải này, n hưng hiện tại c hưa có mộ t p h ư ơ n g pháp nào ch ứng tỏ sự vượt trội về mặ t kết quả

ý n s h ĩ a của câu [7]:

H ìn h 1-4: T ư ơ n g quan giữa 3 sơ đồ dịch máy.

Cac hệ dịch m á y t h e o m ô hình liên n g ữ có n hiề u ư u điểm:

N' V - L O / 5 0 8

T Ô N G Q U A N VỀ DỊCH T ự ĐỘ N G N G Ô N N G Ữ T ự NHI ÊN

Trang 20

Truoníỉ Xuân Nam - Trang I 8 - Luận văn thạc sĩ

Nếu hệ dịch liên n gữ thành cô ng thì kết quả dịch chắc chắn là rất tốt do câu đích biểu đạt dược nội d ung của câu nguồn cả về mặt từ vựng, n g ữ pháp và ngữ nghĩa

Việc xây dự ng các hệ dịch đa ngôn ngữ bằng liên n g ữ rất thuận lợi, với các hệ dịch khác khi m u ố n hỗ trợ thê m mộ t ngôn ng ữ mới cần x ây d ự n g tri thức chuyển đổi giữa n s ô n n g ữ mới với tất cả các ngôn n g ữ đã hỗ trợ từ trước, với hệ dịch liên ngữ, ta chỉ cần xây d ựn g tri thức chuyển đổi giữa n g ô n n g ữ mới v à liên ngữ

Vấn đề khó khăn nhất t rong hệ dịch liên n g ữ là xây dự ng liên n g ữ đủ p h o n g phú để

c ó thể biểu đạt mọi sắc thái trong các ngôn n gữ khác, cho đến thời điểm hiện tại,

c hưa có mô hình thực tế c ũ ng n hư lý thuyết nào đạt được điều này

1.3.4 Dịch bằng thống kê (Statistical Machine Translation)

Ti ếp cận dịch m á y b ằn g t h ốn g kê xuất hiện vào cuối n h ữ n g n ă m 1980 [13], được đề xuấ t bởi t rung t â m n ghiên c ứu I B M TJ Wat s on với hệ dịch m á y A n h - P h á p Candide

Ý tưởng dịch m á y b ằ ng t hố ng kê rất đơn giản và thuần túy toán học: Với s là một

c âu n gô n n g ữ n g u ồ n còn T là một câu ngôn n g ữ đích, xác suất P( T| S) thể hiện khả

n ă n g T sẽ là kết q uả dịch c ủ a s sang d ạ ng n gô n n g ữ đích N h ư vậy, hệ dịch má y chỉ

có nhi ệm v ụ là với mỗi s , c ần tìm T sao cho P( T| S) là cực đại

Trang 21

Trươrg Xuân Nam - Trang ! 9 - Luận văn thạc sĩ

Hiện nay, do sức m ạ n h tính toán và lưu trữ của m á y tính tăng lên rất đ á n g kể, một

số đỏ án dịch má y b àng thống kê đã cho ra n hiề u kết qu ả đ á ng giá với khối lượ ng tri

t hức sử d ụ n e trong t h ố n g kê cực lớn N ế u hệ dịch m á y b ằ ng t h ố n g kê đầu tiên là hệ Can di de của I B M sử d ụ n g 2 205 733 cặp m ẫ u câu A n h - P h á p t ư ơ n g đ ư ơ n g thì hiện nay mộ t số hệ dịch A r a b i a n - A n h đ ư ợ c s ử d ụ n g t rong các m ụ c đích an ninh c ủ a cơ quan N S A s ử d ụn g tới hơn 150 triệu cặp m ẫ u câu A r ậ p - A n h t ư ơ n g đ ư ơ n g [25],

M ộ t điều rất đ áng n gạ c nhiên là p h ư ơ n g p h á p dịch b ằ n g t h ố n g kê k h ô n g q ua n tâm

đ ến việc x ử lý ngữ n g hĩ a n hưn g c hất lượ ng dịch c ủ a các p h ư ơ n g p h á p này rất cao,

hệ dịch A r ậ p - A n h củ a N S A đ ượ c đề cập ở trên t h ậ m chí k h ô n g s ử d ụ n g từ điển

n h ư n g vẫn có thể dịch đ ược nghĩa b ó n g c ủa n hiề u t hà nh n g ữ Arập V à o thời điể m hiện nay, c ác hệ dịch bà ng thông kê đi tiên p h o n g t rong việc đạt đ ư ợ c các câu dịch

có chất l ư ợ n g cao

1.3.5 Dịch bằng ví dụ (Example-Based Machine Translation)

Ý tưởng về tiếp cận dịch bằ ng ví dụ đ ư ợ c giới thiệu lần đầu tiên bởi N a g a o v ào nă m

1984 t rong nỗ lực xâ y dự ng hệ dịch t ự đ ộ n g N h ậ t - A n h T ư t ư ở n g c ủ a tiếp cận dịch

b à ng ví dụ rất đơn giản: Để dịch m ộ t câu c h ú n g ta có thể s ử d ụ n g kết q u ả dịch của

mộ t câu k h á c gần g i ố n g n h ư vậy s ửa đổi đi đôi chút Sơ đồ c ủ a m ộ t hệ dịch b ằ ng ví

dụ được thể hiện ở H ì n h 1-5 dưới đ ây [9]:

T Ô N G Q U A N VỀ DỊ C H TỤ' Đ Ộ N G N G Ô N N G Ũ ' T ự N H I Ê N

Trang 22

H ì n h 1-5: Sơ đồ c ủa m ộ t hệ dịch b ằ n g ví dụ.

T i ếp c ậ n dịch bằ ng ví dụ có nhiều ưu điểm:

P h ư ơ n g p h á p có thể áp dụng c ho bất kỳ cặp n g ô n n g ữ nào, m i ễ n là hệ t hố ng có một t ậ p các ví dụ đ ủ p h o n g phú

Các n g ô n n g ữ ng u ồ n và đích k h ô n g c ần ph ải đ ư ợ c k h ả o sát tr ư ớc v ề m ặ t từ vựn g

và n g ữ pháp

- Tập d ữ liệu c àng p h o n g phú, c hất lượ ng dịch c à n g cao Đ â y là ư u thế rất lớn so với m ộ t số p h ư ơ n g phá p khác, m ộ t vài tiếp c ận dịch có thể bị g i ả m c hấ t lượng nếu tri t hức dịch nhiều lên

Ti ếp c ận dịch bà ng ví dụ có hai đ i ể m y ế u đó là s ự qu á p h ụ t hu ộ c v à o c hấ t l ư ợ n g của các cặp ví dụ đ ượ c s ử dụn g để làm m ẫ u v à t huật to án đối s á nh m ẫ u t h ự c hiện khá chậm so với m ộ t số tiếp cận khá c (vì c h ư a có thuật toá n hiệ u q u ả t ro n g việc tìm

ki é m sự xu ất hi ện củ a mộ t đoạn v ă n b ản t ro n g toà n bộ t ập mẫ u)

1.4 Phạm vi nghiên cứu của luận văn

P h ạ m vi n ghi ên c ứu của luận v ăn là dịch tự động ngôn ngữ tự nhiên, đối tượ ng được ch ọn là bài toán xâỵ dựng cơ sở tri thức cho dịch tự động Anh-Việt, đây là

T Ó N G Q U A N V È DỊ C H T ự Đ Ộ N G N G Ô N N G Ữ T ự N H I Ê N

Trang 23

Trư ơn* Xuân Nam - Trang 21 - Luận văn thạc sĩ

m ộ t chủ đề rộng và rảt khó, vì vậy, iuận văn chưa kì vọ ng tìm ra p h ư ơ n g ph áp giải quyết trọn vẹn vấn đề này m à mới chỉ là b ước tìm hiểu bản chất vấn đề và đề xuất

m ộ t p hư ơ ng pháp k hả thi cho kết quả cụ thể

1.4.1 Trọng tâm nghiên cứu của luận văn

B ài toán dịch tự đ ộn g từ tiếng A n h sang tiếng Việt là tập hợp của rất n hiều bài toán

t rong x ử lý n gô n n g ữ tự nhiên Tr ong khu ôn kh ổ của một luận văn thạc sĩ, sẽ không

đi sâu vào trình bày tất cả các lời giải cho các bài toán gặp phải m à chỉ chú trọng

v à o trọng tâm nghiên cứu củ a luận văn, đó là vấn đề xã y dự ng t r i th ứ c cho x ử lý

n g ữ n g h ĩa của hệ dịch. Các vấn đề k hác sẽ đ ược trình bày k ĩ hơn t rong các báo cáo

kh oa học hoặc các bài báo v ề đề tài này Việc định hướ ng xây d ựn g mộ t mô hình có

k h ả n ă n g tự học dịch xuất phá t từ kinh ngh iệ m thực tế khi xây d ự n g c h ư ơ n g trình

dị ch tự động Bất kể cách thức xây dựn g c h ư ơn g trình dịch ra sao, áp d ụn g thuật

to án n ào thì n h ữ n g người xây dựng c hư ơn g trình vẫn luôn phải đối mặt với hai vấn

- T h ứ nhất, đó là tri thức tĩnh (được xây d ựn g từ đầu) của c h ư ơn g trình k h ôn g đủ

để dịch m ộ t cấu trúc mới

- T h ứ hai, p h ức tạp hơn, đó là khi bổ sung tri thức để dịch được cấu trúc mới thì lại xung đột với n h ữ n g tri thức đã có, làm g iả m chất lượng dịch c ủ a n h ữ n g cấu trúc cũ

Hai vấ n đề trên luôn đi đôi với n ha u v à việc xây dựn g tri thức cho c h ư ơn g trình

d ư ờ n g nh ư là m ộ t c ô n g việc k h ôn g bao giờ kết thúc vì việc xây dự ng tri thức là của

c h u y ê n gia n g ô n n g ữ và k h ô n g có m ộ t cơ chế chắc chắn được đã giải q uyết hêt

x u n g đ ộ t tri thức h ay c hưa (ngoại trừ cách kiể m tra lại tất cả các cấu trúc đã biết)

Đ e giải q uyế t vấn đề này, tất yếu phải xây d ự n g một c h ư ơn g trình xây dựng, quản

lý v à tối uu tri thức của hệ thống dịch, c h ư ơ n g trình n h ư v ậy phải thỏa m ã n được hai đ iề u kiện:

T Ô N G Q U A N VỀ DỊCH T ự ' Đ Ộ N G N G Ô N N G Ữ TỤ' N H I Ê N

Trang 24

Tr ư ơn g Xuân Nam - Trang 22 - Luận văn thạc sĩ

- C ó khả n ă n g tự đ ộng bổ sung tri thức mới, khô ng phụ thuộc vào ch uyên gia nRÔn ngữ

- C ó k hả n ă n g phát hiện và giải quyết các x u n g đột tri thức một cách t ự động

Hai điều kiện trên cũng là định hư ớ ng của luận văn trong việc xây d ự n g m ô hình dịch m á y t ă ng trư ởn g được trình bày chi tiết t rong c hư ơn g 4

1.4.2 Mục tiêu của luận văn

M ụ c tiêu củ a luận văn là xây dự ng một mô hình hệ tự học dịch từ m ẫ u dịch song

n g ữ đã có L u ậ n văn xây dựn g các bước x ử lý cụ thể cho hệ học dịch, t rong mỗi bước chỉ ra đ ầu vào (input), đầu ra (output) và các thuật toán x ử lý t h ô n g tin Cuối cùng, luận v ăn h ư ớ n g tới việc ứng dụng m ô hình xây d ựn g đư ợ c v ào bài toán dịch

tự đ ộ n g A n h - V i ệ t bằng cách xây d ựn g thử n g h iệ m một hệ học dịch t ừ c ác m ẫ u câu song n g ữ A n h - V i ệ t đã có

T Ô N G Q U A N V Ề DỊCH T ự Đ Ộ N G N G Ô N N G Ữ T Ụ ' N H I Ê N

Trang 25

Tr ư ơn g Xuân Nam - Trang 23 - Luận văn thạc sĩ

CHƯƠNG 2 - CẤU TRÚC CỦA MỘT HỆ DỊCH Tự ĐỘNG

ĐƠN GIẢN

2.1 Một số khái niệm CO’ bản■ ■

2.1.1 Từ vựng

T ừ là thành phần cơ bản của bất kì một hệ thống ngôn n g ữ nào, là mộ t tập hợp các

mẫu tự tổ hợp với nhau theo một nguyên tắc nào đó do ngôn n g ữ q u y định Đặ c

đ i ể m qu an trọng nhất của từ là nó phải bao hà m một ý nghĩa nào đó [16] [17],

Ví dụ: Trong tiếng Việt thì “ quan trọ n g ” là một từ, thể hiện một nghĩa xác định, không thể loại bò đi bất kỳ thành phần nào trong từ đó mà vẫn giữ nguyên ỷ nghĩa ban đầu của nỏ.

T r o n g hầu hết các lí thuyết dịch, khái niệ m “ t ừ” gần như đồng nghĩa với khái niệm

Ví dụ: Phân loại ngữ pháp tiếng Việt có đại từ, danh từ, động từ, Phân loại ngữ

N h ư vậy, p h â n loại n g ữ p há p đại diện cho tươ ng quan của từ với các t ừ k h á c t rong cấu trúc câu Đ e dễ dà ng cho việc xây dự ng n g ữ liệu của hệ t h ốn g dịch, n h ữ n g người x ây d ự n g hệ dịch m á y t h ư ờ n g sử dụn g luôn phâ n loại từ loại c ủ a n g ô n n g ữ nguôn và ngô n n g ữ đích đã được nghiên cứu bởi các n h à n gô n n g ữ h ọ c v ào làm phân loại n g ữ phá p cho hệ dịch của mình Tr ê n lý thuyết, k h ô n g có n g u y ê n tắc nào buộc phải sử dụn g các p h ân loại n g ữ p há p của nhà ngô n ngữ cho hệ dị ch m á y và

CẤU T R Ú C CỬA M Ộ T H Ệ DỊCH T ự Đ Ộ N G Đ Ơ N G I Ả N

Trang 26

Tr ư ơn g Xuân Nam - Trang 24 - Luận văn thạc sĩ

cũng c hưa có nghiên cứu nào chỉ ra được nhược điểm của các hệ phâ n loại ngữ pháp do m á y tạo ra

2.1.3 Luật văn phạm

Một văn p h ạ m là mộ t hệ thống G = (X, A, p, s ) trong đó:

- X là một tập hữu hạn các kí hiệu, gọi là kí hiệu kết thúc (terminal - c òn gọi là kí hiệu cuối)

- A là tập h ữu hạn các kí hiệu, gọi là kí hiệu k hô ng kết t húc (no nt ermi nal - còn gọi

là ký hiệu trung gian hay biến), điều kiện: X n A = 0 (tập rồng)

- S e A gọi là kí hiệu khởi đầu (initial)

- p là tập hữu hạn các cặp xâu ( a , P) và được gọi là sản xuất ( pr oduction) hay luật

cú pháp (rule) và t hư ờ ng đ ược viết là a - » p Các xâu này có thể bao g ồ m kí hiệu kết thúc hoặc kh ôn g kết thúc, x âu a phải có ít nhất m ộ t kí hiệu k h ô n g kết thúc (có n h ư thế mới phát triển tiếp thành xâu p được)

Lý thuyết về văn p h ạ m và các thuật toán liên quan đ ược trình bày rất đầy đủ trong [10] T r o n g x ử lý n gô n n g ừ tự nhiên, có thể sử dụng các luật suy d ẫn t huộc lớp phi ngừ c ảnh để biểu diễn các quy tắc n g ữ phá p của n gô n n g ữ [3] [4] [10] Các qu y tắc

n gữ phá p nói c h u n g gần n h ư có sự tươ ng đ ươ n g m ô t- m ột với các luật phi n g ữ cảnh

Trong ngữ pháp tiếng Việt, chủng ta có quy tắc “ câu ” gồm hai thành phân cơ bản

là chủ ngữ và vị ngữ, quy tắc này có thể chuyển thành biếu diễn ờ dạng luật vãn

p h ạ m n h ư s a u : [ c â u ] = [ c h ủ n g ữ ] [ v ị n g ữ ]

H o ặ c , t r o n g t i ê n g A n h m ộ t n g ữ d a n h t ừ g ồ m n h i ê u t í n h t ừ v à m ộ t d a n h t ừ c ó t h ê

b i ể u d i ế n t h à n h h a i l u ậ t : [ c ụ m t ỉ n h t ừ ] = [ t í n h t ừ ] I [ c ụ m t í n h t ừ ] [ t í n h t ừ ]

[ n g ữ d a n h t ừ ] = [ c ụ m t í n h t ừ ] [ d a n h t ừ ]

Tr on g x ử lý ngôn n g ữ tự nhiên, việc sử d ụng các quy tắc x ử lý v ăn p h ạ m c ứ n g nhăc

sẽ cản trở q u á trinh x ử lý n gôn ngữ, có thể áp d ụng một số quy tắc m ở rộ ng luật văn

C Ẩ U T R Ú C CỬA M Ộ T HỆ DỊCH TỤ' Đ Ộ N G Đ Ơ N GI Ả N

Trang 27

T r ư ơ n g Xuân Nam - Trang 25 - Luận văn thạc sĩ

p h ạ m v à các thuật toán x ử lý để vừa đạt được sự uyển ch u y ển trong x ử lý và duy trì

đ ư ợ c sức m ạnh của thuật toán, các m ở rộng này sẽ được đề cập đến ở c h ư ơ n g sau

2.1.4 Phân loại ngữ nghĩa

P h â n loại n g ữ nghĩa có thể xem là tập các th u ộ c tỉnh ngữ nghĩa được m ột hệ dịch

q uy định để có thể x ử lý n g ữ nghĩa tốt hơn C húng ta có thể thấy nếu p h ân loại ngữ

p h á p giúp cho hệ dịch x ử lý cấu trúc của câu tốt hơn thì p h â n loại n g ữ nghĩa giúp hệ

d ịch x ử lý n gữ n g hĩa chính xác hơn [5] [6]

Ví dụ: Các thuộc tính thường gặp khi phân loại ngữ nghĩa trong các loại từ điển là

trừu tượng, chỉ người, đồ vật, hành vỉ,

M ột vài nguyên lý dịch k h ô n g có sự phân biệt giữa phân loại ngữ nghĩa v à phân ioại

n g ữ pháp vì theo n h ữ n g nguyên lý này thì phân loại n g ữ nghĩa c h ẳng qua chỉ là

ph ân loại n g ữ ph áp đư ợ c làm chi tiết hơn m à thôi Q uan đ iể m này kh ô n g sai tuy vậy

nó sẽ làm m ờ đi ranh giới g iữ a xử lý n gữ pháp von m a n g tính cấu trúc v à x ử lý ngữ

n g h ĩa vốn phi cấu trúc T ro n g khuôn khổ của luận văn này, chúng ta xem p h ân loại

ng ữ ph áp v à phân loại n g ữ ngh ĩa là hai loại thuộc tính độc lập của từ

2.1.5 CÚ pháp điều khiển

Cú p h áp đ iều khiển là tập các quy tắc, nguyên tắc đi k è m với từng luật văn p h ạ m để thực hiện việc x ử lý c h u y ển đổi luật văn phạm từ ngôn n g ữ nguồn sang n g ô n ngữ đích và sinh câu đích [5] [10] Có nhiều ph ươ n g án xây d ự n g cú ph áp điều khiển trong thực tế, với m ộ t vài bài toán, cú pháp điều khiển chỉ là m ột tập các trọng số quy định cách thức x ử lý luật là đủ, cũng có nhiều bài toán, người ta đ ã xây dựng hăn m ột loại ngô n n g ữ lập trình đơn giản để viết cú pháp điề u khiển cho luật

2.2 Cấu trúc của một hệ dịch tự động đơn giản■ ■ ■ ■ ■ o W

N goại trừ n h ữ n g tiếp cận dịch rất đặc biệt, hầu hết các hệ dịch đều trải qua b a giai đoạn chính: P h â n tích câu nguồn, x ử lý dữ liệu và tổng h ợ p câu đích Tuy vậy, với

CÁU T R Ú C C Ủ A M Ộ T HỆ DỊ CH T ự Đ Ộ N G Đ Ơ N GIẢN

Trang 28

rrirơtiiĩ Xuân Nam - Trang 26 - Luận văn thạc sĩ

mỗi hệ dịch quá trình xử lý của từng giai đ oạn cũng rất khác nhau, tro ng phần này chúng ta sẽ xem xét cấu trúc của m ột hệ dịch đơn giản với các giai đoạn hoạt động tương đối tiêu biểu cho các hệ dịch chuyển đổi c ấ u trúc này cũng có nhiều điểm tương đồng với các tiếp cận dịch hiện đại sau này như dịch b ằng thố ng kê hay dịch băng ví dụ

Hình 2-1 dưới đây thể hiện sơ đồ của một hệ dịch đơn giản g ồm tên các khối x ử lý,

dữ liệu đầu vào của các khối và kết quả ra c ủ a các khối này [25]

H ình 2-1: Sơ đồ m ộ t hệ dịch A n h -V iệ t đơn giản.

C Á U T R Ú C C Ủ A M Ộ T HỆ DỊ CH T ự Đ Ộ N G Đ Ơ N GI ẢN

Trang 29

Trương Xuân Nam - Tr a ng 27 - Luận vẫn thạc sĩ

2.2.2 Hoạt động của hệ dịch

Hệ d ịch trên có ba giai đoạn x ử lý dừ liệu Đ ầu tiên, câu ng uồ n đ ư ợ c đ ư a v ào m o d u l

x ử lý hình thái, câu được phân tách thành các từ và với mỗi từ thì lại xây dự n g các

th o n s tin hình thái của từ đó (từ gốc, từ loại, ) K et quả của x ử lý hìn h thái là một danh sách các từ v à hình thái của chúng, danh sách này đượ c đưa v à o m o d u l xử lý

n g ữ pháp D ự a vào danh sách hình thái v à các luật văn p hạm , m odul x ử lý n g ữ pháp tiến hàn h phân tích và d ự n g cây p h ân tích n g ữ pháp của câu Cuối cùng, m odul xử

lý n s ữ nghĩa nhận cây p h â n tích, sử dụng cú p háp điều khiển gắn với từ n g luật văn

p h ạ m để tiến h ành ch ọ n nghĩa và sinh câu ở dạn g ngôn n g ữ đích

2.3 Phần xử lý từ vựng

2.3.1 Chức năng, nhiệm vụ của xử lý từ vựng

K hối x ử lý từ v ự n g hay còn gọi là khối x ử lý hình thái là th à n h p h ầ n đầu tiên của

c h ư ơ n g trình dịch tự động, th ô n g thườ ng, m ộ t khối p h ân tích hìn h thái th ư ờ n g làm các nh iệ m vụ sau:

(1) C hia cắt m ột câu tro n g ngô n ng ữ n g u ồ n thành các từ độc lập

(2) T ìm tất cả các hình thái của các từ tro ng câu, hình thái của các từ chủ yếu là các th ông tin n g ữ p h á p , ngoài ra còn có giải n g h ĩa v à các th ô n g tin ngữ

ng h ĩa k è m theo giải n g h ĩa đó

(3) B ổ sun g các thô ng tin cần thiết để các khối chứ c năn g sau x ử lý câu hiện tại

đư ợ c tốt hơn

2.3.2 Hoạt động của phần xử lý từ vựng

H oạt đ ộ n g của p h ầ n x ử lý từ v ự n g g ồ m 3 giai đoạn gần n h ư k h ớ p với v iệ c giải quyết 3 n h iệ m vụ nêu trên Đ ầ u tiên, khối cắt câu sẽ duy ệt xâu v à o v à tách từ đầu tiên của câu ra để p h â n tích; tiếp theo, khối x ử lý hình thái sẽ p h â n tích x e m từ được tách có thê có n h ữ n g từ gôc n ào băn g cách p h â n tích x e m từ đó có k hớ p với các dạng biến đổi nào củ a từ gốc; cuối cùng, các th ô n g tin giải n g h ĩa v à bổ su ng khác

C Ẩ U T R Ú C C Ủ A M Ộ T HỆ D Ị C H T ự Đ Ộ N G Đ Ơ N GI ẢN

Trang 30

Trư ơng Xuàn Nam - Trang 28 - Luận văn thạc sĩ

đ ư ợ c lấy ra từ từ điển xây dựng nên tập các hình thái của từ H ình 2-2 dưới đây m ô

tả hoạt đ ộ n g của khối x ử lý từ vựng

H ìn h 2-2: H oạt động c ủ a khối xử lý từ v ự ng.

2.3.3 Các kĩ thuật sử dụng trong phần xử lý từ vựng

Tro ng các th àn h p h ầ n củ a m ột hệ dịch, khối x ử lý từ vựng đư ợ c x e m là đã được ngh iên cứu tư ơ n g đối ho àn hảo cả về lý th u y ế t và cài đặt thự c tế K h ô n g có quá nhiều thách thức về k ĩ th u ật khi xây dự n g m ộ t khối x ử lý từ vựng

Có hai v ấ n đề k ĩ th u ật cần được giải quyết khi xây dựng m ộ t khố i x ử lý từ vựng, vấn đề thứ n h ấ t là xây d ự n g m ộ t động cơ từ đ iển để lưu trữ, xây d ự n g v à tìm kiếm các từ tố m ộ t cách dễ dàng và nhanh chóng, v ấ n đề thứ hai là xây dự n g m ộ t p h ư ơ n g pháp có thể n h a n h ch ó n g tìm ngược trở lại các từ gốc của m ộ t từ tố bất kì [17]

C Ẩ U T R Ú C C Ủ A M Ộ T HỆ DỊ C H TỤ' Đ Ộ N G Đ Ơ N G I Ả N

Trang 31

Tnrcmg Xuân N a m - Tra ng 29 - Luận vSn thạc sĩ

Vấn đề xây dự ng từ điển đã đ ư ợ c nghiên cứu từ lâu, hiện tại có hai p h ư ơ n g pháp phổ biến để xây dựng từ điển đó là sử dụ ng chỉ mục tìm kiếm kiểu B -T re e và cách thứ hai là sử dụng chỉ m ụ c b àng hàm băm (hash function) C ách th ứ hai ngày càn» được sử dụ n g nhiều hơn do p h ư ơ n g pháp dễ dàng cài đặt hơn, tốc độ tìm kiếm nhanh hơn và khả n ăn g m ở rộ ng đ ộ n s cơ từ điển thành phân tán v à so ng so ng dễ

d à n a hơn H iện nay đã có n h ữ n g p h ư ơ n g pháp xây dựng từ điển có thời gian tìm

kiếm là h ằn g số nếu số chỉ m ụ c nh ỏ hơn 2 tỉ (2 X 109 chỉ m ục) [5].

Việc tìm kiếm ngược trờ lại từ gốc của m ột từ tố thường gặp với n h ữ n g n g ô n ngừ

mà từ gốc đượ c biến đổi trong văn cảnh theo giống, số, cách và thời của câu K hông

có p h ư ơ n g pháp nào tổn g quát cho việc tìm ngư ợ c lại từ gốc của m ộ t từ tố cho mọi ngôn ngữ, th ô n g th ư ờ n g người lập trình phải tự mình lập trình theo các n g u y ê n tắc biến đổi từ v ự n g của ngôn n g ữ ng u ồ n để tìm lại được từ gốc của m ộ t từ đã cho

2.3.4 Một số vấn đề trong xử lý từ vựng

Thông th ư ờ n g , nhất là với các n g ô n n g ữ ờ châu Âu, nhiệm vụ (1) - chia cắt câú thành các từ - của khối x ử lý hình thái là k h ô n g khó vì hầu hết tất cả các từ đều nằm nguyên th àn h m ộ t chữ, k h ô n g cần chia cắt - ngoại trừ m ộ t số trư ờ n g hợ p đặc biệt như viết tắt (có thể x ử lý ngoại lệ) V ới m ột số ngôn ngữ (như với tiế n g V iệt, tiếng Nhật, tiến g Arập, ), vấn đề trở n ên rất k hó n ếu các từ được hình thành th e o nguyên tắc lắp g h é p các chữ v ấ n đề này được gọi là sự nhập nhằng về p h â n tách chữ

V í d ụ , x é t c â u s a u : “ Ô n g g i à đ i n h a n h q u á ”

C h ú n g t a c ó í t n h ấ t 2 c á c h p h â n c á c h t ừ :

C á c h 1: “ Ô n g g ià ” I “ đ i ” I “ nhanh” I “ quá”

Cách 2: “ Ô ng” \ “g ià đ i ” \ “ nhanh” \ "quá”

T r o n g t r ư ờ n g h ợ p t r ê n k h ô n g c ó c á c h n à o đ á n h g i á x e m c á c h c h i a c ắ t t ừ n à o t ô t

h ơ n , c h ú n g t a đ à n h p h ả i c o i b à i t o á n n h ư l à v i ệ c d ị c h h a i c â u r i ê n g b i ệ t , đ ế n p h ả n

C Á U T R Ú C C Ủ A M Ộ T H Ệ DỊCH TỤ' Đ Ộ N G Đ Ơ N GI ẢN

Trang 32

T r ư ơ n g Xuân Nam - Trang 30 - Luận văn thạc sĩ

2.4 Phần xử lý ngữ pháp

2.4.1 Chức năng, nhiệm vụ của xử lý ngữ pháp

N h iệ m vụ duy n h ấ t của khối x ử lý ngữ pháp là xây dựng cây p hân tích n g ữ pháp cho câu đầu vào T u y chỉ có m ộ t nhiệm vụ nhưng chức n ă n g củ a khố i n ày là rất quan trọng vì cây p h â n tích n g ữ pháp là dữ liệu trung tâm củ a hệ dịch, tất cả các thao tác x ử lý n g ữ ngh ĩa v à sinh câu đích đều chỉ làm việc trên các cây p h â n tích m à thôi

CÁU T R Ú C C Ủ A M Ộ T HỆ D Ị C H T ự Đ Ộ N G Đ Ơ N GI ẢN

Trang 33

T r ư ơ n g Xuân Na m - Trang 31 - Luận văn thạc sĩ

D ữ liệu v ào của khối x ử lý n g ữ pháp th ư ờ n g gồm 2 thành phần: D an h sách cách

ngũ' nguồn Tập luật v ăn ph ạm được xây dự ng dựa trên hai thành phần:

(1) T ập luật văn p h ạ m (luật cú ph áp) tổ ng quát của ngôn ngữ ngu ồn , các luật văn p h ạ m này còn đ ư ợ c dù ng với tên gọi là các luật v ăn p h ạ m sơ cấp

(2) T ập luật văn p h ạ m bổ sung (được th êm vào bởi khối x ử lý hình thái) giúp cho việc ph ân tích câu hiện tại được chính xác hơn, các luật văn p h ạ m loại này còn được dùn g với tên gọi là các luật văn ph ạm th ứ cấp

Đ ể hiểu chính xác hơ n hai tập văn p h ạ m trên, hãy xét trư ờ n g hợp x ử lý câu đầu vào tiêng A n h “ Y o u should check it in n o w ” : N g o à i n h ữ n g luật v ăn p h ạ m th ô n g th ư ờ n g tiếng A n h (là các luật tổng quát), trong câu x uất hiện m ộ t số cấu trúc khá đặc thù

của riêng đ ộ n g từ “c h e c k ”, ch ẳn g hạn: “ch eck [som ething] in ”, như v ậ y để xử lý tốt

hơn, riêng tro n g trư ờ n g hợp này, luật “ [obj] = check [s o m e th in g ] in” sẽ được bổ sung và o bộ luật N h ữ n g luật đượ c bổ sun g thêm vào gọi là tập văn p h ạ m bổ sung

V ăn p h ạ m bổ sung th ư ờ n g đư ợ c bổ sung theo từ n g câu hoặc từ n g khối văn bản

Phần x ử lý n g ữ p h á p sử d ụ n g các luật v ăn p h ạ m của ng ôn n g ữ và tiến hành p h ân tích cú p h á p của câu đ ầu vào (sử dụn g m ột thuật toán p h â n tích nào đó), kết quả của bước p h â n tích này là m ộ t hoặc nhiều cây p h â n tích đượ c tạo ra (trong trư ờng hợp

có nhiêu cách ph ân tích k hác nhau) V iệc x ử lý n g ữ ph áp p h â n tích cây p h ân tích khác n hau ít gặp tro n g x ử lý các ngôn n g ữ nhân tạo n h ư n g x uất hiện khá nhiều trong x ử lý n g ô n ng ữ tự nhiên, vấn đề nảy sinh do tính nhập n hằ n g (vố n là bản chất của ngô n n g ữ tự nhiên) M ộ t c h ư ơ n g trình x ử lý n g ô n n g ữ tự nhiên tốt cần phải xây

CẤ U T R Ú C C Ủ A M Ộ T HỆ DỊ C H T ự Đ Ộ N G Đ Ơ N G I Ả N

Trang 34

T r ư ơn g Xuàn Nam - T r a n ” 32 - Luận văn thạc sĩ

dự n g đ ư ợ c m ột p h ư ơ n g pháp đánh giá các kết quả phân tích ngữ p h áp và lựa chọn kết quả thích hợp nhất T ro n g luận văn, hệ dịch tự động x e m việc đ án h giá cây phân tích là n h iệ m vụ của phần x ử lý n g ữ nghĩa

2.4.3 Các kĩ thuật sử dụng trong phần xử lý ngữ pháp

C ác vấn đề về x ử lý n g ữ p háp đã đ ư ợ c đề cập đến trong nhiều tài liệu của tác giả, trong khu ôn khổ của luận v ăn này, xin trình bày kết q u ả mới nhất của các nghiên cứu về x ử lý ng ữ pháp, đó là thuật toán Earlev cải tiến cho nhiều đầu vào và thực hiện song so ng các p h ân tích C ác dẫn giải chi tiết hơn có thể tham khảo trong các tài liệu [3][4][5]

T huật toán Earley sử d ụ n g hai cấu trúc d ữ liệu chính:

• M ột “ trạng thái luật” là m ột gói luật “ dotted” và vị trí áp dụ n g luật i: [A —> X | *C X m, i]

• T rạn g thái i của o to m a t là Sj, Sj là m ột tập các “trạng thái lu ậ t” có vị trí áp

dụ ng i O to m a t sinh S; từ các trạng thái trước nó

Otom at son g song sử dụng th u ật toán Earley gồm 3 lệnh:

• P r e d i c t o r : “N ế u trạng thái luật [A -> X i • c x m, j] thuộc Sj thì thêm vào Si tất cả các trạng thái luật [C —» Y i Y k, i] nếu tồn tại luật C —»Yi Y|c”

• C o m p l e t e r : “N ế u trạng thái luật [ A— x m«, j] th u ộc Sị thì thêm vào Sitất cả các trạ n g thái luật [ B -^ X ị A » x k, 1J n ếu tồn tại trạng thái luật [ B— *A Xk, 1] tro n g Sj”

• S c a n n e r : “N ế u trạng thái luật [A ->X [ *a Xm, j] thuộ c Si và a nằm trongtập hợp các h ình thái củ a kí hiệu vào tiếp theo thì th ê m v ào Sị+1 tất cả cáctrạn g thái luật [A -» X ] a « x m, j ] ”

C Ả U T R Ú C C Ủ A M Ộ T H Ệ DỊ CH T ự Đ Ộ N G Đ Ơ N GI ẢN

Trang 35

T r ư ơ n g Xuân Na m - Trang 33 - Luận văn thạc sĩ

V iệc m ở rộng thuật toán Earley cho phép khối xử lý ngữ pháp có thể đảm bảo được tốc độ p hân tich không quá chậm (độ phức tạp tính toán tỉ lệ với n 3, n là số lượng kí hiệu đầu vào của khối phân tích) N çoài cải tiến về tốc độ tính toán, thuật toán Earley m ở rộng còn có khả năng chấp nhận cùng lúc nhiều đầu vào (m ột từ tô có nhiều phân loại ngữ pháp) so với thuật toán Earley nguyên thủy [3],

2.4.4 Một số vấn đề trong xử lý ngữ pháp

V ă n p h ạ m của ngôn ngừ nguồn sử dụng trong khối xử lý ngữ pháp thườ ng gôm hai dạng, d ạng thử nhất là các luật ngữ pháp cố định của tiến hành phân tích văn phạm của câu dựa trên văn phạm của ngôn ngữ nguồn và thông tin bổ sung - thường là các văn phạm bổ sung cho phép sinh cây phân tích chính xác hơn N ói chung, có thể

áp dụng các ph ươ ng pháp phân tích cú pháp của các ngôn ngữ nhân tạo cho ngôn ngữ tự nhiên [6], tuy nhiên vấn đề không suôn sẻ như với các ngôn ngữ nhân tạo, có

nh ữ n g vấn đề chính sau đây thường gặp phải khi chúng ta sử dụng các bộ phân tích văn phạm thô ng thường:

• V ăn ph ạm của các ngôn n gữ tự nhiên thường rất phức tạp

• T ro n g ngôn ngữ nói, người sử dụng thường nói tắt, thậm chí nói sai ngữ pháp

- không thể phân tích ngữ pháp được

• X uất hiện hiện tượng có nhiều cây phân tích ứng với m ộ t câu - dẫn đên nhiếu khả năng dịch khác nhau cho m ộ t câu

K huôn khổ của luận văn này khô ng đề cập đến các p h ư ơ n g p háp để v ư ợ t qua các trở ngại trên, có thể th am khảo các nghiên cứu khác [3] [6] [7], D ù rất phức tạp nhưng nhiều bộ phân tích cú pháp cho các ngôn ngữ tự nhiên đã được xây dựng và chúng hoạt động rất tốt, nh ư vậy đây không phải là vấn đề k h ô n g thể v ư ợ t qua khi xây dựng các bộ dịch tự động các ngôn n g ữ tự nhiên

C Ấ U T R Ú C C Ù A M Ộ T HỆ DỊCH T ự Đ Ộ N G Đ Ơ N GIÀN

Trang 36

r rương Xuân Nam - Trang 34 - Luận văn thạc sĩ

2.5 Phần x ử lý n g ữ nghĩa

2.5.1 Chức năng, nhiệm vụ của xử lý ngữ nghĩa

X ử lý n a ữ nghĩa là khối cuối cùng trong dịch tự đ ộ n s, khối nhận đầu vào là các cây

p h â n tích từ khối x ử lý ngữ pháp và thực hiện việc sinh câu ở ngôn n g ữ đích N hiệm

vụ của khối xử lý n g ữ nghĩa là:

(1) Thực hiện việc đánh giá các cây phân tích cú pháp (nếu khối x ử lý ngữ pháp phân tích được nhiều cây phân tích) và lựa chọn cây tốt nhất

(2) T hự c hiện việc chọn ngh ĩa thích hợp nhất cho các từ tố của ngôn ng ữ nguồn trong ngôn ngữ đích

(3) Sinh câu trong ngôn n g ữ đích đúng với văn phạm của ngôn ngữ đó (vấn đề

x ử lý thứ tự các từ)

2.5.2 Hoạt động của phần xử lý ngữ nghĩa

V iệ c th ự c hiện sinh câu được thực hiện dựa trên 4 nguồn thông tin chính [25]:

• C á c c ây p h â n tích củ p h á p : Đ ược sinh bởi từ khối xử lý ng ữ pháp

• N g h ĩa c ủ a các t ừ tố t r o n g c â u v ă n n g u ồ n : Đ ược lấy từ từ điển bởi khối phân tích hình thái

• C ú p h á p đ iề u k h iể n : Đ ư ợ c lấy từ cơ sở tri thức của hệ dịch, là th ô n g tin bổ sung của vă n phạm , được sinh bởi khối x ử lý hình thái Cú p h áp điều khiển

là cấu trúc quyết định hoặt động của khối x ử lý n gữ nghĩa

• T h ô n g tin n g ữ c ả n h : Đ ư ợ c tổng hợp từ việc xử lý n g ữ nghĩa các câu trước

và nhận vào từ người sử dụng chương trình

H o ạt độ n g của khối x ử lý n g ữ nghĩa gồ m 4 giai đoạn G ia i đoạn đầu, tư ơ n g ứng với việc giải quyết nh iệm vụ (1) - chọn cây ph ân tích cú pháp tốt nhất, th ông thường chún g ta xây dự ng một p hép đo “độ thích h ợ p ” của m ột cây p h ân tích và lựa chọn cây p h â n tích có “ độ thích h ợ p ” cao nhất, k ĩ thuật xây dựng p hép đo sẽ được đề cập

CẤU TRÚC C Ủ A M Ộ T HỆ DỊCH T ự Đ ỘNG ĐƠN G IẢ N

Trang 37

Trương Xuân Nam - Trang 35 - Luận văn thạc sĩ

đ ến tro ng c hương sau (phần 3.2.3) G ia i đoạn th ứ h a i, còn gọi là giai đoạn tổ hợp

n g ữ nghĩa, trong giai đoạn này chương trình sử dụng các quy tắc tổ hợp ngữ nghĩa

đ ể xây dự ng cấu trúc phụ thuộc giữa các thành phần trong cây phân tích với nhau;

V ớ i c ấu trúc này, có thể biết được quan hệ của các thành phần trong câu với nhau

n h ư thế nào và dễ dàng hơn cho việc chọn nghĩa của từ G ia i đoạn th ứ ba, còn có

tê n gọi khác là giai đoạn chọn nghĩa, từ các thông tin tổ hợp được từ giai đoạn trư ớ c , c hư ơ n g trình loại bỏ các nghĩa không thích hợp và với các lựa chọn nghĩa

c òn lại thì lựa chọn nghĩa thích hợp nhất Giai đoạn c u ố i cùng, giai đoạn sinh câu đích, c h ư ơ n g trình sử dụng các quy tắc chuyển vị và bổ sung đi kèm trong các luật

v ă n phạm để sinh câu đích thích hợp

2.5.3 Các kĩ thuật sử dụng trong phằn xử lý ngữ nghĩa

v ề m ặt thời gian, khối xử lý ngữ nghĩa chiếm thời gian không lớn trong toàn bộ quá trình dịch câu X oay quanh nhiệm vụ chọn cây phân tích tốt và chọn ngh ĩa thích

hợ p cho câu đích, hầu hết các p h ư ơ ng pháp xử lý n gữ nghĩa đều dira trên tiếp cận chính, đó là sử dụng ràng buộc ở dạng luật để loại bỏ các cấu trúc hoặc nghĩa kh ôn g thích hợp v à sử dụng thống kê xác suất để chọn nghĩa hay cẩu trúc cú pháp thích hợp nhất V iệc sử dụng các p h ư ơ n g pháp trên không đòi hỏi sức m ạn h tính toán cao, vấn đề quan trọng là xây dựng số liệu thống kê hoặc các luật ràng buộc bao phủ

m ọi trư ờ n g hợp xảy ra khi xử lý n gữ nghĩa Các kĩ thuật dù ng trong xử lý ngữ ngh ĩa

sẽ được trình bày chi tiết trong ch ương 3

2.5.4 Một số vấn đề trong xử lý ngữ nghĩa

X ử lý ng ữ n ghĩa trong dịch tự động ngôn n g ữ tự nhiên là vấn đề hầu n h ư còn bỏ ngỏ H ầ u hết các p h ư ơ ng pháp x ử lý ngữ ngh ĩa hiện tại đều xuất phát từ các p h ư ơ n g pháp xử lý n gữ nghĩa trong dịch tự động các ngôn n g ữ nhân tạo (bài toán xây dự ng các c h ư ơ n g trình thông dịch/biên dịch các ngôn n gữ lập trình) N h ữ n g thuật toán như vậy được xây dựng để giải quyết những vấn đề ngữ ngh ĩa rất đặc trưng của các ngôn ngữ lập trình như là vấn đề tương thích kiểu, miền xác định của kiểu dữ liệu,

CẦU TRÚC C Ủ A M Ộ T HỆ DỊCH T ự ĐỘNG ĐƠN G IẢ N

Trang 38

Trương Xuân Nam - Trang 36 - Luận văn thạc sĩ

p h ạ m vi của biến, những vẩn dề như vậy hoàn toàn xa lạ khi làm việc với ngôn

n g ữ tự nhiên T ron g xử lý ngôn n s ữ lập trình, vấn đề đúng/sai hoàn toàn được quy

đ ịn h m ột cách rạch ròi bởi các quy tắc ngôn n e ữ chặt chẽ T ro ng x ử lý ngôn ng ữ tự nhiên, k h ô n g có quy tắc chọn nghĩa nào khẳnơ định nghĩa này là sai còn nghĩa kia là

đ ú n g [30] C hú ng ta chỉ có thể đánh giá trong ngữ cảnh này thì ngữ nghĩa này thích hợp hơn n g ữ nghĩa kia mà thôi

N h ư vậy, nói m ột cách ngắn gọn, không thể áp dụng hoàn toàn nh ữ ng p h ư ơ n g pháp

x ử lý n g ữ nghĩa của ngôn ngữ lập trình vào ngôn ngữ tự nhiên Chỉ có thể tận dụng

m ột số k ĩ thuật như phươ ng pháp đánh giá cây cú pháp tốt nhất hoặc vấn đề sinh thứ

tự câu đích từ cây cú pháp vào xử lý ngôn ngữ tự nhiên N h ữ n g vấn đề khác như việc tổ hợp ngữ nghĩa, chọn nghĩa cần có các tiếp cận mới

2.6 Các thành phần khác

2.6.1 Khối tiền xử lý

K hối tiền x ử lý nằm trước khối x ử lý từ v ự n g trong m ột hệ dịch, n h ư vậy, nếu một

hệ dịch có khối tiền xử lý thì đó chính là khối đầu tiên của hệ dịch N h iệ m vụ của phần tiền x ử lý là thực thi một vài đánh giá về văn bản nguồn để các khối kh ác có thể làm việc tốt hơn Ví dụ, khối tiền x ử lý có thể sử dụng m ột vài phép thố ng kê qua đó xác định được lĩnh vực của văn bản cần dịch giúp hệ dịch có định h ư ớ n g tốt hơn khi sinh câu đích, hoặc, th ông qua m ột số phân tích về văn bản nguồn có thể

“ tiền d ịc h ” m ộ t số cấu trúc rất đặc thù của ngôn n gữ (như là tục ngữ, thành ngữ, các câu th ôn g dụng, chữ viết tắt, các ký hiệu, ) Với m ột hệ th ống dịch thực sự, cần phải làm rất nhiều việc để nâng cao chất lượng câu nguồn để có thể tiến hành phân tích từ v ự n g m ộ t cách thuận lợi, có thể xem n h ư khối tiền x ử lý bao gồm tất cả các công việc n h ư vậy [25],

C ÁU TRÚC C Ủ A M Ộ T HỆ DỊCH T ự ĐỘNG ĐƠN G IẢ N

Trang 39

Trương Xuân Nam - Trang 37 - Luận văn thạc sĩ

2.6.2 Khối thu thập và quản lý tri thức

N ế u m ột hệ thống dịch không có khối thu thập và quản lý tri thức thì gần nh ư chắc chắn hệ thống đó không thể ứng dụng thực tể được Vì không thể xây dựng ngay từ đầu m ột hệ dịch có lượng tri thức lớn đến m ức có thê bao quát mọi hiện tượ ng ngữ pháp và n g ữ nghĩa trong cuộc sống Khi xuất hiện một trường hợp không xử lý được bằng lượng tri thức hiện tại, hệ thống cần được bổ sung tri thức mới để có thể siải quyết vấn đề V iệc p hân tích, xây dựng và bổ sung tri thức cho một hệ dịch là việc làm thườ ng xuyên và k h ô n e có kết thúc Đe công việc này có hiệu quả, người xây dự n g tri thức dịch cần m ột chương trình cho phép kiểm tra và đánh giá được chất lượng tri thức bổ sung (tri thức mới có giúp hệ thống giải quyết được trường hợp mới không, tri thức mới có xung đột với tri thức cũ hay không, ) Đ ó chính là khối thu thập và quản lý tri thức

N ói m ột cách ngắn gọn, khối thu thập và quản lý tri thức giúp người xây dựng cơ sở tri thức của hệ dịch quản lý tri thức dịch một cách hiệu quả K hối thu thập và quản

lý tri thức không phải là công cụ của người sử dụng hệ dịch m à là công cụ của người xây dựng hệ dịch

N h iề u tài liệu về dịch m áy không đề cập đen việc xây dựng khối thu thập và quản lý tri thức do quan điểm là hệ dịch máy có thể xây dựng độc lập với hệ cơ sở tri thức

N h ư n g trong quan điểm xây dựng hệ dịch m áy của luận văn thì khối cơ sở tri thức (bao g ồm khối thu thập tri thức, khối quản lý tri thức và khối tự động bổ sung tri thức dịch) là thành phần k hô ng thể tách rời khỏi hệ dịch

2.7 Nhìn lại các vấn đề của hệ dịch■ ■ ■

Tron g nh ữ ng phần trình bày trên, hầu hết các thành p hần của hệ dịch tự đ ộ n g theo tiếp cận dịch chuyển đổi đã được đề cập m ột cách tươ ng đối chi tiết về n hiệm vụ, chức năng, h oạt động, các kỹ thuật được sử dụng và cả các vấn đề còn tôn tại

T rước khi chuyển sang c hương 3 bàn về x ử lý ngữ nghĩa, có thể tổng kết lại các trở ngại khi xây dựng m ột hệ dịch như sau:

C ẤU TRÚC C Ù A M Ộ T HỆ DỊCH T ự ĐỘNG ĐƠN G IẢ N

Trang 40

Trương Xuân Nam - Trang 38 - Luận văn thạc sĩ

(1) V ấn đề tiền xử lý dừ liệu: C huân hóa văn bản cần dịch, lấy th ô n g tin chủ đề

củ a văn bản giúp định hướng dịch tốt hơn

(2) V ấn đề tách từ trong câu: Chia cắt m ộ t câu cần dịch thành các từ tố để có thể lấy thông tin hình thái chính xác Đ ây không phải là vấn đề k hó với m ột

sổ ngôn ngữ châu Au

(3) V ấn đề hiệu năng của bộ phân tích văn phạm : V ới văn p h ạ m của m ộ t ngôn

ng ữ tự nhiên, hiện chưa có bộ p h â n tích văn p h ạ m nào đủ nhanh (thời gian phân tích ngắn) và đủ m ạnh (xử lý được các cấu trúc xấu) để có thể đáp ứngđược nhu cầu của chương trình dịch tự động thực tế

(4) V ấn đề lựa chọn cây phân tích cú pháp: T ron g m ộ t số trư ờ n g hợp, m ộ t câu nguồn đầu vào có thể có nhiều cây phân tích cú p háp tư ơ n £ ứng V iệc lựa chọn đủng cây phân tích đòi hỏi phải có p h ư ơ n g pháp đánh giá xem cây phân tích nào là thích hợp nhất H iện tại ch ư a có p h ư ơ n g p h á p đánh giá nào thực sự hiệu quả

(5) V ấ n đề chọn nghĩa: C hư a có p h ư ơ n g ph áp đánh giá để chọn n g h ĩa n ào đủ tốt

để có thể sử dụng được trong thực tế

(6) V ấ n đề quản lý tri thức dịch: C h ư a có p h ư ơ n g ph áp q uản lý tri thứ c dịch

m ộ t cách hiệu quả Khi bổ sung tri thức dịch n h ư luật văn p h ạ m m ới hoặc quy tắc chọn nghĩa mới, người làm tri thức cho hệ dịch k h ô n g đánh giá được

độ ổn định của tập tri thức m ới, phải tự m ình k iể m n g h iệ m b ằ n g kinh

C Á U TR ÚC C Ủ A M Ộ T HỆ D ỊC H T ự Đ ỘNG ĐƠN G IẢ N

Ngày đăng: 25/03/2015, 09:50

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Đ in h Điền, N guyễn V ăn Toàn, N gô Q uốc H ưng, N g u y ễ n L ư u T hùy N gân , Đ ỗ X u â n Q uang, Phạm Phú Hội (2001), “C ác tiếp cận dựa trên sự p hân lớp cho việc liên kết từ A n h-V iệt”, K ỷ yếu h ộ i n g hị khoa học: K i niệm 25 năm thành lập viện CNTT, trang 306-312 Sách, tạp chí
Tiêu đề: C ác tiếp cận dựa trên sự p hân lớp cho việc liên kết từ A n h-V iệt”, "K ỷ yếu h ộ i n g hị khoa học: K i niệm 25 năm thành lập viện CNTT
Tác giả: Đ in h Điền, N guyễn V ăn Toàn, N gô Q uốc H ưng, N g u y ễ n L ư u T hùy N gân , Đ ỗ X u â n Q uang, Phạm Phú Hội
Năm: 2001
[3] T rư ơ n g X uân N a m (2001), “M ột p h ư ơ ng pháp nâng cao hiệu n ăng củ a các ô tô m á t đoán nhận văn phạm phi ngữ cản h ” , K ỷ yếu H ộ i thảo Quốc g ia : M ộ t số vấn đề chọn lọc của CNTT, N X B K H K T , Hà Nội, 2002, trang 158-162 Sách, tạp chí
Tiêu đề: M ột p h ư ơ ng pháp nâng cao hiệu n ăng củ a các ô tô m á t đoán nhận văn phạm phi ngữ cản h ” , "K ỷ yếu H ộ i thảo Quốc g ia : M ộ t số vấn đề chọn lọc của CNTT
Tác giả: T rư ơ n g X uân N a m
Năm: 2001
[4] T rư ơ n g X u ân N am , Hồ Sĩ Đàm, N g u y ễ n T hanh Tùng, (2002), “X ây d ự n g bộ sinh c h ư ơ n g trình dịch các ngôn n g ữ thuộc lớp p h i-n g ữ -c ả n h ” , K ỷ yếu H ộ i thảo Quốc g ia : M ộ t sổ vấn ãề chọn lọc của CNTT, N h a Trang Sách, tạp chí
Tiêu đề: X ây d ự n g bộ sinh c h ư ơ n g trình dịch các ngôn n g ữ thuộc lớp p h i-n g ữ -c ả n h ” , "K ỷ yếu H ộ i thảo Quốc g ia : M ộ t sổ vấn ãề chọn lọc của CNTT
Tác giả: T rư ơ n g X u ân N am , Hồ Sĩ Đàm, N g u y ễ n T hanh Tùng
Năm: 2002
[5] T r ư ơ n g X uân N am , Hồ Sĩ Đ à m (2004), “ Som e issues on processing sem antics in autom atic translation o f natural lan gu age” , Tạp c h i B un chính Viễn thông (Posts and Telecommunications J o u rn a l - ISSN 0866-7039), SÔ 225 (2 /2 0 0 4 ), tra n g 42-46 Sách, tạp chí
Tiêu đề: Som e issues on processing sem antics in autom atic translation o f natural lan gu age” , "Tạp c h i B un chính Viễn thông (Posts and Telecommunications J o u rn a l - ISSN 0866-7039)
Tác giả: T r ư ơ n g X uân N am , Hồ Sĩ Đ à m
Năm: 2004
[6] N g u y ễ n Q uốc Quân, Trần H ữu N hân (1996), “E n V iM A T : M ộ t hệ th ố n g ph iê n dịch tự động từ A nh sang V iệ t”, K ỳ yếu Đ ạ i h ộ i Quốc tế 1996 (P roceeding o f In te rn a tio n a l conference 1996), 2/3, trang 99-119.Tài liệu tham khảo tiếng Anh Sách, tạp chí
Tiêu đề: E n V iM A T : M ộ t hệ th ố n g ph iê n dịch tự động từ A nh sang V iệ t”, "K ỳ yếu Đ ạ i h ộ i Quốc tế 1996 (P roceeding o f In te rn a tio n a l conference 1996)
Tác giả: N g u y ễ n Q uốc Quân, Trần H ữu N hân
Năm: 1996
[7] A rn o ld D., B alkan L., H um ph reys R. L., M eijer s., Sadler L. (1994), M a chine tra n sla tio n : An in tro du cto ry guide, B lack w ells/N C C , London.T r ư ơ n g Xuân N a m - Trang 88 - Luận văn thạc sĩ Sách, tạp chí
Tiêu đề: M a chine tra n sla tio n : An in tro du cto ry guide
Tác giả: A rn o ld D., B alkan L., H um ph reys R. L., M eijer s., Sadler L
Năm: 1994

HÌNH ẢNH LIÊN QUAN

Hình  1-2:  Sơ  đồ  một  hệ  dịch  trực  tiếp. - Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động
nh 1-2: Sơ đồ một hệ dịch trực tiếp (Trang 17)
H ìn h   1-4:  T ư ơ n g   quan  giữa  3  sơ đồ  dịch  máy. - Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động
n h 1-4: T ư ơ n g quan giữa 3 sơ đồ dịch máy (Trang 19)
Hình  2-1  dưới  đây  thể  hiện  sơ  đồ  của  một  hệ  dịch  đơn  giản  g ồm   tên  các  khối  x ử   lý, - Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động
nh 2-1 dưới đây thể hiện sơ đồ của một hệ dịch đơn giản g ồm tên các khối x ử lý, (Trang 28)
Hình  3-1:  C h u y ển   hóa  từ m ẫu  dịch  đã  có  thành  cú  p h á p   điều  khiển. - Một phương pháp xây dựng hệ cơ sở tri thức cho chương trình dịch tự động
nh 3-1: C h u y ển hóa từ m ẫu dịch đã có thành cú p h á p điều khiển (Trang 55)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w