1. Trang chủ
  2. » Luận Văn - Báo Cáo

dịch tự động Anh-Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ 4

37 330 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dịch tự động Anh-Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ
Trường học Trường Đại Học
Chuyên ngành Ngôn ngữ học
Thể loại Luận văn
Định dạng
Số trang 37
Dung lượng 11,28 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

việc dịch thủ công bằng người đòi hỏi thời gian và công sức lớn, đặc biệt là những tri thức chuyên ngành đòi hỏi người dịch phải có chuyên môn trong lĩnh vực mà mình đang dịch. Chính vì vậy như cầu tự động hóa công tác dịch thuật Anh-Việt ngày càng trở nên thiết thực

Trang 1

CHUaNG 3: MO HINH DJCH BTL

Trong chuang 2, chung ta da xem xet, danh gia cac chie'nluQcdich va cachtie'pc~n trong dich may va cu6i cling dua ra giiii phap t6i u'ud€ th1!Chi~n dichmay Anh-Vi~t, d6 la: "dich chuy€n d6i cu phap ke't hQp voi bO phan giai ngii'nghla Dong tren co so hQCtlf dOng d€ rut lu~t chuy€n d6i tir tho ngu li~u songngfi'Anh-Vi~t" D€ th\!'chi~n giiii phap dich may duQc d~ nghi n6i tren, chung ta

dn phiii c6 mOt mo hlnh dich khii thi, c6 th€ th\!,c te' boa giiii phap n6i tren.Trong chuang nay, chung toi se trlnh bay mo hlnh dich dva tren phuong phaphQc chuy€n d6i tit tho ngu \i~u song ngu Anh-Vi~t da duQc lien ke't tit va gall"TItan ngon ngu Chung toi tq.m gQi t~t mo hlnh nay Ia BTL (Bitext TransferLearning) Dva tren mo hlnh ~ay, chung t6i moi c6 th€ tie'n tanh cai d~t chien1u'c;5cdich chuy€n d6i cu phap, bO phan ghii ngu nghla n~ng, bO hQc t1,1'dOng 66rut lu?t chuy€n d6i tir tho ngu li~u song ngu Anh-Vi~t

3.1 GldI THltU vB: MO HII\1JIDJCH BTL

Dich chuy€n d6i cu phap duQcdanh ghi la chie'nluQcdich hi~u qua va khiithi nhfit hi~n nay, ncSd1,1'atren co so 19thuye't cila nganh ngon ngu hQeso sanh

(comparative linguistics) - mOt nganh ehuyen nghien cU'ucae di€m tuong d6ng

va di bi~t giua hai hay nhi~u ng6n ngu Co so khoa hQc cila vi~c nghien CUlld6dlfa tren tint ph6 quat eila ng6n ngu (universal) va d~c di€m eila Ioq.i hint ngonngu (typology) Vi~c nghien CUllso sanh, d6i chie'u d6 duQc th1,1'chi~n tren nguIi~u song ngu hay da ngu

De'n nay, cae nha ngon ngfi'hQc so sanh Anh-Vi~t da tlrn ra kha nhi~u cae

qui)U?t ehuy€n d6i ehinh (core phenomenon) giua tie'ng Anh voi tie'ng Vi~t Tuynhien, con rfit nhi~u cac qui Iu?t ph\! (marginal phenomenon) v~n ehua duQc

Trang 2

phat bi~u mQt cach tu'ong minh VI v~y bQ Iu~t chuy~n d6i co dtnh ma ta c6 duQckhongJh~ bao quat he't cac hi~n tu'Qngtrong khi chuy6n ngu Anh-Vi~t Ngoai fa,c6 nhung Iu~t chuy~n d6i fit kh6 hay chu'a du'Qchinh thuG boa (formalization),di€u nay khie'n cac nha tin h9C kh6 cai d~t trong chu'dng trinh may tfnh du'Qc.

VI v~y, mo hinh BTL cila chung toi sii' dl;lnggiai thu?t h9c dlJa tren luq.tcai

Transformation-Based Learning) d~ nit ra cae lu?t chuy6n d6i n6i tren mQt cachtlf dQng KFTBL 130mQt giai thu~t h9C giam sat (supervised learning) do chungtoi di tie'n tU giai thu~t TBL goc cila Eric Brill (1995) va Fast-TBL cua RaduFlorian (2001) (chi tie't cac giai thu~t nay se du'Qctrinh bay trong ph~n 3.3) Viday la giai thu~t h9C giam sat, Den n6 doi hoi phai c6 ngu li~u hua'n Iuy~n.Chung toi da su dl;lngkho ngu li~u hua'n Iuy~n song ngu Anh-Vi~t 500.000 calic6 ten EVC (English-Vietnamese Corpus) do chung toi ke' thua tu Gong trinh[13]

Mo hinh BTL se sii' dl;lllggiai thu~t h9C KFTBL d6 rut cac lu?t chuy~n d6imQt cach W dQng tu kho ngu li~u hua'n Iuy~n EVe Cae Iu?t chuy€n d6i hQcdu'Qc nay, se du'Qc sii' dl,lllg d€ phan rich, chuy6n ngu cali tie'ng Anh sang Calitie'ng Vi~t

Do cae lu?t chuy~n d6i rut ra ad<;lngtu'ong minh, Den chung ta hoan roanc6 th~ theo d5i, can thi~p va hi~u chlnh cae Iu~t nay khi dn Ngoai fa, IDOhinhBTL con cho phep chung ta sii'a sai ngay tren ke't qua d~u ra cila IDQth~ khac

Vi v~y, trong BTL, chung toi da ke'thua ca,c ke't qua pban rich tie'ng Anh tu bQEGT (English-Grammar Tagger) cila My (du'QcGong bolatotnhat the' gidi tinhde'n 2001) va chung toi chi t~p tIling thlfc hi~n tie'p phftn chuy6n d6i lien quailde'n tie'ng Vi~t.

Trang 3

* sa LuqC HOAT DONG CUA MO HINH DJCH BTL:

Trang 4

Sail qua trlnh hua'n Iuy~n, h~ se rut ra t?P cac Iu?t chuy~n d6i eho cac Gongvi~c phan rich hlnh thai, cu phap, ngu nghla va quail trQng nba't 121khoi chuy~nd6i (transfer) cila chuang trlnh dich Anh-Vi~t Cac Iu?t chuy~n d6i nay tuanrhea cac khung Iu?t do chung ta dtnh san ban d~u, can gia tri C\l th~ Gila tungthanh ph~n trong Iu~t se du<;jctV dQng di~n vao sail qua trlnh huan luy~n vadanh gia Trong giai ~hu~thQc KFTBL, co Gong do~n d~u lien la gall nhan co so(baseline) hay can gQi la nhan ban d~u (initial), gall nhan ngay tho (naive),nh~m m\lc dieh nit ngan thai gian chuy€n d6i thanh nhan dung Ne'u ke't qua gall

nhan co sa Gang chinn xac, thl vi~c chuy€n d6i thanh nhan dung se nhanh bon va

chinn xac bon Chinn VIv~y ma trong mo hlnh dtch BTL cila chung toi, chung,t6i

da t?n d\lng d~u ra cila nhung bQ phan rich hlnh thai, ngu ?nap, ngu nghIa du<;jcGong bola m~nh nhat cila the'.EiOi(tinh de'n 2001) lam nhan co sa cho h~, nh~mtang hi~u suat chung cuQc cila h~

Ngoai fa, cling nhu nhung phuong phap hQc giam sat khac, ne'u chung ta co

cang nhi~u du li~u hua'n luy~n (a day chinn la ngu li~u song ngu Anh-Vi~t da

gall nhan), thl h~ cang rut ra dU<;5cnhi~u lu~t chinn xac va baa quat h~u he't cachi~n tu<;5ngtrong ngon ngu Theo mo hlnh dtch BTL nay, sail qua trlnh phan rich(d6ng nghla voi vi~c gall nhan ngon ngu) hlnh thai, ngu pnap, ngu nghla vachuy€n d6i, h~ dtch Anh-Vi~t cho ra Cali tie'ng Vi~t co th~ dung ho~c co th€ sai.Ne'u sai, cali tie'ng Vi~t nay (d8:dU<;5Cgall nhan ngon ngu trong qua trlnh t(,lOCall)

se du<;5chi~u dinh (post-edit) bai nguai va ghep voi Cali tie'ng Anh ngu6n cila no(cau tie'ng Anh cling da dl1Qcgall nh8:n ngon ngu trong qua trlnh phan rich) d~du<;5cdua ngU<;5cvao khongu Ii~u song ngu Anh-Vi~t nh~m c~p nh~t kho nguli~u hua'n 1uy~n cho giai thu?t KFTBL Ke't qua Ia kho ngu li~u song ngu Anh-Vi~t ngay dmg Ion va baa quat bon, va h~ se rut ra dl1<;5ccac lu~t chuy~n d6imoi chinn xac bon

Trang 5

" " '"

3.2 ca sa LY LU~N CUAMO IDNHDJCHBTL

Mo hlnh dich may BTL dU9Cxay dlfng tIeD co sCJ1;' thuyet cua nhi~u lien

ng?mh Tu cac chuyen nganh cua ligon ngfi' h9C, nhu': ligon ngfi' h9C so sanh(comparative linguistics), ligon ngfi'h9C- ngfi' li~u (corpus linguistics), ligon ngfi' h9C - tho'ng ke (statistical linguistics), ligon ngfi' h9c - may tinh (computationallinguistics) cho den cac chuyen nganh cua may tinh, nhu: may h9c (machinelearning), automat,

3.2.1 DT,J'ATREN CeJsa NCON NCD HOC

Trang vi~c nghien CUlldo'i chieu so sanh cac di~m tuong d6ng va di bi~t

gifi'a cac ligon ngfi' cUa nganh ligon ngfi'h9C so sanh, chung ta thong th~ nghienCUlltren 1;' thuyet, hay tIeD nhfi'ng cali do chung ta TIghTfa, ma phai nghien CUll tren nhfi'ng cali c6 th~t trong thlfC te sa dl,ll1g.f)i~u nay doi h6i chung ta ph"li c6.

cae chung cu cua ligon ngfi',cac vi d1,ltu th1fCte dB:dU9Cnhi~u nguoi sa dl,mgvadU9Cxem la ngon ngfi'chu~n [34] T~p h9P cac chung cu ligon ngu d6, dU9Cxem

la tho "ngu li~u" Thea cac ket qua nghien cuu cua ligonngu h9Cso sanh, nguoi

ta nMn tha'y r~ng: giua cac ngon ngu c6 nhi~u di~m tudng d6ng va di bi~t vdi

muc dO khac nhau tU)Ttheo cung/khac lo~dhlnh/ngu h~ Cac ket qua v~ ph6 quat

(universal) trong ligon ngfi' rho tha'y r~ng cling c6 nhung don vi ligon ngfi', ph<:imtru ngfi' phap c6 mi;1tah~u her cac ligon ngfi'.Vi d1,l:tu, tu lo<:ii(danh tu, dOng tu),

thai, ; nhat la nhfi'ngyeu to' ngfi'nghIa co b?lll (primitive semantic features).

Ch~ng h(~lll:khai ni~m "ch6ng" dU9Cbi~u d~t b~ng tieng Anh la "husband" va

b~ng tieng Vi~t la "ch6ng" d~u c6 nhung net nghIa co ban la: "nguoi nam",

"truCJngthanh", "c6 gia dlnh", "trong quail h~ vdi v9 thl d6ng vai tra la ch6ng"

Trang 6

Cac nha ng6n ngfi'h9C- ngfi'li~u cling dii chung minh r~ng, voi mQt ngu1i~u du IOn (co hang tri~u tir fro 1en) ma du<;jcch9n 19C h<;jp1y (tir nhi~u di;ing khac nhau, nhi~u ca'u truc khac nhau), thi ngfi' li~u do se baa quat g~n her cacca'u trUc, cac tru'ang h9P, cac hi~n tu'9ng thuang g~p trong ng6n ngfi' [106J Ngoai

ra, nguai ta cling chung minh rang, kef qua khai iliac ngfi' li~u ph1;1thuQc nhi~uvao s\,l'tu'dng d6ng v~ phong cach, v~ lInt v\,l'ccua kho ngfi'li~u thu th~p du9C sovoi phong cach va lInt v\,l'ccua ngfi'li~u ma ta dang dn giai quyet Chinh vi v~y,

ma trong 1u~n an nay, chung t6i dii ch9n ngfi' li~u thuQc lInt v\,l'c khoa h9C hayI

I cac Cali th6ng thuang, d~ sail nay, chung t6i co th~ khai thac no ph1;1cV1,1cho bailoan xii'1ycac van ban thuQc cling lIft v\,l'cva van phong nay

Cac nha ng6n ngfi'h9C - thong ke [4J cling dii chung mint bang 1y thuyetxac sua't rang cac ca'u truc, hi~'p tu<;jngcua ng6n ngfi'du9c phan bo d~u trong mQtkh6ng gian cac van ban du lOn, chinh VIv~y khi ch.ung ta thu th~p du9c mQt solu9ng cac van ban du lOn, thl coi nhu chung ta co trang tay h~u bet cae d(u truc,eac hi~n tu9ng eua ng6n ngfi'dn nghien CUll

Ngay tir khi ra dai may tint, con nguai dii nghI ngay den vi~e trao eho maynhi~m V1;1dich cae van ban tir ng6n ngfi'rlay sang ng6n ngfi'khac Chinh nha baitoaD "dich may" nay, dii khien cho nganh ng6n ngfi'h9C phai nghien cau Sail v~m~t hinh thae boa cae khai ni~m, cac ph?m tru, cae qui 1u?t, can nganh may tinhl~i nghien cau Sail v~ cach bi~u di~n, 1u'Utrfi' tri thac, l?p 1u?n trong ng6n ngu.f)i~u nay d~n den hinh thanh lien nganh ng6n ngu h9C- may tint, ma mQttrongnhfi'ngdoi tu<;jngnghien CUllcua no chinh 1a dich may

Theo 1y thuyet dich (theo [54], tr 20), thi "dich chinh 1a s\,l'thay the cac taili~u van ban trong mQt ng6n ngfi' (ng6n ngfi' ngu6n) b~ng tai li~u van ban tuC1ngduC1ngtrong ng6n ngu khac (ng6n ngfi' dich )" Truoc day co quail ni~m eho rang

"dieh 1a phan" , " kh6ng th~ diet dul}c" nha't 1a doi vOi cae tae phim van hge va

Trang 7

c6 slf vi von 1a : "dQcmQt ban dtch cua bai tho nhu 1a hon mQtngtioi dan ba quaID<;tngche m~t" Tuy nhien voi s1/ phat tri€n cua ngon ngU' hQc da g6p ph~n soi s<ing 1y lu~n va phuong pha~p 1u~n dich ngay nay cang hi~u qua bon Th~t v~y:giua cac ngon ngu co nhung di€m chung cua tie'ng noi con nguo! duQc gQi 13nhung ph6 quat ngon ngu, lam cho m6i ngon ngu co kha Dang tal hi~n duQCIDQtph~n bi€u d~t cua ngon ngu khac Nhung tuang duang tU vlfng, ngu pha p, phongcach la ca so ngon ngu hQc cua 1y thuye't dtch Ngoai ra, ba't ky mQt ky hi~ungon ngu nao cling d~u bi€u d~t d11'QcmQt nQi dung nha't dtnh, tuc 1a no phananh mQt thlfc ti~n khach quail nha't dtnh Thlfc ti~n nay d6i vOinhung nguoi dungngon ngu khac nhau chl1a mQr.

Vi d\l: khai ni~m "cay" la IDQtthlfc ti~n d6 chI mQt loai "thlfc v~t ", trongtie'ng Anh, nguoi ta dung k5' hj~u ngon ngu (tu) "tree ", con trong tie'ng Vi~t thldung ky hi~u ngon ngu (tli) "cay" d6 bi6u d~t Tuong t11',nguoi Anh dung tlY.

"brother" d6 chI d anh/em rIal, con nguoi Vi~t th1co hai tu "anh" va "em" Noinhu v~y khong co nghla la nguoi Anh khong bie't phan bi~t dati la "anh", dati 1a

"em" HQ cling co each bi€u d~t d11'Qc,ch~ng h<:in:"elder brother" (anh) va

"younger brother" (em) T11'dngtlf, ngu~i Vi~t dung chung tu "em" d€ chI cho ca

"em trai" va "em gai", nhung khong phai nguoi Vi~t khong bie't phan bi~t dau 13

"trai", dati la "gai"!.

Tom lai: mQi ngon ngu phat tri€n d~u co kha Dang bi6u d~t nhung S~lv~t, hi~ntUQng,da co tu !au hay mOl xua't hi~n l~n d~u Ban dich VIthe' co th€ dam baotai hi~n dung d~n nQi dung nguyen ban tHy chinh 1a cd so ly lu~n ngon ngu hQccua vi~c dich noi chung va mo h1nh dich may BTL noi rieng [13]

Trang 8

3.2.2 DT,J'ATREN NGU LltU SONG NGU

B€ hua'n 1uy~n cho h~ cach rut ra cac 1u~t chuy€n ngu Anh-Vi~t, till ch~c

ch~n chung ta phiH c6 ngu li~u song ngil Anh-Vi~t Ne'u chI xa y dvng ngu li~u

don ngu, till n6 chi giup ich cho vi~c hua'n 1uy~n tIeD chinn ngan ngu d6 ma thai

(ho~c tie'ng Anh ho~c tie'ng Vi~t) Nhu'ng ne'u ta xay dvng ngii' 1i~u song ngil,

dIng c6 nghla 1a ta dii baa ham vi~c xa y dvng ngfi'li~u don ngu cho ca hai thU'tie'ng (0 day la tieng Anh va tieng Vi~t), dang thai ta l<;tic6 ngii' li~u song ngii' d~

- hua'n 1uy~n cho h~ dich cling nhu' cling ca'p ngu li~u so SaTIncho cac nha ngon

ngu h<;>cso SaTIn [10],[12].

" ""

3.2.2.1 HAl NGON NGU NHIEU THONG TIN HON MOT NGON NGU

Thong tin khai lilac du'Qc"tungii' li~u song ngii'khong chI ga'p 2 19n ngii' li~udon ngii' ma ga'p nhi~u 1ftn[63] Tu ngii' li~u song ngii' ta vua-c6 th€ nit ra tU di~ndich may (chu khong phai tu di~n thong thu'ang eila can ngu'ai), vila nit ra caequi lu~t chuy~n ngii' nhu'ng quail trQng bon la giup h~ thong khil' nh~p nh~ng l~n

nhau eila ca 2 ngon ngii' C6 nhii'ng nh?p nh~ng neu d~ h~ tv xU'ly tren ngii' li~u

don ngii' till rfit kh6 giai quyet du'Qc,nhu'ng neu ngu li~u don ngu nay du'<;iclienket vdi ban diet tu'ong ung eila n6 till h~ bean roan e6 th~ giai quyet du'<;ic[69]

Ch~ng h<;tntrong vi~c xac Ginnrant gioi tu tieng Vi~t trong call "HQc sinh

h<;>csinh h<;>c"la vo cling kh6, nhu'ng neu du'<;iClien ket voi cau tie'ng Anh, tillnha VaGrant gioi tu tie'ng Anh (von rfit r6 rang), ranh gioi tu tie'ng Vi~t se du'<;icxac dint r6 rang nhu' trong bang Bang 3.1 du'di day

Bang 3.1: Lien ke't tITc1~khil'nh~p nh~ng rant giOitu cho tie'ng Vi~t

tieng Anh

tie'ng Vi~t

Pupils HQc sinh

learn

h<;>c

Trang 9

Tuc5ng tl,r trang trudng hQp khli' nh~p nh~ng tft loi;ii cila tu "can" trang cali tieng Anh "I can can a can" Neu duQc lien ket voi diu tieng Vi~t, thl nho VaG ru10i;iicila tu tieng Vi~t, ma tu 10i;iicila tu "can" se duQcxac atIlt de dang nhutrong bang Bang 3.2 dudi day.

Bang 3.2: Lien kef tu d€ khli' nh~p nh~ng tU10i;iicho tieng Anh

T6m lai: nho m6i lien kef voi cali d6i ung trong song ngu, ma chung ta c6th€ khai tha~ cac di€m m~nh cila ngon ngu nay d€ khli'nh?p nh~ng cho cac di€myell cila ngon ngu kia Day la U'uthe cila song ngu so voi don ngG'ma chung roicling nhu cac nha ngon ngu hQc - may tinh lIen the gidi [145] mu6n khai thac n6trong mo hlnh cila mlnh

3.2.2.2 CRIEU KET QUA PRAN TICR TIENG ANR SANG TIENG V$TC6 nhung xli' I)' (nhu tach tu, gall nhan tu 10?i, gall cu phap, gall nhan ngG'nghIa, ) cho tieng Vi~t ma hi~n nay ta chua th€ thl1chi~n tl1dQnghoan roanduQc Nhung neu co tieng Anh di kern, ta c6 th€ chieu kef qua phan rich (hlnhthai, cu phap, ngu nghIa) cila tieng Anh sang tieng Vi~t r6i sail d6 hi~u chi'nh l~ib~ng may hay b~ng ray [20] Tren the gidi nguoi ta dang khai thac song ngii' rheacach thuG nay d€ ti;lOfa cac ngil' li~u c6 gall nh8:n ngon ngil' cho cac ngon ngil' chua duQc nghien CUuSail tU nhil'ng ngon ngil' da duQc nghien CUDsa u, nhu chieu

tU Anh sang Roa [152], [153] Vi neu phai xay dl1ngtu dftu mQt kho ngii' li~u c6danh da'u cho mQt ngon ngu moi la mQt di~u vo cling t6n kern va ma't nhi~u congsuc Day la cach lam rhea quail di~m "dung tren vai nguoi kh6ng 16": ke thua(c6 di~u chlnh) kef qua xay dl1ngngil' li~u Anh d€ xay dl1ngngil'li~u tieng Vi~t

Tu 10i;ii Di;iitU TrQ dQng tu DQng tu Dtnh tu Danh tu

Trang 10

3.2.2.3 CRAT LDQNODJCR OAN VOl NODOl BAN NoD

MQt khuye't di~m eua hfiu he't cae h~ diet ehuy~n d6i eu phap hi~n nay lachUngph1;lthuQe qua nhi~u VaGea'u true cali va phong each clia ng6n ngu ngu6n.f)i~u nay khi€n rho ban d~ehd d~u ra kh6ng g~n voi phong each va ea'u true calieua ngan ngu diet, VIV?y ngu'cfiban ngu thu'ang kh6 eha'p nh?n ban du'c;!edietbdi may n€u ehu'a e6 s1,1'hi~u dint bdi ngu'ai (ra't t6n kern va ma't thai gia).Nguyen TItan ehinh eua di~m ye'u nay la do h~ chi d1,1'atIeD s1,1'phan tieh eua_nganngu ngu6n ma khang phan rich ngan ngu dieh [138] VI v~y, trong m6 hinhdiet BTL nay, cae d~e di~m eua ngan ngu dieh (tie'ng Vi~t) se du'c;!ekhao sat (v~.tr?t t1,1'tu, ea'u true Cali,van phong, caeh dung tu, ) tIeD co s~ th6ng ke ngan ngudieh giin li~n voi ye'u to' tu'ong ling eua ngan ngu ngu6n (tie'ng Anh) trong song

3.2.2.4 D0A TRENNOON NoD TV TR0c TE

MQt h~n ehe' eua each tie'p e?n dlja tIeD Iu?t truy~n th6ng Ia cae Iu?t dLtc;!Ct~o ra boi cae ehuyen gia ngan ngli va da sO'cae lu?t nay d~u dlja tIeD co so caediu ehu~n trong cae saeh va, ho?e cae Cali do hQ tV nghI ra va ap d?t VaGthlje te'(nhu'v?y se mang tint ehu quail) Nhu'ng trong thljc te' diet, nhi~u khi chung tal~i g?P nhling cali khang dung "ehu§'n" nhu v~y, di€u nay khie'n eho h~ th6ngdiet khang xU'ly duc;!et6t cae cali lo~i nhu' v~y Chinh VIv~y, trong ma hint dietBTL da lam ngu'Qel~i la dlja tIeD ngu li~u thu duQe tit tht!e te' sa d1;lngngan ngli(nhu' v?y se mang tint khaeh quail) trong lInt vlje ma h~ se g?P (khoa hQc, kythu?t,thang,-'- thu'ang) d~ hua'n luy~n eho may rUt ra cac qui lu?t chuy~n ngli phuhQP VI v~y, h~ se xU'ly t6t cae Cali thuQc cung van phong, cung ciu true, eunglInt vlje voi kho ngli Ii~u ma chung t6i da dung d~ hua'n luy~n

Trang 11

Thvc te' dich may tren the' giOi da chung minh: khang thE c6 (trong khaDangcua khoa hQc hi~n nay) h~ dich hoan loan tl;L'dQng c6 kha Dang dich tfit caffiQiImh vrj.cduQc [86] Ngoai fa, qua thrj.cte' chung minh: nhii'ng h~ dich nao c6lint vrj.ctang h(fp thl dQtin c~y tang cao, nhu h~ dich dv baa thai tie't Anh-Phap

Meteo [85], H~ dich tai li~u hudng d~n sa dvng may tinh Anh-Hoa [55],

3.2.2.5 SONGNoD OANLIEN VOl NOON NoD HQC SO SA.NH

Ngii' li~u song ngii' Anh-ViN ehinh la d6i tu'Qngnghien CUllcua cac nhangan,ngii' hQc so sanh Anh-Vi~t Tu ngii' li~u song ngii' Anh-Vi~t nay, cac nbangan ngii' hQc so sanh se nit ra ke't lu~n v€ diEm tu'ong d6ng va di bi~t giii'a hai

Ch~ng hC;ln,srj thay d6i tr~t n;1'tu khi chuyEn ngii' tu tie'ng Anh sang tieng Vi~t se plW thuQc vao nhling ye'u t6 nao ? C6 phiii la tu, hay ttr 10C;li,hay ngU'nghla cua tu ? hay phV thuQc vao Call truc diu? Chung ta chI dn dua nhii'ngye'u t6 c6 lien quail de'n tr?t trj.tll vao trong khung lu~t ma thai, con gia tri cv thE

se do qua trmh huan luy~n trj.di€n vao

T6m lai: song ngli Anh-Vi~t vila la ngu6n ngii' li~u huan luy~n eho dich may,d6ng thai vila la chb drj.adE danh gia ke't qua dich may Day con la ndi nghienCUllva ung dl,lDgcac qui lu~t chuyEn ngii' cho cac nha ngan ngli hQc so santoKe't qua la may tint va ngan ngii' hQc luan hb trQ nhau dE Dang cao cMft luQngdich may

Trang 12

3.2.3 DT,J'A TREN C0 sa MAy HQC

Vai slf phat trl€n cila ph~n rung may tinh (lam rho t6c dQ va kha Dang luutru tang leu), nguoi ta dii xay dlfng du<jcngay ding nhi~u kho du li~u rfft IOn TIT

chinh nhung kho du li~u kh6ng 16nay n6i chung va cac kho ngu li~u n6i rieng,

nganh may tinh dii phat tri€n them nhi~u huang nghien CUllmai, d6 la "mayhQc" (Machine Learning), khai khoang dG'li~u (Data Mining), khai khoang nguli~u (Text Mining), truy fun thong tin (Information Retrieval), ~

VI mo hinh dtch BTL cila chung toi du<jc xay dlfng tren co 56 kho ngu li~u

song ngu, Den chung toi khong th€ khong dung de'n Gong Clfxii'Iy n6, d6 chinh Ia

Io?n thong tiI).,slf so khap m~u, slf so sanh - tuong tlf, [111]).

Chi c6 tren co s6 Gong Clfmay hQc, thl mo hinh dtch BTL moi ho?t dQng

du<jc VI vai kho ngG'li~u song ngu ra't lOn, chung ta khong th€ khai thac chung

b~ng tay Ngoai ra, kho ngG'li~u nay khong ngung du<jcb6 sung Trang qua Trinhho~t dQng, chinh VI V?y h~ doi hoi c~p nh~t Iu~t lien tlfc £)i~u nay khong th€thlfc hi~n du<jcne'u khong sii'dlfng GongClfmay h9C6 day

£)~c di€m cila BTL la hQc cac qui Iu~t cila ngon ngG'tU cffu truc (chli khongphai la tu b~ m?t) cila ngon ngu Cac qui Iu?t h9C du<jcnay du<jcbi€u di6n duoid?ng cac Iu?t tu'ong minh Den giup rho cac nha ngon ngil' hQc d6 theo doi

Trang 13

3.3 GIAI THUAT HQC TBL

Giai thu~t h9C dtfa tren Stfciii bie'n (g9i t~t la TBL) hay con ou'<;fcg9i la h9C

huangl6i (Error-driven) a daylam9t giai thu~t hQc giam sat, ou'<;fCEric Brill o€

xua't Dam 1993 trong lu~n an tie'n SI cila ong [44] tren cC1sa ngon ngG' h9C ca'u

truc cila Z.S.Harris [24] TiI hie ra ooi oe'n nay, giai thu~t hQc TBL oa ap dl;mgthanh Gong vao h§u he't bai roan ng6n ngu, nhu': tach tu (word segmentation)[93] [119]; tach diu (sentence segmentation)[135]; phan rich hint thai hQc(morphological analysis)[118][117]; b~t 16i chinh ta (Spelling-checker) [103],nMn di~nten rieng (Proper Name)[95]; gall TItan tu lo:;ti (Part-Of-SpeechTagging) [44], [105], [104],[45], [47~, [49]; gall TItan ngu (Phrase chunker) [44],[121]; xac dint quail h~ ngii' phap/xii' ly ngon ngu Dong (grammatical relation Ishallow NLP) [60],[77]; phan tkh Cllphap (parsing) [44], [43], [48], [82], [143];khii' nh~p nh~ng ngG'nghla (Word Sense Disambiguation) [72], [113]; gi~iiquye't

I nMp nh~ng g~n giai ngu (PP- attachment) [44], [50]; ghii quye't nh~p nh~ng tinhlU'<;fc (Ellipsis resolution) [64],

Trong cac bai roan nell tren, Cia s6 cac ke't qua ma TBL Oqt oU'<;fcCi€u rat cao va tuC1ngCiU'C1ng vdi nhling phU'C1ngphap h9C lien tie'n khac G~n day nha't(9/2001), nguoi ta Ciaxay dl1ngDen b9 GongC1,lfnTBL [79] vdi ma ngu6n ma ci~giup m9i ngU'oi thll~n ti~n !rong vi~c sii' d1,lng Gong C1,lTBL nay TBL CiU'<;fC cacnba ngon ngu h9C-may tinh oanh gia la trtfc quail, d~ hi~u, g~n vdi Gong vi~ccila cac nha ngon ngli h9C :\19t O?CCii~mn6i b~t cila TBL so vdi cac giai thu~th9C khac la tint tn,l'cquail, tint bi€u trU'ngva tint ke' thua Cac nha ng6n nguh9C toaD loan co th~ theo dei, can thi~p vao sueStqua trlnh h9C, qua trlnh thtfcthi cling nhu cac ke't qua trung gian va cu6i cling cila no TBL cho phep sii'a saitIeD o~u ra ciia m9t h~ khac

Trang 14

nhan hi~n h~illh

Cac lu~t ling VieD Ngil' li~u gall nhan

rhea lu~ t ling VieD

Lu? t t6i u'u

Hlnh 3.2: So d6 giai thu~t hQc TBL

Trang 15

3.3.1.2 MO TA BOAT DQNG CUAOIAI TBUAT

Xufit phat tu ngii' li~u hufin luy~n (ngii' li~u dii duQe gall TIMiDngon ngii'chinh xae, hay can duQe gQi la ngii' li~u vfmg - golden corpus), ngii' li~u se duQCtach be cac nhan ngon ngii' dii duQc gall, d€ t~o thanh ngii' li~u tho (chua gall

nhan) Ngii' li~u nay duQc dua qua kh5i gall nhiin cd sa (baseline), hay can gQi la gall nhiin ban d~u (initial state) Vi~c gall nhan cd sa nay nh~m gall cho cae ddn

vi ngon ngii' trang ngii' li~u mQt nhiin ngon ngii' ban d~u nfw do, co th€ rfit khong

chinh xac (ch~ng h~n gall tfit ca cae tU d~u la danh tu trong bai roan gall nhan tU

1o~i,hie nay vi~c gall cd sa nay can duQc gQi 1a gall nhan ngay thd), ho~c co th€

lilla,chinh xac neu ta gall cho m6i ddn vi ngon ngii' nhan g~n dung nhfit co th€duQccila no (nhan nay co duQc d\,l'atren vi~c th5ng ke trang kho ngii' li~u) Ketqua 1a ta co duQCngii' 1i~u ma trong do cae ddn vi ngon ngii' da duQc gall nhang~n dung Ngii' li~u duQCgall nhan nay duQc xem nhu1a ngii' li~u d tr~mg thaid~u lien trang vong 1~p n buGC sail day:

Ngii' li~u se duQc ap d\lllg l~n luQt cac lu~t ling VieD Cac lu~t ling vieD d~u thuQc v~ nhii'ng d(:lllg khung 1u~t dii duQe dinh san (template) Ch~ng h~n trangbfti toaD gall nhiin tu lo~i (POS-tagger), ta co khung lu~t sail: If POS-1=X thenPOSo~ Y, co nghla 1ftneu tu 10~i dung trUGCtu hi~n hanh 1ftX, thl tu 10~i hi~nhftnh se duQc gall 1ftY, ma trong d6 X, Y 1ftcac bien co th€ 1fiytfit ca cac gia tri(cae nhan tu 10?i) co th€ co cila no Vi d\l: dgu lien h~ se gall thii' X la "danhtu", Y 1a "danh tu" d€ t?O thanh 01 1u~t ling vieD la If POS_1=Noun thenPOSo~Noun, lu~t se duQc ki€m chung ngay l~p tUc bfing each ap d\lng no trenngii' li~u hi~n hanh r6i sail do so sanh vdi ngl1'1i~u hufin luy~n (ngl1'li~u vang) vachfim di€m (danh gia d\,l'atren hi~u s5 nhan dung/sai trUGCva sail khi thvc hi~nlu~t ling VieD).

Trang 16

Sail do, X, Y l~n lU<;5tla'y cac gia tri khac d~ tc,tora cac lu~t ling vien khac

va cling thii' nghi~m - daub gia tuong W nhu LIen Ke't qua la ta se tlm duC/cc~pgia tri (x,y) tuong ling voi hai bie'n X, Y saG cho lu~t ling vien nay se co di~mcao nha't va lu~t t6i u'U"If POS.1=x then POSo~y" du<;5cchQn d~ xe'p VaG daubsach cac lu~t t6i u'Usau moi yang l~p Day lu~t t6i u'Unay dl1<;5csli' d1,lngd~ lamthay d6i cac nhan gall ma thoa ,di€u ki~n cua lu~t (chinh VI v~y lu~t nay condl1<;5CgQi la lu~t di bie'n- transformation rules) trong ngii' li~u hi~n hanh C5 tr<~ng

thai thli k, d~ t'.lOra ngii' li~u moi C5tr'.lng thai thli k+l Ngii' li~u d tr'.lngthai mainay lc,tilftn lu<;5tdU<;5C thii' nghi~m tren cac lu~t ling vien d~ cho ra lu~t t6i u'Umai Qua trlnh nay cli l~p l'.li cho Wi khi di~m cua lu~t t6i u'u mai kh6ng IOn hon giatri nguong ~thl giai thu~t ngung Nguong ~ nay du<;5CchQn rhea tht!c nghi~m.Ne'u ta chi dn chQn ~=O, thl ~ac lu~t t6i u'UdU<;5crut ra cling dam baa la chi coth~ lam t6t hon ho~c b~ng dli li~u ban d~u, chITkh6ng lam xa'u hall

Ngu li~u tho (khong nhan)

Ngli li~l.lgall nhan'

Trang 17

Ke't thuc giai do~n hua'n luy~n (training), ta thu duQc IDQtdanh Bach caclu~tt6i u'u Gia sa rhea trong Hinh 3.3, danh Bach cac lu~t thu duQc se la: {T2.hT3,2,T2.3""}'Trong giai do~n thvc thi gall nhan (tagging), cac lu~t nay se l~n luQtduQcap dt,mgd6 di bitn nhan ngon ngu cila cac ddn vi ngon ngu trong mQt vanban moi rhea dung thll tv trong danh Bach da ,thUduQc Ta't nhien truoc do vanban nay cling phai duQc gall nhan cd sd gi5ng nhu giai do~n hua'n luy~n.

3.3.1.3 TRINH BA.Y GrAI THUA T TBL:

B6 thu~n ti~n, chung Wi dung bai roan gall nhan tu lo~i d6 mint ho~, tagQl:

. X: khong gian mfiu la t~p hQpcac tu va m6i mfiu la mQt tu Vi d\l: ToiPRO

dQCvERBsachNoUN thlX={Toi, dQc, Bach}.

c: t~p cac nhan tu lo~i c Vi d\l C={PRO, AUX, VERB, NOUN, } s = xxC: khong gian tr~ng thai ma m6i di6m chinhla C?P(tu, tu lo~i)

. Jr: vi tu duQc dint nghla tren khong gian S+, thuong la tren mQt day cac

tr~ng thai, vi d\l: (word.], PRO) /\ (word+h NOUl\T) hay day cac mfiu, nhu:

(word.! =the) v (word_!=a) Cac vi tu la nhung th6 hi~n cila khung lu~t.. MQt lu~t r duQc dint nghla nhu mQt C?P (Jr,c) g6m vi tu Jr va nhan tu lo~i

c Lu~t r duQc vitt duoi d~ng ;r => c Nghla la lu~t r =(Jr,c) se duQcap

d\lng tren mfiu x ntu vi tu ;r thoa tren do, khi do x se duQc gall nhan IDoi

la c

. Cho mQttn;lllgthai s= (x, c) va lu~t r = (Jr,c'), till tr~ng thai ktt qua res)

do vi~c ap d\lng lu~t r tren s duQc dint nghla la:

res) = {(X,SC')

Ne'u ;res) = Sai Ne'u ;res) = Bun!!

Trang 18

. T: t~p cae mail hua'n luyt%nda duQe gall nhan dung.

. Bi€m duQe tinh eho mQt lu~t r =(IT,c) ehinh la hit%us6 khae bit%tgiua ket

qua thl,I'ehit%neua lu~t r tren mail s voi tinh tr~lllgban d~u theo e6ng thlie:

Score(r) = Lscore(r(s)) - Lscore(s)

0 Neu e:;t: True(x)

* Giai thu~t TBL nguyen thuy duQe trlnh bay nhu sail:

Buoe 1: Khdi t<;lOmoi mail x trong t~p hua'n luyt%nvoi mQt nhan c thichhQpnha't Ch£ng h<;lnd6i voi tu "t6i" thl tu lo<;lico xae sua't xua't hit%ncaD nha'ttrong thl,I'ete ehinh la tU lO<;liPro Ta gQingu lit%uluQt d~u ti~n nay co ten la To

Buoe 2: Xem xet ta't d lu~t di bien r lac dQng tren ngu lit%uTk d lu<;1tthli

k va ehQn lu~t naG ma co Seory(r) caD nha't va ap dl,mg lu~t nay eho ngu lit%uTk d€ nh~n duQe ngu lit%umoi laT!;-!-! Ta co: Tk-'-I= r(T!;) = (rCS)ISET!;}.Neu kh6ngcon lu~t naG thoa: Score(r) > j3 thl giai thu~ t dung pia nguong dude di:it tn(oe

va duQedi~u ehinh ruSTrhea nhu du thl,I'ete.

Buoe 3: k=k+ 1

Buoe 4: L~p l<;litu buoe 2

* Khil Dang dung (h6i tu) eua 2:iai thuat: gQi ek la s6 loi (Slfkhae bit%tgiua ketqua gall nhan sail lu~t r voi nhan dung trong ngu lit%uvang d luQt thli k), ta co:

ek+! =ek- Seore(r), do Seore(r) > 0, Den ek+!< ek voi mQi k, va ek E N,Den giai thu~t se dung sail mQt s6 buoe hUll h<;ln.

* Chi phi tint roan eua giai tbuat: O(n*t*c) voi 17:Deb tbuoe t~p huan luyt%n(s6

111Qttu); t: Deh thuoe t~p lu?t di bien khil di (s6 lu?t ling VieD);c: Deh thude

ngu lit%uthoa di~u kit%nap dlfng lu~t (s61uQng vi tri thoa vi tu IT).

Ngày đăng: 09/04/2013, 22:01

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm