1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên Cứu Phát Triển Phần Mềm Dịch Máy Anh - Việt.docx

132 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Phát Triển Phần Mềm Dịch Máy Việt - Anh
Tác giả GS.TSKH. Bạch Hưng Khang
Trường học Viện Công Nghệ Thông Tin
Thể loại báo cáo tổng kết
Năm xuất bản 2003
Thành phố Hà Nội
Định dạng
Số trang 132
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Microsoft Word VietAnh 1 doc ViÖnc«ngnghÖth«ngtin B¸oc¸otængkÕtkhoahäcvµc«ngnghÖ ®Òtµinh¸nh nghiªncøuph ţtriÓnphÇnmÒmdÞch m¸yviÖt anh thuéc®ÒtµicÊpnhµn−íc “nghiªncøuph¸ttriÓnc«ngnghÖnhËnd¹ng,tænghîpv[.]

Trang 1

07/8/2007HµNéi-2004

Trang 2

- Trung tâm Ngữâm họcthựcnghiệm–Viện Ngôn ngữhọc

- Trung tâmkỹthuật–Thông tấnxã ViệtNam

- Trungtâm Công nghệViđiệntửvàTinhọc–ViệnỨngdụng Công nghệ

- CSLU–

Centerofspokenlanguageunderstanding,Việnsauđạihọc Oregon,Hoakỳ

- KhoaToán–Cơ–Tinhọc,Đại học TựnhiênHà nội

KhangNHÁNHĐỀTÀI:

NGHIÊNCỨUPHÁTTRIỂNPHẦNMỀMDỊCHMÁYVIỆT–ANH

HÀNỘI 2003

Trang 3

Nghiên cứu phát triển côngnghệ nhận d ạng, t ổng hợp và xử lý ngônng ữ ti ếng Vi ệt, 2001-2003

2 Tốcđộbiêndịchtựđộngđạtkhôngdưới5.000từ/

phút(tươngđươngvới10trangA4)

3 ChấtlượngdichthuậtcóthểxemhiểunhữngvănbảntiếngViệtđúngvănphạm(đốivớin hữngngườihiểut iếngA nh và kh ôn g biếttiếngViệt)

4 HệvănphạmhìnhthứctiếngViệtbaogồmcácyếutốchínhcủaluậth à n h văntiếngViệt

Trang 4

-2-2 Đềxuấtvănphạm cảmngữđoạn(phrasesensitivegrammar) –mộtpháttriểntiếpt ụcc ủav ănphạmđ ịnhb i ê n c h o p h é p môtảđ ư ợ cnhiềut í n

h chấtphụthuộcngữcảnhcủangônngữtựnhiên,đặcbiệt,đềxuấtkháiniệmngữđoạnnhưmộtyếutốràngbuộctrọngtâmtrongđịnhnghĩacáccấutrúccủangônngữ

3 Đềxuấtphươngphápgiảiquyếtnhậpnhằngứngdụngtrongxửlýngônngữtựnhiêndựatrênsựphâncấpcủahệluậtsinhsửdụngmộtmôhìnhlogicmới,trongđ

t,côngđoạntổnghợpvănbảnkhóhơnnhiềusovớik h â u phântích,vàvănbảnđượcsảnsinhrasẽtựnhiên,bảnngữhơn,khôngphụthuộcvàocáchđặtcâucủavănbảngốc

Trang 5

- RDA,HàNội,3,2003.

MộtbáocáokhoahọctạiHộithảoquốcgiavềNghiêncứuvàPháttriểnICT HaibáocáokhoahọctạiHộinghịtoánhọctoànquốclầnthứ6,Huế,09,2002

- HaibàibáođăngtrênTạpchíBưuchínhViễnthông,Chuyênsansố8và10,2002

II THỰCHÀNH:

1 Ứngdụngmộtphầncáckếtquảlýthuyếtvàcôngnghệđượcpháttriểnv à o phầnmềmdịchmáy

2 Ứngdụngmộtsốheuristicsnhằmcảithiệntốcđộchogiảithuậtphântíchvănphạmvàbiêndịchvănbản

3 XâydựnghệphâncấptừloạitiếngViệtđểđưavàocơsởtrithứctiếngViệttrêncơsởmôhìnhngữnghĩa

Trang 6

-4 DịchhaichiềuAnh-4 ViệtvàViệt-4 Anh

- Chươngtrìnhtựđộngđoánnhậnngônngữnguồn

- Cótínhnăngđangữ,cóthểdễdàngđưamộtcặpngônngữmớivàohệthốngđểbiêndịchqualạigiữahaingônngữmàkhôngcầnphảilậptrình

- Cókhảnăngvậndụngtrithứcngônngữtrongphântích:khongữliệucànglớnthìtốcđộphântíchcâu–vàtươngứng–

tốcđộbiêndịchvănbảncàngcao,tráivớicácgiảithuậtphântíchđ

ơnđịnh(chẳnghạnđốivớigiảithuậtEarlythìthờigianphânt í c h tỷl ệnghịchvớibìnhphươngkíchthướccủabộquytắcvănphạm).

- Cócác côngcụcập nhậttrithứcngôn ngữvàbiểudiễntrựcquanc ây cúphápđểhỗtrợviệchiệuchỉnhcơsởtrithức

- Cókèmt h e o mộts ốtừđiểnt r a cứut h ô n g dụng(ComputingD i c t i

o n a r y , T h e s a u r u s , T ừđiểnA n h - V i ệtv à

Việt-Anh,O x f o r d AdvancedLearner’sEncyclopedicDictionary,Webster’sDictionary, )đểtiệnviệccậpnhậtdữliệungônngữ

2 Tiếptụctíchhợpnhữngkếtq u ảl ý t h u y ếtv à c ô n g nghệđãđạtđ ư ợ c( t r o n gkhuônkhổnghiêncứucủađềtài)cũngnhưbổsungvàhiệuchỉnhcơsởtrithứcng

mộtsốkiểunhậpnhằng.Vănphạmnàycũngđặtcơsởchomộtgiảiphápdịchmáyliênngữmới,nội dung chitiếtđượctrình bày trongphần

III.CácphầnIVvàVcủabáocáogiớithiệunhữngkỹthuậttriểnkhaithựch à n h củađềtài

Trang 7

-5-I DỊCHMÁY:MỘTSỐTRÀOLƯU

HIỆNNAY.

I.1 VĂNPHẠMVÀPHÂNTÍCHCÚPHÁP I-2

I.1.1.NGÔN NGỮHÌNH THỨCVÀVĂNPHẠMSINH I-3

I.1.2.MÔ HÌNH VĂN PHẠM DỰATRÊN SỰTHỐNG NHẤT I-6

I.2.ÁP DỤNG VĂNPHẠM VÀ

NHỮNGTRỞNGẠI I-6 I.2.1.SỰPHÂNCẤPKHÁINIỆM I-7I.2.2.MỐILIÊN

HỆGIỮACÁCBỘPHẬNTRONG CÂU I-7

I.2.3.MỐILIÊN HỆGIỮACÁCTẦNGCẤU TRÚC TRONGCÂU I-8 I.2.4.RÀNGBUỘC VĂN PHẠMVÀTHÔNG TIN DẪNXUẤT I- 11I.2.5.VĂN PHẠM CẢM NGỮCẢNHYẾU I-11

I.3 CÁCKHUYNHHƯỚNGTRONGDỊCHMÁY I-15

I.3.1.CÁCHTIẾPCẬNDỰATHEOLUẬT I-15 I.3.2.PHƯƠNG PHÁP DỰA VÀO KHO NGỮLIỆU I-18

I.3.3.MỘTSỐHỆDỊCH MÁY LIÊN NGỮ I-19

I.3.3.1 Dựán UNITRAN của MIT I-19 I.3.3.2 DựánDịchmáyđangữtại CICC I- 21I 3 3 3 Dựán KANTcủaTrườngđạihọc CarnegieMellon I-21 I.3.4.CÁC PHƯƠNG

HƯỚNGMỚI I-23

I.4 KẾTLUẬN I-23

Trang 8

Nghiên cứu phát triển côngnghệ nhận d ạng, t ổng hợp và xử lý ngônng ữ ti ếng Vi ệt, 2001-2003

Phầnnàytrìnhbàymộtsốkhíacạnhcủaxửlýngônngữtựnhiên,cáckhíacạnhngữpháp,ngữnghĩahọccủangônngữ;cácphươnghướngn g h i ê n cứuvàhiệntrạngcủalĩnhvựcdịchmáynhưmộtbộphậnquantrọngcủaxửlýngônngữtựnhiên

I.1 VĂNPHẠM VÀPHÂNTÍCH CÚPHÁP.

Hệthốngxửlýngônngữtựnhiêngiữmộtvaitròcốtyếutronggiaotiếpgiữaconngườivớinhauhayvớimáymóc.Xửlýngônngữtựnhiênb a o gồmnhậndạngtiếngnói,hiểuvàsảnsinhngônngữ.Cáchệthốngxửlývănbảnvàbiêndịchcácthôngbáorấthữuíchtrongviệctríchlọcthôngtintừkhongữliệuvănbảnvàtổchứcchúngthànhdữliệutheonhiềukhuôndạngkhácnhauđểsửdụngvềsau

Xửlýđangônngữđòihỏiphảiđisâuvàocácvấnđềđangônngữnhưcu

ngcấpthiếtbịhỗtrợbiêndịchvănbảncũngnhưphiêndịch(dịchn ó i )ởmộtsốlĩnh

vựcnhấtđịnh.Nghiêncứuvềxửlýngônngữtựnhiênlànghiêncứumôhìnhtoánhọcvềcấutrúcvàchứcnăngcủangônngữ,sửdụngv à s ựtiếpnhậnn g ô n ngữ: c

ú p h á p , ngữn g h ĩahọc,ngữd ụnghọc(nghĩalàmộtsốkhíacạnhnhấtđịnhtrongmốiquanhệgiữangườinóivàngườinghe,haygiữangườisửdụngvàhệthốngtronghệthốngxửlýngônngữtựnhiên),cũngnhưcáckhíacạnhvềmặtvănbảncủa ngônngữ.Đâylàn h ữngnghiêncứuliênbộmônvàcóliênquanđếnmộtsốchuyênngànhcủakhoahọc máytínhbaogồmtrítuệnhân tạo, ngônngữhọc,logichọcvàtâmlý học

Ngônngữcócấutrúctôntitheonhiềucấpđộkhácnhau,đặcbiệtởcấpđộcâu.Hầuhếtmọihệthốngxửlýngônngữtựnhiênđềucómộthệvănphạmvàphân

tíchcúpháptươngứng.Vănphạmlànhữngđúckếthữuhạncủamộtsốlượngcâuhầ unhưvôhạn,cònphântíchcúpháplàthuậtt o á n đểđưaramộthaynhiềusựmiêut

ảcấutrúcchocâutheovănphạmnếucâuđócóthểphântíchtheonhữngđăcđiểmngữpháp.Môtảcấutrúclàsựghilạilịchsửnguồngốchìnhthànhcủacâutheovănphạm.Môtảcấutrúcđ ư ợ cxemlàcóvaitròquantrọngchonhữngnghiêncứusâuhơnnhưhiểu

vănbảnhaydịchngữnghĩa1

1 Tuy

nhiên,cóthểthấyrằngchínhlịchsửápdụngquytắctrongvănphạmsinhlạicảntrởviệcnhậnthứccấutrúcngữnghĩa (chitiếttrongphầnIIvàIII)

I-2

Trang 9

I.1.1 NGÔNNGỮHÌNH THỨC VÀVĂNPHẠMSINH

Vàocuốinhữngnăm50,cáckếtquảnghiêncứucủanhàngônngữh ọcN

o a m Chomsky[ 1 ] đ ãcóảnhhưởngs â u rộngđếntoànb ộl ĩnhvựcn g h i ê n cứuvềcúpháp.Nềntảngcủa nhữngkếtquảđólà Lýthuyếtvềngônn g ữhìnhthức,đặtnềnmóngchokhoahọcmáytínhlýthuyếtvàlàkhởiđầuc h o việcxửlýngônngữtựnhiên.ÔngđãxâydựngmộtmôhìnhhìnhthứcmớivềmiêutảvănphạmvàđãphântíchmộtbộphậnđángkểcủatiếngA n h bằngcáccôngcụcủamôhìnhmớinày

Nộidungquantrọngnhấttronglý thuyếtcủaChomskyl à môhìnhvănphạmsinh,trongđónhữngluậnđiểmchínhbaogồm:

- Giảthuyếtrằngcấutrúcngônngữphảiđủnhỏđểdễdàngkiểmt r a

- Đốitượngnghiêncứuchínhlàhệtrithứcẩnchứađằngsauviệcs ửdụngngônngữ

- Cómộtnềntảngsinhhọctrongkhảnăngtiếpthụtr ithứcngônng ữcủaconngười

Chomskychorằngngônngữ,đặcbiệtlàtổchứcvănphạmcủanócót h ểsoisá

ngchochúngtacấutrúctưduycủaconngười.Theoông,“thựctếđángchúýnhấtc ủangônngữloàingườilàsựtươngphảnkỳlạgiữasựphứctạphiểnnhiêncủan óvớisựdễdàngmàtrẻemhọctiếng”.Cấutrúccủabấtkỳngônngữtựnhiênnàocũn

gphứctạphơnnhiềusovớimọingônn g ữnhântạoh a y nhữngh ệthốngt o á n h ọccaosiêu.Nhưngl ạthay,h ọcn g ô n ngữlậptrìnhhayhọctoánđòihỏiphảikinhquanhữngkhóađàotạocăngthẳng(màkhôngítngườirốtcuộcvẫnkhôngtiếpthuđược).Trongkhiđ óđứatrẻlênbađãgầnnhưthànhthạoítnhấtlàmộtthứtiếng

Đểgiảithíchnghịchlýnày,Chomskychorằngphầnlớnsựphứctạpcủangônngữthìkhôngcầnphảihọc,vìconngườikhisinhrađãbiếtchúng;n g hĩalàtrongnãongườiđãsẵncókhảnănghọcmộtloạingônngữnhấtđ ị nh.Kháiquáthơn,ôngchorằngtưduybẩmsinhcủaconngườiđãđượcmôđunhóacaođộ.Nghĩalàchúngtacónhữngcơquantưduychuyêndụngđượcthiếtkếđểthựchiệnnhữngloạibàitoánđặcbiệttheonhữngcáchthứcđặcbiệt.Cơq u a n n g ô n n g ữ( t h e o quanđiểmcủaChomsky,c h ứamộts ốmôđuncontươngđốiđộclập)làđặctrưngriêngcủaloàingười.Mọingườiđềucótưduyngônngữ,vàkhôngloàiđộngvậtnàocókhảnănghọcbấtcứthứgìtựanhưtiếngngười

Mộthệquảtừgiảthuyếtvềtrithứcngônngữbẩmsinhcủaloàingườil à “ hầuh ếtc á c cấut r ú c l à c h u n g c h o mọin g ô n ngữ”.T h ựct ếl à t r ẻe m nhanhc h ó n

g h ọcn ó i t h ứtiếngmàc h ú n g tiếpx ú c , k h ô n g p h ụthuộcv à o nguồngốccủabốmẹchúng.Vìvậytrithứcngônngữbẩmsinh,nếucó,thì

Trang 11

y.Ởđâychỉđưaranhữngnghivấnvềcáchmàchúngtahiệnđangvậndụngmôhình này trongthực tế Giải pháp cụthểchomộtsốvấnđềđặtrađượctrình bàytrong phần sau.

Trang 12

SĐN

Vănphạmcảmngữcảnhcũnggiốngvănphạmphingữcảnhnhưngq u y tắcphântíchbiếntrunggianphụthuộcvàongữcảnhxungquanhcấut r ú c , trongkhiquytắcphântíchvănphạmphingữcảnhlàkhôngphụthuộcvàongữcảnh.Vănphạmcảmngữcảnhcóvẻđầyđủhơnkhimôtảcấutrúcngônngữtựnhiên.Tuynhiên,toànbộlớpvănphạmcảmngữcảnhlạitỏraquáphứctạpđểcóthểápdụngtrongthựctếphântíchcâu

Cónhiềunghiêncứuxungquanhviệcxâydựngnhữngmôhìnhvănphạmmạnhhơnvănphạmphingữcảnhnhưngthuậntiệnhoặcđủchuyênbiệtđểcóthểápdụngthựctế.Trongnhữngnăm80củathếkỷ20ngườitađ ãđưaramộtsốmởrộngvănphạmphingữcảnh,nhúngthênnhữngràngbuộchaynhữngthỏathuậnvềngữcảnhtrongđịnhnghĩaquytắc.Nhữngvănphạmđượcxâydựngtheoxuhướngnàyđượcgọichunglàvănphạm

Trang 13

dựat r ê n s ựthốngnhấtv à r à n g buộc(unification-a n d

constraint-basedgrammars)

I.1.2 MÔHÌNHVĂNPHẠMDỰATRÊNSỰTHỐNG NHẤT

Mộtcấutrúcđặcbiệtbaogồmcáccặpmanggiátrịthuộcngữkhimộtgiátrịcóthểlàhạtnhânhaymangcấutrúcđặctrưngkhác.Cấutrúcđặctrưngnàycómộtthuộctínhthốngnhất,giátrịcủanólànhữngthuộctínhkhác,

(chẳnghạnsựphùhợpvềsốvàngôi).Quytắcphântíchcâuphingữcảnhđượccoinhưcáchkếthợpchuỗiđểthànhcâu

Thaotáccơbảntrongkếthợpcáccấutrúcđặctrưngđượcgọilàsựthốngnhất.VớihaicấutrúcAvàB,bằngcáchkếthợpchúng,tacóthểtạor a cấutrúcCmangđầyđủnhữngthôngtincủaAvàB.TấtnhiênnếuAvàBmangnhữngthôngtinmâuthuẫnvớinhau,chúngsẽkhôngthểkếthợpvớinhauđược.Trongkiểuvănphạmvănphạmphingữcảnhdựavàosựthốngnhất,vănphạmphingữcảnhđóngvaitrònhưmộtbộkhungchosựkếthợpchuỗi.Đốitượngchosựvậndụngvănphạmlàcáccấu

trúcđặcthù.Cáccấutrúcđặcthùnàyđượckếthợpbởisựthốngnhấtđãnóiởtrên.Vìvậyở kiểuvănphạmt h ốngnhấtn à y , vănphạmt ạor a c á c c h u ỗi,c ò n sựthốngnhấtcủacáccấutrúcđặcthùphùhợp(bắtđầulàcáccấutrúcđặcthùđivớicácđơnvịtừvựng,vídụnhưcáctừ)thìtạonênmộtcấutrúcđặcthùđ ivớichuỗiđượctạobởivănphạm

Nhiềukiểuvănphạmkhácnhưvănphạmcấutrúcngữđoạntổngquát( GeneralizedPhraseStructureGrammar ),vănphạmcấutrúcngữđoạntheo từchủ(HPSG-Head-

GPSG- LexicalFunctionalGrammar)thựcchấtđềulàkiểuvănphạmvănphạmphin

DrivenPhraseStructureGrammar),VănphạmChứcnăngtừvựng(LFG-gữcảnhdựatrênsựthốngnhất.Cácloạivănphạmnày;nếukhôngcóràngbuộc,nócóthểtươngđươngvớimáyT u r i n g Nhìntừgócđộngônngữhọc,nhữngkiểuvănphạmnàycầnđượcg i ớihạnđ ể chứcn ăngmiêut ảc ủac h ú n g c h ỉđơngiảnlàcầnv

à đ ủ chứk h ô n g hơn;cònnhìntừgócđộtínhtoán,chúngcầnđượcgiớihạnđểmanglạinhữngthuậttoánphântíchcúphápcóhiệuquả.Cảhaicáchnhìnnàylàcơsởchonhữngnghiêncứutiếptheotronglĩnhvựcnày

I.2 ÁPDỤNG VĂNPHẠMVÀNHỮNG TRỞNGẠI

NhữngnghiêncứuvềmôhìnhvănphạmChomskyvàứngdụngnót r o n gxửlýngônngữtựnhiênvềsauchothấycónhiềutìnhhuốngngônngữhoặckhôngthểdiễnđạtđượcbằngmôhìnhChomskyhoặcchỉcóthểdiễnđạttheocáchkhôngtựnhiên,rấtkhóhiểuđốivớitưduycủaconngười[1].Trongphầnnàytasẽxemxétnhữngtìnhhuốngngônngữthực,trongđómô

Trang 14

I.2.1 SỰPHÂNCẤPKHÁI NIỆM.

tùytheonhucầucủaứngdụngvà,giảsử,tađịnhđặttêntươngứngkhácnhauchomỗilớpcon thông quanhữngbiếntrunggiankhácnhautrongmộthệvănphạmsinh.Trongtrườnghợpnày,tasẽkhôngthểngầmđ

ịnhtínhchấtvềsốnhiềuchotấtcảcáclớpconcủadanhtừ.Khiđó,nếutamuốnbộp h

â n tíchtừvựngcóthểtạoradạngsốnhiềucủaloạidanhtừthìtaphảiq u y địnhra

nhữngquytắcgiốngnhauchotấtcảcác

loạidanhtừ.Nếutrongmỗilớpdanhtừtalạitiếptụcmuốnchiarathànhnhữnglớpconthìtalạib u ộcphảitạoranhữngquytắcriêngchonhữngloạitừmớinàynữa.VănphạmphingữcảnhChomskykhôngphânbiệthailoạiquytắc:

- Aωvớiω cóđộdàilớnhơn1,và

- AXvớiXlàbiếnhoặctừcuối

Quytắct h ứnhấtl à mộtloạiq u y tắcg ộp( k h á i n i ệmA đ ư ợ cđ ị nhnghĩat

h ô n g q u a s ựkếthợpcủanhữngk h á i niệmk h á c n h ưnhữngt h à n h p h ầncủanó

),tatạmgọichúnglàquytắcsinhthựcsự.Trongkhiđóquytắcloại2làsựtrừuxu

ấtkháiniệm(AlàX).Nhưvậycóthểcoiloạiquytắcn à y khôngphảilàmộtquytắcsin

h, chúng có thểđượcsửdụngđểxây dựngh ệphâncấpcáckháiniệmdướidạngmộtgiànđạisố.Khiđó,bộquytắcchỉchứanhữngquytắcthựcsự,vàmộtsựápdụngquytắcsẽluônluônthayđổiđ ộ dàicủadạngcâu.1

I.2.2 MỐI LIÊNHỆGIỮACÁCBỘPHẬNTRONGCÂU.

Trongc á c t à i liệudạyh a y k h i truyềnđạtkiếnthứcngoạin g ữt a thườnggặpnhữngcâuchỉdẫnvềngữphápnhư:

- KhitrongmộtcấutrúcZcómặtXt h ì cónghĩalà

Trang 15

1 Nh

ưvậy có thểcoidạngchuẩnChomskylàkhởiđầuchoviệctáchhailoạiquytắc.

Trang 16

màkhôngnóirõXnằmtrongngữcảnhcụthểnào(nghĩalàkhôngquantâmđếnviệcbêncạnhXcónhữngtừngữgì)màchỉcóchỉdẫnvềviệcXnằmt r o n g ngữđoạnZ(chẳnghạn,nếuXnằmtrongmộtda nh ngữ,mộttrạngngữ,haymộtđộngngữ, ).Ng

Đốivớinhữngmốiliênhệngữnghĩaloạinày,taphảicầncómộtsựmởrộngnhấtđịnhvềdạngcủaquytắcsinhđểmôtảchúng.Trongquytắcsinhngoàihaivế

AωcòncầncóthêmmộtbiếnBnhưmộtngữđoạn(phrase),hayphạmvi(sco pe)đểchỉrõđiềukiệnmàquytắcAωđượcá p dụng.

I.2.3 MỐI LIÊNHỆGIỮACÁCTẦNG CẤUTRÚCTRONGCÂU.

Cácngữđoạn(phrase)trongcâuthườngbaogồmnhiềuthànhphần,chẳng hạn,đ ốivớiDanhngữ,bê ncạnhda nh t ừchính, có thểcò ncóc ác danhtừ,tín

htừ,địnhngữ,v.v bổnghĩachonó.Cácmôhìnhphântíchdựat r ê n vănphạmChomskythườngđặtcácphầntửphụnghĩanàytheomộtthứtựphâncấpchặtchẽtuânthủng

chodanhngữđó.Trongkhiđó,chẳnghạn,đểnhậnthứcmộtcụmdanhngữ,ngườitap

hânt í c h sựliênhệgiữadanhtừchínhvớimỗiphầntửphụnghĩachonó,khôngphụ thuộcv à o vịt r í tươngđốicủac h ú n g s o vớiv ịt r í củad a n h t ừc h í n h t r o n g cụm

từ.Đólàhạnchếdohìnhdạngcủaquytắcsinh:vếphảicủaquytắcphảicómộtđộdàinhấtđịnh.Chẳnghạnquytắc

NounNounNoun( 1 )

(tổhợphaidanhtừđứngcạnhnhautrongtiếngAnhhìnhthànhmộtdanhtừ)k h ô n g chỉrõd an ht ừnà ol àchính,cò nd an h từnàolà ph ụ,bổnghĩac h o danhtừkia.TrongtiếngViệt,cụmdanhtừ(vớihaidanhtừđứngcạnhnhau)đượcbiểudiễndướidạng:

Danh_từDanh_từDanh_từ( 2 )

Vềmặthìnhthức,haiquytắc(1)và(2)trênđâycódạngthứchoàntoàngiốngnhau.QuytắcsinhkhôngchotathấytrậttựkhácnhaugiữatiếngViệtvàtiếngAnhtrongviệchìnhthànhcụmdanh từ:trongtiếngAnhdanh

Trang 17

từc h í n h t h ườngđ ứ ngs a u d a n h t ừb ổnghĩac h o n ó c ò n t r o n g tiếngV i ệt,danhtừchínhlạiđứngtrước.

Sựkhôngnhấtquángiữacấutrúcngữđoạnvàbiểudiễnhìnhthức( q u a câycúpháp)cònthểhiệnởmộtkhíacạnhkhác.TrongmộttàiliệuvềtiếngViệt[40]dẫnramộtvídụphântíchcụmtừ:

„Tấtcảnhữngsợibấcđ èndầuhạtbôngmỏngmanhấy“(Hình1).

Ởđâytathậtkhóhìnhdungramốiliênhệgiữađâulàdanhtừchính.đâul à nhữngphầnt ửp h ụn g h ĩac h o n ó , c â y c ú p h á p n h ưt h ến à y k h ô n g phảnánhsựphụthuộcvềngữnghĩasẽrấtkhókhăn1đểnhậnthứcvàvìvậy,v ô dụng,mà nguyên n

h â n lạinằmở ch ỗs ửdụngmộtc ác h m á y mó cmôhìnhvănphạmsinhChomskyđểdựngracâycúpháp

1Trongcụmtừđãnêucó mộtsựphụthuộchàmmàchúngtađềucảmnhậnmộtcách rõràng.Ởđây,nhữngtừ„tấtcả“,

„những“,„bấc“,„mongmanh“,

„ấy“đềulàphụnghĩachodanhtừchính„sợi“;từ„đèn“phụnghĩacho„bấc“,từ„dầu“phụnghĩacho„đèn“,từ„hạtbông“ phụnghĩacho„dầu“.Trongcấutrúcphụthuộchàm,sốlượngcáctừphụnghĩakhôngcốđịnh,đồngthờitrậttựcủachúng

Trang 18

cũngkhôngquantrọng.Thựctếlàtrậttựcáctừchỉbịchiphốibởinhucầudiễnđạttrênmộtngônngữcụthểdotínhtuyếntín hbắtbuộccủamọingônngữtựnhiên,vàvìvậy,trậttựnàychỉđúngchotừngngônngữcụthểvớinhững

quyướcriêngcủacộngđồng những người sửdụng ngôn ngữ đó.

Trang 19

TrongHình2,tathấydanhtừchủđạođượcđánhdấuriêng(tôđậm-danhtừsợi).Danhngữ,nhưmộtcụmtừ,mangtrongmìnhmọithuộctínhcủadan htừchính(từchủ)củanó.

Tấtcảnhữngsợibấcđèndầuhạtbôngmỏng manhấy

Hình2.Dạngcâycúphápcủadanhngữtheotrựccảm(Câyphụth

uộcngữnghĩa)

Bằngc á c h đ ó,r à n g buộcn g ữc ảnhg i ữamộtt h à n h phầnn à o đ ó(chẳnghạn,độngtừ)vớimộtngữđoạn(chẳnghạn,danh ngữ)

áp dụng.

Trang 20

í c h củaphầnT a g ( ởđ âyl à “ doesn’th e ” )ứngvớimệnhđềchínhcủacâu

hỏi.Khitổnghợpcâu,phầnTagphảiđượctạo

ratừnộidungcủaphầnmệnhđềchínhcủacâuhỏiđểcóthểxâydựngđượckiểucâuhỏiđúngvănphạm.SửdụngmôhìnhvănphạmsinhChomsky,tasẽphảitạor amộthọcá c q u y tắctươngtựnhauứngvớimộtloạtcáctìnhh u ốngkhácnhaucủaphần

- Sựphùhợpvềngôi,số,giống.Chẳnghạn,trongtiếngAnh,độngtừphảiphùhợpvớichủngữvềngôivàsố

Trang 21

- Đôikhimốiliênhệgiữacácthamtốkhônghiệnraở cácvịtríthườngt

hấy.Trongcâu:Who1didJohninvitee1.1ởđây,e1thaythếchowho1,who1làtừđiềnvàochỗtrống.Từđượcđiềnvàchỗ

JaniPietjMariek zag ilatenjzwemmenk.

Tấtnhiên,cónhữngtìnhhuốngmàmốiliênhệnàyởdạngphứctạphơn.Môhìnhtoánhọccủanhữngmốiliênhệnàylàmộttrongnhữngvấnđềcơbảncủaxửlýngônngữtựnhiên.Nhiềumốiliênhệ(chẳnghạnnhưmốiliênhệchéonhưđãđềcậpởtrên)khôngthểtrìnhbàybằngkiểuvănphạmphingữcảnh.Cóthểdễdàngnhậnrađiềunàytừmộtthựctếđượccôngnhậnrộngrãilàvănphạmphingữcảnhthìtươngđươngvớiôtômátđẩy xuống.Vì vậyôtômátđẩy xuốngcóthểphântíchđượccácmốiliênhệẩ nnày

Trongkiểuvănphạmvănphạmphingữcảnhnhưtrênhình1,mốil i ê n hệ

giữađộngtừ(thích)vàhaithamtố(chủngữ(CN)vàtânngữ(TN)đượcđịnhbởih

aiquytắcvănphạm.Khôngthểlàmrõmốiliênhệnàyvớimộtquytắcduynhấtmàkhôngbỏđộngngữtrênsơđồ.Nghĩalà,nếuchúngtađưaraquytắcS→DNĐTDN,chúngtacóthểbiểudiễnmốiliênhệchỉbằngmộtquytắc,nhưngnếuvậychúngta

khôngthểcóđộngngữtrongvănphạm.Vìthếnếuchúngtacoimỗimộtquytắccủavănphạmphingữcảnhl à địnhrõmộtlĩnhvựckhubiệt,thìmộtphạmvikhubiệtcủavănphạmphingữcảnhlạik h ô n g thểk h u biệtm ã h o á mốil i ê n h ệgiữađ ộ ngtừv à c á

ố).Vìvậy,vớithích,sơđồtươngứngcủanómãhoácácthamtố(là2nútdanhngữtrên sơđồcủathích)đồngthờicũngtạoracáckhoảngtrống

1 Các

ví dụlấytừ[2].

Trang 22

thíchhợptrongcấutrúc.SơđồcủaBíchThủyvẵmaicóthểlầnlượtthaythếchochủ ngữvătđnngữtrongsơđồchothích.Sơđồchocựckỳcóthểđiềnvăovịtríđộngng ữtrínsơđồcủathích.Xuấtphâtđiểmcủakiểuvănphạmkếtnốicđyhơikhâcsovớ

Cảvănphạmrăngbuộcngữcảnhvăvăn

phạmkếtnốicđyđềucókhuvựckhubiệt rộnghơnvănphạmphi

ngữcảnh,bởivìtrongmọitrườnghợp,t h a m tốcủađộngtừthíchđượcmêhoâtrong

cấutrúcđivớiđộngtừ,văvìthếmăcóđộngngữ.Khuvựckhubiệtrộnghơnchophĩpvănphạmkếtnốic đ y hoăntoănloạibỏsựquaylạicủacâckhuvựcliínhệ,vìthếkhubiệthoâcâcmốiliínhệtrínsơđồchính

vănphạmkếtnối

cđyvăvănphạmrăngbuộcngữcảnhcónhiềuđiểmgiốngnhau.Trínthựctế,chúngtỏratươngđươngnhau(chúýkhảnăngs i n h sảnhạnchếcủachúng,nghĩalăcâccặpcđumăchúngtạora).Chúngmạnhhơnvănphạmphingữcảnhvănằmtronghệthốngvănphạmcảmngữcảnhyếu.Hệthốngnăymangnhiềuđặcđiểmcơbảncủavănphạmphingữcảnhvăvìthếcóthểđủmạnhđểphâthiệnnhữngmốiliínhệtrongcấutrúcngôn ngữ,chẳnghạnnhưmốiquanhệchĩonhưchúngtađênóiởtrín.MộtvăicâchtiếpcậnhìnhthứctrongthờigiangầnđđynhưVănphạ

mChỉmụctuyếnt í n h (LinearI n d e x e d G r a m m a r )văV ănphạmt ừchủ( He adG r a m m a r )cũngtỏragiốngvớivănphạmkếtnốicđy.Sựtươngđồnggiữamột

sốkiểuvănphạmthuầntuýngônngữdựatrínsựkhâcbiệtvềbảnchấtt r o n g cấutrúcngônngữđêdẫnđếnsựtìmkiếmsựbấtbiếntrongcâckiểuvănphạmthuộcloạinăy,măxĩtvềmộtkhíacạnhnăođó,nhữngsựbấtbiếnn ă y cònquantrọnghơnbảnthđntừ

ngkiểuvănphạm sensitive)vănhữngnghiíncứucâc

Trang 23

Vănphạmhọcvềvănphạmcảmngữcảnhyếu(MildlyContext-tươngđồngvớinólàmộttrongnhữnglĩnhvựcnghiêncứunăngđộngnhấtt r o n g ngônngữhọcchínhxáctrongthậpniên80.

Chúngtađãkếtluậnrằngvănphạmđưaramộtkiểucấutrúcduynhấtc h o mộtc

âu(giảsửcâuđómangnghĩarõràng).Vìthế,vídụ:BíchThủythíchômaisẽđượ

cđưavàotrongngoặcnhưsau(bỏquatêncáccụmtừvàmộts ốngoặcđơnk h ô n g cầnthiếtc h o mụcđ íchn g h i ê n c ứut r o n g t ì n h huốngnàycủachúngta)

(f) Aithíchômai?(BíchThủy(thíchômai))

(g) BíchThủythíchgì?((BíchThủythích)ômai)

Sựlinhhoạttrongsựphânđịnhmộtcấutrúccóđượcnhờbỏđikháiniệmvềmộtcấutrúcchuẩn.Tuynhiênkhôngcầnphảibỏđikháiniệmvềmộtcấutrúcchuẩn.Tacóthểvẫnduytrìmộtcấutrúccốđịnhởmộtcấpđộnhấtđịnh(chẳnghạnnhưtrongsơđồcơbảnởvănphạmkếtnốicây)vàvẫncóthểcóđượcsựlinhhoạtcầnthiếtnhưtrongcácvídụởphầntrên.TrongnghiêncứuHPSGtacũngcóthểthuđượccáckếtquảtươngtự

Trênthựctế,nhữngnghiêncứuvềvănphạmcảmngữcảnhyếuvẫnchưakếttinhthànhcácứngdụngxửlýngônngữtựnhiênthựctiễnthuyếtphục

Trongchươngsau,tasẽđềcậpcáchgiảiquyếtnhữngvấnđềnàytheomộthướn

gkhác–bằngmộtcôngcụđượcgọilàvănphạmcảmngữđoạn.

Trang 24

I.3 CÁC KHUYNHHƯỚNGTRONGDỊCHMÁY

Cácphươngphápđượcsửdụngtrongnghiêncứuvềdịchtựđộngđãtrảiquanhiềusựthayđổi.Phầnnàygiớithiệutổngquanhaicáchtiếpcậndịchmáychínhhiệnnaylàdựatheoluậtvàdựatrênkhongữliệu

Tùythuộcvàoviệckiểukiếnthứcbổsungtíchhợptrongdịchmáy,ngườitaphânbiệtbakiểuhệthống[12]:

1 Nhữngh ệthốngs ửd ụngthuậtn g ữđ ư ợ ct ổchứct h e o môhìnhc h u y ê

n ngànhkỹthuật.Những hệthốngnàykhôngchứađựng cơsởtrithứctheolĩnhvực

2 Nhữnghệthốngsửdụngnhữngkiếnthứcvềkháiniệmhoặcnhữngs ựkiệnchonhữngnhiệmvụđặcbiệtnhưgiảiquyếtnhậpnhằngcúpháp,ngữnghĩa

3 Nhữnghệthốngcósựbiểudiễnngữnghĩasâu(thườnglàcáchệthốngliênngữ)bằngviệcsửdụngkiếnthứcbổsungcủamộtthểloạinàođó

I.3.1 CÁCHTIẾPCẬNDỰATHEOLUẬT

Trongnhữngn ăm1 9 8 0 , phươngh ướngchủđạot r o n g n g h i ê n cứudịchmáythựcchấtlàcáchtiếpcậndựatrênquytắcngônngữtheonhiềukiểu:q u y tắcp h â n tíchc ú p h á p , q u y tắct ừvựng,q u y tắcchuyểnđổit ừvựng,hìnhtháihọc,quytắctổnghợpcúpháp,v.v Nhữnghệthốngchuyểnđ ổ ichiếmđ as ố[ 4 , 7 , 9 , 1 1, 1 2 , 1 3 , 1 4 , 2 2 ]

( c h ẳnghạnA r i a n e , M e t a l , SUSY,E u r o t r a , S I T E , L M T , ) , c

ó mộts ốh ệthốngl i ê n n g ữ( D L T v à Rosetta),mộtvàihệcócáchtiếpcậntrênnềnkiếnthức,sửdụngthôngtinp h ingônngữliênquanđếncáclĩnhvựccủavănbảncầnphảidịch[9]

Phươngp h á p l i ê n ngữ[ 3 , 6 , 8 , 9 , 1 1 , 1 3 , 1 5 , 1 7 , 1 9 , 2 1 , 2 3 ] đ ư ợ cđánhgiálàcáchtiếpcậntiêntiếnhơndohứahẹnbảndịchcóchấtlượngcaohơncũn

gn h ưgiảmc h i ph í k h i x â y d ựngh ệdịchm á y đan gữso vớiphươngphápchuyểnđổi

Mộtđặctínhđiểnhìnhcủanhữnghệthốngdựatrênquytắclàsựbiếnđổihoặcánhxạcủabiểudiễncâyđượcgắnnhãn[13],từmộtcâyhìnhtháihọcvàomộtcâycúpháp,từmộtcâycúphápvàomộtcâyngữnghĩa,từmộtcâ y g i a o diệncủan g ô n ngữnguồns a n g c â y tươngđ ư ơ ngcủan g ô n ngữđ ích,v.v

Sựchuyểnđổiquytắcyêucầuthỏamãnnhữngđiềukiệnchặtchẽ:c â y phảicócấutrúcđặcbiệtvàchứađựngnhữngtiếtmụctừvựnghoặcđặct í n h cúpháphayngữnghĩađặcbiệt.Ngoàira,mỗicâyđượckiểmtrabởi

Trang 25

Việ t Anh

Phá p Nhậ t

nhữngquytắchìnhthành;chẳnghạnmộtvănphạmxácnhậntínhchấpnhậnđượ ccủa

cấutrúccủanóvànhữngmốiquanhệmànóđạidiện.Quytắcvănphạmvàchuyểnđổichỉrõnhữngsựràngbuộcxácđịnhkhảnăngchuyểnđổitừmứcnàysangmứckhácvàcuốicùng-chuyểnđổivănbảnngônngữnguồntớivănbảnngônngữđích[11,13,14]

Trang 26

Hình5:DịchmáyLiênngữ

Trang 27

•Giảmchi phí

•Môdunhóa

•Dễb ổsungngônng ữmới

Nhượcđiểm

•Khithayđổisẽảnhhưởng đếnnhiềungônngữ

•Đangữ-Khônghiệuquả

•Khót h ốngnhấtsựbiểu diễnngữnghĩa

•Khôngchắckhảt h i

Cáchtiếpcậntừvựngdầndầnthaythếchosựđịnhhướngcúphápmôtảđặcđiểmgiaotiếpcủanhữnghệthốngtrướcđây,vớimộtsựgiatăngt h ô n g tingánchonhữngđơnvịtừvựngt ừđiển:tươngđư ơngdữliệuvàp h i ê n dịchhìnhtháihọc,kèmtheothôngtinvềhầuhếtnhữngràngbuộcvàt h ô n g tinphingônngữcũngnhưnhậnthứccúphápvàngữnghĩahọc.Sựmởrộngdữliệutừvựngđượcthểhiệnrõràngnhấttrênhệthốngliênngữ,b a o gồmmộtsốlượnglớnthôngtinphingônngữ

Trang 28

I.3.2 PHƯƠNG PHÁP DỰAVÀOKHONGỮLIỆU

nduynhấtđểphântíchvàtổnghợplàthốngkê(khôngs ửdụngbấtkỳmộtquytắcngô nngữnào).KhongữliệulàbiênbảnchínhthứcvềcáccuộchọpcủanghịviệnCa-

na-đa.PhươngphápcủaIBMcóthểmôtảvắntắtnhưsau:

- Dónghàngcâu,nhómtừvàtừđơnlẻcủavănbảnsongngữ,

- Tínhtoánxácsuấtmàbấtkỳtừnàotrongngônngữnàycóquanhệvớimộttừhoặcmộtcụmtừtrongcâudịchtươngứngvớinóởn g ô nngữkia.Kếtquảthửnghiệmrấthứahẹn:nonnửasốcâuđượcdịchchínhxách o à n toànvớibảndịchtrongkhongữliệu,hoặcthểhiệncùngmộtnộidungvớitừngữhơikhác,hoặcđưarabảndịchgầnnhưtươngđương

Phươngphápkho ngữliệu[2, 3, 5, 10,11, 16, 18, 20, 23, 24]

vớiviệcthamkhảonhanhchóngmộtkhốilượngdữliệuvănbảnlớnmangbảnchất

củacáchtiếpcậntrênnềnvídụ,haytrênnềnkíức:việcdịchthườnglàkếtq u ảtìmkiế

mhoặcnhớlạinhữngvídụtươngtự,tìmhiểuhoặcsuydiễnxemc ó cáchdiễnđạtđặcbiệthoặccómệnhđềtươngtựnàođóđãđượcdịchtừtrướchaykhông

Cáchtiếpcậndựavàovídụ(làphươnghướngđangđượcMicrosoftResear

ch(CôngtyMicrosoft)thựchiện)

[2,10,20]cũngđượcthểhiệnquaq u á trìnhtíchlũyvàlựachọnmệnhđềhoặcnhómtừtươngđươngtrongkhovănbảnsongngữ,đượcsắpxếpbằngphươngphápthốngkê(tươngtựcácht h ứccủanhómIBM)hoặcbằngnhiềuphươngphápphântíchtrênnềnquytắctruyềnthống.Chấtlượngdịchthuật[10]đượccáctácgiảđánhgiálàsos

Trang 29

hưmạngngữnghĩahoặcsựphâncấpthuậtngữchuyênngành.Mộts ốn hó m khác

s ửdụngthông t in thốngkêvềnhữngtầns ốt ừv ựngtrong ngônngữđích[9].Lợithếchínhcủacáchtiếpcậnlàmộtkhivănbảnđãđ ư ợ crútratừngânhàngd ữliệucủanhữngbảndịchthựctếtrướcđódon h ữngngườidịchchuyênnghiệpthựchiệnthìsẽchokếtquảchínhxácvàtrơntru

Tuy nhiên,nhữngkếtquả ứngdụngthựctiễncho thấy chấtlượngcủacáchệthốngdịchmáy(dùlàdựatheoluậthaythốngkê)chưađápứngđượcnhữngkỳvọngcủaxãhội

I.3.3 MỘT SỐHỆDỊCHMÁYLIÊNNGỮ

Phươngphápliênngữgiảthiếtrằngtồntạimộtdạngbiểudiễntrungg i a n độclậpngônngữ.Vănphạmphântíchcủangônngữnguồnđượcsửdụngđểđưacâuvănvềdạngbiểudiễntrithứcngônngữ(chungchomọin g ô n ngữtựnhiên).Sauđósửdụngvănphạmtổnghợpcủangônngữđíchđểdịchtừliênngữsangngônngữđích

Môhìnhdịchmáyliênngữcónhữngưuđiểmsau:

- Độclậpng ôn ng ữ:t r o n g khi p hâ n t í c h t a c h ỉcầnq ua nt âm đếnngônngữnguồn,khitổnghợp–ngônngữđích

- Dễdàngbổsungngônngữmớivàohệdịchmáy.Đểthêmmộtngônngữvàohệthống,tachỉcầnxâydựngcácbộvănphạmphântích vàtổnghợpchongônngữmới.Trong kh i đó,vớimôh ì n h chuyểnđổi,taphảixâydựngcáchệvănphạmchuyểnđổi

từngônn g ữmớisangtấtcảcácngônngữđãcóvàngượclại

Tuynhiên,chođếnnay,nhữnghệdịchmáyphổbiếnhiệncótrênthịtrườngđềuđượcxâydựngtheophươngphápchuyểnđổi,chưacóhệdịchm á y liênngữthươngphẩmnào.Thựctếchothấyrấtkhóxâydựngmộtmôhìnhbiểudiễntrithứcngô

nngữkhôngphụthuộcngônngữnhưđòihỏiđốivớiLiênngữ.

Trongphầnnàygiớithiệusơlượcmộtvàihệdịchmáyliênngữđượcnhắctớinhiềutrongthờigiangầnđây

I.3.3.1 DựánUNITRANcủaMIT

TrongcáchtiếpcậnUNITRAN[11],cáctácgiảđãđềxuấtmôhìnhdịchmáyxửlýcáctươngquangiữacácngônngữmàkhôngdựatrênnhữngquytắcphingữcảnhphụthuộcngônngữ.Theoquanđiểmcủanhómtácgiả,nhiềuhệthốngdịchmáykhôngdựatrênmôhìnhliênngữphụthuộcnặngnềvàocácbộquytắcphingữcảnh.CáchtiếpcậncủaUNITRANđề

Trang 30

Phân tích

Tri thức ngôn ngữ nguồn

Dạng thức Liên ngữ

Tri thức ngôn ngữ đích Tổng hợp

xuấtmộtmôhìnhtínhtoánđ ư ợ cg ọil à h ệthốngdựat r ê n n g u y ê n lý( p r i n c

xạgiữacácđộngtừtươngđươngvềngữnghĩađượcxemlàc ô n g việck h ô n g t ầmt

h ường.Chẳnghạn,mặcd ù độngtừн р а в и т ь с я trongtiếngNgađượcxemlàtươngđươngvớiđộngtừliketrongtiếngAnh,nhưngcáccấutrúcđốitượngcủahaiđộngtừnàykhônggiốngnhau.Ngườiđ ư ợ cthíchtrongtiếngAnhlàtânngữ,còntrongtiếngNgalạilàchủngữ

MôhìnhdịchmáycủaUNITRANthiếtkếdựatrêncácnguyênlý

Hình1.SơđồdịchmáyUNITRAN

(principle-based).Ngônngữnguồnđưavềdạngbiểudiễnđộclậpvớimọin g ô n ngữ.Mộtbộphântíchvàmộtbộtổnghợpduynhấtsửdụngchungchomọingônngữ.Bộphân tích

quaviệcthiếtđặtc á c t h ô n g số)đểx ửl ý c â u n g u ồnvàcâuđích.Chẳnghạn,ngườimôtảvănphạmcóthểchỉrõrằngcâutiếngAnhđòihỏiluônluônphảicóchủngữ,còncâutiếngViệtthìkhôngnhấtthiếtphảicó.KhiđóchỉcầnthiếtđặtthôngsốnullsubjecttrongtiếngViệtgiátrịtruevàtrongtiếngA n h giátrịfalse.Mỗingônngữđềucómộtbộtừđiển

Quátrìnhbiêndịchbaogồm3bước:

Trang 31

- Bộphântíchthựchiệncôngviệcphântíchtừvựngvàtạoracấut r ú c câ

củacâunguồn(Cấut r ú c nàylàbiểudiễnliênngữchungchocảhaingônngữ)

Trang 32

- Cácthủtụcchọnvàthaythếcácphầntửngữvựngbằngnhữngmụctươngứngcủangônngữđích

- Bộtổnghợpthựchiệncôngviệctổnghợpngữvựngvàsắpxếplạitrậttựcâuchongônngữđích

Trongbướcphântích,thànhphầnxâydựngcấutrúc-

mộtsựcàiđặtcủagiảithuậtphântíchEarly(1970)-thựchiệnviệcdựđoánvàphântíchn g ữvựng.Cấutrúc câuđược tạora khôngchứanhữngthôngtinvềcácthỏathuậncúpháp,vềvaitròngữnghĩa,vềcấutrúccácthôngsố Thànhphầnxácđịnhkiếntrúcngônngữsẽhạnchếhoặcbiếnđổicáccấutrúccâutuânt h ủcácnguyênlýđểlọcracácthỏathuậnngônngữ,tìnhhuống,điềukiệnv a i tròngữnghĩa Cáchthiếtkếnàythỏamãnmộtsốcácnghiêncứugầnđâychorằngconngườikhảosátngônngữbằngcáchgánsựphântíchcấutrú c sơbộ(thườnglànhậpnhằngvàchưacụthể)chomệnhđềvàsauđómớithựchiệnviệcquyếtđịnhvềtừvựngvàngữnghĩacủanó

Theocáctác giả,vìcác ràngbuộcngônngữluôncósẵntrong quátrìnhphântích,kíchthướccủavănphạmrấtnhỏgọn(khôngquá150quytắc).ThuậttoánEarlycóthểtăngthờigianthựchiệncủanólên4lầnkhik í c h thướcvănphạmtănggấpđôi

I.3.3.2 DựánDịchmáyđangữtạiCICC.

ELT,CICCvàchínhphủcácnướcTrungquốc,Malaisia,Indonesia,Tháilanđãhỗtrợpháttriểnmộthệthốngphiêndịchtựđộngđangữ[10].T r o n g bàimôtảnộidungcủaLiênngữđượcchấpnhậncủadựán.Đólàmộtđềánsáunămbắtđầutừ1987.DựánnhằmxâydựnghệdịchtựđộngchocácthứtiếngTrung,Anh,Nhật,TháiLan,MalaysiavàIndonesia.GiảiphápLiênngữđượcchọnđểthuđượchiệusuấtvàchấtlượngtốtchohệthốngphiêndịchtựđộngđangữ.Liênngữđượcđặctrưngbởinhữngkháiniệm(concepts)đểloạibỏsựphụthuộcngônngữ.Nhữngkháiniệmquanhệv à k h á i niệmt h u ộct í n h đượcđ ề cậpt r o n g dựá n i c

ó nhữngtínhchấtd ù ng chungcaogiữacácngônngữ.Mỗikháiniệmđượcphânloạivàotrongcấutrúccócấpbậc

Dựá n đ ãkếtt h ú c năm1 9 9 4 m à c h ưađưarađ ư ợ csảnp h ẩmcuối

cùng

I.3.3.3 DựánKANTcủaTrườngđạihọcCarnegieMellon

KANT(Knowledge-based,AccurateNatural-languageTranslation)làmộtbộcôngcụphầnmềmphântíchvănbảnnguồnvàsảnsinhbảndịchtựđ ộ nghoặctươngt á c , H ì n h 2 N ó đ ư ợ ct h i ếtk ếđ ể b i ê n dịchvănbảnkỹthuật.KANTsửdụngnhữngq uy tắctừđiển,vănphạm,v àngữnghĩađểt

mộthệthốngliênngữ,sửdụngdạngbiểudiễnt r u n g giannhưmột"Trụcquay"giữan

gônngữnguồnvàđích

Trang 33

Bộ tổng hợp KANT Tiếng Đức

Từ vựng đích

- Nhữngvănbảncầnphảiđượcdịchsanghơnmộtngônngữđích

Khikiểmtravănphạm,KANT

cókhảnăngđoánnhậnsựnhậpnhằngt r o n g vănbảnnguồn(cóthểdẫndắttớibảndịchkhôngchínhxác).KANTc ó mộtAPI(giaodiệnchươngtrìnhứngdụng)chophépnóthôngbáotớingườisoạnthảovềsựvịtrívàkiểunhậpnhằng,đểhỏivềviệcgiảiquyếtnhậpnhằng.K i ểmt r a A P I v ănphạmc h o p h é p b ộp h â n t í c h K A N

T chạytrongkhixửlý,vàgiaotiếpvớibấtkỳcôngcụnàohỗtrợAPI

Trang 34

KANTOO–

vẫnchỉđangđượcứngdụngcholĩnhvựcchuyênmônhẹpmàchưatìmđượcứngdụngrộngrãidochấtlượngchưađượckhẳngđịnh

I.3.4 CÁCPHƯƠNGHƯỚNGMỚI

Nhiềuchuyêngiachorằngnhữnghệthốngdịchmáytươnglaisẽkếthợpphươngphápdựavàokhongữliệuvớicáchtiếpcậntrênnềnquytắc-

c h ú n g sẽlànhữnghệthốnglai[11,14,18,22].Chẳnghạn,dữliệungônngữcủacáchệthốngtruyềnthốngđượccungcấpdựatrênmộtngânhàngkiếnthứcchuyênbiệt,sốliệuthốngkêvàvídụcủavănbảnđượcdịchsẵn.T r o n g cáchtiếpcậnnày,quytắcngônngữsẽđơngiảnhơnsovớicáchệthốnghiệnthời,tứclàsựphântíchcúphápcóthểhạnchếtrongviệcđoánnhậnnhữngcấutrúcvàphầnphụthuộcmệnhđềbềmặt,sựphântíchngữnghĩahọcs ẽh ạnc h ếhơn,v à t h ô n g tintừvựngs

ẽđ ư ợ clấyc h ủy ếut ừn h ữngnguồnchuẩnmựcnhưtừđiểnđadụng.Phươngpháptrênnềnkhon g ữliệusẽđượcsửdụngđểtinhlọcviệcphântíchcácquytắccơbản,đểcảithiệnsựchọnlọctừvựngvàđểphátsinhvănbảnmangtínhthànhngữhơncủangônngữđích.Cầnphảinhấnmạnhrằngcáchtiếpcậntrênnềnkhon g ữliệucònphảiđượckiểmchứngđầyđủ,vàchưathểcómộthệthống̣thươngmạiđượcsửdụngrộngrãisớmxuấthiện

Dựá n J A N U S

-mộtdựá n hợpt á c giữaATR,T r ườngđạihọcC a rn e g i e MellonvàKarlsruhe-

cũngchỉhạnchếtronglĩnhvựcgiaotiếpmangtínhchấtđàmphánvàđăngkýhộinghị.Mỗinhómpháttriểncácmôđunnhậndạngv à t ổnghợptiếngn ó i r i ê n g r ẽc

h o từngn g ô n ngữ(Nhật,A n h , Đức)vàchươngtrìnhphiêndịchliênkếtngônngữcủahọvớihaingônn g ữcònlại

I.4 KẾTLUẬN

Hiệntrạngcủalĩnhvựcdịchmáysau50nămnghiêncứuvàpháttriểnt r ê n thếgiớichothấyvẫncònrấtnhiềuviệcphảilàm.Mộtsốtrởngạichínht r ê n conđườngxâydựngcáchệdịchmáychấtlượngcaobaogồm:

Trang 35

II MỞRỘNGMÔHÌNHVĂNPHẠM

II.1 NHUCẦUMỞRỘNGMÔHÌNHVĂNPHẠM II-2 II.2 VĂNPHẠMĐỊNH BIÊN(BOUND-CONTROLLEDGRAMMAR) II-

5 II.2.1 ĐỊNH NGHĨA II-5II.2.2. ĐỊNH LÝ1 II-6II.2.3 ĐỊNH

TỤCNGỮCẢNH II-II.3.6.SOSÁNH VỚIVĂN PHẠM CẢM NGỮCẢNH II-15 II.3.7.XỬLÝNHẬPNHẰNGTRONG VĂN PHẠM CẢM NGỮ ĐOẠN II-17

II.4 KẾTLUẬN II-18

Trang 36

Nghiên cứu phát triển côngnghệ nhận d ạng, t ổng hợp và xử lý ngônng ữ ti ếng Vi ệt, 2001-2003

Phầnnàygiớithiệunhữngđềxuấtvềvănphạmphụcvụviệcdịchm á y đượcpháttriểntạiViệnỨngdụngCôngnghệ

II.1 NHU CẦUMỞRỘNG MÔHÌNHVĂNPHẠM

NhữnghạnchếcủamôhìnhVănphạmphingữcảnhđãđượcđềcậpnhiều[41

[47].Trong[32]chúngtôiđãđềxuấtngônngữđịnhbiên(đượcxácđịnhbởivănphạmđịnhbiên)nhưmộtba ođóngcủalớpngônngữphingữcảnhđốivớiphépgiao.Mộtsốtínhchấtcủanóchothấyđâylàlớpngônngữcósứcmạnhmôtảlớnhơnlớpngôn

n g ữphingữcảnhnhưnglạicómộtđặctínhrấthữuíchlàcóthểkếthừanhiềutínhchấtcủangônngữphingữcảnh,nhấtlànhữngkếtquảliênquanđếnđộphứctạpcủacácgiảithuậtphântíchvănphạm

Ngônngữtựn hi ên làmộtth ựcthểhếtsứcphứctạp.Nhiềuvấnđ ề hiểnnhiêntrongthựchànhsinhngữlạirấtkhó,cókhikhôngthểphátbiểudướidạngcácquytắccủavănphạmsinhChomsky

Trướchết,vănphạmsinhkhôngphảichỉlàcôngcụchophép“sảns i n h r atấtcảcáccâuthuộcmộtngônngữvàkhôngsảnsinhragìngoàinhữngc â u thuộcn g ô n n g ữđó”,n ó cầnphảichỉrađ ư ợ c( mộtc á c h đ úngđắn)mốiliênhệgiữ

acácthànhphầncủamỗicâumànósảnsinhra

Tacóthểquansátviệcápdụngvănphạmvàophântíchvàdễdàngnhậnthấyrằngcấutrúccúpháp(nhưchúngtahìnhdungmộtcáchvôthức)thườngk h á c vớil

o ạic â y c ú p h á p đ ư ợ ctạot h à n h k h i vậnd ụngmộtv ănphạmphingữcảnh(xem

[32])

Đểthểhiệnđượcnhữngđặctínhcủangônngữtựnhiên,tacầnmộtcôngcụhìnhthứcmạnhhơnđể:

- Môtảsựliênhệgiữacácbộphậnkhácnhautrongcâu[32]

- Xâydựngmôhìnhcấutrúccâuvớitổchứcgầngũihơnvớiquann i ệmtrựcquan(1)củaconngười

Trang 37

SS

Đểminhhọaviệcvănphạmcóthểảnhhưởngđếncáchchúngtaxửlýtri thứcngônngữnhưthếnào,takhảosátmộtvídụ.Vớimụcđíchlàmchokíchthướccủavídụminhhọanằmtrongkhuônkhổhạnchế,vídụđượct r í c h dẫnởđâykhôngthuộcngônngữtựnhiên.Tuynhiên,minhhọanhỏgọngiúptahìnhdungđượcvấnđề

Vídụ1

Giảsửtacầnxâydựngvănphạmchobiểuthứcsốhọcvớicácphépto ánnhâ nvàcộngchẳnghạn:

a+b*c (1)a*(b+c*e) (2)

VănphạmthứnhấtG1cótậpquytắcP1baogồm:S→S+

S|S*S|(S)S→a|b|c|

VănphạmthứhaiG2cótậpquytắcP2baogồm:S→T|

S+TT→F|

T*FF→(S)F→a|b|c|

Hình1:MộtcâycúpháptheoG1

Cảh a i v ănphạmđềumôt ảđúngn g ô n n g ữbiểuthứcs ốhọc( t h e ođịnhnghĩahìnhthứccủavănphạmsinh).TuynhiênvănphạmG1hoàntoàn

Trang 38

vôíchđểứngdụngvìcácquytắccủanógiảithíchsaicấutrúccủacácbiểuthứcsốhọc

(ởđâylàtrậttựưutiêncácphéptoán:nhânchiatrước,cộngtrừsau).Trongkhi

đó,G2phảnánhchínhxáctrìnhtựtínhtoáncủabiểuthứcquasựphâncấpcủacâycúpháp

Hình2:CâycúpháptheoG2

Hình1vàHình2môtảcâycúphápchobiểuthứca+b*csửdụngcácvănphạmtươngứng.1DễnhậnthấycâycúpháptrênHình1thểhiệnh o à n toànsaicấutr

Mục2môtảvănphạmcảmngữđoạn–

mộtpháttriểntiếptụccủavănphạmđịnhbiênvớinhữngtínhchấthữudụngtrongxửlýngônngữtựn h i ê n

Trang 39

1 Đố

i với G1mỗi biểuthứcsốhọcđềucóthểtồntạinhiềucâycúpháp khác nhau (đúng vàsai).

Trang 40

II.2 VĂNPHẠMĐỊNH

BIÊN(BOUND-CONTROLLEDGRAMMAR)

Trongthựchànhngônngữtínhphụthuộcngữcảnhthườngđượcnhắcđếnđểchứngtỏrằngvănphạmphi

ngữcảnhlàcôngcụkhôngđủmạnhđốivớiứngdụngxửlýngônngữtựnhiên

Cónhiềuphươngphápmởrộngmôhìnhvănphạmphingữcảnh[44,3 2 ,45,46,47].Môhìnhvănphạmđịnhbiênđưaramộtcáchtiếpcậntrựctiếp:xâydựngbaođóngcủalớpngônngữphingữcánhđốivớiphépgiao.Đâythựcchấtl à m ô h ì n h h ì

n h thứcc ủaý t ưởngv ền g u y ê n l ý vănp h ạmđộngđượchìnhthànhđểphụcvụviệcphântíchvănphạm[34].Nộidungphầnnàylàbảnchỉnhsửacủa[31],vìtrongt

TaviếtA[Bω]vàphátbiểurằngbiếnAkiểmtrabiêncủaquytắcBωnếuquytắcnàychỉđượcápdụngkhivớimọimΣ*saochoB

Ngày đăng: 20/07/2023, 10:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] NoamChomsky,Oncertainformalpropertiesofgrammars,InformControl,vol2,p . 1 3 7 - 1 6 7 , 1 9 5 9 Sách, tạp chí
Tiêu đề: On certain formal properties of grammars
Tác giả: Noam Chomsky
Nhà XB: Inform Control
Năm: 1959
[2] Christian Boitet( 2 0 0 2 ) A r a t i o n a l e f o r usingUNLa s a n I n t e r l i n g u a a n d more i n variousdomains,G e t a , C l i p s , Imag,3 8 5 , a v . d e l a b i b l i o t h è q u e , B P 5 3 , F-38041G r e n o b l e c e d e x 9, F r a n c e , Christian.Boitet@imag.fr,L R E C -0 2 F ir st InternationalW o r k s h o p onUNL,otherInterlinguasandtheirApplications,1June2002 Sách, tạp chí
Tiêu đề: A r a t i o n a l e f o r using UNL as an Interlingua and more in various domains
Tác giả: Christian Boitet
Nhà XB: Geta
Năm: 2002
[3] BonnieD o r r a n d N i z a r H a b a s h ( 2 0 0 2 ) InterlinguaApproximation:A Generation- HeavyApproach,UniversityofMaryland,InstituteforAdvancedComputerStudies,{bonnie,habash}@umiacs.umd.edu(UNITRAN)[4] JohnHutchinsW.( 2 0 0 3 ) Machinet r a n s l a t i o n : halfa c e n t u r y ofresearchanduse,UNEDsummerschoolatÁvila,Spain,July2003],http://ourworld.compuserve.com/homepages/ Sách, tạp chí
Tiêu đề: Interlingua Approximation: A Generation-Heavy Approach
Tác giả: Bonnie Dorr, Nizar Habash
Nhà XB: University of Maryland, Institute for Advanced Computer Studies
Năm: 2002
[5] StephenD.Richardson(2002)Achievingcommercial-qualityt r a n s l a t i o n withexample- basedmethods,StephenD.Richardson,WilliamB.Dolan,ArulMenezes,J e s s i e Pi nkham,MicrosoftResearch,O n e M i c r o s o f t Way,Redmond,W A 9 8 0 5 2 ,{steveri,billdol,arulm,jessiep}@microsoft.com Sách, tạp chí
Tiêu đề: Achieving commercial-quality translation with example-based methods
Tác giả: Stephen D. Richardson, William B. Dolan, Arul Menezes, Jessie Pinkham
Nhà XB: Microsoft Research
Năm: 2002
[10] UnificationandSomeNewGrammaticalFormalisms,AravindK.Joshi,Departmento f C omputerandInformationScience,UniversityofPennsylvania(Nguồn:Internet) Sách, tạp chí
Tiêu đề: Unification and Some New Grammatical Formalisms
Tác giả: Aravind K. Joshi
Nhà XB: Department of Computer and Information Science, University of Pennsylvania
[12] LêKhánhHùng(2003)Vănphạmcảmngữđoạn,Báocáokhoahọctạihộithảoquốcgialầnthứsáu“MộtsốvấnđềchọnlọccủaCNTTvàTT”,Tháinguyên,8-2003 Sách, tạp chí
Tiêu đề: Văn phạmcảm ngữ đoạn
Tác giả: Lê Khánh Hùng
Nhà XB: Báo cáo khoa học tại hội thảo quốc gia lần thứ sáu “Một số vấn đề chọn lọc của CNTT và TT”
Năm: 2003
[13] LêKhánhHùng,TrầnCảnh( 2 0 0 3 ) Vềm ộts ốh ạnchếc ủamôh ì n h vănp h ạmChomsky, TạpchíBưuchínhViễnthông,Chuyênsan,10,2003 Sách, tạp chí
Tiêu đề: Vềm ộts ốh ạnchếc ủamôh ì n h vănp h ạmChomsky
Tác giả: LêKhánhHùng, TrầnCảnh
Nhà XB: TạpchíBưuchínhViễnthông
Năm: 2003
[6] ArturoTrujillo( 1 9 9 9 ) T r a n s l a t i o n Engines:t e c h n i q u e s forMachineT r a n s l a t i o n .Springer-Verlag,Berlin,1999 Khác

HÌNH ẢNH LIÊN QUAN

Bảng đối chiếu đa ngữ ngônngữđích.Cácmẫuđoạnlàchuỗithôngtintrithứcngônngữcảmngữđoạn. - Nghiên Cứu Phát Triển Phần Mềm Dịch Máy Anh - Việt.docx
ng đối chiếu đa ngữ ngônngữđích.Cácmẫuđoạnlàchuỗithôngtintrithứcngônngữcảmngữđoạn (Trang 80)
Hình 6:Xemvàcậpnhậttừđiểndịchmáy:Danh - Nghiên Cứu Phát Triển Phần Mềm Dịch Máy Anh - Việt.docx
Hình 6 Xemvàcậpnhậttừđiểndịchmáy:Danh (Trang 91)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w