v˘an pha.m kˆe´t nˆo´i cˆay LTAG Lexicalized Tree Adjoining Grammars – LTAG v` a c´ ac thuˆ a.t to´an tr´ıch r´ut tu.. dˆo.ng tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng Viˆe.t t`u.. M LTAG
Trang 1TR´ICH R ´ UT TU D . O ˆ NG V AN PHA ˘ M LTAG CHO TI E ˆ ´NG VIˆE.T∗
L ˆ E H ˆ O `NG PHU.O.NG 1 , NGUY ˆ E ˜ N THI MINH HUYˆE ` N 1 , NGUY ˆ E ˜ N PHU.O.NG TH´AI 1 ,
PHAN THI H ` A2
1 Da i ho c Quˆ o´c gia H` a Nˆ o i,
2 Ho c viˆ e.n Cˆong nghˆe Bu u ch´ınh Viˆe˜n thˆong
Abstract In this paper, we present a system that automatically extracts lexicalized tree adjoining
grammars (LTAG) from treebanks We first discuss extraction algorithms and compare them to previous works Then we report the LTAG extraction result for Vietnamese, using a recently released Vietnamese treebank The implementation of an open source and language independent system for automatic extraction of LTAG grammars is also discussed.
T´ om t˘ a ´t B`ai b´ao gi´o.i thiˆe.u hˆe v˘an pha.m kˆe´t nˆo´i cˆay LTAG (Lexicalized Tree Adjoining Grammars
– LTAG) v` a c´ ac thuˆ a.t to´an tr´ıch r´ut tu dˆ. o.ng LTAG t`u kho v˘an ba’n g´an nh˜an c´u ph´ap (treebank).
Kˆ e´t qua’ tr´ıch r´ ut mˆ o.t v˘an pha.m LTAG cho tiˆe´ng Viˆe.t Chu o.ng tr`ınh tr´ıch r´ut tu dˆo.ng c´ac v˘an pha.m LTAG dˆ o.c lˆa.p v´o i ngˆon ng˜u v`a du.o c phˆan phˆo´i du.´o.i da.ng m˜a nguˆo`n mo.’.
Keywords: Extraction, LTAG, treebank, Vietnamese.
1 GI ´ O . I THI ˆ E U
Phˆan t´ıch c´u ph´ap l`a bu.´o.c quan tro.ng trong qu´a tr´ınh xu.’ l´y ngˆon ng˜u tu nhiˆen C´ac bˆo phˆan t´ıch c´u ph´ap chˆa´t lu.o. ng cao gi´up t˘ang t´ınh hiˆe.u qua’ cu’a c´ac hˆe thˆo´ng xu.’ l´ı ngˆon ng˜u
tu. nhiˆen nhu di.ch m´ay, t´om t˘a´t v˘an ba’n, c´ac hˆe ho’i d´ap
Mo.i bˆo phˆan t´ıch c´u ph´ap dˆe` u cˆa` n mˆo.t bˆo luˆa.t c´u ph´ap, hay v˘an pha.m, du.o c biˆe’u diˆe˜n
bo.’ i mˆo.t hˆe v˘an pha.m h`ınh th´u.c cu thˆe’ n`ao d´o Viˆe.c xˆay du ng v˘an pha.m thu’ cˆong l`a cˆong viˆe.c tˆo´n rˆa´t nhiˆe` u th`o.i gian v`a cˆong s´u.c, ch´ınh v`ı vˆa.y nhiˆe` u phu.o.ng ph´ap tu. dˆo.ng ho˘a.c b´an
tu. dˆo.ng dˆe’ xˆay du ng v˘. an pha.m d˜a du.o c nghiˆen c´u.u trong th`o.i gian qua Hˆa`u hˆe´t c´ac kˆe´t qua’ nghiˆen c´u.u vˆ` xˆay du.e ng v˘an pha.m cho c´ac hˆe thˆo´ng xu.’ l´ı ngˆon ng˜u tu nhiˆen d˜a du.o c
cˆong bˆo´ dˆ` u tˆa.p trung v`ao c´ac ngˆon ng˜u phˆo’ du.ng nhu tiˆe´ng Anh, c´ac th´u tiˆe´ng ˆe A´n- ˆAu v`a tiˆe´ng Hoa
Nh`ın chung, c´o hai phu.o.ng ph´ap ch´ınh dˆe’ xˆay du. ng tu dˆ. o.ng v˘an pha.m Phu.o.ng ph´ap th´u nhˆa´t su.’ du.ng mˆo.t hˆe thˆo´ng mˆo ta’ v˘an pha.m bˆa.c cao dˆe’ sinh v˘an pha.m C´ac hˆe thˆo´ng nhu vˆa.y du.o c go.i l`a c´ac siˆeu v˘an pha.m (meta-grammar) [10, 20] Phu.o.ng ph´ap th´u hai l`a
phu.o.ng ph´ap tr´ıch r´ut tu. dˆo.ng v˘an pha.m t`u c´ac kho v˘an ba’n c´o ch´u gia’i c´u ph´ap (treebank)
O’ dˆay, ch´ung tˆoi quan tˆam t´o.i phu.o.ng ph´ap th´u hai..
∗
Nghiˆ en c´ u.u du.o an th` anh v´ o.i su o ˜ tro u dˆ ` t` e ai nghiˆ en c´ u.u khoa ho.c QT-09-01 Da.i ho.c Quˆo´c gia H`a Nˆo.i
Trang 2B`ai b´ao tr`ınh b`ay c´ac thuˆa.t to´an tr´ıch r´ut tu dˆ. o.ng v˘an pha.m LTAG t`u treebank, v`a ph´at triˆe’n mˆo.t chu.o.ng tr`ınh dˆe’ tu dˆo.ng tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng Viˆe.t t`u kho v˘an ba’n VietTreebank v`a d´anh gi´a kˆe´t qua’ thu du.o. c.
Cˆa´u tr´uc cu’a b`ai b´ao nhu sau Mu.c 2 gi´o.i thiˆe.u so lu.o c hˆe v˘an pha.m LTAG Mu.c 3 diˆe’m la.i mˆo.t sˆo´ cˆong tr`ınh d˜a c´o vˆe` tr´ıch r´ut v˘an pha.m t`u treebank Mu.c 4 nˆeu kh´ai qu´at
vˆ` treebank tiˆe´ng Viˆe.t Tiˆe´p theo, Mu.c 5 tr`ınh b`ay chi tiˆe´t thuˆa.t to´an tr´ıch r´ut v˘an pha.me LTAG t`u treebank m`a ch´ung tˆoi su.’ du.ng v`a so s´anh n´o v´o.i mˆo.t thuˆa.t to´an tu.o.ng tu Mu.c
6 tr`ınh b`ay kˆe´t qua’ v`a chu.o.ng tr`ınh phˆ` n mˆea ` m tr´ıch r´ut tu. dˆo.ng v˘an pha.m LTAG cho tiˆe´ng Viˆe.t Cuˆo´i c`ung l`a phˆa` n kˆe´t luˆa.n v`a hu.´o.ng ph´at triˆe’n
2 Hˆ E V AN PHA ˘ M LTAG
V˘an pha.m kˆe´t nˆo´i cˆay (Tree Adjoining Grammars–TAG) l`a hˆe v˘an pha.m h`ınh th´u.c du.o c
ph´at minh bo.’ i Aravind Joshi [17, 18] v`a c´ac dˆo`ng nghiˆe.p Kh´ac v´o.i hˆe v˘an pha.m phi ng˜u ca’nh su.’ du.ng c´ac luˆa.t viˆe´t la.i da.ng xˆau, hˆe v˘an pha.m kˆe´t nˆo´i cˆay su.’ du.ng c´ac luˆa.t viˆe´t la.i da.ng cˆay V˘an pha.m TAG d˜a du.o c nghiˆen c´u.u k˜y vˆe` m˘a.t h`ınh th´u.c v`a kha’ n˘ang ´u.ng du.ng trong viˆe.c phˆan t´ıch nhiˆe` u ngˆon ng˜u tu. nhiˆen kh´ac nhau, v´ı du cho tiˆe´ng Anh [5, 13, 30], tiˆe´ng
Ph´ap [1, 12, 27], tiˆe´ng D´u.c [19], tiˆe´ng Hoa [28] Trong phˆ` n n`ay s˜e gi´o.i thiˆe.u kh´ai qu´at (mˆo.ta c´ach khˆong h`ınh th´u.c) hˆe v˘an pha.m LTAG Chi tiˆe´t vˆe` v˘an pha.m LTAG d˜a du.o c tr`ınh b`ay k˜y lu.˜o.ng trong nhiˆ` u t`ai liˆe.u tham kha’o kh´ac nhau, v´ı du trong t`ai liˆe.u [18].e
2.1 C´ ac cˆ ay co ba’n
Phˆ` n tu.a ’ co so.’ cu’a mˆo.t v˘an pha.m TAG l`a c´ac cˆay co ba’n Nˆe´u mˆo˜i cˆay co ba’n dˆe` u ch´u.a
´ıt nhˆa´t mˆo.t n´ut l´a c´o nh˜an l`a k´ı hiˆe.u kˆe´t (n´ut t`u vu ng) th`ı v˘an pha.m du.o c go.i l`a LTAG (Lexicalized TAG) C´o hai kiˆe’u cˆay co ba’n l`a cˆ ay kho ’ i ta.o v`a cˆay phu tro Cˆay kho.’ i ta.o ch´u.a c´ac n´ut du.o. c g´an k´ı hiˆe.u khˆong kˆe´t, riˆeng c´ac n´ut l´a c´o thˆe’ du.o c g´an k´ı hiˆe.u kˆe´t Nˆe´u c´ac n´ut l´a c´o k´ı hiˆe.u khˆong kˆe´t th`ı ch´ung du.o c d´anh dˆa´u b˘a`ng k´y hiˆe.u thay thˆe´ ↓ Cˆay phu tro. du.o c d˘a.c tru.ng bo.’i hai n´ut c´o k´y hiˆe.u khˆong kˆe´t giˆo´ng nhau, trong d´o c´o mˆo.t n´ut gˆo´c v`a
mˆo.t n´ut l´a N´ut l´a d˘a.c biˆe.t n`ay du.o c go.i l`a n´ut chˆan v`a du.o c d´anh dˆa´u b˘a`ng k´y hiˆe.u ∗
2.2 Hai thao t´ ac viˆ e´t la.i
C´ac cˆay co ba’n cu’a v˘an pha.m LTAG du.o c kˆe´t ho p v´o.i nhau b˘a`ng hai thao t´ac viˆe´t la.i l`a
thay thˆ e´v`a kˆ e´t nˆ o´i Thao t´ac thay thˆe´ thu. c hiˆe.n ph´ep thˆe´ mˆo.t n´ut l´a c´o nh˜an X cu’a mˆo.t cˆay
α bo.’ i mˆo.t cˆay β c´o gˆo´c c˜ung c´o nh˜an l`a X Thao t´ac thay thˆe´ du.o c minh hoa bo.’i H`ınh 1
H`ınh 1 Ph´ep thay thˆe´
Trang 3Thao t´ac kˆe´t nˆo´i thu. c hiˆe.n ph´ep ch`en mˆo.t cˆay phu tro v`. ao bˆen trong mˆo.t cˆay kh´ac Nhu.
minh hoa trong H`ınh 2, cˆay phu tro β c´o gˆo´c v`a n´ut chˆan c´o c`ung nh˜an X du.o c ch`en v`ao
trong cˆay α ta.i n´ut c˜ung c´o nh˜an X, sinh ra cˆay γ Ch´u ´y r˘a`ng thao t´ac kˆe´t nˆo´i khˆong du.o c thu. c hiˆe.n ta.i c´ac n´ut du.o c d´anh dˆa´u l`a n´ut thay thˆe´ cu’a α.
H`ınh 2 Ph´ep kˆe´t nˆo´i
2.3 Cˆ ay phˆ an t´ıch v` a cˆ ay dˆ a ˜n xuˆ a´t
C´ac cˆay trung gian sinh ra khi ´ap du.ng c´ac ph´ep thˆe´ v`a kˆe´t nˆo´i du.o c go.i l`a c´ac cˆay phˆan t´ıch Cˆay phˆan t´ıch dˆ ` y du’ l` a a cˆay phˆan t´ıch trong d´o mo.i n´ut l´a dˆe` u du.o. c g´an nh˜an kˆe´t Nhu
vˆa.y, viˆe.c phˆan t´ıch c´u ph´ap cu’a mˆo.t cˆau l`a viˆe.c xuˆa´t ph´at t`u mˆo.t cˆay co ba’n c´o gˆo´c l`a tiˆen
dˆ` , t`ım mˆo.t cˆay phˆan t´ıch dˆae ` y du’ c´o c´ac n´ut l´a tu.o.ng ´u.ng v´o.i d˜ay c´ac t`u trong cˆau
H`ınh 3 Dˆa˜n xuˆa´t cu’a cˆau John, always laughs H`ınh 3 minh hoa v´ı du vˆe` dˆa˜n xuˆa´t c´u ph´ap cu’a cˆau “John always laughs” Nˆe´u ta k´ı hiˆe.u αJohn, αalwaysv`a αlaughstu.o.ng ´u.ng l`a c´ac cˆay g˘a´n v´o.i c´ac t`u John, always v`a laughs th`ı
dˆa˜n xuˆa´t n`ay su.’ du.ng hai quy t˘a´c viˆe´t la.i cu’a hˆe h`ınh th´u.c LTAG nhu sau:
• Cˆay αJohn du.o. c thay thˆe´ v`ao n´ut l´a c´o nh˜an NP cu’a cˆay αlaughs, sinh ra cˆay α0laughs;
• Cˆay phu tro αalwaysdu.o. c kˆe´t nˆo´i v`ao n´ut VP cu’a cˆay α0
laughs, sinh ra cˆay dˆa˜n xuˆa´t dˆa` y du’ o.’ bˆen tr´ai H`ınh 4
Dˆo´i v´o.i v˘an pha.m phi ng˜u ca’nh, nh`ın v`ao cˆay phˆan t´ıch ta biˆe´t du.o c ngay c´ac quy t˘a´c viˆe´t la.i d˜a thu c hiˆ. e.n Dˆo´i v´o.i v˘an pha.m TAG, t`u cˆay phˆan t´ıch ta khˆong thˆe’ biˆe´t cu thˆe’ c´ac ph´ep viˆe´t la.i d˜a du.o c thu c hiˆe.n dˆe’ ta.o nˆen cˆay d´o, ch´ınh v`ı vˆa.y, trong hˆe h`ınh th´u.c LTAG, ngu.`o.i
ta cˆ` n d`a ung mˆo.t cˆa´u tr´uc d˘a.c biˆe.t go.i l`a cˆay dˆa˜n xuˆa´t dˆe’ ghi la.i c´ac thao t´ac ta.o nˆen cˆay
phˆan t´ıch t`u c´ac cˆay co ba’n Mˆo˜i n´ut trˆen cˆay dˆa˜n xuˆa´t l`a tˆen cu’a mˆo.t cˆay co ba’n, mˆo˜i cung
Trang 4biˆe’u diˆ˜n mˆo.t ph´ep kˆe´t nˆo´i (n´et liˆee ` n) ho˘a.c mˆo.t ph´ep thay thˆe´ (n´et d´u.t) Ngo`ai ra, mˆo˜i n´ut ta.i d´o c´o ´ap du.ng thao t´ac viˆe´t la.i du.o c d´anh dˆa´u b˘a`ng mˆo.t di.a chı’ Gorn1 Cˆay dˆa˜n xuˆa´t
mˆo ta’ phˆan t´ıch cu’a cˆau John always laughs du.o. c biˆe’u diˆe˜n o.’ bˆen pha’i cu’a H`ınh 4
H`ınh 4 Cˆay phˆan t´ıch v`a cˆay dˆa˜n xuˆa´t cu’a cˆau John always laughs
Khi xˆay du. ng v˘an pha.m LTAG cho mˆo.t ngˆon ng˜u tu nhiˆen, ngu.`o.i ta ´ap du.ng mˆo.t sˆo´ nguyˆen l´y ngˆon ng˜u ho.c sau Th´u nhˆa´t, v˘an pha.m TAG du.o c t`u vu ng h´oa: mˆo˜i cˆay co ba’n
dˆ` u c´o ´ıt nhˆa´t mˆo.t n´ut l´a g˘a´n v´o.i mˆo.t do.n vi t`u vu ng go.i l`a t`u neo Th´u hai, mˆo˜i cˆay kho.’ie ta.o cu’a LTAG biˆe’u diˆe˜n c´ac th`anh phˆa` n chiˆe´u cu’a mˆo.t t`u neo, hay n´oi c´ach kh´ac l`a c´ac th`anh phˆ` n dˆo´i bˆo’ ngh˜ıa cho t`a u neo Th´u ba, c´ac cˆay co ba’n l`a cu. c tiˆe’u: cˆay kho.’ i ta.o pha’i c´o t`u neo l`a t`u trung tˆam cu’a mˆo.t th`anh phˆa` n ch´ınh trong cˆau v`a ch´u.a tˆa´t ca’ c´ac th`anh phˆ` n dˆo´ia b˘a´t buˆo.c cu’a t`u neo [14] Tˆa´t ca’ c´ac th`anh phˆa`n phu cu’a t`u neo c´o thˆe’ thˆem v`ao mˆo.t c´ach
dˆe quy b˘a`ng c´ach su’ du.ng ph´ep kˆe´t nˆo´i v´o.i c´ac cˆay phu tro .
Nhu vˆa.y, khi xˆay du ng cˆau, c´ac ph´ep thˆe´ tu.o.ng ´u.ng v´o.i viˆe.c g˘a´n c´ac dˆo´i v`ao vi t`u., ph´ep
kˆe´t nˆo´i tu.o.ng ´u.ng v´o.i viˆe.c thˆem c´ac th`anh phˆa` n phu V`ı thˆe´, cˆay dˆa˜n xuˆa´t biˆe’u diˆe˜n quan hˆe phu thuˆo.c ng˜u ngh˜ıa gi˜u.a c´ac t`u trong cˆau Dˆay l`a l´y do hˆa`u hˆe´t c´ac tiˆe´p cˆa.n t´o.i ng˜u ngh˜ıa trong v˘an pha.m LTAG su.’ du.ng cˆay dˆa˜n xuˆa´t nhu l`a giao diˆe.n gi˜u.a c´u ph´ap v`a ng˜u ngh˜ıa LTAG thuˆo.c l´o.p c´ac v˘an pha.m ca’m ng˜u ca’nh yˆe´u (middly context-sensitive grammar),
t´u.c l`a c´o kha’ n˘ang sinh ma.nh ho.n c´ac v˘an pha.m phi ng˜u ca’nh, trong khi dˆo ph´u.c ta.p th`o.i gian cu’a bˆo phˆan t´ıch c´u ph´ap LTAG vˆa˜n l`a da th´u.c (O(n6)) V˘an pha.m h`ınh th´u.c LTAG
rˆa´t ph`u ho. p v´o.i c´ac ´u.ng du.ng ngˆon ng˜u ho.c Ngu.`o.i ta d˜a chı’ ra r˘a`ng c´ac t´ınh chˆa´t cu’a v˘an pha.m LTAG cho ph´ep mˆo ta’ c´ac hiˆe.n tu.o ng c´u ph´ap mˆo.t c´ach tu nhiˆen Ho.n n˜u.a, kha’ n˘ang chuyˆe’n dˆo’i mˆo.t v˘an pha.m LTAG sang c´ac hˆe h`ınh th´u.c v˘an pha.m ho p nhˆa´t kh´ac nhu LFG (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) d˜a du.o. c ch´u.ng minh [31] V`ı c´ac l´ı do trˆen, ch´ung tˆoi cho.n hˆe h`ınh th´u.c LTAG dˆe’ mˆo h`ınh h´oa v˘an pha.m tiˆe´ng Viˆe.t Mˆo.t m˘a.t ch´ung tˆoi diˆe` u chı’nh mˆo.t bˆo phˆan t´ıch c´u ph´ap LTAG tˆo’ng qu´at cho ph`u ho. p v´o.i tiˆe´ng Viˆe.t, m˘a.t kh´ac ch´ung tˆoi cˆo´ g˘a´ng xˆay du ng mˆ. o.t kho ng˜u liˆe.u c´o thˆe’
1
Di.a chı’ Gorn du o c di.nh ngh˜ıa dˆe quy nhu sau: n´ut gˆo´c c´o di.a chı’ 0, n´ut con th´u k cu’a mˆo.t n´ut c´o di.a chı’ j c´ o di.a chı’ l`a j.k.
Trang 5t´ai su.’ du.ng cho c´ac ´u.ng du.ng liˆen quan dˆe´n phˆan t´ıch c´u ph´ap tiˆe´ng Viˆe.t c˜ung nhu viˆe.c d´anh gi´a c´ac cˆong cu phˆan t´ıch c´u ph´ap
Trong c´ac mu.c tiˆe´p theo, s˜e diˆe’m qua c´ac cˆong tr`ınh d˜a cˆong bˆo´ vˆe` tr´ıch r´ut tu. dˆo.ng v˘an pha.m t`u treebank v`a tr`ınh b`ay thuˆa.t to´an tr´ıch r´ut LTAG m`a ch´ung tˆoi su.’ du.ng cho tiˆe´ng Viˆe.t
3 TR´ ICH R ´ UT TU D . O ˆ NG V AN PHA ˘ M
C´o kh´a nhiˆ` u cˆong tr`ınh vˆee ` tr´ıch r´ut tu. dˆo.ng v˘an pha.m t`u treebank d˜a du.o c cˆong bˆo´,
tˆa´t ca’ c´ac cˆong tr`ınh n`ay dˆ` u du.o.e c thu c hiˆ. e.n cho c´ac ngˆon ng˜u thˆong du.ng [21] Xia ph´at triˆe’n phu.o.ng ph´ap tr´ıch r´ut v˘an pha.m tˆo’ng qu´at v`a ´ap du.ng cho tiˆe´ng Anh, tiˆe´ng Trung v`a tiˆe´ng H`an [28, 29] Chiang d˜a ph´at triˆe’n mˆo.t hˆe thˆo´ng tr´ıch cho.n v˘an pha.m LTAG t`u Penn Treebank tiˆe´ng Anh v`a d`ung trong phˆan t´ıch c´u ph´ap thˆo´ng kˆe v´o.i LTAG [8] Chen d˜a tr´ıch TAG t`u Penn Treebank tiˆe´ng Anh [6, 7] Mˆo.t sˆo´ cˆong tr`ınh sau d´o ´u.ng du.ng phu.o.ng ph´ap cu’a Chen dˆe’ tr´ıch r´ut v˘an pha.m cho mˆo.t sˆo´ ngˆon ng˜u kh´ac, nhu c´ac cˆong tr`ınh cu’a Johansen [16] v`a Nasr 23 cho tiˆe´ng Ph´ap, cu’a Habash cho tiˆe´ng A’ -rˆa.p [15] Neumann tr´ıch v˘an pha.m cho tiˆe´ng Anh t`u Penn Treebank tiˆe´ng Anh v`a cho tiˆe´ng D´u.c t`u NEGRA Treebank [24] B¨acker tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng D´u.c t`u NEGRA Treebank [3] Park tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng H`an t`u Sejong Treebank [26]
4 TREEBANK TI ˆ E ´NG VIˆ E T
Trong khuˆon khˆo’ dˆ` t`ai KC01.01/06-10, nh´om c´ac chuyˆen gia ngˆon ng˜e u ho.c d˜a thu c hiˆe.n viˆe.c ch´u gia’i thˆong tin c´u ph´ap cho mˆo.t kho v˘an ba’n tiˆe´ng Viˆe.t (VietTreebank) D˜u liˆe.u v˘an ba’n du.o. c thu thˆa.p t`u chuyˆen mu.c Ch´ınh tri - X˜a hˆo.i cu’a b´ao Tuˆo’i tre’ Online
Kho v˘an ba’n du.o. c chia l`am ba tˆa.p tu.o.ng ´u.ng v´o.i ba m´u.c g´an nh˜an l`a t´ach t`u., g´an nh˜an t`u loa.i v`a g´an nh˜an c´u ph´ap Tˆa.p du.o c g´an nh˜an c´u ph´ap l`a tˆa.p con cu’a tˆa.p du.o c g´an nh˜an t`u loa.i; tˆa.p du.o c g´an nh˜an t`u loa.i l`a tˆa.p con cu’a tˆa.p du.o c t´ach t`u Tˆa.p g´an nh˜an c´u ph´ap
gˆo`m 10471 cˆau (225085 do.n vi t`u vu ng) Dˆo d`ai cu’a c´ac cˆau n˘a`m trong khoa’ng t`u 2 t´o.i 105 t`u., v´o.i dˆo d`ai trung b`ınh l`a 21, 75 t`u C´o 9314 cˆau (chiˆe´m 88, 95%) c´o dˆo d`ai khˆong l´o.n ho.n
40 t`u Tˆa.p nh˜an cu’a treebank gˆo`m 38 nh˜an c´u ph´ap (18 nh˜an t`u loa.i, 17 nh˜an cu.m t`u., 3 nh˜an phˆ` n tu.a ’ rˆo˜ng) v`a 17 nh˜an ch´u.c n˘ang C´ac cˆay c´u ph´ap c´o chiˆ` u cao da sˆo´ n˘ae `m trong khoa’ng t`u 5 dˆe´n 10, phˆo’ biˆe´n nhˆa´t l`a b˘a`ng 7 (1436 cˆau) D˘a.c biˆe.t c´o 2 cˆau c´o chiˆe` u cao b˘a`ng
27 C´ac thˆong tin chi tiˆe´t ho.n vˆ` treebank tiˆe´ng Viˆe.t du.o c tr`ınh b`ay trong t`ai liˆe.u [25].e
Mˆo.t ch´u ´y nho’ l`a VietTreebank khˆong phˆan biˆe.t c´ac liˆen t`u d˘a’ng lˆa.p v`a liˆen t`u ch´ınh phu.,
tˆa´t ca’ c´ac liˆen t`u dˆ` u du.o.e c g´an nh˜an C Do viˆe.c phˆan biˆe.t gi˜u.a c´ac loa.i liˆen t`u n`ay l`a cˆa`n thiˆe´t khi xˆay du. ng v˘an pha.m LTAG nˆen ch´ung tˆoi xu.’ l´y b˘a`ng c´ach thay thˆe´ c´ac liˆen t`u d˘a’ng
lˆa.p trong treebank (“v`a”, “ho˘a.c”, “&”) b˘a`ng nh˜an CC Mˆo.t sˆo´ nh˜an c´u ph´ap du.o c su.’ du.ng trong c´ac v´ı du cu’a b`ai b´ao n`ay du.o c liˆe.t kˆe trong Ba’ng 1
Trang 6Ba’ng 1 C´ac nh˜an c´u ph´ap du.o. c su’ du.ng trong v´ı du..
No Nh˜ an Mˆ o ta’
1 S cˆau trˆ` n thuˆa a.t
2 VP cu.m dˆo.ng t`u.
3 NP cu.m danh t`u.
4 PP cu.m gi´o.i t`u
5 N danh t`u chung
6 V dˆo.ng t`u.
7 P da.i t`u.
8 R ph´o t`u
9 E gi´o.i t`u
10 CC liˆen t`u d˘a’ng lˆa.p
5 THU ˆ A T TO AN TR´ ´ ICH R ´ UT LTAG T ` U . TREEBANK
Vˆ` co ba’n, qu´a tr`ınh tr´ıch r´e ut tu. dˆo.ng v˘an pha.m LTAG t`u treebank gˆo`m ba bu.´o.c Th´u nhˆa´t, chuyˆe’n c´ac cˆay c´u ph´ap cu’a treebank th`anh c´ac cˆay phˆan t´ıch cu’a hˆe h`ınh th´u.c LTAG Th´u hai, phˆan r˜a c´ac cˆay phˆan t´ıch thu du.o. c o’ bu.´. o.c mˆo.t th`anh c´ac cˆay co ba’n tu.o.ng ´u.ng v´o.i ba mˆa˜u cˆay du.o c x´ac di.nh tru.´o.c Cuˆo´i c`ung, su.’ du.ng tri th´u.c ngˆon ng˜u dˆe’ lo.c bo’ c´ac
cˆay co ba’n khˆong ho. p lˆe
Phˆ` n tiˆe´p theo s˜e tr`ınh b`ay chi tiˆe´t c´ac thuˆa.t to´an m`a ch´ung tˆoi ph´at triˆe’n trong ba bu.´o.ca n`ay v`a so s´anh ch´ung v´o.i thuˆa.t to´an tu.o.ng tu cu’a Xia [28]
5.1 Xˆ ay du ng cˆ ay phˆ an t´ıch LTAG
C´ac cˆay c´u ph´ap cu’a VietTreebank du.o. c m˜a du.´o.i da.ng d˘a.t ngo˘a.c truyˆe` n thˆo´ng O’ mˆo˜i. cu.m khˆong c´o su phˆ. an biˆe.t r˜o r`ang gi˜u.a th`anh phˆa`n trung tˆam, th`anh phˆa` n dˆo´i b˘a´t buˆo.c v`a th`anh phˆ` n phu tro nhu trong cˆa´u tr´uc cˆay phˆan t´ıch cu’a hˆe h`ınh th´u.c LTAG V`ı vˆa.y, tru.´o.ca tiˆen ta cˆ` n chuyˆe’n dˆo’i t`a u cˆay c´u ph´ap gˆo´c th`anh cˆay phˆan t´ıch LTAG tu.o.ng ´u.ng
Trong bu.´o.c n`ay, tru.´o.c tiˆen ta cˆ` n phˆan mˆo˜i n´a ut cu’a cˆay c´u ph´ap th`anh ba loa.i l`a n´ut trung tˆam, n´ut dˆo´i v`a n´ut phu., sau d´o, ch`en thˆem c´ac n´ut trung gian v`ao cˆay sao cho ta.i mˆo˜i m´u.c cu’a cˆay, quan hˆe gi˜u.a c´ac n´ut l`a mˆo.t trong ba quan hˆe sau [28]:
• quan hˆ e vi t` u.–dˆ o´i: c´o mˆo.t ho˘a.c nhiˆe` u n´ut, mˆo.t n´ut l`a trung tˆam, c´ac n´ut c`on la.i l`a c´ac
dˆo´i cu’a trung tˆam;
• quan hˆ e phu tro : c´ . o d´ung hai n´ut, mˆo.t n´ut phu tro cho n´. ut kia;
• quan hˆ e d˘ a’ng lˆ a p: c´o d´ung ba n´ut, hai n´ut tr´ai v`a pha’i du.o. c liˆen kˆe´t v´o.i nhau b˘a`ng n´ut liˆen t`u o.’ gi˜u.a
Ch´ung tˆoi d˜a xˆay du. ng ba’ng th` anh phˆ ` n trung tˆ a am [9, 22]cho VietTreebank Ba’ng n`ay du.o. c
su.’ du.ng dˆe’ cho.n n´ut con trung tˆam cu’a mˆo.t n´ut bˆa´t k`ı Ba’ng dˆo´i dˆe’ x´ac di.nh kiˆe’u dˆo´i cu’a
mˆo.t th`anh phˆa` n trung tˆam Ba’ng n`ay du.o. c su’ du.ng dˆe’ x´ac di.nh t´ınh chˆa´t dˆo´i hay phu tro . cu’a mˆo.t n´ut anh em cho th`anh phˆa` n trung tˆam du. a trˆen nh˜an cu’a trung tˆam v`a vi tr´ı cu’a c´ac n´ut n`ay
Trang 7H`ınh 5 Xu.’ l´y c´ac cu.m t`u b˘a`ng Thuˆa.t to´an 1 V`ı cˆa´u tr´uc cu’a c´ac cu.m d˘a’ng lˆa.p kh´ac v´o.i c´ac cˆa´u tr´uc dˆo´i v`a phu tro nˆen tru.´o.c tiˆen ta
xu.’ l´ı to`an bˆo c´ac cu.m d˘a’ng lˆa.p cu’a mˆo˜i cˆay b˘a`ng Thuˆa.t to´an 1 Sau d´o xˆay du ng cˆ. ay phˆan t´ıch dˆ` y du’ t`a u cˆay thu du.o. c b˘a`ng Thuˆa.t to´an 2
H`ınh 5 minh hoa mˆo.t cˆay c´o c´ac cˆa´u tr´uc liˆen t`u tru.´o.c v`a sau khi du.o c xu.’ l´ı bo.’i Thuˆa.t to´an 1, o.’ dˆay ci l`a c´ac liˆen t`u d˘a’ng lˆa.p v`a Xi l`a c´ac cu.m d˘a’ng lˆa.p H`ınh 6 minh hoa viˆe.c triˆe’n khai Thuˆa.t to´an 2 trong d´o Ai l`a c´ac dˆo´i cu’a th`anh phˆ` n trung tˆam H cu’a cˆay T v`aa
Mi l`a c´ac th`anh phˆ` n phu tro cho H.a
Trang 8Hai thuˆa.t to´an n`ay su.’ du.ng h`am Insert-Node(T, L) trong Thuˆa.t to´an 3 dˆe’ ch`en c´ac n´ut
trung gian v`ao gi˜u.a mˆo.t n´ut T v`a danh s´ach L c´ac n´ut con cu’a T N´ut m´o.i n`ay l`a n´ut con
cu’a T , c´o c`ung nh˜an v´o.i T v`a c´o danh s´ach con l`a L H`am Conj-Groups(L) tra’ vˆ` k cu.me th`anh phˆ` n Ca i cu’a L du. a trˆen k − 1 liˆen t`u c1, , ck−1 H`am New-Node(l) ta.o mˆo.t n´ut
m´o.i c´o nh˜an l.
Thuˆa.t to´an 2 su.’ du.ng mˆo.t sˆo´ h`am phu tro sau H`am head-Child(X) cho.n n´ut con
trung tˆam cu’a mˆo.t n´ut X du a trˆ. en ba’ng th`anh phˆ` n trung tˆam Ba’ng 4 l`a ba’ng th`anh phˆaa ` n trung tˆam cho VietTreebank H`am Is-Leaf(X) kiˆe’m tra t´ınh chˆa´t l´a cu’a n´ut X H`am
Trang 9Is-Phrasal(X )kiˆe’m tra xem X c´o pha’i l`a mˆo.t cu.m hay khˆong.2 C´ac h`am Arg-Nodes(H, L)
v`a Mod-Nodes(H, L) tu.o.ng ´u.ng tra’ vˆ` danh s´ach c´ac n´e ut dˆo´i v`a phu tro cu’a n´ut H Danh
s´ach L ch´u.a tˆa´t ca’ c´ac n´ut anh em cu’a n´ut H.
H`ınh 6 V´ı du minh hoa viˆe.c xˆay du ng cˆay phˆan t´ıch V´ı du., H`ınh 7 minh hoa cˆay c´u ph´ap cu’a cˆau “Ho s˜e khˆong chuyˆe’n h`ang xuˆo´ng thuyˆe ` n v` ao ng` ay mai.” tr´ıch t`u VietTreebank v´o.i cˆa´u tr´uc ngo˘a.c nhu sau:
H`ınh 7 Mˆo.t cˆay c´u ph´ap
H`ınh 8 Cˆay phˆan t´ıch cu’a cˆay c´u ph´ap trong H`ınh 7
2 N´ ut cu.m l`a n´ut khˆong pha’i n´ut l´a ho˘a.c n´ut t`u.loa.i, ngh˜ıa l`a n´o pha’i c´o ´ıt nhˆa´t l`a hai n´ut con, ho˘a.c c´o
mˆ o.t n´ut con khˆong pha’i n´ut l´a.
Trang 10C´ac n´ut con trung tˆam cu’a c´ac cu.m du.o c khoanh tr`on Cˆay phˆan t´ıch cu’a cˆau v´ı du sinh
bo.’ i Thuˆa.t to´an 2 du.o c cho trˆen H`ınh 8, c´ac n´ut trung gian ch`en thˆem l`a c´ac n´ut du.o c d´ong khung
H`ınh 9 C´ac mˆa˜u cˆay co so.’ spine (´u.ng v´o.i quan hˆe dˆo´i–vi t`u.) v`a phu tro (´. u.ng v´o.i quan hˆe phu tro ho˘. a.c d˘a’ng lˆa.p
5.2 Tr´ıch r´ ut c´ ac cˆ ay co ba’n
Trong bu.´o.c n`ay, mˆo˜i cˆay phˆan t´ıch du.o c phˆan r˜a th`anh mˆo.t tˆa.p c´ac cˆay co ba’n C´ac cˆa´u tr´uc dˆe quy cu’a cˆay phˆan t´ıch du.o c t´ach ra th`anh c´ac cˆay phu tro , c´ac cˆa´u tr´uc khˆong dˆe quy c`on la.i du.o c t´ach th`anh c´ac cˆay kho.’i ta.o C´ac cˆay co ba’n du.o c tr´ıch r´ut ra dˆe` u thuˆo.c
mˆo.t trong ba mˆa˜u tu.o.ng ´u.ng v´o.i ba kiˆe’u quan hˆe cu’a n´ut neo v´o.i c´ac n´ut kh´ac Ba mˆa˜u n`ay du.o. c minh hoa trong H`ınh 9.
Qu´a tr`ınh tr´ıch r´ut thu. c hiˆe.n viˆe.c ch´ep c´ac n´ut cu’a cˆay phˆan t´ıch dˆe’ xˆay du ng c´. ac cˆay co.
so.’ Kˆe´t qua’ tr´ıch r´ut gˆo`m ba tˆa.p cˆay: tˆa.p S ch´u.a c´ac cˆay spine (c´ac cˆay kho.’i ta.o), M ch´u.a c´ac cˆay phu tro v`. a C ch´u.a c´ac cˆay d˘a’ng lˆa.p
Dˆe’ xˆay du. ng c´ac co ba’n t`u mˆo.t cˆay phˆan t´ıch T , tru.´o.c tiˆen ta t`ım du.`o.ng di trung tˆam
{H0, H1, , Hn} cu’a T b˘a`ng thu’ tu.c head-path(T ) Du.`o.ng di trung tˆam xuˆa´t ph´at t`u T
l`a du.`o.ng di duy nhˆa´t t`u T t´o.i mˆo.t n´ut l´a trong d´o mˆo˜i n´ut tr`u T dˆe` u l`a n´ut con trung tˆam cu’a n´ut cha O’ dˆay H. 0≡ T v`a Hj l`a cha cu’a n´ut con trung tˆam Hj+1 V´o.i mˆo˜i n´ut cha P v`a n´ut con trung tˆam H, ta lˆa´y danh s´ach L c´ac n´ut anh em cu’a H v`a x´ac di.nh quan hˆe gi˜u.a H
v`a L Nˆe´u d´o l`a quan hˆe d˘a’ng lˆa.p th`ı tr´ıch ra mˆo.t cˆay d˘a’ng lˆa.p; nˆe´u d´o l`a quan hˆe phu tro th`ı tr´ıch ra mˆo.t cˆay phu tro , nˆe´u l`a quan hˆe vi t`u.–dˆo´i th`ı tr´ıch ra mˆo.t cˆay kho.’i ta.o Thuˆa.t to´an 4 l`a thuˆa.t to´an tr´ıch r´ut c´ac cˆay co ba’n t`u mˆo.t cˆay phˆan t´ıch Thuˆa.t to´an n`ay su.’ du.ng c´ac h`am nhu sau
Thuˆa.t to´an 5 tr´ıch r´ut cˆay kho’ i ta.o (spine) H`am Merge-Link-Nodes(T ) gh´ep c´ac n´ut.
liˆen kˆe´t cu’a mˆo.t cˆay spine th`anh mˆo.t n´ut (xem H`ınh 11) C´ac Thuˆa.t to´an 6 v`a7 l`a c´ac h`am tu.o.ng ´u.ng tr´ıch r´ut c´ac cˆay phu tro v`. a cˆay d˘a’ng lˆa.p V´ı du., t`u cˆay phˆan t´ıch o.’ H`ınh 8, ta tr´ıch du.o. c 9 cˆay co ba’n nhu trˆen c´ac H`ınh 10 v`a11