1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Grammar extraction LTAG for vietnamese

19 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 8,87 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

v˘an pha.m kˆe´t nˆo´i cˆay LTAG Lexicalized Tree Adjoining Grammars – LTAG v` a c´ ac thuˆ a.t to´an tr´ıch r´ut tu.. dˆo.ng tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng Viˆe.t t`u.. M LTAG

Trang 1

TR´ICH R ´ UT TU D . O ˆ NG V AN PHA ˘ M LTAG CHO TI E ˆ ´NG VIˆE.T

L ˆ E H ˆ O `NG PHU.O.NG 1 , NGUY ˆ E ˜ N THI MINH HUYˆE ` N 1 , NGUY ˆ E ˜ N PHU.O.NG TH´AI 1 ,

PHAN THI H ` A2

1 Da i ho c Quˆ o´c gia H` a Nˆ o i,

2 Ho c viˆ e.n Cˆong nghˆe Bu u ch´ınh Viˆe˜n thˆong

Abstract In this paper, we present a system that automatically extracts lexicalized tree adjoining

grammars (LTAG) from treebanks We first discuss extraction algorithms and compare them to previous works Then we report the LTAG extraction result for Vietnamese, using a recently released Vietnamese treebank The implementation of an open source and language independent system for automatic extraction of LTAG grammars is also discussed.

T´ om t˘ a ´t B`ai b´ao gi´o.i thiˆe.u hˆe v˘an pha.m kˆe´t nˆo´i cˆay LTAG (Lexicalized Tree Adjoining Grammars

– LTAG) v` a c´ ac thuˆ a.t to´an tr´ıch r´ut tu dˆ. o.ng LTAG t`u kho v˘an ba’n g´an nh˜an c´u ph´ap (treebank).

Kˆ e´t qua’ tr´ıch r´ ut mˆ o.t v˘an pha.m LTAG cho tiˆe´ng Viˆe.t Chu o.ng tr`ınh tr´ıch r´ut tu dˆo.ng c´ac v˘an pha.m LTAG dˆ o.c lˆa.p v´o i ngˆon ng˜u v`a du.o c phˆan phˆo´i du.´o.i da.ng m˜a nguˆo`n mo.’.

Keywords: Extraction, LTAG, treebank, Vietnamese.

1 GI ´ O . I THI ˆ E U

Phˆan t´ıch c´u ph´ap l`a bu.´o.c quan tro.ng trong qu´a tr´ınh xu.’ l´y ngˆon ng˜u tu nhiˆen C´ac bˆo phˆan t´ıch c´u ph´ap chˆa´t lu.o. ng cao gi´up t˘ang t´ınh hiˆe.u qua’ cu’a c´ac hˆe thˆo´ng xu.’ l´ı ngˆon ng˜u

tu. nhiˆen nhu di.ch m´ay, t´om t˘a´t v˘an ba’n, c´ac hˆe ho’i d´ap

Mo.i bˆo phˆan t´ıch c´u ph´ap dˆe` u cˆa` n mˆo.t bˆo luˆa.t c´u ph´ap, hay v˘an pha.m, du.o c biˆe’u diˆe˜n

bo.’ i mˆo.t hˆe v˘an pha.m h`ınh th´u.c cu thˆe’ n`ao d´o Viˆe.c xˆay du ng v˘an pha.m thu’ cˆong l`a cˆong viˆe.c tˆo´n rˆa´t nhiˆe` u th`o.i gian v`a cˆong s´u.c, ch´ınh v`ı vˆa.y nhiˆe` u phu.o.ng ph´ap tu. dˆo.ng ho˘a.c b´an

tu. dˆo.ng dˆe’ xˆay du ng v˘. an pha.m d˜a du.o c nghiˆen c´u.u trong th`o.i gian qua Hˆa`u hˆe´t c´ac kˆe´t qua’ nghiˆen c´u.u vˆ` xˆay du.e ng v˘an pha.m cho c´ac hˆe thˆo´ng xu.’ l´ı ngˆon ng˜u tu nhiˆen d˜a du.o c

cˆong bˆo´ dˆ` u tˆa.p trung v`ao c´ac ngˆon ng˜u phˆo’ du.ng nhu tiˆe´ng Anh, c´ac th´u tiˆe´ng ˆe A´n- ˆAu v`a tiˆe´ng Hoa

Nh`ın chung, c´o hai phu.o.ng ph´ap ch´ınh dˆe’ xˆay du. ng tu dˆ. o.ng v˘an pha.m Phu.o.ng ph´ap th´u nhˆa´t su.’ du.ng mˆo.t hˆe thˆo´ng mˆo ta’ v˘an pha.m bˆa.c cao dˆe’ sinh v˘an pha.m C´ac hˆe thˆo´ng nhu vˆa.y du.o c go.i l`a c´ac siˆeu v˘an pha.m (meta-grammar) [10, 20] Phu.o.ng ph´ap th´u hai l`a

phu.o.ng ph´ap tr´ıch r´ut tu. dˆo.ng v˘an pha.m t`u c´ac kho v˘an ba’n c´o ch´u gia’i c´u ph´ap (treebank)

O’ dˆay, ch´ung tˆoi quan tˆam t´o.i phu.o.ng ph´ap th´u hai..

Nghiˆ en c´ u.u du.o an th` anh v´ o.i su o ˜ tro u dˆ ` t` e ai nghiˆ en c´ u.u khoa ho.c QT-09-01 Da.i ho.c Quˆo´c gia H`a Nˆo.i

Trang 2

B`ai b´ao tr`ınh b`ay c´ac thuˆa.t to´an tr´ıch r´ut tu dˆ. o.ng v˘an pha.m LTAG t`u treebank, v`a ph´at triˆe’n mˆo.t chu.o.ng tr`ınh dˆe’ tu dˆo.ng tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng Viˆe.t t`u kho v˘an ba’n VietTreebank v`a d´anh gi´a kˆe´t qua’ thu du.o. c.

Cˆa´u tr´uc cu’a b`ai b´ao nhu sau Mu.c 2 gi´o.i thiˆe.u so lu.o c hˆe v˘an pha.m LTAG Mu.c 3 diˆe’m la.i mˆo.t sˆo´ cˆong tr`ınh d˜a c´o vˆe` tr´ıch r´ut v˘an pha.m t`u treebank Mu.c 4 nˆeu kh´ai qu´at

vˆ` treebank tiˆe´ng Viˆe.t Tiˆe´p theo, Mu.c 5 tr`ınh b`ay chi tiˆe´t thuˆa.t to´an tr´ıch r´ut v˘an pha.me LTAG t`u treebank m`a ch´ung tˆoi su.’ du.ng v`a so s´anh n´o v´o.i mˆo.t thuˆa.t to´an tu.o.ng tu Mu.c

6 tr`ınh b`ay kˆe´t qua’ v`a chu.o.ng tr`ınh phˆ` n mˆea ` m tr´ıch r´ut tu. dˆo.ng v˘an pha.m LTAG cho tiˆe´ng Viˆe.t Cuˆo´i c`ung l`a phˆa` n kˆe´t luˆa.n v`a hu.´o.ng ph´at triˆe’n

2 Hˆ E V AN PHA ˘ M LTAG

an pha.m kˆe´t nˆo´i cˆay (Tree Adjoining Grammars–TAG) l`a hˆe v˘an pha.m h`ınh th´u.c du.o c

ph´at minh bo.’ i Aravind Joshi [17, 18] v`a c´ac dˆo`ng nghiˆe.p Kh´ac v´o.i hˆe v˘an pha.m phi ng˜u ca’nh su.’ du.ng c´ac luˆa.t viˆe´t la.i da.ng xˆau, hˆe v˘an pha.m kˆe´t nˆo´i cˆay su.’ du.ng c´ac luˆa.t viˆe´t la.i da.ng cˆay V˘an pha.m TAG d˜a du.o c nghiˆen c´u.u k˜y vˆe` m˘a.t h`ınh th´u.c v`a kha’ n˘ang ´u.ng du.ng trong viˆe.c phˆan t´ıch nhiˆe` u ngˆon ng˜u tu. nhiˆen kh´ac nhau, v´ı du cho tiˆe´ng Anh [5, 13, 30], tiˆe´ng

Ph´ap [1, 12, 27], tiˆe´ng D´u.c [19], tiˆe´ng Hoa [28] Trong phˆ` n n`ay s˜e gi´o.i thiˆe.u kh´ai qu´at (mˆo.ta c´ach khˆong h`ınh th´u.c) hˆe v˘an pha.m LTAG Chi tiˆe´t vˆe` v˘an pha.m LTAG d˜a du.o c tr`ınh b`ay k˜y lu.˜o.ng trong nhiˆ` u t`ai liˆe.u tham kha’o kh´ac nhau, v´ı du trong t`ai liˆe.u [18].e

2.1 C´ ac cˆ ay co ba’n

Phˆ` n tu.a ’ co so.’ cu’a mˆo.t v˘an pha.m TAG l`a c´ac cˆay co ba’n Nˆe´u mˆo˜i cˆay co ba’n dˆe` u ch´u.a

´ıt nhˆa´t mˆo.t n´ut l´a c´o nh˜an l`a k´ı hiˆe.u kˆe´t (n´ut t`u vu ng) th`ı v˘an pha.m du.o c go.i l`a LTAG (Lexicalized TAG) C´o hai kiˆe’u cˆay co ba’n l`a cˆ ay kho ’ i ta.o v`a cˆay phu tro Cˆay kho.’ i ta.o ch´u.a c´ac n´ut du.o. c g´an k´ı hiˆe.u khˆong kˆe´t, riˆeng c´ac n´ut l´a c´o thˆe’ du.o c g´an k´ı hiˆe.u kˆe´t Nˆe´u c´ac n´ut l´a c´o k´ı hiˆe.u khˆong kˆe´t th`ı ch´ung du.o c d´anh dˆa´u b˘a`ng k´y hiˆe.u thay thˆe´ ↓ Cˆay phu tro. du.o c d˘a.c tru.ng bo.’i hai n´ut c´o k´y hiˆe.u khˆong kˆe´t giˆo´ng nhau, trong d´o c´o mˆo.t n´ut gˆo´c v`a

mˆo.t n´ut l´a N´ut l´a d˘a.c biˆe.t n`ay du.o c go.i l`a n´ut chˆan v`a du.o c d´anh dˆa´u b˘a`ng k´y hiˆe.u ∗

2.2 Hai thao t´ ac viˆ e´t la.i

C´ac cˆay co ba’n cu’a v˘an pha.m LTAG du.o c kˆe´t ho p v´o.i nhau b˘a`ng hai thao t´ac viˆe´t la.i l`a

thay thˆ e´v`a kˆ e´t nˆ o´i Thao t´ac thay thˆe´ thu. c hiˆe.n ph´ep thˆe´ mˆo.t n´ut l´a c´o nh˜an X cu’a mˆo.t cˆay

α bo.’ i mˆo.t cˆay β c´o gˆo´c c˜ung c´o nh˜an l`a X Thao t´ac thay thˆe´ du.o c minh hoa bo.’i H`ınh 1

H`ınh 1 Ph´ep thay thˆe´

Trang 3

Thao t´ac kˆe´t nˆo´i thu. c hiˆe.n ph´ep ch`en mˆo.t cˆay phu tro v`. ao bˆen trong mˆo.t cˆay kh´ac Nhu.

minh hoa trong H`ınh 2, cˆay phu tro β c´o gˆo´c v`a n´ut chˆan c´o c`ung nh˜an X du.o c ch`en v`ao

trong cˆay α ta.i n´ut c˜ung c´o nh˜an X, sinh ra cˆay γ Ch´u ´y r˘a`ng thao t´ac kˆe´t nˆo´i khˆong du.o c thu. c hiˆe.n ta.i c´ac n´ut du.o c d´anh dˆa´u l`a n´ut thay thˆe´ cu’a α.

H`ınh 2 Ph´ep kˆe´t nˆo´i

2.3 Cˆ ay phˆ an t´ıch v` a cˆ ay dˆ a ˜n xuˆ a´t

C´ac cˆay trung gian sinh ra khi ´ap du.ng c´ac ph´ep thˆe´ v`a kˆe´t nˆo´i du.o c go.i l`a c´ac cˆay phˆan t´ıch Cˆay phˆan t´ıch dˆ ` y du’ l` a a cˆay phˆan t´ıch trong d´o mo.i n´ut l´a dˆe` u du.o. c g´an nh˜an kˆe´t Nhu

vˆa.y, viˆe.c phˆan t´ıch c´u ph´ap cu’a mˆo.t cˆau l`a viˆe.c xuˆa´t ph´at t`u mˆo.t cˆay co ba’n c´o gˆo´c l`a tiˆen

dˆ` , t`ım mˆo.t cˆay phˆan t´ıch dˆae ` y du’ c´o c´ac n´ut l´a tu.o.ng ´u.ng v´o.i d˜ay c´ac t`u trong cˆau

H`ınh 3 Dˆa˜n xuˆa´t cu’a cˆau John, always laughs H`ınh 3 minh hoa v´ı du vˆe` dˆa˜n xuˆa´t c´u ph´ap cu’a cˆau “John always laughs” Nˆe´u ta k´ı hiˆe.u αJohn, αalwaysv`a αlaughstu.o.ng ´u.ng l`a c´ac cˆay g˘a´n v´o.i c´ac t`u John, always v`a laughs th`ı

dˆa˜n xuˆa´t n`ay su.’ du.ng hai quy t˘a´c viˆe´t la.i cu’a hˆe h`ınh th´u.c LTAG nhu sau:

• Cˆay αJohn du.o. c thay thˆe´ v`ao n´ut l´a c´o nh˜an NP cu’a cˆay αlaughs, sinh ra cˆay α0laughs;

• Cˆay phu tro αalwaysdu.o. c kˆe´t nˆo´i v`ao n´ut VP cu’a cˆay α0

laughs, sinh ra cˆay dˆa˜n xuˆa´t dˆa` y du’ o.’ bˆen tr´ai H`ınh 4

Dˆo´i v´o.i v˘an pha.m phi ng˜u ca’nh, nh`ın v`ao cˆay phˆan t´ıch ta biˆe´t du.o c ngay c´ac quy t˘a´c viˆe´t la.i d˜a thu c hiˆ. e.n Dˆo´i v´o.i v˘an pha.m TAG, t`u cˆay phˆan t´ıch ta khˆong thˆe’ biˆe´t cu thˆe’ c´ac ph´ep viˆe´t la.i d˜a du.o c thu c hiˆe.n dˆe’ ta.o nˆen cˆay d´o, ch´ınh v`ı vˆa.y, trong hˆe h`ınh th´u.c LTAG, ngu.`o.i

ta cˆ` n d`a ung mˆo.t cˆa´u tr´uc d˘a.c biˆe.t go.i l`a cˆay dˆa˜n xuˆa´t dˆe’ ghi la.i c´ac thao t´ac ta.o nˆen cˆay

phˆan t´ıch t`u c´ac cˆay co ba’n Mˆo˜i n´ut trˆen cˆay dˆa˜n xuˆa´t l`a tˆen cu’a mˆo.t cˆay co ba’n, mˆo˜i cung

Trang 4

biˆe’u diˆ˜n mˆo.t ph´ep kˆe´t nˆo´i (n´et liˆee ` n) ho˘a.c mˆo.t ph´ep thay thˆe´ (n´et d´u.t) Ngo`ai ra, mˆo˜i n´ut ta.i d´o c´o ´ap du.ng thao t´ac viˆe´t la.i du.o c d´anh dˆa´u b˘a`ng mˆo.t di.a chı’ Gorn1 Cˆay dˆa˜n xuˆa´t

mˆo ta’ phˆan t´ıch cu’a cˆau John always laughs du.o. c biˆe’u diˆe˜n o.’ bˆen pha’i cu’a H`ınh 4

H`ınh 4 Cˆay phˆan t´ıch v`a cˆay dˆa˜n xuˆa´t cu’a cˆau John always laughs

Khi xˆay du. ng v˘an pha.m LTAG cho mˆo.t ngˆon ng˜u tu nhiˆen, ngu.`o.i ta ´ap du.ng mˆo.t sˆo´ nguyˆen l´y ngˆon ng˜u ho.c sau Th´u nhˆa´t, v˘an pha.m TAG du.o c t`u vu ng h´oa: mˆo˜i cˆay co ba’n

dˆ` u c´o ´ıt nhˆa´t mˆo.t n´ut l´a g˘a´n v´o.i mˆo.t do.n vi t`u vu ng go.i l`a t`u neo Th´u hai, mˆo˜i cˆay kho.’ie ta.o cu’a LTAG biˆe’u diˆe˜n c´ac th`anh phˆa` n chiˆe´u cu’a mˆo.t t`u neo, hay n´oi c´ach kh´ac l`a c´ac th`anh phˆ` n dˆo´i bˆo’ ngh˜ıa cho t`a u neo Th´u ba, c´ac cˆay co ba’n l`a cu. c tiˆe’u: cˆay kho.’ i ta.o pha’i c´o t`u neo l`a t`u trung tˆam cu’a mˆo.t th`anh phˆa` n ch´ınh trong cˆau v`a ch´u.a tˆa´t ca’ c´ac th`anh phˆ` n dˆo´ia b˘a´t buˆo.c cu’a t`u neo [14] Tˆa´t ca’ c´ac th`anh phˆa`n phu cu’a t`u neo c´o thˆe’ thˆem v`ao mˆo.t c´ach

dˆe quy b˘a`ng c´ach su’ du.ng ph´ep kˆe´t nˆo´i v´o.i c´ac cˆay phu tro .

Nhu vˆa.y, khi xˆay du ng cˆau, c´ac ph´ep thˆe´ tu.o.ng ´u.ng v´o.i viˆe.c g˘a´n c´ac dˆo´i v`ao vi t`u., ph´ep

kˆe´t nˆo´i tu.o.ng ´u.ng v´o.i viˆe.c thˆem c´ac th`anh phˆa` n phu V`ı thˆe´, cˆay dˆa˜n xuˆa´t biˆe’u diˆe˜n quan hˆe phu thuˆo.c ng˜u ngh˜ıa gi˜u.a c´ac t`u trong cˆau Dˆay l`a l´y do hˆa`u hˆe´t c´ac tiˆe´p cˆa.n t´o.i ng˜u ngh˜ıa trong v˘an pha.m LTAG su.’ du.ng cˆay dˆa˜n xuˆa´t nhu l`a giao diˆe.n gi˜u.a c´u ph´ap v`a ng˜u ngh˜ıa LTAG thuˆo.c l´o.p c´ac v˘an pha.m ca’m ng˜u ca’nh yˆe´u (middly context-sensitive grammar),

t´u.c l`a c´o kha’ n˘ang sinh ma.nh ho.n c´ac v˘an pha.m phi ng˜u ca’nh, trong khi dˆo ph´u.c ta.p th`o.i gian cu’a bˆo phˆan t´ıch c´u ph´ap LTAG vˆa˜n l`a da th´u.c (O(n6)) V˘an pha.m h`ınh th´u.c LTAG

rˆa´t ph`u ho. p v´o.i c´ac ´u.ng du.ng ngˆon ng˜u ho.c Ngu.`o.i ta d˜a chı’ ra r˘a`ng c´ac t´ınh chˆa´t cu’a v˘an pha.m LTAG cho ph´ep mˆo ta’ c´ac hiˆe.n tu.o ng c´u ph´ap mˆo.t c´ach tu nhiˆen Ho.n n˜u.a, kha’ n˘ang chuyˆe’n dˆo’i mˆo.t v˘an pha.m LTAG sang c´ac hˆe h`ınh th´u.c v˘an pha.m ho p nhˆa´t kh´ac nhu LFG (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) d˜a du.o. c ch´u.ng minh [31] V`ı c´ac l´ı do trˆen, ch´ung tˆoi cho.n hˆe h`ınh th´u.c LTAG dˆe’ mˆo h`ınh h´oa v˘an pha.m tiˆe´ng Viˆe.t Mˆo.t m˘a.t ch´ung tˆoi diˆe` u chı’nh mˆo.t bˆo phˆan t´ıch c´u ph´ap LTAG tˆo’ng qu´at cho ph`u ho. p v´o.i tiˆe´ng Viˆe.t, m˘a.t kh´ac ch´ung tˆoi cˆo´ g˘a´ng xˆay du ng mˆ. o.t kho ng˜u liˆe.u c´o thˆe’

1

Di.a chı’ Gorn du o c di.nh ngh˜ıa dˆe quy nhu sau: n´ut gˆo´c c´o di.a chı’ 0, n´ut con th´u k cu’a mˆo.t n´ut c´o di.a chı’ j c´ o di.a chı’ l`a j.k.

Trang 5

t´ai su.’ du.ng cho c´ac ´u.ng du.ng liˆen quan dˆe´n phˆan t´ıch c´u ph´ap tiˆe´ng Viˆe.t c˜ung nhu viˆe.c d´anh gi´a c´ac cˆong cu phˆan t´ıch c´u ph´ap

Trong c´ac mu.c tiˆe´p theo, s˜e diˆe’m qua c´ac cˆong tr`ınh d˜a cˆong bˆo´ vˆe` tr´ıch r´ut tu. dˆo.ng v˘an pha.m t`u treebank v`a tr`ınh b`ay thuˆa.t to´an tr´ıch r´ut LTAG m`a ch´ung tˆoi su.’ du.ng cho tiˆe´ng Viˆe.t

3 TR´ ICH R ´ UT TU D . O ˆ NG V AN PHA ˘ M

C´o kh´a nhiˆ` u cˆong tr`ınh vˆee ` tr´ıch r´ut tu. dˆo.ng v˘an pha.m t`u treebank d˜a du.o c cˆong bˆo´,

tˆa´t ca’ c´ac cˆong tr`ınh n`ay dˆ` u du.o.e c thu c hiˆ. e.n cho c´ac ngˆon ng˜u thˆong du.ng [21] Xia ph´at triˆe’n phu.o.ng ph´ap tr´ıch r´ut v˘an pha.m tˆo’ng qu´at v`a ´ap du.ng cho tiˆe´ng Anh, tiˆe´ng Trung v`a tiˆe´ng H`an [28, 29] Chiang d˜a ph´at triˆe’n mˆo.t hˆe thˆo´ng tr´ıch cho.n v˘an pha.m LTAG t`u Penn Treebank tiˆe´ng Anh v`a d`ung trong phˆan t´ıch c´u ph´ap thˆo´ng kˆe v´o.i LTAG [8] Chen d˜a tr´ıch TAG t`u Penn Treebank tiˆe´ng Anh [6, 7] Mˆo.t sˆo´ cˆong tr`ınh sau d´o ´u.ng du.ng phu.o.ng ph´ap cu’a Chen dˆe’ tr´ıch r´ut v˘an pha.m cho mˆo.t sˆo´ ngˆon ng˜u kh´ac, nhu c´ac cˆong tr`ınh cu’a Johansen [16] v`a Nasr 23 cho tiˆe´ng Ph´ap, cu’a Habash cho tiˆe´ng A’ -rˆa.p [15] Neumann tr´ıch v˘an pha.m cho tiˆe´ng Anh t`u Penn Treebank tiˆe´ng Anh v`a cho tiˆe´ng D´u.c t`u NEGRA Treebank [24] B¨acker tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng D´u.c t`u NEGRA Treebank [3] Park tr´ıch r´ut v˘an pha.m LTAG cho tiˆe´ng H`an t`u Sejong Treebank [26]

4 TREEBANK TI ˆ E ´NG VIˆ E T

Trong khuˆon khˆo’ dˆ` t`ai KC01.01/06-10, nh´om c´ac chuyˆen gia ngˆon ng˜e u ho.c d˜a thu c hiˆe.n viˆe.c ch´u gia’i thˆong tin c´u ph´ap cho mˆo.t kho v˘an ba’n tiˆe´ng Viˆe.t (VietTreebank) D˜u liˆe.u v˘an ba’n du.o. c thu thˆa.p t`u chuyˆen mu.c Ch´ınh tri - X˜a hˆo.i cu’a b´ao Tuˆo’i tre’ Online

Kho v˘an ba’n du.o. c chia l`am ba tˆa.p tu.o.ng ´u.ng v´o.i ba m´u.c g´an nh˜an l`a t´ach t`u., g´an nh˜an t`u loa.i v`a g´an nh˜an c´u ph´ap Tˆa.p du.o c g´an nh˜an c´u ph´ap l`a tˆa.p con cu’a tˆa.p du.o c g´an nh˜an t`u loa.i; tˆa.p du.o c g´an nh˜an t`u loa.i l`a tˆa.p con cu’a tˆa.p du.o c t´ach t`u Tˆa.p g´an nh˜an c´u ph´ap

gˆo`m 10471 cˆau (225085 do.n vi t`u vu ng) Dˆo d`ai cu’a c´ac cˆau n˘a`m trong khoa’ng t`u 2 t´o.i 105 t`u., v´o.i dˆo d`ai trung b`ınh l`a 21, 75 t`u C´o 9314 cˆau (chiˆe´m 88, 95%) c´o dˆo d`ai khˆong l´o.n ho.n

40 t`u Tˆa.p nh˜an cu’a treebank gˆo`m 38 nh˜an c´u ph´ap (18 nh˜an t`u loa.i, 17 nh˜an cu.m t`u., 3 nh˜an phˆ` n tu.a ’ rˆo˜ng) v`a 17 nh˜an ch´u.c n˘ang C´ac cˆay c´u ph´ap c´o chiˆ` u cao da sˆo´ n˘ae `m trong khoa’ng t`u 5 dˆe´n 10, phˆo’ biˆe´n nhˆa´t l`a b˘a`ng 7 (1436 cˆau) D˘a.c biˆe.t c´o 2 cˆau c´o chiˆe` u cao b˘a`ng

27 C´ac thˆong tin chi tiˆe´t ho.n vˆ` treebank tiˆe´ng Viˆe.t du.o c tr`ınh b`ay trong t`ai liˆe.u [25].e

Mˆo.t ch´u ´y nho’ l`a VietTreebank khˆong phˆan biˆe.t c´ac liˆen t`u d˘a’ng lˆa.p v`a liˆen t`u ch´ınh phu.,

tˆa´t ca’ c´ac liˆen t`u dˆ` u du.o.e c g´an nh˜an C Do viˆe.c phˆan biˆe.t gi˜u.a c´ac loa.i liˆen t`u n`ay l`a cˆa`n thiˆe´t khi xˆay du. ng v˘an pha.m LTAG nˆen ch´ung tˆoi xu.’ l´y b˘a`ng c´ach thay thˆe´ c´ac liˆen t`u d˘a’ng

lˆa.p trong treebank (“v`a”, “ho˘a.c”, “&”) b˘a`ng nh˜an CC Mˆo.t sˆo´ nh˜an c´u ph´ap du.o c su.’ du.ng trong c´ac v´ı du cu’a b`ai b´ao n`ay du.o c liˆe.t kˆe trong Ba’ng 1

Trang 6

Ba’ng 1 C´ac nh˜an c´u ph´ap du.o. c su’ du.ng trong v´ı du..

No Nh˜ an Mˆ o ta’

1 S cˆau trˆ` n thuˆa a.t

2 VP cu.m dˆo.ng t`u.

3 NP cu.m danh t`u.

4 PP cu.m gi´o.i t`u

5 N danh t`u chung

6 V dˆo.ng t`u.

7 P da.i t`u.

8 R ph´o t`u

9 E gi´o.i t`u

10 CC liˆen t`u d˘a’ng lˆa.p

5 THU ˆ A T TO AN TR´ ´ ICH R ´ UT LTAG T ` U . TREEBANK

Vˆ` co ba’n, qu´a tr`ınh tr´ıch r´e ut tu. dˆo.ng v˘an pha.m LTAG t`u treebank gˆo`m ba bu.´o.c Th´u nhˆa´t, chuyˆe’n c´ac cˆay c´u ph´ap cu’a treebank th`anh c´ac cˆay phˆan t´ıch cu’a hˆe h`ınh th´u.c LTAG Th´u hai, phˆan r˜a c´ac cˆay phˆan t´ıch thu du.o. c o’ bu.´. o.c mˆo.t th`anh c´ac cˆay co ba’n tu.o.ng ´u.ng v´o.i ba mˆa˜u cˆay du.o c x´ac di.nh tru.´o.c Cuˆo´i c`ung, su.’ du.ng tri th´u.c ngˆon ng˜u dˆe’ lo.c bo’ c´ac

cˆay co ba’n khˆong ho. p lˆe

Phˆ` n tiˆe´p theo s˜e tr`ınh b`ay chi tiˆe´t c´ac thuˆa.t to´an m`a ch´ung tˆoi ph´at triˆe’n trong ba bu.´o.ca n`ay v`a so s´anh ch´ung v´o.i thuˆa.t to´an tu.o.ng tu cu’a Xia [28]

5.1 Xˆ ay du ng cˆ ay phˆ an t´ıch LTAG

C´ac cˆay c´u ph´ap cu’a VietTreebank du.o. c m˜a du.´o.i da.ng d˘a.t ngo˘a.c truyˆe` n thˆo´ng O’ mˆo˜i. cu.m khˆong c´o su phˆ. an biˆe.t r˜o r`ang gi˜u.a th`anh phˆa`n trung tˆam, th`anh phˆa` n dˆo´i b˘a´t buˆo.c v`a th`anh phˆ` n phu tro nhu trong cˆa´u tr´uc cˆay phˆan t´ıch cu’a hˆe h`ınh th´u.c LTAG V`ı vˆa.y, tru.´o.ca tiˆen ta cˆ` n chuyˆe’n dˆo’i t`a u cˆay c´u ph´ap gˆo´c th`anh cˆay phˆan t´ıch LTAG tu.o.ng ´u.ng

Trong bu.´o.c n`ay, tru.´o.c tiˆen ta cˆ` n phˆan mˆo˜i n´a ut cu’a cˆay c´u ph´ap th`anh ba loa.i l`a n´ut trung tˆam, n´ut dˆo´i v`a n´ut phu., sau d´o, ch`en thˆem c´ac n´ut trung gian v`ao cˆay sao cho ta.i mˆo˜i m´u.c cu’a cˆay, quan hˆe gi˜u.a c´ac n´ut l`a mˆo.t trong ba quan hˆe sau [28]:

• quan hˆ e vi t` u.–dˆ o´i: c´o mˆo.t ho˘a.c nhiˆe` u n´ut, mˆo.t n´ut l`a trung tˆam, c´ac n´ut c`on la.i l`a c´ac

dˆo´i cu’a trung tˆam;

• quan hˆ e phu tro : c´ . o d´ung hai n´ut, mˆo.t n´ut phu tro cho n´. ut kia;

• quan hˆ e d˘ a’ng lˆ a p: c´o d´ung ba n´ut, hai n´ut tr´ai v`a pha’i du.o. c liˆen kˆe´t v´o.i nhau b˘a`ng n´ut liˆen t`u o.’ gi˜u.a

Ch´ung tˆoi d˜a xˆay du. ng ba’ng th` anh phˆ ` n trung tˆ a am [9, 22]cho VietTreebank Ba’ng n`ay du.o. c

su.’ du.ng dˆe’ cho.n n´ut con trung tˆam cu’a mˆo.t n´ut bˆa´t k`ı Ba’ng dˆo´i dˆe’ x´ac di.nh kiˆe’u dˆo´i cu’a

mˆo.t th`anh phˆa` n trung tˆam Ba’ng n`ay du.o. c su’ du.ng dˆe’ x´ac di.nh t´ınh chˆa´t dˆo´i hay phu tro . cu’a mˆo.t n´ut anh em cho th`anh phˆa` n trung tˆam du. a trˆen nh˜an cu’a trung tˆam v`a vi tr´ı cu’a c´ac n´ut n`ay

Trang 7

H`ınh 5 Xu.’ l´y c´ac cu.m t`u b˘a`ng Thuˆa.t to´an 1 V`ı cˆa´u tr´uc cu’a c´ac cu.m d˘a’ng lˆa.p kh´ac v´o.i c´ac cˆa´u tr´uc dˆo´i v`a phu tro nˆen tru.´o.c tiˆen ta

xu.’ l´ı to`an bˆo c´ac cu.m d˘a’ng lˆa.p cu’a mˆo˜i cˆay b˘a`ng Thuˆa.t to´an 1 Sau d´o xˆay du ng cˆ. ay phˆan t´ıch dˆ` y du’ t`a u cˆay thu du.o. c b˘a`ng Thuˆa.t to´an 2

H`ınh 5 minh hoa mˆo.t cˆay c´o c´ac cˆa´u tr´uc liˆen t`u tru.´o.c v`a sau khi du.o c xu.’ l´ı bo.’i Thuˆa.t to´an 1, o.’ dˆay ci l`a c´ac liˆen t`u d˘a’ng lˆa.p v`a Xi l`a c´ac cu.m d˘a’ng lˆa.p H`ınh 6 minh hoa viˆe.c triˆe’n khai Thuˆa.t to´an 2 trong d´o Ai l`a c´ac dˆo´i cu’a th`anh phˆ` n trung tˆam H cu’a cˆay T v`aa

Mi l`a c´ac th`anh phˆ` n phu tro cho H.a

Trang 8

Hai thuˆa.t to´an n`ay su.’ du.ng h`am Insert-Node(T, L) trong Thuˆa.t to´an 3 dˆe’ ch`en c´ac n´ut

trung gian v`ao gi˜u.a mˆo.t n´ut T v`a danh s´ach L c´ac n´ut con cu’a T N´ut m´o.i n`ay l`a n´ut con

cu’a T , c´o c`ung nh˜an v´o.i T v`a c´o danh s´ach con l`a L H`am Conj-Groups(L) tra’ vˆ` k cu.me th`anh phˆ` n Ca i cu’a L du. a trˆen k − 1 liˆen t`u c1, , ck−1 H`am New-Node(l) ta.o mˆo.t n´ut

m´o.i c´o nh˜an l.

Thuˆa.t to´an 2 su.’ du.ng mˆo.t sˆo´ h`am phu tro sau H`am head-Child(X) cho.n n´ut con

trung tˆam cu’a mˆo.t n´ut X du a trˆ. en ba’ng th`anh phˆ` n trung tˆam Ba’ng 4 l`a ba’ng th`anh phˆaa ` n trung tˆam cho VietTreebank H`am Is-Leaf(X) kiˆe’m tra t´ınh chˆa´t l´a cu’a n´ut X H`am

Trang 9

Is-Phrasal(X )kiˆe’m tra xem X c´o pha’i l`a mˆo.t cu.m hay khˆong.2 C´ac h`am Arg-Nodes(H, L)

v`a Mod-Nodes(H, L) tu.o.ng ´u.ng tra’ vˆ` danh s´ach c´ac n´e ut dˆo´i v`a phu tro cu’a n´ut H Danh

s´ach L ch´u.a tˆa´t ca’ c´ac n´ut anh em cu’a n´ut H.

H`ınh 6 V´ı du minh hoa viˆe.c xˆay du ng cˆay phˆan t´ıch V´ı du., H`ınh 7 minh hoa cˆay c´u ph´ap cu’a cˆau “Ho s˜e khˆong chuyˆe’n h`ang xuˆo´ng thuyˆe ` n v` ao ng` ay mai.” tr´ıch t`u VietTreebank v´o.i cˆa´u tr´uc ngo˘a.c nhu sau:

H`ınh 7 Mˆo.t cˆay c´u ph´ap

H`ınh 8 Cˆay phˆan t´ıch cu’a cˆay c´u ph´ap trong H`ınh 7

2 N´ ut cu.m l`a n´ut khˆong pha’i n´ut l´a ho˘a.c n´ut t`u.loa.i, ngh˜ıa l`a n´o pha’i c´o ´ıt nhˆa´t l`a hai n´ut con, ho˘a.c c´o

mˆ o.t n´ut con khˆong pha’i n´ut l´a.

Trang 10

C´ac n´ut con trung tˆam cu’a c´ac cu.m du.o c khoanh tr`on Cˆay phˆan t´ıch cu’a cˆau v´ı du sinh

bo.’ i Thuˆa.t to´an 2 du.o c cho trˆen H`ınh 8, c´ac n´ut trung gian ch`en thˆem l`a c´ac n´ut du.o c d´ong khung

H`ınh 9 C´ac mˆa˜u cˆay co so.’ spine (´u.ng v´o.i quan hˆe dˆo´i–vi t`u.) v`a phu tro (´. u.ng v´o.i quan hˆe phu tro ho˘. a.c d˘a’ng lˆa.p

5.2 Tr´ıch r´ ut c´ ac cˆ ay co ba’n

Trong bu.´o.c n`ay, mˆo˜i cˆay phˆan t´ıch du.o c phˆan r˜a th`anh mˆo.t tˆa.p c´ac cˆay co ba’n C´ac cˆa´u tr´uc dˆe quy cu’a cˆay phˆan t´ıch du.o c t´ach ra th`anh c´ac cˆay phu tro , c´ac cˆa´u tr´uc khˆong dˆe quy c`on la.i du.o c t´ach th`anh c´ac cˆay kho.’i ta.o C´ac cˆay co ba’n du.o c tr´ıch r´ut ra dˆe` u thuˆo.c

mˆo.t trong ba mˆa˜u tu.o.ng ´u.ng v´o.i ba kiˆe’u quan hˆe cu’a n´ut neo v´o.i c´ac n´ut kh´ac Ba mˆa˜u n`ay du.o. c minh hoa trong H`ınh 9.

Qu´a tr`ınh tr´ıch r´ut thu. c hiˆe.n viˆe.c ch´ep c´ac n´ut cu’a cˆay phˆan t´ıch dˆe’ xˆay du ng c´. ac cˆay co.

so.’ Kˆe´t qua’ tr´ıch r´ut gˆo`m ba tˆa.p cˆay: tˆa.p S ch´u.a c´ac cˆay spine (c´ac cˆay kho.’i ta.o), M ch´u.a c´ac cˆay phu tro v`. a C ch´u.a c´ac cˆay d˘a’ng lˆa.p

Dˆe’ xˆay du. ng c´ac co ba’n t`u mˆo.t cˆay phˆan t´ıch T , tru.´o.c tiˆen ta t`ım du.`o.ng di trung tˆam

{H0, H1, , Hn} cu’a T b˘a`ng thu’ tu.c head-path(T ) Du.`o.ng di trung tˆam xuˆa´t ph´at t`u T

l`a du.`o.ng di duy nhˆa´t t`u T t´o.i mˆo.t n´ut l´a trong d´o mˆo˜i n´ut tr`u T dˆe` u l`a n´ut con trung tˆam cu’a n´ut cha O’ dˆay H. 0≡ T v`a Hj l`a cha cu’a n´ut con trung tˆam Hj+1 V´o.i mˆo˜i n´ut cha P v`a n´ut con trung tˆam H, ta lˆa´y danh s´ach L c´ac n´ut anh em cu’a H v`a x´ac di.nh quan hˆe gi˜u.a H

v`a L Nˆe´u d´o l`a quan hˆe d˘a’ng lˆa.p th`ı tr´ıch ra mˆo.t cˆay d˘a’ng lˆa.p; nˆe´u d´o l`a quan hˆe phu tro th`ı tr´ıch ra mˆo.t cˆay phu tro , nˆe´u l`a quan hˆe vi t`u.–dˆo´i th`ı tr´ıch ra mˆo.t cˆay kho.’i ta.o Thuˆa.t to´an 4 l`a thuˆa.t to´an tr´ıch r´ut c´ac cˆay co ba’n t`u mˆo.t cˆay phˆan t´ıch Thuˆa.t to´an n`ay su.’ du.ng c´ac h`am nhu sau

Thuˆa.t to´an 5 tr´ıch r´ut cˆay kho’ i ta.o (spine) H`am Merge-Link-Nodes(T ) gh´ep c´ac n´ut.

liˆen kˆe´t cu’a mˆo.t cˆay spine th`anh mˆo.t n´ut (xem H`ınh 11) C´ac Thuˆa.t to´an 6 v`a7 l`a c´ac h`am tu.o.ng ´u.ng tr´ıch r´ut c´ac cˆay phu tro v`. a cˆay d˘a’ng lˆa.p V´ı du., t`u cˆay phˆan t´ıch o.’ H`ınh 8, ta tr´ıch du.o. c 9 cˆay co ba’n nhu trˆen c´ac H`ınh 10 v`a11

Ngày đăng: 09/02/2022, 15:05

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] A. Abeill´ e, An electronic grammar of French (tiˆ e´ng Ph´ ap), CNRS, Paris, 2002 Sách, tạp chí
Tiêu đề: An electronic grammar of French
[2] A. Abeill, L. Cl´ ement, and F. Toussenel, Building a treebank for French, Treebanks: Building and Using Parsed Corpora, Kluwer, Dordrecht, 2003 Sách, tạp chí
Tiêu đề: Treebanks: Buildingand Using Parsed Corpora
[3] J. Backer and K. Harbusch. Hidden Markov model-based supertagging in a user-initiative dia- logue system, Proceedings of TAG+6 , Universita di Venezia, 2002 (269–278) Sách, tạp chí
Tiêu đề: Proceedings of TAG+6
[4] S. Bangalore, Performance evaluation of supertagging for partial parsing, Advances in proba- bilistic and other parsing technologies , Kluwer Academic Publishers, 2000 (203220) Sách, tạp chí
Tiêu đề: Advances in proba-bilistic and other parsing technologies
[5] X. Carreras, M. Collins, and T. Koo, TAG, dynamic programming, and the perceptron for efficient, feature-rich parsing, Proceedings of COLING 2008 , Manchester, 2008 Sách, tạp chí
Tiêu đề: Proceedings of COLING 2008
[6] J. Chen, S. Bangalore, and K. Vijay-Shanker, Automated extraction of tree-adjoining grammars from treebanks, Natural Language Engineering 12 (3) (2006) 251299 Sách, tạp chí
Tiêu đề: Natural Language Engineering
[7] J. Chen and K. Vijay-Shanker, Automated extraction of TAGs from the Penn treebank, Proceed- ings of the Sixth International Workshop on Parsing Technologies , Trento, Italy, 2000 Sách, tạp chí
Tiêu đề: Proceed-ings of the Sixth International Workshop on Parsing Technologies
[8] D. Chiang, Statistical parsing with an automatically-extracted tree adjoining grammar, ACL00 , Morristown, NJ, USA, 2000 (456463) Sách, tạp chí
Tiêu đề: ACL00
[9] M. Collins, Three generative, lexicalised models for statistical parsing, Proceedings of ACL , Madrid, Spain,1997 Sách, tạp chí
Tiêu đề: Proceedings of ACL
[10] B. Crabb´ e, Grammatical development with XMG, Proceedings of the 5 th International Con- ference on Logical Aspects of Computational Linguistics , Bordeaux, France,2005 Sách, tạp chí
Tiêu đề: Proceedings of the 5"th "International Con-ference on Logical Aspects of Computational Linguistics
[11] B. Crabb´ e, B. Gaiffe, and A. Roussanaly, Representation and management of lexicalized tree adjoining grammar, French Journal of Natural Language Processing 44 (3) (2003) 67-91 (tiˆ e´ng Ph´ ap) Sách, tạp chí
Tiêu đề: French Journal of Natural Language Processing
[12] E. V. de la Clergerie, B. Sagot, L. Nicolas, and M.-L. Gu´ enot, FRMG: evolution of a TAG parser for French, Workshop ATALA de IWPT 2009 , Paris, 2009 Sách, tạp chí
Tiêu đề: Workshop ATALA de IWPT 2009
[13] C. Doran, B. Hockey, A. Sarkar, and B. Srinivas, Evolution of the XTAG system , A. Abeill´ eand O. Rambow, editors, Tree adjoining grammars, Stanford CSLI, 2000 (371404) Sách, tạp chí
Tiêu đề: Evolution of the XTAG system
[14] R. Frank, Phrase Structure Composition and Syntactic Dependencies , MIT Press, Boston, 2002 Sách, tạp chí
Tiêu đề: Phrase Structure Composition and Syntactic Dependencies
[15] N. Habash and O. Rambow, Extracting a tree adjoining grammar from the penn arabic treebank, Proceedings of TALN04 , Morocco, 2004 Sách, tạp chí
Tiêu đề: Proceedings of TALN04
[16] A.-D. Johansen, “Extraction of LTAG grammars from a syntactically annotated corpus”, Masters thesis, Universit´ eParis 7, 2004 (tiˆ e´ng Ph´ ap) Sách, tạp chí
Tiêu đề: Extraction of LTAG grammars from a syntactically annotated corpus
[17] A. K. Joshi, L. S. Levy, and M. Takahashi, Tree adjunct grammars, Journal of the Computer and System Sciences 10 (1975) 136165 Sách, tạp chí
Tiêu đề: Journal of the Computerand System Sciences
[18] A. K. Joshi and Y. Schabes, Handbooks of Formal Languages and Automata , chapter Tree Adjoin- ing Grammars, Springer-Verlag, 1997 Sách, tạp chí
Tiêu đề: Handbooks of Formal Languages and Automata
[19] L. Kallmeyer, T. Lichte, W. Maier, Y. Parmentier, and J. Dellert, Developping an MCTAG for German with an RCG-based parser, Proceedings of LREC 2008 , Marrakech, Morocco, 2008 Sách, tạp chí
Tiêu đề: Proceedings of LREC 2008
[20] A. Kinyon and C. A. Prolo, A classification of grammar development strategies, Proceedings of the Workshop on Grammar Engineering and Evaluation , Taipei, Taiwan, 2002 (43–49) Sách, tạp chí
Tiêu đề: Proceedings ofthe Workshop on Grammar Engineering and Evaluation

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w