1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo khoa học: "Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages" pptx

1 299 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 1
Dung lượng 97,2 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Donostia E-20009 uzei@sarenet.es Laburpena Artikulu honetan metodo estokastiko eta erregeletan oinarritutako metodoen arteko konbinaketa euskarari aplikatzearen emaitzak aurkeztuko ditu

Trang 1

Combining Stochastic and Rule-Based Methods for Disambiguation

in Agglutinative Languages

Ezeiza N., Alegria I., Arriola J.M., Urizar R

Informatika Fakultatea

649 P.K Donostia E-20080

jibecran@si.ehu.es http://ixa.si.ehu.es

Aduriz I

UZEI Aldapeta, 20

Donostia E-20009 uzei@sarenet.es

Laburpena

Artikulu honetan metodo estokastiko eta erregeletan oinarritutako metodoen arteko konbinaketa euskarari aplikatzearen emaitzak aurkeztuko ditugu.Desanbiguazioan erabilitako metodoak Murrizpen Gramatika (CG) eta MULTEXT proiektuak garatutako HMMn oinarritutako etiketatzailea dira

Euskara hizkuntza eranskaria izaki, hitz bakoitzari dagozkion irakurketa guztiak esleitzeko analizatzaile morfologikoa beharrezkoa da Ondoren, CG erregelak informazio morfologiko guztiari aplikatzen zaizkio eta prozesu honek testuen anbiguotasuna gutxitzen du Azkenik, geratutako etiketen artean bakarra hautatzeko MULTEXT proiektuko tresnak erabiltzen dira

Metodo estokastikoa soilik erabiltzean, errore-tasa %14 ingurukoa da, baina etiketatzailearen doitasuna hitz ezezagunekin lexikoa aberastuz gero %2 hobe daitekeen arren Metodo biak konbinatzen direnean, berriz, prozesu osoaren errore-tasa % 3.5ekoa da Ikasketarako corpusa nahikoa txikia dela, HMM eredua lehenengo mailakoa eta euskararako Murrizpen Gramatika oraindik ere garapen prozesuan dagoela kontuan izanik, gure ustez metodo konbinatu hau erabilita emaitza onak lor daitezke eta beste hizkuntza eranskarietarako bereziki egokia izan daiteke

Resum

En aquest article presentem els resultats de la combinaci6 de m~todes estoc/lstics i basats en regles aplicats a la desambiguaci6 morfosinthcfica de l'euskara Els m6todes utilitzats per a la desambiguaci6 s6n: les Gramhtiques de Restrictions (CG) i l'etiquetador basat en HMM del projecte MULTEXT E1 carhcter aglutinant de l'euskara fa necessari la utilitzaci6 d'un analitzador morfolbgic per assignar a cada paraula totes les seves interpretacions Les regles de CG s'apliquen utilitzant la informaci6 morfol6gica completa i aquest proc6s redueix parcialment rambigtiitat dels textos A continuaci6, s'apliquen les eines de MULTEXT per escollir una finica etiqueta

Utilitzant nom6s el m6tode estoc/lstic la taxa d'error 6s aproximadament del 14%, encara que la precisi6 de l'etiquetador es pot incrementar en un 2% utilitzant les paraules desconegudes per enriquir

el 16xic En canvi, la combinaci6 d'ambd6s m6todes permet reduir l'error fins al 3.5%

Tenint en compte que el corpus d'aprenentatge 6s bastant petit, que el model HMM 6s de primer ordre i que la Gramhtica de Restriccions de l'euskara esth encara en fase de desenvolupament, creiem que els resultats del m6tode combinat s6n bons i que la combinaci6 de m6todes 6s especialment adequada per a llengiies aglutinants

Resumen

En este articulo presentamos los resultados de la combinaci6n de m6todos estoc~sticos y basados en reglas aplicados al euskara Los m6todos utilizados para la desambiguaci6n son las Gram~iticas de Restricciones (CG) y el etiquetador basado en HMM del proyecto MULTEXT

Siendo el euskara una lengua aglutinante, serfi necesario un analizador morfol6gico para asignar a cada palabra todas sus interpretaciones A continuaci6n se aplican las reglas de CG ufilizando toda la informaci6n morfol6gica y este proceso disminuye la ambigtiedad de los textos Por filfimo, las herramientas de MULTEXT escoger~in una finica etiqueta

Utilizando finicamente el m6todo estoc~tstico la tasa de error es de alrededor del 14°/o, aunque la precisi6n del etiquetador puede incrementarse en un 2% ufilizando las palabras desconocidas para enriquecer el 16xico En cambio, combinando ambos m6todos la tasa de error del proceso completo

es del 3.5% Teniendo en cuenta que el corpus de aprendizaje es bastante pequefio, que el modelo HMM es de primer orden y que la Gramfitica de Restricci6n del euskara esth afin en fase de desarrollo, creemos el m6todo combinado obtiene buenos resultados y puede ser adecuado para otras lenguas aglufinantes

379

Ngày đăng: 08/03/2014, 05:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm