DEPA de l’Institut de la Francophonie pour l’Informatique(Sp´ecialit´e Informatique)

Dans ce rapport, nous présentons d’abord la première grammaire LTAG LexicalizedTree Adjoining Grammar, grammaire d’arbres adjoints lexicalisée et augmentée par desstructures de traits ba

Trang 1

Vers une grammaire ´ electronique du

Encadrants : Laurent ROMARY Directeur de Recherche INRIA

Equipe Langue et Dialogue, LORIAThi Minh Huyen NGUYEN Equipe Langue et Dialogue, LORIA

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

Trang 3

Je tiens tout d’abord à remercier Monsieur Laurent ROMARY, Directeur de RechercheINRIA de l’équipe Langue et Dialogue du LORIA, pour m’avoir accueilli au sein del’équipe en me proposant ce stage

Je suis reconnaissant à Madame Thi Minh Huyen NGUYEN pour son encadrement,ses bons conseils, son soutien dévoué, sa patience ainsi que sa touche finale apportée à cemémoire

Je tiens à remercier Madame Isabelle BLANCHARD pour tout ce qu’elle a fait pourpréparer mon arrivée et ma vie à Nancy

Je remercie également toute l’équipe de recherche Langue et Dialogue : chercheurs,enseignants, techniciens, doctorants, post-doctorants qui font du LORIA un environne-ment idéal de travail Je remercie particulièrement Monsieur Azim ROUSSANALY pourses conseils et sa coopération tout au long du travail

J’adresse un grand merci à Monsieur Mathias ROSSIGNOL pour sa correction dufran¸cais de ce rapport

Enfin, j’exprime mon entière reconnaissance à ma famille et mes amis pour leur soutien

et leurs encouragements

Trang 5

Table des matières

Liste des tableaux viii

1.1 Problématique et objectif du stage 3

1.2 Environnement de travail 4

1.3 Travaux concernés 5

1.4 Aper¸cu du mémoire 6

2 La grammaire d’arbres adjoints 7 2.1 Système formel 8

2.1.1 Définitions 8

2.1.2 Exemples 9

2.1.3 Arbres dérivés et arbres de dérivation 12

2.1.4 Contraintes sur l’adjonction 13

2.1.5 Propriétés formelles 13

2.1.6 Extensions 17

2.2 Usage et motivation 19

2.2.1 Pourquoi TAG ? 19

2.2.2 Domaine de localité étendu 20

2.2.3 Dépendances à longue distance 21

2.2.4 Traitement des exceptions 23

2.2.5 Traitement des mots composés et des expressions semi-figées 23

2.3 Aspects informatiques 24

2.3.1 Analyseur syntaxique 24

2.3.2 Représentation du lexique 24

iii

Trang 6

3.1 Principes linguistiques 28

3.1.1 Principes de bonne formation des arbres élémentaires 28

3.1.2 Les principes de propagation des traits syntaxiques 29

3.2 Catégories et traits utilisés 29

3.2.1 Catégories des nœuds 29

3.2.2 Traits associés aux nœuds des arbres élémentaires 31

3.3 Familles à tête verbale 32

3.3.1 Arbres intransitifs 32

3.3.2 Arbres transitifs 32

3.3.3 Complément phrastique 33

3.3.4 Arbres ditransitifs 34

3.3.5 Arbres ditransitifs à préposition relative 34

3.3.6 Arbres impératifs à complément verbal 36

3.3.7 Arbres impératifs à complément adjectival 36

3.3.8 Complément de direction 37

3.3.9 Verbes de déplacement avec complément nominal 38

3.3.10 Verbes de mouvement avec complément adjectif 38

3.3.11 Arbres ditransitifs avec un verbe de déplacement 39

3.3.12 Complément modal 40

3.3.13 Complément adjectival 40

3.4 Familles à tête adverbiale 40

3.4.1 Adverbes à gauche 41

3.4.2 Adverbes à droite 41

3.5 Familles des compléments facultatifs du syntagme verbal 42

3.5.1 Complément suffixal avec l’adposition 42

3.5.2 Complément suffixal sans adposition 42

3.5.3 Complément causal 43

3.5.4 Complément objectif 44

3.5.5 Complément de comparaison égale 44

3.5.6 Complément de manière 44

4 Implémentation et traitement informatique 47 4.1 Les choix d’implémentation 47

4.2 Introduction au format TAGML2 48

iv

Trang 7

4.2.2 La lexicalisation 49

4.2.3 Les traits top et bottom 50

4.2.4 Les co-ancres 51

4.2.5 Les équations de traits 52

4.2.6 Les libs 53

4.2.7 Les familles 54

4.2.8 Les traits d’arbres 55

4.3 Analyse du vietnamien 57

4.3.1 Le logiciel LLP2 57

4.3.2 Un analyseur LTAG pour le vietnamien 57

5 Conclusion et perspectives 62 5.1 Conclusion 62

5.2 Perspectives 62

v

Trang 8

2.1 Schéma général de l’adjonction 9

2.2 Exemples d’arbres initiaux 9

2.3 Exemples d’arbres auxiliaires 9

2.4 Exemple de substitution 10

2.5 Exemple d’adjonction 10

2.6 Arbre initial ou arbre auxiliaire 11

2.7 Arbre dérivé et dérivations pour verre à vin / verre de vin 11

2.8 Historique de la dérivation 12

2.9 Grammaire TAG qui engendre an bn cn dn 14

2.10 Substitution avec structures de traits 18

2.11 Adjonction avec structures de traits 19

2.12 Unification des traits 19

2.13 Expression des dépendances à longue distance 22

2.14 Factorisation morpho-syntaxique du système XTAG 25

3.1 Arbre déclaratif intransitif αnV 32

3.2 Arbre déclaratif transitif αn0V n1 33

3.3 Arbre déclaratif avec complément phrastique αn0V S 34

3.4 Arbre ditransitif αn0V n1n2 34

3.5 Arbre ditransitif à adposition relative au milieu αn0V n1On2 35

3.6 Arbre ditransitif à adposition relative avant αn0V On1n2 35

3.7 Arbre impératif à complément verbal αn0V n1v 36

3.8 Arbre impératif à complément adjectival αn0V n1a 36

3.9 Arbre auxiliaire de complément de direction βvV 37

3.10 Processus d’adjonction d’un complément de mouvement 37

3.11 Verbe de déplacement après un syntagme verbal 38

3.12 Verbes de déplacement avec complément nominal αn0V0V1n1 38

3.13 Verbes de mouvement avec complément adjectif αn0V0AV1 39

3.14 Arbre ditransitif avec un verbe de déplacement αn0V0n1V1n2 39

3.15 Complément modal αnV v 40

3.16 Complément adjectival αn0V a 40

3.17 Adverbes à gauche du syntagme verbal βRv 41

3.18 Adverbes à droite du syntagme verbal βvR 42

3.19 Complément suffixal avec l’adposition βvOn 42

3.20 Complément suffixal sans adposition βvn 43

vi

Trang 9

3.21 Complément causal est un nom βvCn 43

3.22 Complément causal est un syntagme verbal βv1Cv2 44

3.23 Complément causal est un syntagme adjectival βvCa 44

3.24 Complément causal est une phrase βvCS 45

3.25 Complément objectif est un nom βvOn 45

3.26 Complément objectif est un verbe avec adposition βv1Ov2 46

3.27 Complément objectif est un verbe sans adposition βv1v2 46

3.28 Complément de comparaison est un nom 46

3.29 Complément de comparaison est un verbe 46

3.30 Complément modal est un adjectif 46

3.31 Complément modal est un verbe 46

4.1 Le schème d’analyse pour le vietnamien 58

4.2 L’affichage d’arbres élémentaires 59

4.3 Un résultat d’analyse d’une phrase vietnamienne 60

4.4 L’affichage d’arbres de dérivation d’analyse 61

4.5 La lexicalisation des arbres élémentaires 61

Trang 10

3.1 Catégories du vietnamien 303.2 Spécifications des catégories du vietnamien 303.3 Traits associés aux nœuds des arbres 32

viii

Trang 11

Au long du développement des ressources linguistiques, on peut distinguer entre desgrammaires qui sont dépendantes de programmes et celles qui sont utilisables pour desapplications diverses Les formalismes de grammaire d’unification (unification-based for-malisms) ont été utilisés pour développer des grammaires à large couverture pour l’anglais,

le fran¸cais, l’allemand, le chinois, le japonais, le coréen, etc Néanmoins, il n’existe pasune telle grammaire pour le vietnamien, une langue parlée par environ 85 millions depersonnes dans le monde entier

Dans ce rapport, nous présentons d’abord la première grammaire LTAG (LexicalizedTree Adjoining Grammar, grammaire d’arbres adjoints lexicalisée et augmentée par desstructures de traits basées sur l’unification) pour le vietnamien, appelée vnLTAG, qui aété développée pendant notre stage de recherche au LORIA La grammaire vise à modéli-ser la compétence écrite et elle est à la fois indépendante du domaine et de l’application.Elle peut être utilisée pour l’étiquetage syntaxique, l’analyse et pour la génération du viet-namien La grammaire que nous avons développée implémente le standard internationalISO/DIS 24610-1, un standard pour la représentation, l’archivage et l’échange des struc-tures de traits dans les applications du traitement des langages naturels, pour l’annotation

et la production des données linguistiques

Ensuite, nous présentons une procédure robuste d’analyse en utilisant vnLTAG et unanalyseur pour la grammaire qui est basé sur LLP2 – un analyseur syntaxique du LORIAqui a été développé depuis quelques années LLP2 est un logiciel d’analyse des grammairesd’arbres adjoints qui utilise une représentation efficace de grammaires en se basant sur unformat standard XML (appelé TAGML) Pour construire un analyseur pour la grammairevietnamien, nous avons, d’une part, adapté et perfectionné presque tous les modules deLLP2 et, d’autre part, développé quelques nouveaux modules avant de les intégrer auLLP2

Enfin, nous effectuons une évaluation pour l’analyseur en utilisant un jeu de phrases

de test Le jeu vise à couvrir les phénomènes syntaxiques majeurs pour la langue, en sebasant sur un vocabulaire relativement petit Quelques résultats initiaux sont présentés.Mots-clés: vietnamien, grammaire, étiquetage, analyse, TAG, LTAG

Trang 12

As far as electronic syntactic resources go, one can distinguish between dependent and reusable grammars The unification-based grammar formalisms have beenused to develop reusable broad-coverage grammars for English, French, German, Chinese,Japanese, Korean, etc However, there does not exist such a grammar for Vietnamese, alanguage spoken by about 85 millions people around the world.

program-In this report, we present the first sizable grammar written for Vietnamese LTAGdeveloped during our internship at LORIA, named vnLTAG The grammar is intended tomodel writer competence and is both application and domain independent It can be usedfor syntactic tagging, parsing and for generation of Vietnamese The grammar that wehave developed implements the international standard ISO/DIS 24610-1 that provides aformat to represent, store or exchange feature structures in natural language applications,for both annotation and production of linguistic data

We then present a robust parsing scheme using vnLTAG and a parser for the grammarwhich is based on LLP2, a syntactic parser that has been developed at LORIA for years.LLP2 is dedicated LTAG software which uses an effective representation of grammar based

on a standard XML format (called TAGML) To build a parser for Vietnamese grammar,

we have not only adapted and upgraded most of the modules of LLP2 but also developedfrom scratch some new modules before integrating them into LLP2

Finally, we perform an evaluation for the parser using a test suite The test suiteaims at covering the major syntactic phenomena for the language, using a relatively smallvocabulary Some initial results are given

Keywords: Vietnamese, grammar, tagging, parsing, TAG, LTAG

Trang 13

Chapitre 1 Introduction

Le traitement automatique des langues connaˆıt aujourd’hui un grand développement

et ses applications vont en se diversifiant La plupart d’entre elles, des plus simples tion d’orthographe, indexation automatique, extraction de termes) aux plus ambitieuses(résumé, traduction automatique, génération de textes), ont besoin d’un composant syn-taxique

(correc-Nous concevons le composant syntaxique comme un module commun pour des cations diverses, qui peut être constitué de fa¸con indépendante du domaine d’application,

appli-et de la nature de l’application visée

Les traitements automatiques nécessitent des dictionnaires et des grammaires niques d’une précision et d’une exhaustivité non imaginées jusque-là

électro-De nos jours, un nombre important de grammaires électroniques à large couvertureont vu le jour pour des langues comme l’anglais, le fran¸cais ou l’allemand On peut citerpour l’anglais et le fran¸cais, quelques projets comme :

– le projet Alvey, basé sur HPSG (la grammaire syntagmatique guidée par les têtes –Head-driven Phrase Structure Grammar) en Grande-Bretagne ([17]),

– le projet ParGram de grammaires multilingues parallèles, basé sur LFG (la maire lexicale fonctionnelle – Lexical Functional Grammar ), chez Xerox ([14]),– le projet XTAG, basé sur les TAG (la grammaire d’arbres adjoints – Tree AdjoiningGrammar), à l’Université de Pennsylvanie ([16]),

gram-– le projet FTAG, basé sur TAG, à l’Université Paris 7 ([3]),

– le projet Lingo, basé sur HPSG, au centre CSLI de Stanford ([15]),

Il n’en reste pas moins que pour le vietnamien, il n’existe pas à notre connaissance degrammaire électronique à large couverture réalisée Ce rapport s’intéresse à la constructiond’une telle grammaire pour le vietnamien dans le paradigme d’une grammaire fortementlexicalisée En effet, nous présentons une grammaire d’arbres adjoints lexicalisée de taillemoyenne pour le vietnamien

Les grammaires fortement lexicalisées comme les grammaires d’arbres adjoints sontissues d’une évolution de la réflexion en linguistique formelle et en théorie des langages,d’une part, et autorisent un traitement informatique relativement efficace de l’analyse

3

Trang 14

syntaxique, d’autre part Le modèle des grammaires d’arbres adjoints fait partie des maires d’unification en ce qu’il s’appuie sur des représentations linguistiques déclaratives

gram-et monotones, vise à une description directe des phénomènes de surface, gram-et utilise desstructures de traits combinées par unification Il est basé sur des définitions mathéma-tiques rigoureuses et a des propriétés informatiques intéressantes

l’am-L’INRIA, institut national de recherche en informatique et en automatique placé sous

la double tutelle des ministères de la recherche et de l’industrie, a pour vocation treprendre des recherches fondamentales et appliquées dans les domaines des sciences ettechnologies de l’information et de la communication (STIC) L’institut assure également

d’en-un fort transfert technologique en accordant d’en-une grande attention à la formation par larecherche, à la diffusion de l’information scientifique et technique, à la valorisation, àl’expertise et à la participation à des programmes internationaux Jouant un rôle fédé-rateur au sein de la communauté scientifique de son domaine et au contact des acteursindustriels, l’INRIA est un acteur majeur dans le développement des STIC en France.L’INRIA est actif au sein d’instances de normalisation comme l’IETF, l’ISO ou leW3C dont il a été le pilote européen de 1995 à fin 2002

L’INRIA accueille dans ses 6 unités de recherche situées à Rocquencourt, Rennes, phia Antipolis, Grenoble, Nancy et Bordeaux, Lille, Saclay et sur d’autres sites à Paris,Marseille, Lyon et Metz, 3500 personnes dont 2700 scientifiques, issus d’organismes par-tenaires de l’INRIA (CNRS, universités, grandes écoles) qui travaillent dans plus de 120projets (ou équipes) de recherche communs

So-Le LORIA, Laboratoire Lorrain de Recherche en Informatique et ses Applications1,est une Unité Mixte de Recherche - UMR 7503 - commune à plusieurs établissements :– CNRS, Centre National de Recherche Scientifique,

– INPL, Institut National Polytechnique de Lorraine,

– INRIA, Institut National de Recherche en Informatique et en Automatique,

– UHP, Université Henri Poincaré, Nancy 1,

– Nancy 2, Université Nancy 2

La création de cette unité a été officialisée le 19 décembre 1997 par la signature ducontrat quadriennal avec le Ministère de l’Education Nationale, de la Recherche et de laTechnologie et par une convention entre les cinq partenaires Cette unité, renouvelée en

2001, succède ainsi au CRIN (Centre de Recherche en Informatique de Nancy), et associeles équipes communes entre celui-ci et l’Unité de Recherche INRIA Lorraine

Le LORIA est un Laboratoire de plus de 450 personnes parmi lesquelles

1

http ://www.loria.fr

Trang 15

– 150 chercheurs et enseignants-chercheurs,

– un tiers de doctorants et post doctorants,

– des ingénieurs, techniciens et personnels administratifs,

organisé en équipes de recherche et services de soutien à la recherche

L’objectif du projet Langue et Dialogue du LORIA est de définir des modèles et destechniques permettant de mettre en œuvre à court, moyen ou long terme des systèmes dedialogue homme machine finalisés reposant sur une forte composante langagière Dans cecadre, notre activité se développe dans trois directions complémentaires :

– l’étude des mécanismes fondamentaux de la communication en langue naturelle seule

ou accompagnée d’une désignation gestuelle (dialogue multimodal) Cette recherches’effectue dans un contexte pluridisciplinaire alliant linguistique et informatiqueprincipalement ;

– la réalisation de systèmes de dialogue effectifs dans le cadre notamment de borations industrielles Cette activité nous permet par ailleurs de disposer d’uneplateforme d’expérimentation pour la validation des différents modèles que nousconcevons ;

colla-– la définition d’outils et de méthodes génériques permettant d’étudier de fa¸con finedes situations de dialogues réels, issus de la transcription d’expériences de simulation

ou d’observations directes Ce travail s’appuie sur une expérience acquise depuisplusieurs années sur la normalisation et la manipulation de ressources linguistiques(en particulier des « corpus »)

Dans le cadre du stage, tout d’abord, nous avons fait des recherches au sujet duformalisme de la grammaire d’arbres adjoints Nous avons dirigé notre attention sur labibliographie et l’état de l’art du domaine syntaxique, ó le formalisme TAG joue un rơleimportant dans l’évolution du domaine de traitement automatique des langages naturels.Ensuite, nous avons réaliséé à la fois des études sur la grammaire vietnamienne et sur

le développement d’un logiciel d’analyse de la grammaire d’arbres adjoints du fran¸cais (lelogiciel LLP2) En effet, ce logiciel a été développé au sein de l’équipe Langue et Dialogue

du LORIA depuis 1999, et certains de ses modules ne se conforment pas au standardinternational pour la représentation, l’échange, et l’archivage des ressources linguistiques

en raison de la disponibilité récente du standard ISO en 2004

Puis, nous avons développé les modules d’analyse pour le vietnamien et intégré cesmodules au logiciel LLP2 Nous avons également construit un jeu de phrases de test pourl’analyseur en se basant sur la grammaire vietnamienne

Enfin, nous avons effectué des évaluations de l’analyseur en donnant les résultatsobtenus

Trang 16

1.4 Aper¸cu du mémoire

Ce mémoire est divisé en quatre chapitres : une introduction générale, une tion à la grammaire d’arbres adjoints, une proposition et une implémentation de cetteproposition

introduc-Le premier chapitre présente des informations générales concernant le stage que nousavons effectué

Le deuxième chapitre introduit la grammaire d’arbres adjoints telle qu’elle est utiliséeclassiquement de nos jours en linguistique informatique Il comporte aussi un panoramaconséquent de l’évolution historique des traitements accordés au lexique depuis des annéessoixante jusqu’aux propositions basées sur des règles lexicales propres à la grammaired’arbres adjoints

Le troisième chapitre donne notre proposition d’une grammaire électronique pour levietnamien en se basant au formalisme LTAG

Le quatrième chapitre a pour vocation d’implémenter la grammaire ainsi proposée.Nous y présentons le format standard TAGML pour la description des ressources linguis-tiques pour le traitement informatique et les résultats obtenus

Le dernier chapitre constitue la conclusion et les perspectives de ce travail Par ailleurs,nous proposons une méthodologie de développement grammatical pour le vietnamien dans

le futur

Trang 17

Chapitre 2

La grammaire d’arbres adjoints

Ce chapitre introduit la grammaire d’arbres adjoints ([2], [4], [5]) La grammaired’arbres adjoints (en anglais Tree Adjoining Grammar, ou TAG) est un système de com-position d’arbres destiné principalement à l’analyse syntaxique automatique de la languenaturelle

La grammaire d’arbres adjoints a été définie comme modèle mathématique au milieudes années soixante-dix ([19]) Il s’agissait d’une extension des grammaires en chaˆıne uti-lisées pour formaliser les théories de Z Harris (1962) Une des motivations principalesdes ses auteurs était de définir un système linguistiquement motivé à la capacité géné-rative plus contrainte que celle des grammaires transformationnelles La définition de lagrammaire d’arbres adjoints comme modèle linguistique complet est récente et s’est fait

en plusieurs étapes, avec des travaux formels ([4],[20],[24]), syntaxiques ([3],[8],[6],[16]) etsémantiques ([23])

Ce modèle tire son nom de l’utilisation d’arbres élémentaires (et non de règles deréécriture) comme unités de base associées aux items lexicaux, qu’il combine par deuxopérations : la substitution et l’adjonction, la seconde lui étant spécifique Il repose sur

le codage lexical de nombreuses informations et systématise cette tandence en définissantdes grammaires entièrement « lexicalisées »

Une grammaire d’arbres adjoints est un ensemble fini d’arbres élémentaires combinéspar deux opérations : la substitution et l’adjonction Dans une grammaire d’arbres adjointslexicalisée, tout arbre élémentaire a au moins un de ses nœuds feuilles occupé par un itemlexical qui lui sert de « tête » ([24]) On dit aussi que l’item lexical « ancre »cet arbreélémentaire

Nous commencerons par une présentation générale de la TAG Puis nous examinonsdes exemples de la grammaire fran¸caise pour illustrer les concepts abordés Ensuite, nousdiscutons l’usage et la motivation de la grammaire d’arbres adjoints Finalement, nousprésentons les aspects informatiques d’un système TAG

7

Trang 18

2.1 Système formel

Définition 2.1 (Grammaire d’arbres adjoints) Une grammaire d’arbres adjoints est

un système de composition d’arbres défini par :

1 le quintuple < ltVN, VT, S, I, A > ó :

– VN est un ensemble fini de symboles, les non-terminaux ;

– VT est un ensemble fini de symboles, les terminaux ;

– S ∈ VN est l’axiome ;

– I est un ensemble d’arbres initiaux Un arbre initial est un arbre dont les nœudsnon-feuilles sont étiquetés par des non-terminaux et dont les nœuds feuilles sontétiquetés par des terminaux ou des non-terminaux Les nœuds feuilles étiquetéspar des non-terminaux sont appelés nœuds de substitution et sont habituellementmarqués par le symbole ↓ ;

– A est un ensemble d’arbres auxiliaires Un arbre auxiliaire est un arbre dont lesnœuds non-feuilles sont étiquetés par des non-terminaux Tout arbre auxiliairepossède un nœud pied Un nœud pied est un nœud feuille étiqueté par un non-terminal de catégorie identique à la racine et marqué par le symbole ∗ Les autresnœuds feuilles sont soit des nœuds de substitution soit étiquetés par des terminaux

De plus, I ∪ A forme l’ensemble des arbres élémentaires La composition de deuxarbres élémentaires donne pour résultat un arbre dérivé

2 et les deux opérations de composition suivantes :

– La substitution est une opération qui consiste à remplacer un nœud de substitutionétiqueté par la catégorie X par un arbre élémentaire ou dérivé dont la racine estétiquetée par X La substitution de l’arbre α dans l’arbre β produit un nouvelarbre dérivé, γ

– L’adjonction est une opération qui consiste à insérer un arbre auxiliaire β dans

un arbre α de manière à produire le nouvel arbre γ Soit le nœud n2 de α étiqueté

X et β dont le nœud racine est également étiqueté par X γ est construit de lamanière suivante :

– Le sous-arbre t de α dominé par n est enlevé de α

– L’arbre auxiliaire β est inséré sous n La racine de β est identifiée avec n.– Le sous-arbre t est inséré sous le nœud pied de β La racine de t, qui est unecopie de n, est identifiée avec le nœud pied de β

De plus, l’adjonction est interdite sur les nœuds de substitution Autrement dit,

n ne peut être marqué pour la substitution

L’adjonction est schématisée en Figure 2.1

2

Ce nœud est parfois appelé nœud site de l’adjonction.

Trang 19

(α)

X =⇒

(γ)XXFig 2.1 – Schéma général de l’adjonction

Arbres élémentaires

La figure 2.2 donne quelques exemples d’arbres élémentaires pour le fran¸cais Lesarbres initiaux sont utilisés pour la représentation des noms propres ou communs, desverbes intransitifs ou transitifs à complément nominal ou prépositionnel (Figure 2.2)

(α1)

N

Jean

(α2)Nmaison

(α3)S

N0 ↓ V

dort

(α4)S

N0 ↓ Vaime

N1 ↓Fig 2.2 – Exemples d’arbres initiaux

Les arbres auxiliaires sont utilisés pour la représentation des modifieurs (adjectifs,adverbes, relatives), des verbes à complétives, des verbes modaux et des auxiliaires (Figure2.3)

(β1)NAbelle

N ∗

(β2)V

V ∗ Adv

beaucoup

(β3)S

N0 ↓ Vveut

S1∗

(β4)VVpeut

V ∗Fig 2.3 – Exemples d’arbres auxiliaires

Trang 20

Les arbres élémentaires correspondent à des structures argumentales complètes : unprédicat « ancre »un (ou plusieurs) arbre élémentaire comportant au moins un nœud pourchacun de ses arguments (sous forme de nœuds à substitution ou de nœud pied) L’arbre

α4 comprend les nœuds N0 ou N1 pour le sujet et le complément de aime, l’arbre β3 lesnœuds N0 et S1∗ pour le sujet et le complément de veut

Substitution et adjonction

Les arbres dérivés résultent de la combinaison (la substitution ou l’adjonction) deplusieurs arbres élémentaires L’arbre dérivé γ est toujours du même type (initial ouauxiliaire) que l’arbres ó a lieu l’adjonction ou la substitution

Un exemple de substitution est l’insertion d’un groupe nominal en position sujet dans

un arbre phrastique (Figure 2.4)

(α1)NJean

(α3)S

N0 ↓ V

dort

=⇒ (γ)S

N0Jean

VdortFig 2.4 – Exemple de substitution

Le nœud feuille N0 de l’arbre α3 associé à dort est remplacé par l’arbre initial α1

correspondant à Jean

Un exemple d’adjonction est l’insertion de l’arbre auxiliaire β2, correspondant à verbe beaucoup, au nœud intérieur V de l’arbre α3 (Figure 2.5)

l’ad-(α3)S

N0 ↓ Vdort

(β2)V

V ∗ Advbeaucoup

=⇒ (γ2)S

N0 VVdort

AdvbeaucoupFig 2.5 – Exemple d’adjonction

Le nœud intérieur V de l’arbre initial α3 associé à dort est remplacé par l’arbre liaire β2 correspondant à l’adverbe beaucoup Le sous-arbre dominé par V dans α3, iciréduit au nœud feuille dort, est recopié sous le nœud pied V ∗

auxi-Si le nœud ó a lieu l’adjonction est un nœud racine, on obtient la même structurerésultante qu’avec l’opération de substitution, mais pas le même arbre de dérivation.L’arbre élémentaire dominant dans l’arbre de dérivation est, dans un cas, celui qui re¸coit

Trang 21

la substitution, et dans l’autre, celui qui re¸coit l’adjonction Si l’on considère que lesrelations de dominance dans l’arbre de dérivation reflètent des dépendances sémantiques,

on peut se servir de l’alternative entre substitution et adjonction pour faire la différence,par exemple, entre les constructions N1 Prep N2 ó c’est le premier nom qui domine(sémantiquement) et celles ó c’est le second

Prenons l’exemple des deux expressions verre à vin et verre de vin La première désigne

un type de verre, tandis que la seconde désigne une certaine quantité de vin Cette rence sémantique se retrouve au niveau distributionnel : verre de vin a même distributionque vin, tandis que verre à vin a la distribution de verre :

diffé-– J’ai bu du vin / un verre de vin / ? ? un verre à vin

– J’ai cassé un verre / ? ? un verre de vin / un verre à vin

On choisit de représenter l’expression verre à N par un arbre initial (1) et verre de Npar un arbre auxiliaire (2) (Figure 2.6)

(1) - verre à

NNverre

SP

à N ↓

(2) - verre de

NNverre

SP

de N ∗

(3) - vin

Nvin

Fig 2.6 – Arbre initial ou arbre auxiliaire

L’arbre associé à verre de N s’adjoint au nœud racine de l’arbre (3) correspondant àvin, tandis que l’arbre de verre à N re¸coit, lui, à la substitution à son nœud feuille N

de l’arbre de vin La structure syntagmatique associée aux deux séquences verre à vin

et verre de vin est la même, ce que montrent bien les arbres dérivés En revanche, lesrelations de dépendance, manifestes dans les schémas de dérivation, sont inversées : laséquence verre à vin est dérivée à partir de l’arbre initial associé à verre à N, tandis que

la séquence verre de vin est dérivée à partir de l’arbre associé à vin, qui re¸coit l’adjonction

de l’arbre associé à verre de N (Figure 2.7)

Arbre dérivé

NNverre

(3)(1)

Fig 2.7 – Arbre dérivé et dérivations pour verre à vin / verre de vin

Les deux opérations de combinaison présentent d’autres différences La substitutionest toujours obligatoire, à un nœud non terminal marqué comme tel L’adjonction est

Trang 22

en général facultative mais peut-être marquée comme obligatoire ou comme interdite parl’ajout de contraintes spécifiques (cf 2.1.4) La substitution a lieu une fois ; l’adjonction est

un opération réitérable et créatrice d’enchâssements Un arbre auxiliaire peut s’adjoindre

à lui-même (au nœud racine ou à tout nœud intérieur de même catégorie) L’opérationd’adjonction rend les grammaires TAG plus puissantes que les grammaires hors contexte

et les place dans le groupe des grammaires « légèrement »contextuelles

Un arbre dérivé est obtenu par une suite d’opérations de combinaisons mettant en jeudes arbres élémentaires ou dérivés Cependant, pour un arbre dérivé donné, il n’est paspossible de déterminer rétrospectivement la manière exacte dont il a été produit Pour cefaire, en TAG, on introduit l’arbre de dérivation, la structure associée à l’arbre de dérivéqui est une trace explicite des opérations ayant servi à engendrer cet arbre dérivé

Chacun des nœuds de l’arbre de dérivation représente un arbre élémentaire, les arcsreprésentent la manière dont ces arbres sont combinés A la racine de l’arbre de dériva-tion se trouve l’arbre initial (de racine phrastique) à partir duquel la phrase est dérivée.Les autres nœuds portent des couples - arbre élémentaire et adresse du nœud de l’arbresupérieur ó cet arbre a été inséré

Les adresses sont notées selon la convention de Gorn : 0 pour la racine et, pour lesautres nœuds, concaténation de l’adresse du nœud supérieur avec le rang du nœud Lesnœuds immédiatement dominés par la racine ont les adresses 1, 2, .de gauche à droite ;les nœuds immédiatement dominés par le nœud 1 ont les adresses 1.1, 1.2, etc Pourfaciliter les calculs, les adresses sont celles des nœuds dans les arbres élémentaires et nondans l’arbres dérivé

Un arc plein indique que l’arbre fils a été adjoint sur l’arbre père ; un arc pointilléindique que l’arbre fils a été substitué sur l’arbre père L’adresse du nœud sur lequel a

eu lieu l’opération est indiquée sur l’arbre fils Ainsi, en Figure 2.8, α1 est substitué àl’adresse 1 de α3

(α1)

NJean

(α3)S

N ↓ V

dort

(β5)VVsemble

V ∗

(β2)V

V ∗ Advbeaucoup

Trang 23

L’arbre de dérivation se construit comme illustré en Figure 2.8 La combinaison desarbres engendre la phrase Jean semble dort beaucoup comme illustré en Figure 2.8 Danscet exemple, l’arbre α3 sert de point de départ à la dérivation, car son nœud racine estétiqueté par l’axiome de la grammaire, S L’arbre de dérivation indique que :

– α1 est substitué sur le nœud d’adresse 1 de α3,

– β5 est adjoint sur le nœud d’adresse 2 de α3,

– β2 est adjoint sur le nœud d’adresse 0 de β5

TAG interdit d’adjoindre deux arbres auxiliaires sur le même nœud Cela permet depréserver un arbre de dérivation non ambigu A titre d’illustration, supposons que l’onadjoigne β5 et β2 sur le nœud d’adresse 2 de α3 L’arbre de dérivation résultant estambigu car il ne renseigne pas l’ordre dans lequel les opérations ont lieu Ainsi cet arbre

de dérivation permet – dans ce cas-ci – d’engendrer deux arbres dérivés différents

Une définition alternative de la dérivation TAG est proposée par ([27]) dans laquelle

il est possible d’opérer plusieurs adjonctions sur un même nœud, en ajoutant dans l’arbre

de dérivation l’ordre dans lequel les opérations sont réalisées3 A notre connaissance, cettevariante demeure relativement peu utilisée dans les implémentations Dans notre cadre,nous utilisons la version standard de la dérivation

La grammaire d’arbres adjoints est enrichie d’un mécanisme supplémentaire tant de contraindre l’adjonction Jusqu’à présent, nous avons vu que d’une part, l’adjonc-tion ne peut avoir lieu que sur un nœud de catégorie identique à celle de la racine et dunœud pied de l’arbre auxiliaire à adjoindre et que d’autre part, il est interdit d’adjoindresur un nœud de substitution TAG permet en outre d’associer à chaque nœud d’un arbreune des trois contraintes supplémentaire suivantes :

permet-– Contrainte d’adjonction obligatoire (AO) Le nœud auquel est associé cette contraintedoit obligatoirement servir de site à une adjonction

– Contrainte d’adjonction interdite (AI) Le nœud auquel est associé cette contrainte

ne peut servir de site à une adjonction

– Contrainte d’adjonction sélective (AS) Le nœud auquel est associé cette contraintesélectionne un sous-ensemble d’arbres auxiliaires autorisés à s’adjoindre sur ce nœud.Nous verrons ci-dessous que l’usage de TAG avec structures de traits permet de repré-senter les contraintes d’adjonction obligatoire et d’adjonction sélective, mais ne permetpas de représenter la contrainte d’adjonction interdite Dans la suite de ce texte, ó nousutilisons TAG augmenté de structures de traits, nous utiliserons la notation indicée NApour indiquer qu’un nœud est associé à la contrainte d’adjonction interdite

Trang 24

TAG TG est l’ensemble de tous les arbres dérivés complets engendrés par G Le langageengendré par G, L(G), est l’ensemble des chaˆınes définies par le feuillage4 de chacun desarbres de TG.

SN A

a S

b S∗N A

cd

Classe de langage de TAG

La classe de langages engendrée par une grammaire d’arbres adjoints (Tree AdjoiningLanguages) comprend la classe des langages hors contexte5 ainsi que des langages quisont traditionnellement considérés comme des langages contextuels, comme le langage

anbncndn (Figure 2.9) et un fragment du langage copie6

On peut montrer qu’aucune TAG n’engendre le langage an

Lexicalisation d’une grammaire hors contexte

TAG est un résultat important en théorie des langages dans la mesure ó il est tré qu’il permet de lexicaliser fortement une grammaire hors contexte finiment ambigu¨e8

démon-en préservant sa capacité générative forte

Un formalisme fortement lexicalisé est un formalise constitué :

– d’un ensemble fini de structures finies dans lequel chaque structure est associée à

un élément lexical, et

– muni d’une ou plusieurs opérations de composition

Les grammaires d’arbres adjoints et les grammaires catégorielles appartiennent à cetteclasse de formalismes

La lexicalisation d’un formalisme se définit comme suit : un formalisme F se lexicalisepar un formalisme F0

si pour toute grammaire G définie dans F on peut trouver une

4

En anglais yield

5

On peut montrer que les grammaires hors contexte engendrent le langage a n b n

mais pas le langage

a n b n c n

Une grammaire hors contexte qui engendre a n b n

comprend les deux règles suivantes : S → a S b

Trang 25

.Une autre manière de lexicaliser une grammaire hors contexte est de procéder parextension du domaine de localité des unités de la grammaire Sous l’œil de la capacitégénérative forte, on réinterprète une grammaire hors contexte comme un mécanisme quiassemble des arbres partiels de profondeur 1.

Ainsi, les règles de grammaires suivantes :

S → NP VP

VP → V NP

V → mangeseront respectivement interprétées par les arbres suivants :

Sous cet angle, une manière de lexicaliser une grammaire hors contexte en vant sa capacité générative forte consiste à autoriser l’utilisation d’arbres de profondeurquelconque (≥ 1) comme unité de base de la grammaire Un tel système s’appelle unegrammaire de substitution d’arbres

préser-Définition 2.2 (Grammaire de substitution d’arbres) Une grammaire de tion d’arbres est définie par le quadruple < VN, VT, S, A >, ó :

substitu-– VN est le vocabulaire non-terminal,

– VT est le vocabulaire terminal,

– S ∈ VN est l’axiome,

– A est un ensemble d’arbres dont les nœuds feuilles sont étiquetés par des naux ou des non-terminaux, les nœuds feuilles étiquetés par des non-terminaux sontappelés nœuds de substitution Les nœuds non-feuilles sont étiquetés par des non-terminaux,

termi-– et une opération de combinaison sur les arbres, la substitution, qui est définie demanière identique à la substitution d’une TAG

De plus, une grammaire de substitution d’arbres lexicalisée est une grammaire desubstitution d’arbres dans laquelle tout arbre comprend au moins un nœud feuille étiquetépar un terminal

Insuffisance des grammaires de substitution d’arbres pour la lexicalisationd’une grammaire hors contexte

Trang 26

S’il est évident qu’une grammaire de substitution d’arbres lexicalisée engendre unlangage hors contexte, on peut cependant démontrer que toute grammaire hors contexte

ne se lexicalise pas par une grammaire de substitution d’arbres lexicalisée ([5]) Le contreexemple est le suivant :

S → S S

S → aCette grammaire engendre la chaˆıne aaaa comme illustré par l’arbre suivant

SSa

Sa

SSa

Sa

A titre d’illustration, la grammaire de substitution d’arbres suivante :

Sa

SSa

S↓

SSaS↓

ne permet pas d’engendrer l’arbre (1) La preuve que les grammaires de substitutiond’arbres ne permettent pas de lexicaliser une grammaire de réécriture s’établit de la ma-nière suivante :la racine de l’arbre dérivé est aussi la racine d’un arbre élémentaire Il y

a un chemin entre la racine et une feuille (l’ancre) de cet arbre élémentaire appelé épinedorsale de l’arbre Etant donné que l’arbre dérivé peut avoir une hauteur arbitraire, ilfaudrait disposer d’arbres élémentaires dotés d’une épine dorsale de longueur arbitraire.Autrement dit, il en faudrait une infinité Or une grammaire comprend par définition unnombre fini d’unités

Lexicalisation d’une grammaire hors contexte par une TAG

Une grammaire d’arbres adjoints utilise l’opération d’adjonction Joshi et Schabes ([5])montrent que l’adjonction permet en effet de lexicaliser fortement une grammaire horscontexte

Ainsi la grammaire d’arbres adjoints suivante :

Trang 27

SSaS∗

permet d’engendrer l’arbre (1)

La preuve que toute grammaire hors contexte se lexicalise par une grammaire d’arbresadjoints est établie par Joshi et Schabes ([5]) L’institution est que pour obtenir l’arbre(1) il est nécessaire de disposer d’une opération qui permet d’insérer un arbre dans unautre (adjonction) Pour s’en rendre compte, voyons les dérivations successives qui nousamènent à (1) :

Sa

2

⇒ S

SSa

Sa

3

SSa

Sa

SSa

la classe des langages hors contexte

Diverses extensions à la grammaire d’arbres adjoints sont utilisées, comme par exemplemulticomponent TAG (MC-TAG) et TAG avec structures de traits Feature-Based TAG(FB-TAG) Dans cette section, nous nous intéressons uniquement aux TAG avec structures

Trang 28

de traits bottom Le trait top code des informations qui ont besoin de filtrer à traversl’arbre ó l’adjonction a lieu Au contraire, le trait bottom code des informations quirestent locales au nœud ó l’adjonction a lieu Traditionnellement, les structures de traitsassociées aux nœuds sont atomiques.

Dans le cadre FB-TAG, un arbre dérivé complet est valide si l’unification des structures

de traits top et bottom est définie pour chacun des nœuds de l’arbre

TAG augmenté de structures de traits fonctionne en deux étapes :

1 lors de la construction de l’arbre dérivé, les traits top et bottom sont propagés ;

2 lorsqu’un arbre dérivé complet est obtenu, l’unification des traits top et bottom estopérée

Propagation Nous commen¸cons par détailler la propagation des traits En ce qui concerne

la substitution (Figure 2.10), le trait top du nœud de substitution est unifié avec le traittop de l’arbre substitué

Xt

b

Fig 2.10 – Substitution avec structures de traits

Dans le cas de l’adjonction (Figure 2.11), appelons n le nœud d’un arbre α qui sert

de site à l’adjonction et r, p respectivement la racine et le nœud pied de l’arbre auxiliaire

La propagation des traits des traits se fait comme suit :

1 Le trait top de n est unifié avec le trait top de r

2 Le trait bottom de n est unifié avec le trait bottom de p

L’intuition derrière la bipartition en structures de traits top et bottom est que jonction a pour effet d’insérer un arbre β sur le nœud n d’un arbre α Ce nœud est vucomme divisé en deux, l’arbre β venant s’insérer entre les deux parties La partie top de

l’ad-n est identifiée avec la racine de β et la partie bottom de n est identifiée avec le nœudpied de β

Unification L’arbre dérivé étant obtenu et les traits étant propagés, les traits top etbottom de chaque nœud sont alors unifiés Il est à noter que les variables d’unification ontportée sur la totalité de l’arbre élémentaire

L’unification en Figure 2.12 est bien valide (on utilise comme convention que ’ ?’ troduit un nom de variable)

in-Feature-based TAG et contraintes d’unification

Nous avons vu que TAG autorise trois types de contraintes sur l’adjonction : adjonctionobligatoire, adjonction sélective, et adjonction interdite L’usage de structures de traitspermet de représenter facilement les deux premières contraintes :

Trang 29

Fig 2.12 – Unification des traits

– L’adjonction obligatoire s’exprime en spécifiant des valeurs de traits incompatiblessur les traits top et bottom d’un même nœud La seule possibilité pour qu’unarbre dérivé valide soit engendré à partir d’une telle configuration consiste bien àadjoindre un arbre auxiliaire sur ce nœud

– L’adjonction sélective s’exprime simplement en spécifiant des traits en amont ou enaval d’un nœud donné Les arbres auxiliaires autorisés à s’adjoindre sur ce nœudsont ceux dont les traits spécifiés sur la racine (resp le pied) sont compatibles avec

le trait top (resp bottom ) de ce nœud

Le cas de l’adjonction interdite est plus problématique Une manière de faire est despécifier un trait dont l’unification échouerait avec tout autre trait de la grammaire ([3])

TAG est un système qui est essentiellement utilisé de décrire la syntaxe des languesnaturelles dans un cadre de traitement automatique Dans cette section, nous exposons lesraisons qui nous conduisent à utiliser ce système pour l’analyse syntaxique plutôt qu’unegrammaire de réécriture classique

Depuis la fin des années 60, les grammaires hors contexte sont utilisées en linguistiqueformelle pour modéliser la structure des phrases En effet, les grammaires hors contextepermettent de modéliser :

– la manière dont les mots sont groupés, et

– la manière dont les mots sont ordonnés

Si les grammaires hors contexte sont introduites par Chomsky à cette fin, c’est parce que

Trang 30

l’histoire de la dérivation d’une chaˆıne donnée se représente à l’aide d’un arbre qui permetd’identifier la manière dont la grammaire regroupe les mots de la phrase.

De par la nature des structures qui sont manipulées, TAG préserve cette tique des grammaires hors contexte De plus, comme on l’a vu en section précédente, unegrammaire TAG permet d’exprimer une grammaire fortement lexicalisée équivalente àune grammaire hors contexte Ainsi, une grammaire d’arbres adjoints lexicalisée (LTAG)

caractéris-se définit comme suit9

Définition 2.3 (Grammaires d’arbres adjoints lexicalisée) Une grammaire d’arbresadjoints lexicalisée (LTAG) est une grammaire d’arbres adjoints dans laquelle tout arbreélémentaire possède au moins un nœud feuille de catégorie terminale

La lexicalisation intégrale de TAG est ce qui fait sont intérêt majeur pour son usage

en syntaxe Dans divers cadres théoriques et formels, la lexicalisation forte est souventpréconisée Les raisons qui motivent l’approche lexicaliste sont toutefois très nombreuses.Dans ce qui suit, nous nous limiterons à donner les raisons les plus évidentes qui poussent

à la lexicalisation de la grammaire dans le cas spécifique de TAG Celles-ci sont au nombre

de quatre

1 Les grammaires TAG possèdent un domaine de localité étendu

2 Les grammaires TAG permettent d’exprimer les composants grammaticales sives hors du domaine de localité

récur-3 Les grammaires TAG permettent de rendre compte des exceptions de tion

transforma-4 Les grammaires TAG permettent une représentation efficace des expressions figées

et semi-figées

Les raisons 1 et 2 sont motivées essentiellement par des considérations formelles Elles mettent d’obtenir par exemple un traitement élégant des dépendances à longue distance.Les raisons 3 et 4 sont motivées par des considérations linguistiques : peu de systèmes des-tinés à l’analyse syntaxique sont capables de gérer les expressions semi-figées de manièreéquivalente

Dans une grammaire hors contexte, le domaine de localité est un arbre de profondeur

1 correspondant à une règle de la grammaire On dit d’une grammaire d’arbres adjointsqu’elle a un domaine de localité étendu dans la mesure ó les blocs (arbres élémentaires)qui servent à construire l’arbre d’analyse syntaxique (l’arbre dérivé) ont une profondeurquelconque, normalement supérieure à 1

L’extension du domaine de localité a surtout un intérêt pratique L’extension du maine de localité permet d’éviter la propagation de traits Pour exprimer l’accord sujet– verbe (du fran¸cais, par exemple), une grammaire hors contexte augmentée de traitsexprime la contrainte de manière indirecte Ainsi, les règles :

do-9

Par la suite, nous utilisons indifféremment les abréviations TAG ou LTAG.

Trang 31

Le traitement des dépendances à longue distance est une question formelle qui a temps fait croire que l’usage de transformations était nécessaire en syntaxe pour rendrecompte de ce phénomène Une solution directe à ce problème est donnée dans le cadre de

long-la grammaire TAG par Kroch et Joshi ([4])

Les dépendances à longue distance recouvrent les cas ó un dépendant du verbe seréalise à une distance arbitrairement éloignée du verbe Il s’agit d’un éloignement entermes de niveaux d’enchâssement dans la structure Dans l’exemple suivant, le pronomrelatif que est dépendant du verbe cueillir On constate que le verbe dont le pronomrelatif dépend est réalisé à un niveau d’enchâssement quelconque, et potentiellement nonborné

1 Jean cueille une fleur

2 La fleur [que Jean cueille]

3 La fleur [que Pierre pense [que Jean cueille]]

4 La fleur [que Pierre pense [que Marie lui a dit [que Jean cueille]]]

Trang 32

NN∗ S

N↓ SN↓ V

cueille

SN↓ V

pense

SCque

S∗

NN∗ SN↓ SN↓ Vpense

SCque

SN↓ V

cueilleFig 2.13 – Expression des dépendances à longue distance

Trang 33

Intuitivement on voit que l’on peut insérer entre le pronom relatif que et la propositionJean cueille un nombre quelconque de propositions de type Pierre pense que L’analyse deTAG ([4]) se fonde sur cette observation Le traitement des dépendances à longue distances’exprime comme indiqué en Figure 2.13.

L’originalité du traitement des dépendances à longue distance réalisé en TAG est qu’ilpermet d’exprimer dans un même domaine de localité – l’arbre élémentaire – un prédicat

et son argument extrait Les structures exprimant le caractère récursif de la grammaire –les arbres auxiliaires10 – sont exprimées indépendamment et insérées au sein de cet arbreélémentaire

Une grammaire d’arbres adjoints représente une approche lexicalisée Dans cette lignecela donne un cadre pour le traitement des exceptions aux transformations En effet, unegrammaire transformationnelle représente le passif par une transformation syntaxique,c’est-à-dire par un mécanisme régulier qui, appliqué à uns structure syntaxique, produit

la structure transformée Dans une grammaire générative, il est assez naturel de nir la transformation passive comme une opération qui s’applique à toute configurationtransitive pour produire la configuration passive De telle sorte qu’on dérive tout aussinaturellement par transformation Quelques exemples du fran¸cais sont :

défi-– Jean mange une pomme ⇒ Une pomme est mangée par Jean

– Le rapport comporte cinq chapitres ⇒ Cinq chapitres sont comportés par le port( ?)

rap-Ce type d’exceptions est très fréquent en anglais et en fran¸cais

Dans une grammaire d’arbres adjoints, il n’y a pas de transformation Pour exprimer

le contraste relevé des phrases ci-dessus, on définira pour manger les arbres représentantles constructions actives et passives, alors que pour comporter, on ne lui associera quel’arbre de contexte actif

semi-figées

Les grammaires d’arbres adjoints permettent une représentation originale des nomènes non compositionnels, qui leur conserve une structure interne et des propriétéssyntaxiques régulières ([1]) Nous appelons « figées »des phrases soit totalement idioma-tiques, telle N casser sa pipe, soit dont la combinatoire (par substitution synonymique)

phé-se bloque de fa¸con imprévisible : N mange phé-ses mots/ # N mange phé-ses paroles.11, ce quiinclut dans notre définition certaines métaphores ([3])

Trang 34

2.3 Aspects informatiques

L’implantation de référence du système TAG, XTAG ([16]) a été réalisée à l’université

de Pennsylvanie Cette implantation comporte essentiellement deux composantes : unanalyseur syntaxique et un système de représentation du lexique D’autres composantesoptionnelles sont utilisées pour améliorer les performances ou les résultats de l’analysesyntaxique, comme le supertagger qui permet de désambigu¨ıser la chaˆıne d’entrée donnée

au processus d’analyse Elles ne sont pas détaillées ici

Pour le traitement de la langue naturelle, les grammaires utilisées sont ambigu¨es Lesalgorithmes tabulaires d’analyse syntaxique préservant l’ambigu¨ıté pour les grammaireshors contexte (CYK et Early) sont assez anciens et biens connus Le temps d’exécutiondes algorithmes tabulaires est de l’ordre de O(G2n3), ó G est la taille de la grammaire

et n le nombre de mots de la phrase à analyser

Pour la grammaire d’arbres adjoints, les algorithmes tabulaires (ascendants, dants, mixtes) ont été adaptés ([24],[25]) On dispose aujourd’hui de divers algorithmesdont la complexité d’analyse en temps est O(G2n6) L’implantation dans le système XTAGest celle de Sarkar ([7]) D’autres implantations existent en France :

descen-1 le système de programmation logique DyALog de Villemonte de la Clergerie, 1993([12]) ;

2 l’analyse de TAG en passant par la compilation de TAG en range concatenationgrammar de Boullier, 2000 ([10]) ;

3 l’analyseur LLP2 utilisé au LORIA, Nancy est dˆu à la thèse de Lopez, 1999 ([11])

La grammaire d’arbres adjoints étant utilisée dans un cadre strictement lexicalisé,l’analyse syntaxique TAG peut se faire en extrayant uniquement la sous-grammaire né-cessaire à l’analyse d’une phrase donnée Cela permet, en pratique, de réduire très signi-ficativement le facteur G

Formellement, le lexique d’une grammaire TAG est constitué d’un ensemble fini d’arbresélémentaires En pratique, pour éviter d’exprimer de l’information redondante, le systèmeXTAG permet d’utiliser un ensemble de macros, cependant, le système LLP2 du LORIAutilise la technologie XML pour la représentation de l’information Dans ce qui suit, nousesquissons dans les grandes lignes l’organisation donnée au lexique dans l’architectureXTAG et l’architecture LLP2

Système XTAG

L’organisation du lexique du système XTAG est articulée autour de 3 sources mation : une base morpho-syntaxique, une base syntaxique et une base de schèmes

Trang 35

d’infor-Factorisation morpho-syntaxique Dans les arbres élémentaires suivants, le systèmeXTAG permet de spécifier l’ancre lexicale en paramètre Ainsi, les trois arbres en Figure2.14 sont réécrits de la manière suivante :

SN↓ V

mange

N↓

SN↓ Vécrit

N↓

SN↓ Vaime

N↓

Fig 2.14 – Factorisation morpho-syntaxique du système XTAG

aime @αn0V n1écrit @αn0V n1mange @αn0V n1

@αn0V n1 : S

N↓ VV

N↓

ó aime, écrit, mange sont trois entrées lexicales appelant chacune la même macro αn0V n1

La macro αn0V n1 définit un arbre appelé schème ou schéma d’arbre Un schème estdoté d’un nœud particulier, appelé un nœud ancre (marqué par la symbole ) L’inter-prétation de cet appel de macro est appelée ancrage L’ancrage exige que le nœud ancrecomporte un nœud fils supplémentaire dont l’étiquette est la forme fléchie appelant leschéma d’arbre

De plus, le lexique syntaxique permet de spécifier des traits qui sont positionnés àl’ancrage en position aval sur le nœud ancre Les entrées décrites en Figure 2.14 sontdonc enrichies d’informations de nature essentiellement morpho-syntaxique Ainsi, pour

le verbe aimer, on a, en autres, les entrées suivantes :

aime @αn0V n1 [temps = présent, pers = 3, nombre = sing]

aiment @αn0V n1 [temps = présent, pers = 3, nombre = plur]

aimaient @αn0V n1 [temps = imparfait, pers = 3, nombre = plur]

Factorisation syntaxique Pour éviter d’exprimer l’information de manière redondante,

le système XTAG autorise l’appel de macros définissant des lemmes Ainsi, on peut primer l’entrée de aimer de manière compacte :

ex-aime @aimer [temps = présent, pers = 3, nombre = sing]

aiment @aimer [temps = présent, pers = 3, nombre = plur]

aimaient @aimer [temps = imparfait, pers = 3, nombre = plur]

aimer : @αn0V n1

Trang 36

Ceci permet de mettre en facteur que l’entrée lexicale ou lemme de aime est un verbetransitif quelle que soit la variante morphologique considérée.

Organisation en familles La représentation du lexique d’une grammaire TAG ne s’arrêtepas là En effet, associer une entrée lexicale à un arbre unique représentant le contextecanonique est insuffisant Les grammaires définissent des arbres regroupés en ensemblesappelés familles Une famille est en ensemble d’arbres qui représentent des alternativesd’une même structure prédicat argument

Par exemple, on souhaitera regrouper dans une même famille les arbres suivants quireprésentent toutes les réalisations alternatives d’une sous-catégorisation transitive

SN↓

Jean

VCl↓

l’

V

aime

SN↓

Jean

VV↓

est

V

aimé

PPPpar

N↓

MarieAinsi, plutôt que d’associer à une entrée lexicale, une macro l’associant à un schèmeunique, il est possible de l’associer à une macro de famille, c’est-à-dire un ensemble deschèmes mis en relation par le concepteur de la grammaire Dans ce cas, l’ancrage a lieuavec chacun des schèmes de la famille

Le schéma suivant illustre comment définir les trois arbres élémentaires représentésci-dessus dans le système XTAG

BASE DE SCHEMES

Tn0Vn1 S

N↓ V N↓

SN↓ VCl↓ V

SN↓ VV↓ V

PPPpar

N↓

BASE SYNTAXIQUE

aimer : @Tn0Vn1

BASE MORHPHOLOGIQUE

aime : @aimer [temps=présent]

aiment : @aimer [temps=présent,pers=3,nom=plur]

aimé : @aimer [temps=participe-passé,nom=sing]

Trang 37

Synthèse Le système de représentation du lexique de XTAG permet d’exprimer mation lexicale en tenant compte de deux aspects :

l’infor-1 Factorisation de la redondance informationnelle par l’usage de macros, et

2 Possibilité d’exprimer des relations entre les arbres par l’usage de familles

Système LLP2

La notion de familles en XTAG privilégie comme nous l’avons vu la structure gumentale pour sélectionner des sous-ensembles de schèmes D’une certaine fa¸con, cettenotion de famille privilégie un des critères de sélection possible (la sous-catégorisation)aux dépens des autres

ar-B Crabbé et al ont décrit un format de représentation du lexique pour les grammairesd’arbres adjoints qu’ils motivent sur des aspects de généricité en introduisant la notion

de métagrammaire La métagrammaire est un système de structuration compacte de labase de schèmes C’est la métagrammaire qui produit les schèmes par combinaison dedescriptions d’arbres primitives ([11])

A partir de ce mécanisme, ils ont défini une DTD (Document Type Definition) XMLpour modéliser le codage de grammaires d’arbres adjoints Cette DTD « TAGML2 »per-met l’encodage direct d’une grammaire au format XTAG (en donnant des noms symbo-liques à des sous-ensembles d’arbres) tout autant que l’encodage d’une grammaire suivantles principes ainsi définis (i.e., association entre le lexique et les schèmes via des hypertags

et projection de contraintes via des noms symboliques de nœuds)

Un compilateur de métagrammaire a été développé au sein de l’équipe Langue etDialogue du LORIA Ce compilateur permet de générer des grammaires de tailles diversespour le fran¸cais (de l’ordre de 300 à 400 schèmes), pour l’anglais (environ 500 schèmes)

et pour l’allemand

Bien que le compilateur de métagrammaire facilite la maintenance d’une grammaireTAG, en pratique des outils supplémentaires sont nécessaires Le premier de ces outilsest évidement un analyseur syntaxique Il s’agit d’un logiciel LLP2 qui a développé parl’équipe Langue et Dialogue du LORIA De plus, ce logiciel se compose de plusieurs outilsqui nous permettent d’exploiter des bases morphologiques, des bases de lemmes et desbases de schèmes

En bref, dans ce chapitre, nous avons introduit la grammaire d’arbres adjoints comme

un formalisme de composition d’arbres destiné principalement à l’analyse syntaxique tomatique de la langue naturelle Il est montré que les propriétés du formalisme nouspermettent d’exprimer des phénomènes divers de la syntaxe d’une fa¸con très naturelle.Une première grammaire d’arbres adjoints pour le vietnamien est présentée dans le cha-pitre suivant

Định dạng
Số trang	75
Dung lượng	551,79 KB