1. Trang chủ
  2. » Luận Văn - Báo Cáo

Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du modèle, application à l’analyse en dépendance syntaxique par réseau de neurone

46 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 1,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌINSTITUT FRANCOPHONE INTERNATIONAL KOUAMEN DJAMFA Mickael Lewis Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le

Trang 1

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

KOUAMEN DJAMFA Mickael Lewis

Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du modèle, application à l’analyse en dépendance syntaxique par réseau de neurone

Mơ hình hĩa sự khơng chắc chắn của một kho dữ liệu cho học máy và tính đến trong việc tính tốn mơ hình, ứng dụng vào phân tích sự phụ thuộc cú pháp bằng

mạng nơ ron

MÉMOIRE DE FIN D’ÉTUDES DU MASTER

INFORMATIQUE

HANỌ - 2020

Trang 2

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

KOUAMEN DJAMFA Mickael Lewis

Modélisation des incertitudes d’un corpus d’apprentissage et prise en compte dans le calcul du modèle, application à l’analyse en dépendance syntaxique par réseau de neurone

Mơ hình hĩa sự khơng chắc chắn của một kho dữ liệu cho học máy và tính đến trong việc tính tốn mơ hình, ứng dụng vào phân tích sự phụ thuộc cú pháp bằng

mạng nơ ron

Spécialité : Systèmes Intelligents et Multimédia

Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DU MASTER

INFORMATIQUE

Sous la direction de : M MESNARD Olivier

HANỌ - 2020

Trang 3

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les nées et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs

don-La source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quảnêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ côngtrình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

Signature de l’étudiant

KOUAMEN DJAMFA Mickael Lewis

Trang 4

Table des matières

1 Présentation de l’entreprise, du laboratoire d’accueil 4

1.1 Présentation de l’entreprise, du laboratoire d’accueil 4

1.1.1 Présentation de l’entreprise 4

1.1.2 Présentation du laboratoire d’accueil 5

2 Analyse du contexte du sujet, objectifs et problématique 7 2.1 L’IA, le NLP et l’analyse en dépendance syntaxique 7

2.1.1 L’intelligence artificielle - IA 8

2.1.2 Le traitement automatique du langage naturel (NLP) : Quoi et pour-quoi ? 8

2.1.3 L’analyse en dépendance syntaxique 9

2.1.3.1 L’analyse (morpho)syntaxique 9

2.1.3.2 L’analyse en dépendance syntaxique 13

2.1.3.3 Alignement et projection 15

2.2 Objectifs 17

2.3 Problématiques 17

3 Etat de l’art 19 3.1 Incertitude, connaissance et apprentissage 19

3.1.1 Incertitude 20

3.1.2 Connaissance 20

3.1.3 Concept d’apprentissage 20

3.2 Apprentissage sur des corpus certains 22

3.3 Apprentissage sur des corpus dotés d’incertitudes 24

3.4 Quelques méthodes et algorithmes utilisés 25

3.4.1 Support Vector Machine (SVM) 26

3.4.2 Conditional Random Fields (CRFs) 26

3.4.3 Long Short Term Memory (LSTM) 26

Trang 5

TABLE DES MATIÈRES

4 Solutions proposées et contributions 28

4.1 Approche proposée pour répondre à la problématique du sujet 28

4.2 Contribution 29

5 Expérimentations et résultats 30 5.1 Expérimentations 30

5.1.1 Outils matériels et logiciels 30

5.1.2 Préparation du dataset et aperçu 31

5.1.3 Architecture d’implémentation 32

5.1.4 Méthode d’évaluation 33

5.2 Résultats 34

6 Conclusion et Perspectives 36 6.1 Conclusion 36

6.2 Perspectives 36

Trang 6

Table des figures

2.1 Illustration étiquetage morphosyntaxique 10

2.2 Reconnaissance d’entités nommées 11

2.3 Structure des dépendances 13

2.4 Illustration plus complète de dépendance 13

2.5 Alignement de phrases d’un corpus 15

2.6 Illustration d’alignement des mots 16

2.7 Illustration de la projection 16

2.8 Projection 17

3.1 Apprentissage par transfert / Transfer learning 23

3.2 Illustration d’un dataset "certain" 24

3.3 Illustration de la procédure d’obtention de corpus incertain 25

3.4 Unité LSTM 27

4.1 Schema de communication 29

5.1 Dataset breton bruité 31

5.2 Jeu de données utilisé 32

5.3 Illustration implémentation corpus certain 32

5.4 Illustration implémentation corpus incertain 33

5.5 Résultats training 34

5.6 Résultats test 35

5.7 Aperçu de la prédiction 35

6.1 Corpus bitext Français - Breton (raw data) 37

6.2 Corpus français étiqueté 38

Trang 7

Face à la difficulté observée au niveau de certaines langues pour disposer de pus annotés (manuellement), des méthodes centrées sur l’alignement et la projectioncross-lingue ont permis d’apporter une piste permettant de disposer désormais de cor-pus obtenus automatiquement Cependant, le processus d’obtention de ces corpusaura entrainé dans ces corpus la présence d’incertitudes Les modéliser (les incerti-tudes) et les prendre en compte dans notre modèle justifie le but du présent travail.Pour y parvenir, nous nous sommes armé de méthodes neuronales récurentes (BiL-STM) et d’approches probabilistes Les résultats que nous avons obtenus sur un jeu dedonnées de l’ordre 770 000 entrées reparti à 70% en données d’entrainement et 30% endonnées test tournent autour d’un taux de précision de 80% Intuitivement, ce scorepourrait s’améliorer si le temps d’entrainement est rallonger

cor-Mots-clés : Apprentissage profond, réseaux de neurones réscurrents, analyse

syn-taxique, incertitudes, BiLSTM

Abstract

Faced with the difficulty observed at the level of certain languages to have ted corpora (manually), methods centered on alignment and cross-lingual projectionhave made it possible to provide a track making it possible from now on to have corpusobtained automatically However, the process of obtaining these corpora will have led

annota-to the presence of uncertainties in these corpora Modeling them (uncertainties) andtaking them into account in our model justifies the aim of this work To achieve this,

we have armed ourselves with recurrent neural methods (BiLSTM) and probabilisticapproaches The results that we obtained on a dataset of the order of 770,000 entriesdistributed 70% in training data and 30% in test data revolve around an accuracy rate

of 80% Intuitively, this score could improve if the training epochs are extended

Keywords : Deep learning, recurrent neural networks, syntaxtic parsing,

uncertain-ties, BiLSTM

Trang 8

Introduction générale

Depuis le temps de la première grande guerre et des mouvements coloniaux (dansles années 1900) si l’on ne remonte que jusque là, les hommes dans leurs proces-sus de conquête de nouvelles terres étaient confrontés aux difficultés liées à l’expres-sion, à la capacité à se faire comprendre et donc au problème relatif au langage Lestravaux menés dans le but de palier à ce problème de communication entre les per-sonnes d’horizons diverses ont cependant permis à nos jours de disposer d’outils as-sez fascinant telles les traducteurs automatiques qui nous permettent à des moments

de nous faire passer pour des génies des langues « une fois assis derrière nos petitsécrans » Cependant ce pouvoir que nous confèrent ces outils de traduction n’est passans limite puisque limité à un certains nombres de langues ; une grande majorité (delangue) nous laissant encore impuissant lorsque vient le moment de nous adresser à

un autochtone (autochtone est pris ici au sens ó cette personne n’a que sa langue

comme instrument de communication) Une des causes de la difficulté conceptuelle

des traducteurs (ou des moteurs de recherche pourquoi pas, ) pour ces langues side dans la non disponibilité de corpus suffisamment annotés dans ces langues (quenous considérons du point de vue du traitement automatique des langues comme deslangues peu dotées)

ré-Les progrès réalisés dans le domaine du traitement automatique des langues (NLP)permettent d’espérer dans un futur pas très lointain l’accomplissement de cet exploit(celui de pouvoir communiquer dans toutes les langues) Une solution face au pro-blème de disponibilité de corpus est leur génération par un procédé automatique cen-

tré sur l’exploitation de bitext ou encore corpus parallèle (disponible dans la plupart des langues illustrables par des manuels tel que la bible) Seulement, cette façon de

procéder, que nous expliquerons dans ce travail, est source de bruit C’est donc cebruit, que nous voulons considérer dans le processus d’apprentissage, qui nous a conduit

à la thématique d’ « apprentissage à partir de connaissances incertaines ».

Avant de nous plonger vivement sur la question d’intérêt, nous allons tout d’abordfaire une présentation de quelques concepts que nous avons jugés utiles pour nousorienter vers la réalisation de ce projet Nous commencerons donc par faire une pré-sentation du contexte du sujet (section2.1), suivie de l’état de l’art (section 3), de la

Trang 9

TABLE DES FIGURES

solution suggérée (section4.1), de l’implémentation (section5), des resultats (section

5.2) et de la conclusion (section6.1) Les références ayant servies à la réalisation de cetravail seront disponible dans la partie bibliographie prévue à cet effet L’annexe vien-dra apporter quelques éclaircit sur des notions ou éléments que nous aurons présentésuccinctement dans le présent travail

Trang 10

1.1.2 Présentation du laboratoire d’accueil 5

1.1 Présentation de l’entreprise, du laboratoire d’accueil 1.1.1 Présentation de l’entreprise

Le CEA est un établissement public à caractère industriel et commercial (EPIC) pendant de quatre ministères : le ministère de l’Écologie, de l’Energie, du Développe-ment durable et de l’Aménagement du territoire, le ministère de l’Économie, de l’in-dustrie et de l’emploi, le ministère de l’Enseignement supérieur et de la recherche, et leministère de la Défense C’est un acteur majeur en matière de recherche, de dévelop-pement et d’innovation Il intervient dans trois grands domaines :

dé-• La Défense et la sécurité globales

• Les énergies décarbonées

• Les technologies pour l’information et la santé

Les compétences scientifiques du CEA vont de la recherche fondamentale à la cherche technologique, ces dernières reposant sur l’exploitation d’équipements excep-tionnels tels que des supercalculateurs, des réacteurs de recherches, des lasers de puis-sance Tous ces éléments favorisent une réelle implication du CEA dans le tissu in-dustriel et économique national et international

Trang 11

re-CHAPITRE 1 PRÉSENTATION DE L’ENTREPRISE, DU LABORATOIRE D’ACCUEIL

Le CEA est implanté de manière homogène sur le territoire français avec ses 16000salariés et ses 4 milliards d’euros de budget Ces dix centres développent et entre-tiennent de nombreux partenariats avec les autres organismes de recherches (51 Uni-tés mixtes de recherche), les universités, ainsi que les collectivités locales dans un en-vironnement de forte communication pour favoriser le transfert des connaissances

De plus, tous ces centres cumulent aujourd’hui plus de 1600 brevets prioritairesactifs et ont permis la création de 120 nouvelles entreprises depuis 1984 Le gouver-nement français est aujourd’hui conseillé par le CEA pour les questions de politiquenucléaire extérieur

Tout ceci permet au CEA de s’impliquer de manière croissante dans l’espace péen et international en représentant la France auprès des organisations internatio-nales du secteur nucléaire, en animant et en développant des coopérations avec desorganismes homologues d’autres pays dans l’ensemble de ses domaines d’activités

euro-1.1.2 Présentation du laboratoire d’accueil

Situé en Île-de-France Sud (Saclay et Fontenay-aux-Roses), le CEA LIST est le ratoire d’Intégration des Systèmes et des Technologies de la Direction de la Recherche

Labo-Technologique du CEA Les recherches du CEA LIST sont centrées sur les systèmes àlogiciel prépondérant Ses activités s’articulent autour de trois thématiques présentant

de forts enjeux sociétaux et économiques : les Systèmes Embarqués (architectures etconception de systèmes, méthodes et outils pour la sûreté des logiciels et des systèmes,systèmes de vision intelligents), les Systèmes Interactifs (ingénierie de la connaissance,robotique, réalité virtuelle et interfaces sensorielles) et les Capteurs et le traitement dusignal (instrumentation et métrologie des rayonnements ionisants, capteurs à fibre op-tique, contrôle non destructif )

Le Laboratoire de Vision et d’Ingénierie des Contenus du CEA LIST emploie 37

chercheurs et ingénieurs travaillant sur l’analyse et l’interprétation de données média (texte, image et analyse de vidéos) Il mène des recherches sur l’analyse et l’in-terprétation de données multimédia et multilingues pour des domaines d’application

Trang 12

multi-CHAPITRE 1 PRÉSENTATION DE L’ENTREPRISE, DU LABORATOIRE D’ACCUEIL

en pleine croissance et à large diffusion tels que la réalité augmentée, le contrôle triel par vision, la vidéo surveillance ainsi que la veille et la recherche documentaire.Les enjeux scientifiques sont doubles :

indus-• développer des algorithmes efficaces et robustes d’analyse du contenu par traction, la classification, l’analyse sémantique de chacun des médias La recons-truction ou la fusion entre ces données permet ensuite l’interprétation des scènes

labora-• Perception 3D et mobilité : reconstruction 3D par vision pour des applications

de contrôle dimensionnel et localisation 3D pour des applications de réalité mentée et des systèmes de géo-localisation

aug-• Analyse Vidéo : Analyse vidéo pour les applications de vidéo protection et, plusgénéralement pour les systèmes d’assistance par vidéo (systèmes d’aide à la conduite :détection de personnes, monitoring de personnes fragiles, )

• Analyse des textes : analyse sémantique multilingue de documents pour des plications d’indexation, de recherche, de veille et de filtrage

ap-• Fusion Multimedia : indexation et recherche d’informations multimédias pour larecherche dans de larges bases de données ou les applications mobiles

De plus, le laboratoire a établi plusieurs laboratoires communs avec des industriels

On compte parmi ceux-ci un laboratoire commun sur le thème de la vidéosurveillanceavec Thales et un laboratoire commun sur la sécurité des piétons sur les chantiers avec

la société ARCure

Trang 13

Chapitre 2

Analyse du contexte du sujet, objectifs et problématique

Sommaire

2.1 L’IA, le NLP et l’analyse en dépendance syntaxique 7

2.1.1 L’intelligence artificielle - IA 8

2.1.2 Le traitement automatique du langage naturel (NLP) : Quoi et pourquoi ? 8

2.1.3 L’analyse en dépendance syntaxique 9

2.1.3.1 L’analyse (morpho)syntaxique 9

2.1.3.2 L’analyse en dépendance syntaxique 13

2.1.3.3 Alignement et projection 15

2.2 Objectifs 17

2.3 Problématiques 17

Dans cette partie, nous nous intéressons aux différents éléments qui sont en rap-port avec notre thématique afin de pouvoir dégager un plus grande compréhension

de celle-ci Nous aborderons ainsi les concepts d’IA, NLP, analyse en dépendance syn-taxique

2.1 L’IA, le NLP et l’analyse en dépendance syntaxique

Dans cette section, nous faisons une présetations de concepts clés associés à notre thématique Nous pourrons ainsi partir de leur naissance, pour cheminer vers les élé-ments sur lesquelles ils s’appuient et terminer avec quelques utilisations ou services rendus à notre société à ce jour

Trang 14

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

2.1.1 L’intelligence artificielle - IA

Si l’intelligence artificielle (IA) peut se résumer à un ensemble de théories et detechniques mises en oeuvre pour produire des machines capable de simuler l’intel-ligence, elle a également une histoire qui ne date pas d’hier, elle remonte à l’époque

de la conférence de Dartmouth instiguée dans les années 1950 par John McCarthy etMarvin Minsky d’ó elle devient alors officiellement une science L’une des premièresquestions de l’intelligence artificielle est relative à la traduction automatique Au fur

et à mesure de l’évolution de la recherche dans ce domaine de l’IA, les questions etthématiques ont commencées à prendre des champs d’action beaucoup plus ouvertspour en faire aujoud’hui une science presque présente dans tous les domaines de notrequotidien

Pour répondre aux attentes et fantasmes de l’humanité, l’IA va s’appuyer sur unvaste champ pluridisciplinaire dans lequel on peut retrouver l’apprentissage automa-tique, la vision par ordinateur, le traitement du langage naturel et bien d’autres disci-plines potentielles ; leurs intégrations se faisant progréssivement selon les besoins De

la santé à la robotique en passant par la finance qui ne sont que quelques uns des teurs ó on les retrouve, les applications développées grâce aux outils et méthodes del’intelligence artificielle ne cessent de voir le jour

sec-Pour nos travaux nous nous orienterons vers le traitement automatique du langagenaturel

2.1.2 Le traitement automatique du langage naturel (NLP) : Quoi et

pourquoi ?

Ici notre objectif est de donner un bref aperçu sur ce qu’est le traitement tique du langage naturel (Quoi) et de montrer quelques services rendus par cette dis-cipline innovante (Pourquoi)

automa-Le traitement automatique du langage naturel (TALN), ou plus simplement ment automatique des langues (TAL) pour Natural Language Processing (NLP en an-glais), est un domaine multidisciplinaire en ce sens qu’il implique plusieurs disciplines

traite-à la fois dont la linguistique, l’informatique et l’apprentissage automatique Ses défissont orientés vers la conception d’outils de traitement de langues pour diverses appli-cations Cette discipline se diffère de la linguistique informatiques dont les enjeux sonttournés vers la compréhension des langues au moyen de solutions informatiques.Les premiers travaux dans ce domaine remontent dans les années 1950 avec l’avè-nement de la guerre froide impliquant les états-unis qui développent leur intérêt pourles applications de traduction automatique Avec l’évolution, de nombreuses autresapplications sont rendues possibles Afin de répondre aux besoins liés au traitement

de la langue, le TAL s’appuie sur les méthodes statistiques et les algorithmes de chine learning pour proposer les meilleurs perfomances

ma-C’est par exemple le cas de la génération automatique de textes pour laquelle

le challenge est de produire des textes syntaxiquement et sémantiquement correct ;

Trang 15

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

le résumé automatique qui vise à extraire le contenu pertinent d’un texte pour nérer sa synthèse ; la recherche d’information que l’on ne saurait présenter de nos

gé-jours vu qu’elle se trouve quasi partout avec les moteurs de recherche ; la conception

d’agents conversationnels plus connus sous l’appelation de chatbot et qui rendent de

plus en plus service Ces quelques exemples peuvent être complétés par les

applica-tions de type classification de documents de plus en plus utiles dans le domaine de la recherche scientifique, l’analyse de sentiment dans les textes, les systèmes de complé-

tion automatique assez bien implémentés par le moteur google, de recommandation automatique facilement observable avec youtube (par exemple) ó en fonction des ha-

bitudes d’un utilisateur, du contenu similaire lui est suggéré Il en est de même pourcertains sites de vente en ligne Autant d’applications autour d’une énumération nonexhaustive de ce qui est réellement possible grâce aux travaux du TAL et qui rendent

de plus en plus le quotidien des hommes "agréables"

Le projet qui fait l’objet de cette rédaction se trouve quasiment à la rencontre avec

la plupart des cas d’applications ci-haut cités, d’autant plus qu’il est axé sur l’analyse,qui constitue une étape préliminaire pour beaucoup de travaux en NLP (traduction au-tomatique, recherche d’information, ) Son importance est tout aussi déterminantevoire capitale dans la mesure ó la qualité de l’analyse pourrait impacter la suite desopérations par une considérable amélioration de performance L’analyse dans les cor-pus d’apprentissage dans le TAL peut se faire sous plusieurs aspects parmi lesquelsl’aspect sémantique et l’aspect syntaxique Nous focaliserons notre attention ici surl’aspect syntaxique de l’analyse textuelle Ainsi, dans la section qui suit nous allonsprésenter quelques concepts liés à l’analyse syntaxique et à la génération automatique

de corpus annotés

2.1.3 L’analyse en dépendance syntaxique

2.1.3.1 L’analyse (morpho)syntaxique

L’analyse syntaxique ou syntactic parsing en anglais, s’identifie au processus

per-mettant d’examiner une chaine de mots pouvant constituer une phrase, un paragraphe, afin d’en extraire les informations suffisantes pour identifier la structure de la phrase

et le rơle des mots qui la compose

Cette tâche d’analyse syntaxique appliquée à un jeu de données texte (corpus) pose pour ce corpus qu’il ait subit au préalable quelques traitements dont nous présen-

sup-tons ceux que nous jugeons les plus essentielles : la tokenization, l’étiquetage syntaxique, la lemmatisation, le steming.

morpho-La tokenization est en fait une opération qui éclate une phrase en ses différents

éléments constitutifs Ces derniers pouvant être des mots, des caractères, des tères spéciaux, des signes de ponctuations, etc Ce travail peut encore être vue comme

carac-la segmentation de carac-la phrase en ses différentes unités élémentaires A noter que le

ni-veau de segmentation (mots, caractères) pourra être fonction des besoins d’usage etdes objectifs visés

Trang 16

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

Pour illustrer ce travail de tokenization, nous pouvons considérer la phrase

Olivier joue de la trompette !

à tokenizer Le résultat de la tokenization de cette phrase pourrait se présenter sous laforme suivante :

[Olivier] [joue] [de] [la] [trompette] [ !]

ces différentes entités extraites représentent pour le traitement du language ce qu’on

appelle les tokens.

Vu de cette manière cette tâche peut sembler triviale dans la mesure ó on pourrait sedire qu’on prend comme paramètre pour la segmentation le caractère d’espacement ’ ’entre les différents mots de la phrase pour obtenir pratiquement le même résultat quecelui présenté ci-dessus Mais cette tâche n’est pas la plus triviale qu’il soit lorsqu’on

en vient à des situations pour lesquelles la phrase contient par exemple des mots

com-posés d’une apostrophe ("’") telle

"C’est une phrase ó l’apostrophe peut causer problème."

L’étiquetage morphosyntaxique est une opération qui consiste à attribuer à chaque

élément d’une phrase une étiquette corespondant sa catégorie grammaticale Ceci peut

ainsi conduire à l’accomplissement des tâches telles la reconnaissance d’entités mées ou Named entities Recognition (NER) et à l’étiquettage morphosyntaxique ou part

nom-of speech tagging (POS Tagging) en anglais.

Parmi les travaux réalisés dans le cadre du POS Tagging nous pouvons retenir ceux

de Petrov et Das[1] qui dans le souci d’uniformiser l’étiquettage et de trouver un pointcommun à la majorités des langues existantes, définissent un ensemble de douze (12)étiquettes reconnues comme universelles puisque présentes dans plusieurs languessous une forme ou une autre La réalisation de cette opération s’appuie sur de l’appren-tissage avec des modèles de Markov, des SVM (Support Vector Machine) ou des CRF(Conditional Random Fields) Cette uniformisation d’étiquettage va permettre d’autresavancées notamment la projection crosslingue d’annotation Zhiheng Huang et al (2015)[2]vont donc proposer plusieurs modèles pour traiter des questions relatives à l’analysedes séquences (suite de mots par exemple), ils fondent leurs propositions sur les ré-

seaux de neurones récurrents bâtis sur les méthodes Long Short Term Memory (LSTM)[3]

et Conditional Random Fields (CRF), desquelles découlent plusieurs combinaisons.L’étiquettage morphosyntaxique peut s’illustrer au travers de l’exemple ci-dessous tirésdes travaux de Petrov et Das[1]

FIGURE2.1 – Illustration étiquetage morphosyntaxique

source : (Petrov et Das[1])Sur cette illustration, on peut bien remarquer que pour une suite de mots repré-sentée par "sentence", on obient une mise en correspondance de chaque mot à uneétiquête (exemple ici de, The, DT) On peut alors bien voir apparaitre l’étiquettage uni-versel correspond sur cette figure2.1à la ligne "universal"

Trang 17

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

Toujours dans le cadre de l’étiquetage des séquences textuelles, Guillaume Lample

et al[4] dans Neural Architectures for Named Entity Recognition s’attardent sur la tion de reconnaissance d’entités nommées (NER) Le but dans une tâche de NER c’est

ques-de pouvoir iques-dentifier dans une expression la nature ques-de chacune ques-des entités ; la nature ques-de l’entité pouvant être une localisation pour LOC, faire référence à une personne pour PERS, une organisation pour ORG et ce suivant un format IOB (I pour ’inside’, O pour

’others et B pour ’Begin’) Ce format IOB étendu au format IOBES permet

d’appor-ter plus de précisions sur la nature de l’étiquête à associer à chaque entité Ainsi, par

exemple pour une entité telle que "New York" qui désigne une localisation, on pourra avoir comme étiquettage "B-LOC I-LOC" qui représentent respectivement les étiquêtes associées à "New York" Les applications de ce type d’étiquetteage sont diverses mais

pour illustrer cela nous prendrons juste le cas de la classsification de documents et larecherche d’information Dans le cadre de la classification, on suppose qu’on disposed’une grande base de documents que l’on souhaite classer Une classification centréesur tous les mots clés peut se revéler plus efficace mais couteuse en terme de tempsnécessaire pour y parvenir Par contre en s’appuyant sur les entités nommées dansles différents documents, on réussirait et ce rapidement, à classer les différents do-cuments par centres d’intérêts Pour ce qui est de la recherche, le principe est quasi-ment le même que celui présenté pour la classification sauf que cette fois à l’inverse

Au lieu de partir des entités nommées dans les documents, on va partir plutôt des tités extraites de la requête pour restituer les documents qui traitent au mieux de lathématique autour de ces entités Concrètement, l’identification d’entités nomméesdans une expressions peut ressembler à ceci :

en-John Lenon lives in New YorkB-Pers I-Pers 0 0 B-LOC I-LOC

FIGURE2.2 – Reconnaissance d’entités nommées

De cette illustration (figure 2.2), on peut remarquer que dans l’expression « JohnLenon lives in New York» ce ne sont pas toutes les entités de l’expression qui sont éti-quetées mais seulement celles qui ont du sens du point de vue du concept de NER telleque décrit précédemment Pour arriver à ce résultat d’association d’entités à leurs éti-quêtes désignant la nature de l’entités, les méthodes neuronales (Guillaume Lample et

al [4]) basées sur les LSTM et les CRFs et leurs variantes ont une fois de plus débouchées

sur de bonnes performances

Une autre action qui peut être réalisée quaisiment en parallèle à l’étiquetage

mor-phosyntaxique et toujours en guise de préliminaire à l’analyse syntaxique est la

lem-matisation Il s’agit d’une opération qui vise à réduire chaque unité lexicale à son

lemme ; Le lemme représentant une unité autonome du lexique de la langue d’intérêt

(langue sur laquelle est menée l’étude : le français par exemple) et duquel peuvent ver plusieurs autres unités lexicales Donc le fait de ramener toutes les unités lexicales(lexèmes) à leur lemmes permettrait d’en extraire au mieux les relations d’un quel-

Trang 18

déri-CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

conque lemme à d’autres concepts auxquels il pourrait être lié Pour illustrer ceci afinque ce soit un peu plus clair, un petit exemple est nécessaire Ainsi, les lexèmes

Chasse, chasses, chassement

se réduiraient à leur lemme

Chasser

Ce travail peut se reveler très utile dans le contexte de la recheche d’informationou

de contenu basée sur des mots clés ó la finalité est la restitution de contenu ou

in-formation pertinente au regard de la requête En assumant qu’au moment d’entrer sarequête l’utilisateur peut y glisser des erreurs de saisie, alors réduire les lexèmes à leurlemme permettrait de conserver le sens de la requête en augmentant les chances queles résultats retournés correspondent au mieux à ceux attendus par le demandeur Unexemple pour justifier le fait qui nous pousse à dire que cette tâche peut s’accomplir

quasiment en parallèle de l’étiquetage morphosyntaxique : soit la phrase "Bertrand lit

un document sur les dangers de l’IA dans 30 ans" pour laquelle on fait un étiquetage Si

dans cette phrase on ne s’intéresse qu’au terme "lit" sans tenir compte du contexte, onpourrait lui associer les étiquêtes soit "Nom commun", soit "Verbe" et selon que l’éti-quêtes est tournée vers "Nom commun" ou "Verbe", on pourra déduire respectivement

les lemmes "Lit" (nom commun) et "Lire" (verbe).

Le steming ou racinisation en français, est une opération qui consiste à

rame-ner les unités lexicales d’une phrase à leur racine ou radical Cette pratique peut êtreutile dans le cadre des langues ayant une morphologie simple et dont les mots pré-sentent peu de formes comme l’anglais (le français n’étant pas un bon exemple dans

ce contexte) Ainsi les formes anglais suivantes "work", "works", "worked" après ming pourraient être réduite à leur radical "Work" Un contre exemple pour illustrer

ste-en quoi ceci serait difficile sur une langue comme le français serait les formes "va" et

"allons" qui partagent le même lemme "aller" mais du point de vue de la racinisation

présentent plus de complexité d’usage

L’analyse syntaxique peut se faire soit au travers de méthodes basées sur la maire ou via des méthodes basées sur la statistique ; la difficulté provenant des ambi-gụtés rencontrées dans chaque langue

gram-Les méthodes basées sur la grammaire ont fait leur preuve dans la période ó lesméthodes basées sur la statistique n’étaient pas suffisament implémentées Cepen-dant, ces méthodes étaient limité du fait que l’analyse d’une phrase pouvait débouchersur plusieurs arbre syntaxiques parmi lesquels il n’était pas facile d’élire un qui reflète

au mieux l’analyse de la dite phrase Avec les méthodes statistiques (ou aidées par lastatistique), il est possible au cours des analyses d’éliminer les analyses peu significa-tives avec la possibilité de choisir à la fin la meilleure analyse De ce qui précède, deuxcomposantes peuvent ainsi décrire la procédure de l’analyse : une première compo-sante pour la proposition d’analyse possible pour un corpus donné, une seconde com-posante qui va évaluer la pertinance des analyses proposées par la précédente com-posante pour en choisir celle qui est la plus acceptable (basée par exemple sur unedistribution de probabilité)

Ces techniques d’examination des chaỵnes (séquences) de mots pour dégager les

Trang 19

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

propriétés de chacune des entités peuvent conduire à la recherche des relations qui

existent entre ces mots ; ce qui nous conduirait à l’analyse en dépendance syntaxique

2.1.3.2 L’analyse en dépendance syntaxique

L’analyse en dépendance syntaxique ou syntactic dependency parsing en anglais,

représente une tâche en NLP qui consiste à extraire les dépendances dans une phrase

(ou une expression), dépendances qui constituent la structure grammatical de la phrase

et définissent les relations entre les mots "tête" ou "head" et les autres mots qui les

mo-difient Cette conception de l’analyse en dépendance syntaxique nous pousse donc à

percevoir la dépendance syntaxique comme une relation entre deux entités pour

les-quelles l’une des entités (lexicales) joue le rôle de "gouverneur" et l’autre celui de

"gou-verné"

FIGURE2.3 – Structure des dépendances

source : (https ://nlp.johnsnowlabs.com/docs/en/annotators)[5]

Il était nécessaire avant de poursuivre, d’illustrer un peu ce que tout ceci représente

pour ne pas déroger à la citation selon laquelle une image vaut mille mots.

Sur ces illustrations (figures2.3et2.4), on remarque les termes "root", "nsubj", "dobj",

"det", "nmod", "case", "obj", "punct", "advmod" Ces termes permettent d’établir (de

donner un nom) les relations qui existent entre les différents éléments de l’expression

"I prefer the morning flight through Denver" et ceux de "Toutefois, les filles adorent les

desserts" Nous n’allons commenter ici que quelques relations sur ces figures tout en

in-vitant les plus curieux sur la compréhension du sens des différentes relations à visiter le

manuel des dépendances produit par stanford et accessible à ce lien (https ://nlp.stanford.edu/software/dependencies_manual.pdf )

FIGURE2.4 – Illustration plus complète de dépendance

source : (http ://lattice.cnrs.fr/cmld/presentations/presentation_nivre.pdf )

Trang 20

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

L’élément "root" présent dans les deux illustrations, représente tout simplement

la racine de l’expression En d’autres termes, c’est l’élément porteur du sens principalmême de l’expression sans lequel cette dernière serait difficile d’interpréter Une rela-

tion que nous pouvons présenter ici est la relation "déterminant" (det) qui montre bien

que les noms "fille" et "flight" dépendent fortement de ces déterminants là selon qu’ilssoient sous leur formes singulières ou plurielles Ainsi, il aurait fallu que "les" (figure

2.4) prenne sa forme singulière (le/la) pour que "filles" soit impacté

La figure 2.4 ne nous apprends pas seulement sur les relations de dépendancesqui règnent entre les différents termes, elle vient renforcer l’importance de l’étiquet-

tage morphosyntaxique (Pos Tagging) soulevée plus haut dans l’accomplissement des

tâches d’analyse de dépendance

A l’université de stanford, l’intérêt pour la question d’analyse des dépendances n’apas laissé indifférent Timothy Dozat, Peng Qi et Christopher D Manning [6] dont lestravaux à l’occasion de la conférence CoNLL (Conferenre on Natural Language Lear-ning) ont retenu notre attention Des améliorations de ces travaux effectués en 2017

ont été apportées en 2018 dans l’article "Universal Dependency Parsing from Scratch"[7]

Le constat est clair selon ces auteurs que pour avoir un système assez fiable quant auxprédictions des relations entre les entités d’une phrase ou expression, il faut déjà dispo-ser d’un système préliminaire assez fin (précis, clair) Ce système préliminaire prends

en compte la représentation des mots (word embedding), celle des caractères (chars embedding), la représentation des lemmes (lemma embedding) ainsi que la représen-

tations des étiquêtes morphosyntaxiques associées à chaque mots : distinguer ici sousles composantes UPOS (Universal Part of speech, exemple : VERB, NOUN) et XPOS(Language specific part of speech, exemple : NN, VB) embeddings Aux travers de cesinputs cités et d’une structure neuronale récurrente basée sur les BiLSTMs, les relations

de dépendances peuvent être établient par localisation de la tête (Head) et des

dépen-dances et un calcul de distance éventuel entre ces deux éléments (tête - dépendance).

Un classifieur biaffine (softmax) assure la prédiction à la sortie du réseau.

Les résultats sont assez impressionant Toutefois, persiste la question de bilité de corpus annotés (dans certaines langues peu dotées) En effet les méthodes detype réseaux de neurones exigent des corpus d’apprentissage de grande dimension, cequi n’est pas le cas pour les langues dites peu dotées

disponi-L’aboutissement de cette mission d’analyse de dépendances syntaxiques pourraservir de substance de base dans le processus d’extraction du sens dans une expres-sion et dont la tâche associée relève de l’analyse sémantique qui ne fait pas l’objet denotre étude mais nous permet juste ici de présenter une utilisation potentielle des ré-sultats d’analyse en dépendances

En plus des concepts déjà présentés jusqu’ici, deux autres concepts tout aussi portant que ceux-ci entrent dans le processus de production de corpus annotés auto-matiquement pour le contexte des langues faiblement ressourcés Il s’agit des concepts

im-d’alignement et de projection.

Trang 21

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

2.1.3.3 Alignement et projection

En effet, donner une définition au concept d’alignement ne saurait être aussi simple

et pour cette raison nous allons nous référer aux définitions données par certains

au-teurs ayant travaillés sur la questions Ainsi selon [Langlais, 1997][8], un système gnement multilingue automatique se définit comme : « un processus qui prend en en-trée un corpus multilingue ; c’est-à-dire un ensemble de textes traitant d’une même

d’ali-thématique dans des langues différentes et qui produit une sortie constituée d’appariements

mettant en correspondance les régions (ou segments) qui sont en relation de tion dans l’ensemble des textes du corpus Une région est une unité textuelle pouvantrelever de différents niveaux comme le chapitre, la division, le paragraphe, la phrase, laproposition, le terme, le mot, ou encore le caractère » Cette définition fait paraitre lenotion d’appariement que nous pouvons considérer en son sens simple comme l’as-

traduc-sociation en paire [Simard, 1998] quant à lui définit l’alignement comme : « la relation

qui existe entre un texte et sa traduction, cette relation pouvant être vue à différents veaux de granularité : entre texte, paragraphes, phrases, propositions, mots ou mêmecaractères »

ni-De ces deux définitions on peut retenir que l’alignement est une mise en dance pouvant être réalisé en deux étapes : un alignement des phrases du bitext (figure

correspon-2.5) et un alignement des mots des phrases mise en correspondance (figure2.6) Nouscomprenons donc que pour réaliser une projection nous avons besoin de corpus pa-

rallèles (bitext) devant permettre de faire ces opérations d’alignement Une illustration

d’une situation d’alignement extraite des travaux récents de Sylwia Ozdowska, VincentClaveau[9] :

FIGURE2.5 – Alignement de phrases d’un corpus

source : Sylwia Ozdowska, Vincent Claveau[9]

Sur cette figure2.5, on voit l’alignement établie entre les termes en gras nunity" et "Communauté" On note également que cet alignement a été rendu possible

"Commu-par exploitation de la relation de dépendance sujet (SUJ) entre les termes Community

- banned pour l’anglais et Communauté - interdire pour le français.

Légende : Sur cette figure2.6, X correspond aux alignements pour lesquels on est sûr

et / correspond à ceux pour lesquels on a des doutes

Trang 22

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

FIGURE2.6 – Illustration d’alignement des mots

On remarque sur la figure2.6que l’alignement des termes anglais "banned" et ports" génèrent une incertitude dans la langue française du fait des correspondances 1

"im n Toutefois, la question du type (ou nature) d’alignement peu complexifier les choses

Les alignements de type 1 - 1 étant moins complexe que les alignements de type 1 - n.

On peut se servir des outils tels que Giza++, fastAlign, Efmaral (Tiedemann et al)[10]pour accomplir cette opération d’alignement

La projection selon la conception que nous faisons d’elle consiste simplement à

transférer dans une langue cible l’étiquette que possède le mot source qui lui est cié On parle alors de projection cross-lingue (entre les langues) ou cross-lingual pro-jection en anglais Yarowsky et al(2013)[11] abordent le sujet pour pallier au problèmed’étiquetage dans les langues peu dotées de ressources Le recours à l’alignement pour

asso-la réalisation de cette projection est donc capitale Cependant, une difficultés bienréelle se présente En fait, au moment des traductions de phrase ou d’expressions entredeux langues, il n’est pas toujours observé que chaque mots dans une langue corres-ponde exactement à un seul mot dans l’autre langue ; et donc un mot dans la languesource peut se traduire par plusieurs mots dans la langue cible, tout comme un mot de

la langue cible peut faire référence à plusieurs mots dans la langue source (exemple le

mot anglais "Potatoes" se traduit en français par "pomme de terre" Et donc survient le

problème du choix lors de la projection de la bonne étiquette à associer au mot

FIGURE2.7 – Illustration de la projection

source : Yarowsky et al [11]Sur cette figure 2.7 on voit bien que la valeur d’une étiquette est associée à une

Trang 23

CHAPITRE 2 ANALYSE DU CONTEXTE DU SUJET, OBJECTIFS ET PROBLÉMATIQUE

probabilité d’être associée au mot Yarowsky et al[11] émettent quelques idées pourfaire le choix de l’étiquette à projeter dans une situation délicate comme celle présenté

à la figure ci-dessous

FIGURE2.8 – Projection

source : Yarowsky et al [11]Une des solutions est de projéter l’étiquête de la langue source seulement pour lesmots cibles dont la probabilté d’alignement est élevée Ceci pourrait induire une si-tuation ó des mots n’auraient pas d’étiquêtes Et donc une autre approche serait dedistribuer l’étiquête de la source à tous les mots cibles pouvant lui être aligné ; asso-ciant un indice (a et b figure2.8) à chacune des projections

Les projections réalisées à l’aide de corpus parallèle ou bitext entre deux languescomme décrit ci-dessus sont donc à l’origine de "bruits" que nous considérons commeincertitude dans nos corpus d’apprentissage

2.2 Objectifs

Les objectifs de ce stage sont entre autre, de présenter l’état de l’art des travauxexistants dans l’apprentissage à partir de connaissances incertaines, afin de mieuxconnaỵtre ce qui existe pour s’en inspirer et proposer une nouvelle approche plus ro-buste basée sur les réseaux de neurones

On dira que l’objectif principal de ce projet est prendre en compte les incertitudesdes données "synthétiques" dans le processus d’apprntissage afin de d’améliorer lesanalyseurs linguistiques obtenus à partir de ce types de données (données synthé-tiques)

Les objectifs secondaire seront donc entre autre :

— la modélisation de ces incertitudes

— leur prise en compte dans le modèle d’apprentissage

— l’évaluation de la qualité de modèle produit

2.3 Problématiques

Dans cette partie, nous allons ressortir quelques questions qui nous viennent lorsquenous essayons d’entrevoir de façon intuitive comment résoudre le problème auquel

Ngày đăng: 01/04/2021, 15:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm