1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mise en oeuvre de traitement de données analyses de graphes machine learning, et leur automatisation, et web services

96 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 96
Dung lượng 5,15 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

24 2.12 Les résultats du développement défini pour RoBERTa étant donné que nous effectuons un pré-entraînement sur plus de données 16 Go→160 Go de texte et un pré-entraînement plus long

Trang 2

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

Solibia PAZIMNA

Mise en oeuvre de traitement de données - analyses de graphes, machine learning, et leur automatisation, et web services

Spécialité : Systèmes Intelligents et Multimédia

Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DU MASTER

INFORMATIQUE

Sous la direction de :

M Jean-Claude Moissinac (Maỵtre de Conférences - Télécom Paris )

HANỌ - 2021

Trang 3

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données

et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs Lasource des informations citées dans ce mémoire a bien été précisée

Signature de l’étudiant

Solibia PAZIMNA

Trang 4

♥ A mes très chers parents

Pour leur soutien, leur amour, leur patience et leur encouragement durant tout monparcours scolaire Que DIEU le tout puissant vous préserve, vous accorde santé, bon-heur, quiétude de l’esprit et vous protège de tout mal

♥ A tous mes professeurs

C’est une grande fierté pour moi d’être votre étudiant En témoignage de mon respect

et de ma grande affection

♥ A mes encadrants de stage

Je voudrais vous adresser ma gratitude, mes sincères reconnaissances pour tout ce quevous aviez fait pour moi durant mon stage Votre patience, votre disponibilité et surtout

la confiance que vous avez porté à mon égard m’a beaucoup aidé dans l’avancement

de mes travaux

♥ A tous mes amis

J’ai l’honneur d’avoir des amis, surtout de la promotion 23 SIM de l’IFI, si gentils, dèles, sincères et qui n’ont jamais hésité de partager avec moi mes soucis, mon mal-heur et mon bonheur

Trang 5

fi-Je remercie Dieu le tout Puissant, très Miséricordieux, qui m’a donné la santé, le rage et la persévérance durant mon parcours et tout au long de la réalisation de ce tra- vail C’est avec une certaine émotion et une grande reconnaissance que je remercie l’Uni- versité Nationale du Vietnam à travers l’Institut Francophone International et toute son équipe pédagogique, spécialement M HO Tuong Vinh responsable du master Systèmes Intelligents et Multimédia pour ses conseils et sa disponibilité Je remercie les professeurs pour les valeurs et méthodes inculquées durant le cursus : la curiosité, le gỏt du travail,

cou-de l’effort, le sens cou-de la persévérance, la volonté cou-de se remettre en question etc Autant cou-de trésors qui me seront, sans nul doute, utiles toute ma vie.

Je tiens à adresser mes profonds remerciements à Télécom Paris, très ment M Jean-Claude Moissinac qui m’a beaucoup aidé malgré la situation sanitaire du Covid19 lors de ce stage ; ses conseils et son coaching m’ont permis de cibler et de m’orien- ter tout au long de ce stage Il m’a donné envie de persévérer dans ce métier pour lequel

chaleureuse-il a le plus grand respect, la recherche et l’innovation.

Un grand merci à mon père PAZIMNA Akissiwzim Bénoỵt, à ma mère KPATCHA zowa Edith, à ma soeur et à mes frères pour leurs conseils ainsi que pour leur soutien inconditionnel Je voudrais profiter de cet espace pour leur exprimer toute ma gratitude

Po-et ma reconnaissance.

Nos vifs remerciements vont également aux membres du Jury, pour l’intérêt et tion remarquable qu’ils ont porté à ce projet, en acceptant d’examiner mon travail dans l’objectif de le parfaire à travers leurs modestes remarques, leurs suggestions et leurs cor- rections.

l’atten-Grâce à vous, j’aborde une nouvelle étape de ma vie avec confiance et dynamisme.

Solibia PAZIMNA

Trang 7

haité annoter sémantiquement des textes du domaine culturel français En effet, notation sémantique ajoute des informations complémentaires à des textes non-structurés,elle peut permettre en particulier d’identifier et de relier les entités du texte avec desdonnées du Web sémantique Nous avons mis en oeuvre une méthodologie pour construire

l’an-un système d’annotation de textes pour l’an-un vocabulaire spécifique d’l’an-un domaine

Les méthodes classiques d’annotation s’intéressant à l’annotation de mentions depersonnes, de lieux, d’organisations et ne couvrent donc pas une bonne partie destermes d’un vocabulaire spécifique Nous nous sommes donc attachés à mettre aupoint une méthode qui s’appuie sur des résultats récents en matière de modélisation

de textes La méthode peut se résumer en trois phases à savoir la reconnaissance desmentions d’entités sur notre vocabulaire culturel, recherche dans Wikidata des men-tions en fonction de leurs types obtenus à l’étape précédente, enfin nous avons la désa-mbiguïsation pour nous fournir l’entité wikidata exacte correspondante

Pour la reconnaissance des mentions, nous avons opté pour une architecture LST M −

C RF + camemBERT B B ase qui a fourni une précision moyenne de 93% sur le FrenchTreebank Au niveau de la désambiguïsation, nous avons retenu la méthode de la re-présentation contextuelle des entités grâce à laquelle on a eu une précision moyenne

de 99% sur les données de test Pour finir, nous avons mis en place un web service pourrendre exploitable notre travail

Mots clés : annotation sémantique, reconnaissance d’entités nommées,

désambi-guïsation, wikidata, base Joconde, héritage culturel français, web service

Trang 8

The subject of this internship is part of the Data & Museum project We wanted

to semantically annotate texts from the French cultural domain Indeed, semantic notation adds additional information to unstructured texts, in particular it can identifyand link the entities of the text with data from the Semantic Web We implemented amethodology to build a text annotation system for a domain specific vocabulary.Classical annotation methods are concerned with annotating mentions of people,places, organizations and therefore do not cover a good part of the terms of a specificvocabulary We therefore set out to develop a method that is based on recent results intext modeling The method can be summed up in three phases : namely the recognition

an-of mentions an-of entities on our cultural vocabulary, search in Wikidata for mentions cording to their types obtained in the previous step, finally we have the disambiguation

ac-to provide us with the wikidata entity exact match

For the recognition of mentions, we opted for an LST M −C RF +camemBERT BB ase

architecture which provided an average accuracy of 93% on the FrenchTreebank Interms of disambiguation, we have retained the method of the contextual representa-tion of entities thanks to which we had an average accuracy of 99% on the test data.Finally, we have set up a web service to make our work usable

Keywords :semantic annotation, named entities recognition, disambiguation,

wi-kidata, Joconde database, French cultural heritage, web service

Trang 9

Liste des figures v

1 Présentation du cadre d’étude et du projet de stage 2

1.1 Introduction 2

1.2 Présentation du cadre d’étude : IFI 2

1.2.1 Objectifs 3

1.2.2 Conditions d’accès et mode de recrutement 3

1.2.3 Organigramme de l’IFI 4

1.2.4 Formation 4

1.2.4.1 Parcours systèmes intelligents et multimédia 4

1.2.4.2 Parcours systèmes et réseaux communicants 4

1.2.4.3 Master en Banque, Finance et Fintech 5

1.2.4.4 Master en Information - Communication, Spécialité Com-munication digitale et éditoriale 5

1.3 Structure d’accueil 5

1.4 Contexte et problématique du projet 6

1.5 Objectifs du stage 8

1.6 Conclusion 8

2 État de l’art 9 2.1 Introduction 9

2.2 Annotation de corpus [6][7] [8] 9

2.2.1 Définition 9

2.2.2 Les formats d’annotation 10

2.2.2.1 Etiquetage (POS) 10

2.2.2.2 L’annotation sémantique 11

2.2.3 Processus et difficultés de l’annotation 11

Trang 10

TABLE DES MATIÈRES

2.2.4 Annotation sémantique : existant 11

2.3 Reconnaissance d’entités nommées [9] [10] [11] 12

2.3.1 Mesures d’évaluations [10] 12

2.3.2 les CRF 13

2.3.3 Les Transformers 14

2.3.4 BERT : Pre-training of Deep Bidirectional Transformers for Lan-guage Understanding 17

2.3.4.1 Pre-training 20

2.3.4.2 Fine-tuning 21

2.3.5 RoBERTa : Robustly Optimized BERT-Pretraining Approach 22

2.3.5.1 Données 22

2.3.5.2 Masquage statique et dynamique 23

2.3.5.3 Large Batch Sizes 23

2.3.5.4 Tokenisation 24

2.3.6 CamemBERT 25

2.4 Liaison d’entité 26

2.4.1 Défis liés à la liaison d’entité 27

2.4.2 Graphes de connaissances 28

2.4.3 Faire de la liaison d’entité 29

2.4.4 RELIC (Representations of Entities Learned in Context) 30

2.4.5 OpenTapioca 30

2.5 Conclusion 32

3 Proposition de solution 33 3.1 Introduction 33

3.2 Approche 35

3.3 Données 36

3.3.1 La base de données Joconde 36

3.3.2 Projet Wikidata Vocabulaires Joconde 36

3.4 Reconnaissance des mentions d’entités 37

3.4.1 Méthode de pré-annotation du corpus 37

3.4.2 Modèle de reconnaissance des mentions d’entités 39

3.5 Recherche des mentions dans le graphe de connaissance 40

3.6 Désambiguïsation 40

3.6.1 RELIC : données d’entrée 40

3.6.2 RELIC : Traitements 41

3.6.3 RELIC : données de sortie 42

3.7 Conclusion 42

4 Implémentation et analyse des résultats 43 4.1 Introduction 43

4.2 Reconnaissance des mentions d’entités 43

4.2.1 Préparation des données 43

Trang 11

4.2.2 Formation du modèle 49

4.2.3 Résultat 50

4.3 Disambiguation 52

4.3.1 Préparation des données 52

4.3.2 Entrainement du modèle de désambiguïsation 54

4.3.3 Résultats 54

4.4 Web service 57

4.4.1 Fonctionnement côté serveur 58

4.4.1.1 Vue d’ensemble 58

4.4.1.2 Service 59

4.4.2 Fonctionnement côté client 60

4.4.3 Cas d’utilisation 62

4.5 Conclusion 64

Trang 12

Table des figures

1.1 IFI, vue satellite 3

1.2 Organigramme IFI 4

2.1 Formats d’annotation [7] 10

2.2 Architecture globale de "Transformer" [14] 15

2.3 Scaled Dot-Product Attention Multi-Head Attention consists of several attention layers running in parallel [14] 16

2.4 BERT input representation [13] 19

2.5 Procédures générales de pre-training et fine-tuning pour BERT.) [13] 19

2.6 BERT Pre-training and Fine-Tuning Tasks ) [13] 19

2.7 Masked Language Model (MLM) [13] 20

2.8 NSP [13] 21

2.9 CoNLL-2003 Named Entity Recognition results avec BERT [13] 22

2.10 Comparaison entre statique et dynamique masquage pour B E RT B ASE [26] 23 2.11 Perplexité sur les données d’entraînement bloquées (ppl) et la précision des ensembles de développement pour les modèles de base entraînés sur BOOKCORPUS et WIKIPEDIA avec différentes tailles de lots (bsz) [26] 24

2.12 Les résultats du développement défini pour RoBERTa étant donné que nous effectuons un pré-entraînement sur plus de données (16 Go→160 Go de texte) et un pré-entraînement plus long (100K → 300K →500K étapes) [26] 24

2.13 Résultats de Camembert sur les données de test du corpus FTB-NE [10] 26 2.14 Tâche de entity linking [17] 26

2.15 EL pipeline [17] 29

2.16 Résultat de EL RELIC [20] 30

2.17 Résultat de EL OpenTapioca [18] 31

3.1 Diagramme représentant la solution proposée 34

3.2 Expressions lematisé et stocké par clé 38

3.3 Exemple IOB-annotation 39

Trang 13

4.1 Exemple de la structure de wiki40b 45

4.2 Données totales 46

4.3 Données d’entraînement 47

4.4 Données de validation 48

4.5 Données de test 49

4.6 Évolution du score 50

4.7 Évolution de la perte 51

4.8 Évaluation du modèle sur les données de validation 51

4.9 Évaluation du modèle sur les données de test 52

4.10 Exemple de dump des entités wikidata du vocabulaire joconde 53

4.11 Exemple de contextes d’entités 53

4.12 Évolution du score sur les données d’entrainement et de validation 55

4.13 Évolution de la perte sur les données d’entrainement et de validation 56

4.14 Résultats des métriques sur les données de validations 56

4.15 Résultats des métriques sur les données de test 57

4.16 Schéma Web service [23] 58

4.17 Interface principale 61

4.18 Présentation du résultat d’annotation brute 61

4.19 Présentation du résultat d’annotation json 62

Trang 14

Liste des tableaux

3.1 Ground truth (14/7/2020) 36

4.1 Paramètres du modèle de reconnaissance de mentions 50

4.2 Paramètres du modèle de désambiguïsation 54

Trang 15

EL Entity Linking

NSP Next Sentence Prediction

Trang 16

Introduction Générale

De nos jours, de grands progrès ont été réalisés dans le domaine dans le ment automatique du langage naturel1qui est un domaine multidisciplinaire impli-quant la linguistique, l’informatique et l’intelligence artificielle, visant à créer des outils

traite-de traitement traite-de la langue naturelle pour diverses applications Ces progrès ont coup bénéficié des méthodes d’apprentissage en profondeur (le deep learning), baséesprincipalement sur les réseaux de neurones, de l’augmentation de la puissance de cal-cul des ordinateurs actuels et aussi de la disponibilité d’une grande quantité de don-nées Plusieurs domaines tels que les ressources humaines, le droit, la relation client,

beau-la santé, beau-la culture et pleins d’autres s’appuient sur les techniques de traitement matique du langage naturel afin de réduire l’erreur humaine et de fournir des résultatsplus efficaces

auto-Le stage a été réalisé dans le cadre du projet Data&Musée,2dont le but était la lecte et l’exploitation de données concernant des musées de France Ce travail a portésur l’annotation sémantique de textes de ce domaine, par exemple des descriptionsd’expositions L’annotation sémantique ajoute des informations complémentaires àdes textes non-structurés, elle peut permettre en particulier d’identifier et de relier lesentités du texte avec des données du Web sémantique Ces annotations peuvent parexemple contribuer à une mise en valeur des musées et expositions françaises La mise

col-à disposition des vocabulaires scientifiques servant col-à l’interrogation et col-à l’alimentationdes divers champs de la base Joconde par le service des Musées de France, constitueune avancée importante pour la mise en valeur des musées et expositions français.Grâce à ces vocabulaires, nous avons accès à un certain nombre de termes et expres-sions liés à l’héritage culturel français L’objectif de ce travail est de mettre en place

un outil permettant de reconnaître et lier automatiquement dans un corpus textuel enfrançais, les différents types du vocabulaire Joconde

Dans les lignes qui suivent dans ce document, je vais vous présenter le travail fectué tout au long de ce stage à travers les sections suivantes : l’état de l’art des mé-thodes, les différents choix des méthodes, l’implémentation des méthodes, l’évalua-tion des modèles, puis un bref résumé des résultats obtenus et les perspectives à venirpour ce travail

ef-1 https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues

2 http://datamusee.fr

Trang 17

1.2 Présentation du cadre d’étude : IFI

L’Institut Francophone International (IFI) a été créé en 1993 sur la base du loppement de l’Institut de la Francophonie pour l’Informatique, et de l’intégration duPôle Universitaire Français à Hanoi, fondé en 2006 Il se situe dans l’enceinte de l’Uni-versité Nationale du Vietnam (Hanoi) Officiellement nommé "Institut FrancophoneInternational" à compter du 18 novembre 2014, l’IFI est un organisme international derecherche et de formation de haute qualité, rattaché à l’Université Nationale du Viet-nam, Hanoi Il a pour mission d’apporter un appui logistique et technique en informa-tique aux différentes entreprises, laboratoires de recherche etc Il offre aussi un cadre

déve-de formation en informatique Cette offre déve-de formation est constituée déve-de déve-deux filières

à savoir : Systèmes Intelligents et Multimédia (SIM) et Réseau et Systèmes cants (RSC)

Communi-Depuis sa création en 2009, l’IFI forme ses étudiants en vue de l’obtention d’undouble diplôme de master recherche La figure1.1présente une vue satellite de l’Ins-titut Francophone International

Trang 18

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

FIGURE1.1 – IFI, vue satellite

1.2.1 Objectifs

Etant une école de renommée en informatique, l’IFI a pour principaux objectifs de :

— doter les étudiants de connaissances en intelligence artificielle, machine ning, deep learning, traitement d’images et de vidéos, vision par ordinateur, mo-délisation et simulation des systèmes complexes, fouille de données, etc ;

lear-— former les étudiants aux méthodes et à la pensée de la recherche scientifique,pour être capables de résoudre indépendamment les problèmes techniques

1.2.2 Conditions d’accès et mode de recrutement

Trang 19

1.2.3 Organigramme de l’IFI

1L’Institut Francophone International est constitué d’une direction et de divisions

La direction s’appuie sur une Direction, un conseil scientifique, des services, des ratoires et des centres comme l’indique plus clairement l’organigramme1.2ci-dessous

labo-FIGURE1.2 – Organigramme IFI

1.2.4 Formation

L’IFI offre, pour sa formation, quatre filières au choix : systèmes intelligents et timédia, systèmes et réseaux communicants, master en banque finance et fintech ,master en information - communication, spécialité communication digitale et édito-riale

mul-1.2.4.1 Parcours systèmes intelligents et multimédia

Le master informatique : option systèmes intelligents et multimédia combine desconnaissances issues de différents domaines d’études en Informatique (modélisation

et simulation, intelligence artificielle, fouille de données, interaction homme-machine,génie logiciel, etc.) Le programme vise à concevoir et à construire des systèmes intel-ligents d’aide à la décision basés sur l’exploitation des informations multimédia Leprogramme s’oriente vers l’amélioration du potentiel scientifique, intellectuel et de

la vision des étudiants en réponse aux innovations croissantes dans le domaine dessciences et de la technologie, en particulier dans la révolution industrielle 4.0 [1]

1.2.4.2 Parcours systèmes et réseaux communicants

Le master informatique : option réseaux systèmes communicants combine desconnaissances issues de différents domaines d’études (réseaux avancés stockage, cloud

1 http://www.ifi.edu.vn/fr/about/Organigramme.html

Trang 20

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

et virtualisation, sécurité des réseaux, réseaux ad-hoc avances, réseaux sans fil et bile, administration des systèmes et des réseaux, etc.) Le programme vise à conce-voir et à construire des plateformes de communication durable qui assurent un ser-vice transparent et permanent Le programme s’oriente vers l’amélioration du poten-tiel scientifique, intellectuel et de la vision des étudiants en réponse aux innovationsconstantes dans le domaine des sciences et de la technologie, en particulier dans larévolution industrielle 4.0 [2]

mo-1.2.4.3 Master en Banque, Finance et Fintech

Ce parcours a pour objectifs de fournir aux étudiants des connaissances dies et les plus récentes dans le secteur bancaire et financier à l’ère d’industrie 4.0 Leprogramme Fintech en partenariat entre IFI et EM Normandie est le premier mis enœuvre au Vietnam et le deuxième en Asie Il bénéficie de la participation d’enseignants

approfon-et experts internationaux ayant une grande expérience de formation approfon-et de conseil venant des centres mondiaux en marché financier et en Fintech [3]

pro-1.2.4.4 Master en Information - Communication, Spécialité Communication

digi-tale et éditoriale

Le programme de formation de master information et communication, spécialitécommunication digitale et éditoriale en cotutelle de l’Université de Toulon et de l’Insti-tut Francophone International (Université Nationale du Vietnam à Hanoi) financé parl’Agence Universitaire de la Francophonie (AUF) a pour objectif de former des spécia-listes en communication en se fondant sur des techniques informatiques et d’ :

- aider les diplômés en français et en Sciences humaines et sociales souhaitant vailler dans le domaine de la communication à acquérir des connaissances complé-mentaires de communication digitale et éditoriale ainsi que des techniques informa-tiques utilisées dans ce domaine ;

tra aider les diplômés en Sciences et en Sciences technologiques à acquérir des connaistra sances complémentaires de communication ;

connais aider les diplômés en Journalismeconnais Éditation, les correspondants et les éditeurs à moconnais derniser leur procédure professionnelle [4]

mo-1.3 Structure d’accueil

Télécom Paris2anciennement Télécom ParisTech, École nationale supérieure destélécommunications et École supérieure de télégraphie, est l’une des 205 écoles d’ingé-nieurs françaises accréditées au 1er septembre 2019 à délivrer un diplôme d’ingénieur.Elle est aussi un centre de recherche de référence dans les technologies du numérique

2 https://fr.wikipedia.org/wiki/Télécom_Paris

Trang 21

L’école a été fondée en 1878 Dite grande école généraliste, aujourd’hui TélécomParis est spécialisée dans les sciences et technologies de l’information et des télécom-munications.

Elle est aujourd’hui rattachée à l’Institut Mines-Télécom et fait partie de la rence des grandes écoles, et de l’Institut Polytechnique de Paris Elle est située à Palai-seau et à Sophia Antipolis (Institut Eurécom)

Confé-L’école fut l’un des acteurs de l’Université Paris-Saclay et est désormais une école

de l’Institut polytechnique de Paris Le déménagement de ses bâtiments sur le plateau

de Saclay à côté du Campus de l’École Polytechnique a été réalisé en octobre 2019, demême que celui de la direction générale de l’Institut Mines-Télécom

Télécom Paris est organisé en quatre départements d’enseignement et recherche :

— Communications et Électronique

— Informatique et Réseaux

— Image, Données, Signal (IDS)

— Sciences Économiques et Sociales

Le département Image, Données, Signal (IDS)3a pour missions l’enseignement et

la recherche dans le domaine du traitement du signal, de l’image et des données Il eststructuré autour de trois équipes à savoir :

— Signal, Statistique et Apprentissage

— Multimédia et Image, Modélisation

— Analyse, Géométrie, Synthèse

Ses objectifs sont notamment [5] :

— la modélisation, l’étude, l’analyse et l’interprétation des signaux et images soustoutes ses formes (audio, vidéo, multimédia, images satellitaires, images biomé-dicales, )

— L’étude et le développement d’algorithmes et méthodes de traitements tique pour l’apprentissage, l’optimisation et l’analyse de données

statis-Ce stage a été effectué dans le département IDS au sein de l’équipe Multimédia etImage, Modélisation

1.4 Contexte et problématique du projet

Ce sujet de stage est né du projet Data & Musée4 L’objectif de Data & Musée estd’utiliser une grande variété de données –traces de visites de site web, billetteries, par-cours de visite, réseaux sociaux - pour améliorer la perception des musées dans leur

3 https://www.telecom-paris.fr/fr/lecole/departements-enseignement-recherche/ image-donnees-signal

4 http://datamusee.fr/

Trang 22

CHAPITRE 1 PRÉSENTATION DU CADRE D’ÉTUDE ET DU PROJET DE STAGE

environnement et la satisfaction des visiteurs actuels ou potentiels des musées et positions5

Dans le projet Data&Musée, nous disposons de textes décrivant notamment des positions, des oeuvres, des musées et des monuments Nous avons souhaité relier lesentités décrites par ces textes avec d’autres données collectées par ailleurs sous forme

ex-de graphes ex-de connaissances Pour cela, nous avons décidé d’annoter ces textes encréant des liens entre des parties de ces textes et des entités sélectionnées du web sé-mantique

L’annotation sur des types usuels telles que personnes, lieux, ou organisations estune tâche correctement effectuée avec des outils comme DBpedia SpotLight [24] ouAIDA [25] Pour ces types, de tels outils fonctionnent pour l’anglais, et, de plus en plus,pour d’autres langues comme le français, mais ont des résultats moins bons pour lefrançais que pour l’anglais Ils ne prennent pas en compte les vocabulaires de l’héritageculturel français Ce travail vise à mettre à disposition de la communauté un outil quiannote sémantiquement un corpus textuel spécifiquement sur ces vocabulaires.Les principales difficultés pour pour ce travail sont :

— les ambiguïtés inhérentes au langage naturel

— ambiguïtés liées au vocabulaire culturel français

— l’obtention d’un corpus annoté sur les entités artistiques ;

— la faible quantité de données disponibles

5 https://fr.wikipedia.org/wiki/Exposition_artistique

Trang 23

1.5 Objectifs du stage

Les objectifs du sujet de stage étaient donc multiples :

— Élaborer un corpus annoté sur les entités artistiques

— Reconnaître dans un texte français les mentions liés à l’héritage culturel français

— Mettre en place une méthode de désambiguïsation pour lier à wikidata les entitésreconnue

— Mettre en place un web service pour annoter sémantiquement des textes liés àl’héritage culturel français

1.6 Conclusion

L’Institut Francophone International (IFI) est une institution de l’Université nale du Vietnam ayant pour mission de former les étudiants en master international.C’est aussi un cadre de formation disposant de quatres filières : systèmes intelligents etmultimédia, systèmes et réseaux communicants, banque finance et fintech, commu-nication digitale et éditoriale Il accueille aussi des stagiaires en fin de formation Demême, Télécom Paris, est l’une des grandes écoles d’ingénieurs françaises spécialiséedans les sciences et technologies de l’information et des télécommunications Pour mapart, j’ai effectué mon stage de fin de formation dans le département Image DonnéesSignal sur le site de Palaiseau

Trang 24

2.2 Annotation de corpus [ 6 ][ 7 ] [ 8 ]

2.2.1 Définition

Selon [6], l’annotation consiste dans l’apport d’informations de nature différente,une « valeur ajoutée » aux données brutes C’est donc un acte interprétatif d’intérêtlinguistique ayant pour objectif d’obtenir un corpus enrichi ou simplifié

On distingue trois types d’annotations qui s’appliquent à trois domaines différents

et à des applications distinctes :

— l’annotation dans son sens premier comme ajout manuel de remarques, mentaires, notes sur le texte ;

com-— l’annotation du document et/ou du corpus avec les métadonnées caractérisant

et décrivant le document numérique ;

— l’annotation d’ordre linguistique dans le cas de l’étiquetage morphosyntaxique

ou de l’annotation sémantique

En considérant l’annotation comme une association d’une description formelle aune séquence textuelle, on peut ressortir deux grands types de description :

Trang 25

— limites de la séquence : définition des éléments constituant la séquence pour lareconnaissance des entités dans le texte

— catégorie(s) de la séquence : attribution d’une catégorie issue d’un ensemble défini pour décrire une entité selon un point de vue

pré-2.2.2 Les formats d’annotation

L’annotation est liée étroitement avec une théorie langagière quelconque Du point

de vue technique, l’annotation implique une catégorisation des composants du pus, l’identification de composants supplémentaires, l’identification des relations entredes composants spécifiés

cor-Plusieurs formats sont utilisés pour différents travaux sur les corpus [7] La tiplicité des formats d’annotation est inévitable car d’une part les besoins sont trèsdivers et d’autre part, les choix linguistiques qui président à ces formats peuvent êtredivergents

mul-FIGURE2.1 – Formats d’annotation [7]

2.2.2.1 Etiquetage (POS)

L’étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS ging (part-of-speech tagging) en anglais) est le processus qui consiste à associer auxmots d’un texte les informations grammaticales correspondantes.1

tag-Considérons le texte original : "Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique" L’étiquetage morpho-syntaxique nous

donnera :

1 https://fr.wikipedia.org/wiki/étiquetage_morpho-syntaxique

Trang 26

CHAPITRE 2 ÉTAT DE L’ART

Texte étiqueté : Nous/PRO :PER sommes/VER :pres allées/VER :pper en/PRP/enBretagne/NAM contempler/VER :infi de/PRP magnifiques/ADJ allées/NOM couver-tes/VER :pper du/PRP :det Néolithique/NAM /SENT

2.2.2.2 L’annotation sémantique

L’annotation sémantique consiste à étiqueter dans un document les mots avec desliens qui pointent vers une description sémantique L’objectif est d’attribuer à des uni-tés linguistiques données un « sens » Traditionnellement, l’analyse sémantique se si-tue après l’analyse morphologique et l’analyse syntaxique

2.2.3 Processus et difficultés de l’annotation

Les outils d’annotation varient selon la nature de l’annotation, c’est-à-dire selon lesphénomènes que l’on veut distinguer Pour créer un corpus de qualité, l’interventionmanuelle est indispensable et les outils pour produire ou corriger manuellement desannotations existantes sont nombreux

L’annotation d’un corpus se fait à la main ou automatiquement Une annotationmanuelle a pour risque les incohérences, beaucoup de travail, et une annotationautomatique a pour risque la circularité (qui consiste à croire qu’on a produit de laconnaissance parce qu’on a « validé » des cadres théoriques sur une donnée empi-rique) ; et nécessite de faire évoluer les outils

En pratique, il est conseillé de faire une pré-annotation automatique puis tion par l’annotateur [8]

vérifica-2.2.4 Annotation sémantique : existant

L’annotation de textes est un problème classique L’annotation par un liage avec desentités de graphes de connaissances a connu des développements significatifs dans ladernière décennie On trouve de nombreux outils pour cela : OpenCalais, Zemanta,ANNIE Par exemple, AIDA assure des liens entre des parties d’un texte avec Yago [24]tandis que DBpedia SpotLight [25] assure des liens avec DBpedia L’un comme l’autretraitent un nombre limité de types de mentions : lieux, personnes célèbres, organisa-tions Ces types ne couvrent que très partiellement les vocabulaires que nous voulonscouvrir De plus, ils sont beaucoup moins efficaces en français qu’en anglais, notam-ment parce que DBpedia et Yago couvrent moins bien les entités de culture françaiseque des entités d’autres cultures que ne le fait Wikidata Nous avons identifié très peu

de travaux qui font de l’annotation avec Wikidata, par exemple [18] qui ne répond pas

à notre besoins puisque le système est conçu spécialement sur du texte anglophone, cequi ne marche pas bien sur du texte français, mais aussi ne prend pas en compte notrevocabulaire

Trang 27

2.3 Reconnaissance d’entités nommées [ 9 ] [ 10 ] [ 11 ]

Le concept d’entité nommée est apparu dans les années 90 à l’occasion de rence d’évaluation MUC (Message Understanding Conference) Ces conférences avaientpour but de promouvoir la recherche en extraction d’information Les tâches propo-sées consistaient à remplir de façon automatique des formulaires concernant des évé-nements Dans ce cadre, certains objets textuels, ayant une importance applicativeparticulière dans plusieurs domaines du TALN, ont été regroupés sous le nom d’en-tités nommées La reconnaissance de ces dernières est donc considérée comme unesous-tâche à part entière de l’extraction d’information [9]

confé-La notion d’entité nommée a évolué au fil du temps, que ce soit au niveau de cequ’elle signifie ou au niveau des typologies qu’elle peut couvrir

Selon wikipedia, une entité nommée est une expression linguistique référentielle,souvent associée aux noms propres et aux descriptions définies.2 La reconnaissanced’entités nommées est donc une technique permettant de reconnaître une expressionlinguistique référentielle Elle consiste à rechercher des objets textuels (c’est-à-dire unmot, ou un groupe de mots) catégorisables dans des classes telles que noms de per-sonnes, noms d’organisations ou d’entreprises, noms de lieux, quantités, distances,valeurs, dates, etc

Initialement développé pour la recherche d’information, La reconnaissance tités nommées -NER, Named ENtity Recognition- est utilisée aujourd’hui en préalable

d’en-à d’autres tâches de NLP telles que l’annotation sémantique, la traduction machine, laclassification ou pour alimenter une ontologie

Deux approches sont utilisées pour implémenter un système NER : l’approche desrègles prédéfinies ou celle des méthodes d’apprentissage machine Toutefois bien queles méthodes des règles prédéfinies sont plus facile et rapides à mettre en oeuvre, ellesont moins efficaces que celle de de l’apprentissage par machine

Trang 28

CHAPITRE 2 ÉTAT DE L’ART

tances récupérées parmi toutes les instances pertinentes

Rap pel = t p

— Le F-score : est utilisé pour mesurer la précision d’un test Il équilibre l’utilisation

de la précision et du rappel Le F-score peut fournir une mesure plus réaliste de laperformance d’un test en utilisant à la fois la précision et le rappel Le F-score estsouvent utilisé dans la recherche d’informations pour mesurer les performances

de recherche, de classification de documents et de classification de requêtes Ilest défini comme la moyenne harmonique pondérée de la précision et du rappel

du test Ce score est calculé comme suit :

F − Scor e = 2 ∗ P r eci son × Recal l

uti-Les Conditional Random Fields prennent en entrée un ensemble structuré

d’élé-ments x et fournissent en sortie un étiquetage structuré y de cet ensemble Ils sont

dits discriminants car ils modélisent la probabilité conditionnelle d’un ensemble quettes y selon une entrée x Quand le graphe exprimant les dépendances entre éti-quettes est linéaire, la distribution de probabilité d’une séquence d’annotations y selonune séquence observable x est donnée par : [11]

Trang 29

— ó Z(x) est un facteur de normalisation dépendant de x.

— Les K traits f ksont des fonctions a valeur dans {0, 1} fournies par l’utilisateur

— Les poidsλ k associés aux différents traits f k sont les paramètres du modèle terminés par l’apprentissage

dé-2.3.3 Les Transformers

Les transformers sont un modèle de deep learning introduit en 2017, utilisé cipalement dans le domaine du traitement du langage naturel [14] décrit les transfor-mers comme ce que l’on appelle une architecture Sequence-to-Sequence Sequence-to-Sequence (ou Seq2Seq) est un réseau de neurones qui transforme une séquencedonnée d’éléments, comme la séquence de mots d’une phrase, en une autre séquence

prin-Un choix populaire pour ce type de modèle sont les modèles basés sur Term-Memory (LSTM) Avec des données dépendantes de la séquence, les modulesLSTM peuvent donner un sens à la séquence tout en se souvenant (ou en oubliant) desparties qu’ils trouvent importantes (ou sans importance) Les phrases, par exemple,dépendent de la séquence puisque l’ordre des mots est crucial pour comprendre laphrase Les LSTM sont donc un choix naturel pour ce type de données

Long-Short-Les modèles Seq2Seq se composent d’un encodeur et d’un décodeur L’encodeurprend la séquence d’entrée et la mappe dans un espace dimensionnel supérieur (vec-teur à n dimensions) Ce vecteur abstrait est introduit dans le décodeur qui le trans-forme en une séquence de sortie La séquence de sortie peut être dans une autre langue,des symboles, une copie de l’entrée, etc

Le mécanisme d’attention examine une séquence d’entrée et décide à chaque étapequelles autres parties de la séquence sont importantes Pour chaque entrée que lit l’en-codeur, le mécanisme d’attention prend en compte plusieurs autres entrées en mêmetemps et décide lesquelles sont importantes en attribuant des poids différents à cesentrées Le décodeur prendra alors en entrée la phrase codée et les poids fournis par lemécanisme d’attention

[14] présente une nouvelle architecture appelée transformer Le transformer utilise

le mécanisme d’attention décrit plus haut Comme LSTM, Transformer est une tecture permettant de transformer une séquence en une autre à l’aide de deux parties(encodeur et décodeur), mais il diffère des modèles sequence-to-sequence précédem-ment décrits / existants car il n’implique aucun réseau récurrent ( GRU, LSTM, etc.).C’est un modèle d’architecture évitant la récurrence et reposant à la place entièrementsur un mécanisme d’attention pour dessiner des dépendances globales entre l’entrée

archi-et la sortie

Trang 30

CHAPITRE 2 ÉTAT DE L’ART

FIGURE2.2 – Architecture globale de "Transformer" [14]

L’encodeur est à gauche et le décodeur à droite L’encodeur et le décodeur sontcomposés de modules qui peuvent être empilés les uns sur les autres plusieurs fois, cequi est décrit par Nx dans la figure Nous voyons que les modules sont principalementconstitués de couches ’Multi-Head Attention’ et ’Feed Forward’ Les entrées et sorties(phrases cibles) sont d’abord intégrées dans un espace à n dimensions car nous nepouvons pas utiliser directement les chaînes

Une partie légère mais importante du modèle est l’encodage positionnel des rents mots Puisque nous n’avons pas de réseaux récurrents qui peuvent se souvenir

Trang 31

diffé-de la façon dont les séquences sont introduites dans un modèle, nous diffé-devons d’unemanière ou d’une autre donner à chaque mot / partie de notre séquence une positionrelative puisqu’une séquence dépend de l’ordre de ses éléments Ces positions sontajoutées à la représentation intégrée (vecteur à n dimensions) de chaque mot.

FIGURE2.3 – Scaled Dot-Product Attention Multi-Head Attention consists of severalattention layers running in parallel [14]

Commençons par la description de gauche du mécanisme d’attention Elle peutêtre décrite par l’équation suivante :[14]

At t ent i on(Q, K ,V ) = so f tmax( QK

T

— Q (Query) est une matrice qui contient la requête,

— K (Keys) sont toutes les clés,

— V (Values) sont les valeurs

Le concept key/value/query provient de systèmes de recherche Par exemple, qu’on tape une requête pour rechercher, le moteur de recherche mappera notre re-quête (query) sur un ensemble de clés(Keys) associées aux candidats dans la base dedonnées, puis nous présentera les meilleures correspondances(values)

lors-Pour l’encodeur et le décodeur, modules d’attention multi-heads, V est constitué de

la même séquence de mots que Q Cependant, pour le module d’attention qui prend

en compte les séquences d’encodeur et de décodeur, V est différent de la séquencereprésentée par Q

Trang 32

CHAPITRE 2 ÉTAT DE L’ART

Pour simplifier, nous pourrions dire que les valeurs de V sont multipliées et

addi-tionnées avec des poids d’attention a, ó nos poids sont définis par :[14]

sé-une distribution entre 0 et 1 Ces poids sont ensuite appliqués à tous les mots de la

séquence qui sont introduits dans V (mêmes vecteurs que Q pour l’encodeur et le

dé-codeur mais différents pour le module doté d’entrées endé-codeur et dédé-codeur)

L’image de droite (2.3) décrit comment ce mécanisme d’attention peut être lisé en plusieurs mécanismes qui peuvent être utilisés cơte à cơte Le mécanisme d’at-

parallé-tention est répété plusieurs fois avec des projections linéaires de Q, K et V Cela permet

au système d’apprendre à partir de différentes représentations de Q, K et V , ce qui est bénéfique pour le modèle Ces représentations linéaires se font en multipliant Q, K et

V par les matrices de poids W obtenues lors de l’apprentissage.

Ces matrices Q, K et V sont différentes pour chaque position des modules

d’atten-tion dans la structure selon qu’ils sont dans l’encodeur, le décodeur ou entre deur et le décodeur La raison en est que nous voulons nous occuper de la séquenced’entrée entière de l’encodeur ou d’une partie de la séquence d’entrée du décodeur Lemodule d’attention multi-heads qui connecte l’encodeur et le décodeur s’assurera que

l’enco-la séquence d’entrée de l’encodeur est prise en compte avec l’enco-la séquence d’entrée dudécodeur jusqu’à une position donnée

Après les multi-attention heads dans l’encodeur et le décodeur, nous avons unecouche à anticipation ponctuelle Ce petit réseau à réaction a des paramètres iden-tiques pour chaque position, qui peuvent être décrits comme une transformation li-néaire distincte et identique de chaque élément de la séquence donnée

2.3.4 BERT : Pre-training of Deep Bidirectional Transformers for

Lan-guage Understanding

Les modèles pré-entraỵnés se sont avérés efficace pour améliorer de nombreusestâches de traitement du langage naturel.[10] Les modèles de langage pré-entraỵnéssont désormais omniprésents dans le traitement du langage naturel Depuis la sortiedes laboratoires Google AI en fin 2018 de BERT (Bidirectional Encoder Representationsfrom Transformers), plusieurs travaux de traitement automatique de langue se sontalignés sur ce travail

BERT, acronyme anglais de Bidirectional Encoder Representations from mers, est un modèle de langage développé par Google en 2018 Cette méthode a per-mis d’améliorer significativement les performances en traitement automatique des

Trang 33

Transfor-langues BERT est plus performant en terme de résultats et en terme de rapidité prentissage que ses prédécesseurs Une fois pré-entraîné, de façon non supervisée, ilpossède une "représentation" linguistique qui lui est propre Il est ensuite possible, sur

d’ap-la base de cette représentation initiale, de le personnaliser pour une tâche particulière

Il peut être entraîné en mode incrémental (de façon supervisée cette fois) pour liser le modèle rapidement et avec peu de données

spécia-BERT est essentiellement une pile Transformer Encoder entraînée comme le montre

la figure2.5 Il a l’avantage par rapport à ses concurrents Open AI GTP et ELMo d’êtrebidirectionnel, il n’est pas obligé de ne regarder qu’en arrière comme OpenAI GPT ou

de concaténer la vue "arrière" et la vue "avant" entraînées indépendamment commepour ELMo

Au niveau architectural, BERT possède deux types

— L est le nombre de couches (c’est-à-dire les blocs transformer)

— H est la taille cachée

— A est le nombre d’auto-attention heads

— Parameters est le nombre total de paramètre

BERT apprend de façon non supervisée, l’entrée se suffit à elle même, pas besoin

de labeliser, on se sert uniquement de l’entrée, et de plusieurs manières Il attend desdonnées d’entrée dans un format spécifique, avec des tokens spéciaux pour marquer ledébut ([CLS]) et la séparation / fin des phrases ([SEP]) De plus, il faut tokeniser le texte

en token qui correspondent au vocabulaire de BERT Pour chaque phrase tokenisée,

BERT nécessite input ids, une séquence d’entiers identifiant chaque token d’entrée

à son numéro d’index dans le vocabulaire du tokenizer BERT position_ids est utilisé

pour identifier la position de chaque token dans la liste des tokens Les segments idssont représentés sous la forme d’un masque binaire identifiant les deux types de sé-quence

Trang 34

CHAPITRE 2 ÉTAT DE L’ART

FIGURE2.4 – BERT input representation [13]

FIGURE2.5 – Procédures générales de pre-training et fine-tuning pour BERT.) [13]

La résolution d’un problème avec BERT nécessite deux étapes, la phase de training et celle de fine-tuning figure2.6

pre-FIGURE2.6 – BERT Pre-training and Fine-Tuning Tasks ) [13]

Trang 35

2.3.4.1 Pre-training

[13] propose deux taches de pre-training, Masked Language Model (MLM) et NextSentence Prediction (NSP)

— Masked Language Model (MLM) : Dans cette tâche, 15% des tokens de chaque

séquence sont masqués aléatoirement (remplacés par le token [MASK]) Le dèle est entraîné pour prédire ces tokens en utilisant tous les autres tokens de

mo-la séquence Cependant, mo-la tâche de fine-tuning ne verra en aucun cas de token[MASK] dans son entrée Ainsi, pour que le modèle s’adapte à ces cas, durantl’entraînement, à 80% du temps, 15% des tokens sont masqués ; à 10% du temps,15% des tokens sont remplacés par des tokens aléatoires ; et à 10% du temps, lestokens sont conservés tels quels, c’est-à-dire intacts

FIGURE2.7 – Masked Language Model (MLM) [13]

— Next Sentence Prediction (NSP) : dans cette tâche il existe deux séquences

d’en-trée (séparées à l’aide du jeton [SEP], et Segment Embeddings) C’est une tâche

de classification binaire impliquant la prédiction pour dire si la deuxième phrase

Trang 36

CHAPITRE 2 ÉTAT DE L’ART

succède à la première phrase du corpus Pour cela, 50% du temps, la phrase vante est correctement utilisée comme phrase suivante, et 50% du temps, unephrase aléatoire est extraite du corpus pour l’entraînement Cela garantit que lemodèle s’adapte à la formation sur plusieurs séquences (pour des tâches tellesque la réponse aux questions et l’inférence en langage naturel)

sui-FIGURE2.8 – NSP [13]

2.3.4.2 Fine-tuning

Après l’étape de pre-training, vient celle de fine-tuning qui permet de

personna-liser le modèle sur une tâche bien définie BERT a atteint l’état de l’art sur plusieurstâches de référence GLUE (General Language Understanding Evaluation) En Recon-naissance d’entités nommées, par exemple, les sorties hidden state sont directementprojetés sur une couche de classification avec le nombre de tags comme unités de sor-tie pour chacun des tokens Cette opération nous donne des logits sur lesquels nousutilisons argmax pour obtenir la classe prédite de chaque token

Trang 37

FIGURE2.9 – CoNLL-2003 Named Entity Recognition results avec BERT [13]

2.3.5 RoBERTa : Robustly Optimized BERT-Pretraining Approach

BERT est un modèle de langage pionnier qui est pentraîné pour produire des sultats de pointe dans de nombreuses tâches de NLP Cependant, il est encore possibled’améliorer le modèle BERT d’origine en ce qui concerne ses objectifs de pre-training,les données sur lesquelles il est formé, la durée pendant laquelle il est formé, etc Cesproblèmes ont été identifiés par Facebook AI Research (FAIR), et donc , ils ont proposéune version «optimisée» et «robuste» de BERT Les auteurs de RoBERTa suggèrent queBERT est largement sous-pré-entraîné et par conséquent, ils ont proposé des amélio-rations

ré-2.3.5.1 Données

Il a été observé que la formation de BERT sur de plus grands ensembles de donnéesaméliore considérablement ses performances RoBERTa est donc formé sur un vasteensemble de données qui dépasse 160 Go de texte non compressé Cet ensemble dedonnées est composé des corpus suivants :

— BookCorpus + English Wikipedia (16GB) : ce sont les données sur lesquelles BERTest pre-entrainé

— CC-News (76GB) : Les auteurs ont collecté ces données à partir de la partie glaise des CommonCrawl News Data Il contient 63 millions d’articles de presse

an-en anglais explorés an-entre septembre 2016 et février 2019

Trang 38

CHAPITRE 2 ÉTAT DE L’ART

— OpenWebText (38GB) : recréation Open Source de l’ensemble de données Text utilisé pour entraîner OpenAI GPT

Web-— Stories (31GB) : un sous-ensemble de données CommonCrawl filtré pour pondre au style de type histoire des schémas Winograd

corres-2.3.5.2 Masquage statique et dynamique

L’objectif du "masked language modeling" dans le pré-training BERT consiste sentiellement à masquer au hasard quelques jetons de chaque séquence, puis à prédireces jetons Cependant, dans l’implémentation d’origine de BERT, les séquences ne sontmasquées qu’une seule fois lors du pré-traitement Cela implique que le même modèle

es-de masquage est utilisé pour la même séquence dans toutes les étapes d’apprentissage.Pour éviter cela, lors de la ré-implémentation de BERT, les auteurs ont dupliqué lesdonnées d’apprentissage 10 fois de sorte que chaque séquence a été masquée dans 10modèles différents Le modèle a été construit pendant 40 cycles (époques dans le lan-gage BERT), c’est-à-dire que chaque séquence a été entraînée pour les mêmes motifs

de masquage 4 fois En plus de cela, un masquage dynamique a été essayé, dans lequel

un motif de masquage est généré chaque fois qu’une séquence est envoyée au modèle

FIGURE2.10 – Comparaison entre statique et dynamique masquage pour B E RT B ASE

[26]

En comparant les résultats, premièrement, la paire de segments utilisée à l’originedans [13] fonctionne mieux sur les tâches en aval que la représentation de phrases in-dividuelles (paire de phrases) Cependant, le paramètre doc-sentence surpasse le mo-

dèle original de B E RTB ASE La suppression de l’objectif NSP égale ou améliore ment les performances des tâches en aval

légère-2.3.5.3 Large Batch Sizes

Des travaux postérieur ont montré que les modèles transformer et BERT se prêtent

à des lots de grande taille Le fait d’avoir de grandes tailles de batch accélère

Trang 39

l’optimisa-tion et peut améliorer les performances de la tâche finale lorsqu’elle est correctementréglée.

FIGURE2.11 – Perplexité sur les données d’entraînement bloquées (ppl) et la précisiondes ensembles de développement pour les modèles de base entraînés sur BOOKCOR-PUS et WIKIPEDIA avec différentes tailles de lots (bsz) [26]

Avec l’augmentation de la taille des batch, les passes d’entraînement sont ajustées,c’est-à-dire qu’une séquence donnée sera finalement optimisée pour le même nombre

de fois Par exemple, une taille de batch de 256 pour 1M étapes équivaut à un ment avec une taille de batch de 2K pour 125K étapes et avec un taille de batch de 8Kpour 31K étapes

entraîne-2.3.5.4 Tokenisation

Pour la tokenisation, RoBERTa utilise un schéma d’encodage BPE (Byte-Pair coding) au niveau des octets avec un vocabulaire contenant 50K unités de sous-motscontrairement au BPE au niveau des caractères de BERT avec un vocabulaire de 30K

En-FIGURE2.12 – Les résultats du développement défini pour RoBERTa étant donné quenous effectuons un pré-entraînement sur plus de données (16 Go→160 Go de texte)

et un pré-entraînement plus long (100K→300K→500K étapes) [26]

La figure2.12indique que RoBERTa a surpassé l’état de l’art dans presque toutesles tâches de GLUE, y compris pour les modèles d’ensemble

En somme, RoBERTa est BERT mais :

Trang 40

CHAPITRE 2 ÉTAT DE L’ART

— entraỵné sur des ensembles de données plus volumineux

— entraỵné beaucoup plus longtemps

— entraỵné sur de gros batch

— entraỵné sans objectif NSP en pré-entraỵnement

— entraỵné sur des séquences plus longues

— entraỵné avec génération de masque dynamique

2.3.6 CamemBERT

CamemBERT est un modèle de langage de pointe pour le français basé sur tecture RoBERTa (décrit ci-dessus) pré-entraỵné sur le sous-corps français du corpusmultilingue OSCAR3 nouvellement disponible.4 La différence entre CamemBERT etBERT réside dans leur pré-entraỵnement CamemBERT a été pré-entraỵné sur un cor-pus francophone et avec des hyper-paramètres différents découverts et testés pour lapremière fois par l’équipe de Facebook [26]

l’archi-— CamemBERT choisit les mots à prédire de manière dynamique,

— Il utilise une taille de batch différente que celle de BERT

— CamemBERT a un seul objectif de pré-entraỵnement : prédiction des "mots qués" d’une séquence Tandis que BERT prédis des "mots masqués" et la phrasesuivante d’une séquence [16]

mas-[10] compare les performances de CamemBERT, modèle de langage de type BERTfrançais, à des modèles de référence, y compris des modèles multilingues basés surBERT (mBERT et UDify) et un modèle qui n’utilise pas de embeddings contextuels.Les auteurs démontrent la valeur ajoutée d’un modèle français en considérant diversestâches de NLP Leurs résultats montrent que, pour la tâche de Named Entity Recogni-tion (NER), la performance, mesurée par le F-score, s’améliore considérablement

En plus de prouver la valeur ajoutée du modèle français, ils montrent que tion de modèles contextuels améliore significativement les résultats par rapport à unmodèle non contextuel Ce constat justifie le cỏt opérationnel des modèles contex-tuels, qui nécessitent beaucoup plus de ressources de calcul, lors de la recherche desmeilleures performances

l’utilisa-Dans l’ensemble, CamemBERT est une ressource très utile pour la communautéNLP travaillant avec du texte français Il contrebalance la scène NLP majoritairementanglophone Le modèle est disponible en ligne dans la bibliothèque transformers

3 https://oscar-corpus.com

4 https://camembert-model.fr

Ngày đăng: 01/04/2021, 15:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm