1. Trang chủ
  2. » Ngoại Ngữ

Analyse de données multi sources (réseaux sociaux, journaux, ) liées au thèmes « mobilité et transition énergétique »

62 53 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 2,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

De nombreux travaux de recherche s’intéressent à l’analyse des opinions dansdes tweets écrits en langue française tels que les travaux de [Davide Buscaldi et al, 2018],[Amine Abdaoui et

Trang 1

1

Trang 3

INSTITUT FRANCOPHONE INTERNATIONAL,VNU-IFI

Stage Master 2 Informatique, LIUPPA – Equipe T2I Université de Pau et des Pays de l’Adour

2018-2019 Master : Systèmes Intelligents Multimédia - Promo 22

ANALYSE DE DONNÉES MULTI-SOURCES (RÉSEAUX

SOCIAUX, JOURNAUX, )LIÉES AU

THÈME « MOBILITÉ ET TRANSITION ÉNERGÉTIQUE»

Trang 5

Table des matières

1 Présentation de Structure d’accueil et Généralités sur le Twitter 3

1.1 LIUPPA le laboratoire de recherche en informatique de l’UPPA 3

1.1.1 Equipes de recherche 4

1.2 Généralités 5

1.2.1 Twitter 5

1.2.2 Caractéristique d’un tweet 6

1.2.3 Analyse d’opinion 6

1.3 Domaines d’applications de l’analyse des sentiments 7

1.3.1 La politique 7

1.3.2 Les entreprises 7

1.3.3 Les clients 8

1.3.4 Les collectivités locales 8

1.4 Sources des Données 8

1.4.1 Sites d’avis 8

1.4.2 Blogs 9

1.4.3 Micro-blogs 9

1.5 Approches de la classification des sentiments 9

1.6 Contributions 10

1.6.1 Processus Gèneral 11

2 État de l’art 12 2.1 Les diverses approches d’analyse de sentiment 12

i

Trang 6

2.1.1 Approche basée sur les lexiques 14

2.1.2 Approche apprentissage de la machine 16

2.2 Une approche particulière basée sur le modèle BILSTM 18

3 Collecte de Données et Pré-traitement 21 3.1 Collecte de Données 21

3.1.1 Collecte 21

3.1.2 Corpus 24

3.2 Pré-traitement 25

4 Analyse des Sentiments : Cas Pratique 27 4.1 Lexique de sentiments 27

4.2 L’apprentissage machine 28

4.2.1 Description de l’approche 29

4.2.2 Données d’apprentissage et de test 30

4.2.3 Classification Tweet 30

5 Expérimentations et Résultats 31 5.1 Phase d’Apprentissage 31

5.1.1 Extraction et présentation des descripteurs 31

5.2 Expérimentation 32

5.2.1 Mesures d’évaluation 32

5.3 Phase de Test et Interprétation 33

5.3.1 Phase de Test et Présentation des résultats 33

5.3.2 Présentation des résultats et discussion 34

5.4 Visualisation 37

5.4.1 Pourcentage par rapport au nombre d’opinions (BHNS) 37

5.4.2 Pourcentage par rapport au nombre d’opinions (Funiculaire) 38

5.4.3 Pourcentage par rapport au nombre d’opinions (VELO) 38

5.4.4 Répartition en % de tweets d’opinion par catégorie 39

5.4.5 Répartition en fonction des polarités des opinions 40

5.4.6 Évaluation de la Répartition de tweets des opinions 40

Trang 7

Table des matières iii

5.4.7 Représentation graphique par rapport au tweet avec opinions 41

5.4.8 Représentation de tweets des opinions sous forme d’une droite 41

5.4.9 Représentation graphique d’opinions(2017-2019) 42

5.4.10 Représentation graphique de polarités(2017-2019) 42

5.5 Une Application Web Pour le Workflow 44

5.5.1 Extraction des données 45

5.5.2 Résultat de la Prédiction de la Polarité 47

5.5.3 Résultat Graphique 48

Trang 8

1.1 scructure du laboratoire 4

1.2 Processus Gèneral 11

2.1 Approches d’analyse de sentiment 13

2.2 Exemples d’une base de données lexicales 14

2.3 Exemples de la polarité 15

3.1 Tweets BHNS_FEBUS 22

3.2 Tweets FUNICULAIRE 23

3.3 Tweets IDECYCLE 23

3.4 Tweets IDECYCLE 25

4.1 Exemples de données labélisées 28

4.2 Diagramme d’architecture du système proposé 29

5.1 Pourcentage par rapport au nombre d’opinions 37

5.2 Pourcentage par rapport au nombre d’opinion Funiculaire 38

5.3 Pourcentage par rapport au nombre d’opinion VELO 39

5.4 Répartition par rapport au tweet d’opinions par catégorie 39

5.5 Répartition par rapport à la polarité des opinions 40

5.6 Répartition en % au tweet des opinions 40

5.7 Répartition cyclique en % au tweet des opinions 41

5.8 Représentation des 3 classes 41

5.9 Représentation annuelle des opinions 42

5.10 Représentation de polarité en 2017 43

iv

Trang 9

Table des figures v

5.11 Représentation de polarité en 2018 43

5.12 Représentation de polarité en 2019 44

5.13 Page d’accueil de notre application 45

5.14 Page d’extraction des données 46

5.15 Résultat d’extraction de données 46

5.16 Résultat d’extraction de données 47

5.17 Résultat graphique 48

Trang 10

LSTM Long Short-Term Memory

BiLSTM Bidirectional Long Short-Term Memor

RNN Recurrent neural network

vi

Trang 11

Au cours des dernières années, il y a eu un énorme engouement dans l’utilisation desplates-formes publiques telles que Twitter Elle est devenue importante dans les médiassociaux pour traiter des sujets aussi variés que l’activisme politique, le commercial, l’éco-nomique,le sportif, le transport et le divertissement Elle permet aux utilisateurs d’envoyer

et de lire des messages courts de 280 caractères appelés "tweets".Il est également sant d’analyser le contenu de ces tweets pour aider les entreprises, les collectivités dans leschoix de politiques territoriales Ainsi, l’analyse de l’opinion est le processus de détermi-nation du ton d’émotion derrière une série de mots, utilisés pour comprendre les attitudes,les opinions et les émotions exprimées dans une mention en ligne

intéres-Nous souhaitons faire l’analyse de sentiments dans les tweets Dans le cadre de notresujet de recherche, nous souhaitons faire d’une part l’extraction de manière automatiquesur la plateforme Twitter d’informations relatives à la mobilité et au transport dans l’ag-glomération de la ville de PAU Nous souhaitons d’autre part analyser l’opinion émise dansces tweets Cette analyse permet de faire des statistiques pour aider les collectivités dansles choix de politiques territoriales Cette opinion peut être positive, négative, mixposneg(tweet exprimant en debut de message une opinion positive, puis une opinion négative)

ou neutre De nombreux travaux de recherche s’intéressent à l’analyse des opinions dansdes tweets écrits en langue française tels que les travaux de [Davide Buscaldi et al, 2018],[Amine Abdaoui et al, 2015], [Simon Jacques, et al,2018] et [Thierry Hamon et al,2015].L’auteur [Davide Buscaldi et al, 2018], nous présente a travers cet article trois méthodesoriginales pour la classification thématique et la détection de polarité dans des tweets enfrançais La première méthode est fondée sur des lexiques (mots et emojis), les n-grammes

de caractères et un classificateur à vaste marge (ou SVM), tandis que les deux autres sontdes méthodes endogènes fondées sur l’extraction de caractéristiques au grain caractères :

un modèle à mémoire à court-terme persistante (ou BiLSTM pour Bidirectionnal LongShort-Term Memory) et perceptron multi-couche d’une part et un modèle de séquences

de caractères fermées fréquentes et classificateur SVM d’autre part Sentiment analysis

of tweets on transport from Île-de France [Simon Jacques, et al,2018] L’auteur [AmineAbdaoui et al, 2015] a proposé des méthodes supervisées basées sur les machines à vecteurs

de support (SVM) utilisant plusieurs types d’attributs comme les n-grammes de mots, les

1

Trang 12

n-grammes de caractères, les patrons syntaxiques les plus fréquents, etc Puis il a égalementconstruit et utilisé des lexiques de sentiments et d’émotions spécifiques pour le français.Analyse des émotions, sentiments et opinions exprimés dans les tweets : présentation etrésultats de l’édition 2015 du défi fouille de texte [Thierry Hamon et al,2015]

Dans ce document, nous allons nous intéresser aux travaux de recherche reposant surles techniques de machine learning pour affecter une polarité à un tweet, notamment ceux

de [Davide Buscaldi.D et al, 2018] dont nous avons pu utiliser les développements

L’analyse des sentiments relève de plusieurs disciplines en l’occurrence d’une part dutraitement automatique de la langage naturelle (Naturel Langage Processing) et d’autrepart de l’apprentissage automatique (Machine Learning)

Dans ce mémoire, notre objectif consiste à detailler l’analyse des sentiments en adoptantune approche d’apprentissage automatique

Pour ce faire, nous avons re-implémenté la méthode de D.Buscaldi sur le corpus detweets de DEFT2018.[Davide Buscaldi.D et al, 2018] sur notre corpus

Les résultats obtenus en terme de précision, rappel et F1-mesure révèlent que la sentation avec un modèle BILSTM est la plus pertinente pour nos travaux

repré-Le reste du mémoire est organisé en cinq chapitres : nous consacrons un premier pitre pour présenter des généralités sur le domaine de l’analyse des sentiments en particuliertwitter comme source d’opinions Le second chapitre se focalise sur l’état de l’art de l’ana-lyse des sentiments, notamment les travaux inhérents à l’analyse des sentiments twitter.Notre troisième chapitre sera consacré à la collecte de données et au pré-traitement Quant

cha-au quatrième chapitre, il sera concentré sur le processus mis en place pour notre travail.Notre cinquième chapitre présente l’expérimention et les résultats de la méthode BILSTM

en considérant les phases d’apprentissage et de test

Nous concluons avec une synthèse de travail et des perspectives

Trang 13

des données (dont la masse ne cesse de croître) hétérogènes, multimédias, et fortementdélocalisées (cloud), des traitements distribués et sous-traités, des usagers différents (ma-chines, humains) dont les profils et les besoins diffèrent et évoluent Dans ce contexte,mêmes les interactions avec et entre ces usagers sont à repenser pour permettre unemeilleure communication, et une meilleure collaboration.

Les solutions que le LIUPPA se propose d’apporter s’inscrivent dans deux domainescomplémentaires :

sciences et technologies de l’information autour des traitements de l’information née, document, etc.), de la connaissance, et du web, génie logiciel autour de l’ingénierie desmodèles, des services et des architectures logicielles, avec des préoccupations transversalesliées à la sécurité, au traitement image/signal et à la visualisation, aux systèmes distribués,

(don-et à l’interaction (don-et l’adaptation La figure qui suit synthétise le propos

3

Trang 14

Figure 1.1 – scructure du laboratoire

Le laboratoire est structuré en 2 équipes :

MOVIES : est centrée sur le génie logiciel et la modélisation S’y greffent les thématiquessécurité et visualisation

T2I : est centrée sur le traitement de l’information et des interactions, basé sur des pétences de nature diverse (Système d’Information Géographique, architecture logicielle,réseau de capteurs, image)

Trang 15

l’ana-Ces messages, également appelés tweets, constituent la base de la plate-forme de médiassociaux Chaque tweet est limité à un certain nombre de caractères Avant le 7 novembre

2017, les utilisateurs n’étaient en mesure de tweeter qu’avec un maximum de 140 caractèrespar tweet Toutefois, depuis la mise à jour du 7 novembre 2017, la longueur des messagespeut varier de 1 à 280 caractères En outre, le contenu de ces messages contient des opinions,idées, déclarations, etc Par conséquent, les tweets peuvent varier selon le sujet, tels queles paroles de chansons, les déclarations politiques, les idées, les opinions sur un sujetparticulier, etc Les tweets diffèrent non seulement par leur contenu, mais les personnes quiles écrivent ont des antécédents différents Cela signifie que le public de Twitter varie desprésidents aux mécaniciens, des acteurs célèbres aux étudiants en arts du secondaire et desPDG aux propriétaires de magasins En conséquence, le service de micro-blogging Twitterpeut collecter des tweets de personnes issues de différents contextes sociaux, culturels,politique, sportifs et économiques

Ensuite, les utilisateurs représentent également différents pays, ce qui signifie que lesdonnées peuvent être collectées dans différentes langues Par conséquent, les études concer-nant les services de micro-blogging ne se limitent pas à une seule langue mais à autant qu’ilexiste différentes nationalités Enfin, la base de données de Twitter s’agrandit chaque jour

En conséquence, Twitter est une ressource de données infinie Les raisons mentionnées

Trang 16

ci-dessus (nombre de caractères, variété de sujets, large public et base de données en croissanceconstante) font de Twitter un service de micro-blogging idéal pour collecter des données àdes fins d’analyse de la confiance et de la détection de posture.

Les termes à connaıtre pour bien utiliser Twitter sont des vocabulaires spécifiques Lesplus courants sont[Barbosa et al 2010] :

— Followers : les personnes qui vous suivent

— Followings : les personnes que vous suivez

— Friends : les personnes que vous suivez et qui vous suivent

— Twittos : les utilisateurs de Twitter

— Tweet : court message

— Tweeter : envoyer/poster un message

1.2.2 Caractéristique d’un tweet

Le vocabulaire de la langue dans les tweets, utilise des symboles spécifiques A quoisert le et ? C’est quoi RT ? Toutes ces abréviations peuvent paraître un peu floues Dansune perspective de clarification, un petit lexique des principaux mots et signes Twitter estprésenté :

— Mention @ : se présente sous la forme @Nomutilisateur Il cible un utilisateur deTwitter dans le tweet poste Exemple : salut à vous de la part de @hugues et @kdm.Dans le cadre d’une réponse à un tweet, l’auteur du tweet d’origine est mentionnéautomatiquement dans la réponse

— Hashtag # : se présente sous la forme d’un mot-clé Il identifie le mot-clé en questioncomme important et peut en faire un sujet populaire Exemple : gouvernement, bhns

ou encore facebook

— RT (ReTweet) : se présente sous la forme RT NomUtilisateur Il permet de partager

le tweet d’un utilisateur Exemple : RT hugueskdm Excellent

— URL (Lien) : se présente sous la forme https ://

Tous ces caractères spéciaux peuvent être analysés pour établir différentes statiquesmais le plus intéressant est l’analyse du contenu dont on peut trouver l’opinion émise

1.2.3 Analyse d’opinion

Quel est le sens spécifique de l’analyse des sentiments et de l’analyse d’opinion ? Alorsque dans la plupart des domaines, l’analyse des sentiments et l’analyse d’opinion sontutilisées de manière interchangeable, ils ont tous deux une histoire et une signification

Trang 17

1.3 Domaines d’applications de l’analyse des sentiments 7

différentes La première mention de l’extraction d’opinions apparaît dans les actes de laconférence WWW de 2013 dans un article de [Dave et al,2013]

Il affirme que "Idéalement, un outil de sondage d’opinion traiterait un ensemble de tats de recherche pour un article donné, générant une liste d’attributs de produit (qualité,caractéristiques, etc.) et agrégeant les opinions sur chacun d’eux (médiocre, mixte, bon)"(Dave et al., p519, 2003) Grâce à d’autres publications dans ce domaine d’études, l’analysedes sentiments est devenue une partie intégrante du traitement du langage naturel (NLP)

résul-La plupart des travaux du traitement du langage naturel (NLP) réduisent l’importance del’analyse des sentiments et se concentrent sur la classification des revues et des textes parleur polarité, à savoir positive, négative ou neutre.(Sigrid Maurel et al.,Atelier FODOP’08,pages 9 à 22)

Toutefois, nombreux sont ceux qui élargissent le sens de l’analyse des sentiments autraitement informatique de l’opinion, du sentiment et de la subjectivité dans un texte [PangLee, 2008, p.6] Ainsi, en interprétant le terme analyse de sentiment au sens large, analyse

de sentiment et analyse d’opinion indiquent le même domaine d’études Dans ce travail,cependant, nous utiliserons le sens étroit de l’analyse de sentiment comme classificationdes phrases en fonction de leur polarité

1.3 Domaines d’applications de l’analyse des sentiments

L’importance de la détection de sentiment est présente dans plusieurs domaines ainsiplusieurs applications ont vu le jour dans ce contexte Nous citons brièvement quelqueschamps d’applications ci-dessous : la politique, les entreprises, les clients et les collectivitéslocales

1.3.1 La politique

Les acteurs politiques peuvent suivre la tendance de la population en analysant leuropinion, Par exemple avant de promulguer une nouvelle loi, les politiciens essayent derécolter l’avis des internautes sur cette loi Il est intéressant de connaître aussi l’avis desinternautes sur un homme politique pour une élection présidentielle [Anisha P Rodrigues ;Niranjan N Chiplunkar et al 2016]

1.3.2 Les entreprises

A travers l’analyse des sentiments, les entreprises peuvent connaıtre l’opinion des clientssur leurs produits ou leur service, dans une perspective d’améliorer leurs produits et d’aug-menter leurs chiffres d’affaires [8]

Trang 18

Dans le domaine du Product review mining, notamment à partir des sites de tation, les consommateurs viennent échanger des avis et trouver des conseils pour leursdécisions d’achat (produits technologiques, voitures, voyage et hơtels, etc) [8] Le mar-keting a rapidement compris l’intérêt de l’analyse de sentiments.

consul-1.3.3 Les clients

L’analyse des sentiments fait partie aussi de la vie des internautes Les sondages dans

ce domaine montrent que la majorité des clients avant d’acheter un produit, font desrecherches d’avis sur ce produit ou un service donné Ils sont même prêts à payer plus cher

un produit dont l’avis est plus favorable qu’un autre [Kalchbrenner et al 2014]

1.3.4 Les collectivités locales

La présence des collectivités locales sur les réseaux sociaux se renforce, se lise, et s’étend avec agilité à de nouveaux médias Youtube, Instagram, Twitter et LinkedInnotamment en ne se limitant plus, comme c’était souvent le cas avant, au seul Facebookmême si ce dernier domine encore très largement tous les autres

professionna-Le but est de mieux toucher ses cibles, là ó elles sont, avec un positionnement et plan unéditorial clairs Cette agilité permet de diversifier son offre éditoriale, de mieux convaincreses publics et, de faire changer les comportements.[https ://www.franckconfino.net/etude-reseaux-sociaux-collectivites-locales/]

1.4 Sources des Données

Ces opinions sont présentes dans différentes sources de données, à savoir : sites d’avis,blog et micro-blog

1.4.1 Sites d’avis

Les opinions ont le rơle de décideur pour tout utilisateur durant la phase d’achat Lesavis générés par les utilisateurs sur les produits et les services sont largement disponiblessur Internet La classification de sentiments utilise les données de l’examinateur collectées

à partir des sites Web tels que :

• www.gsmarena.com (revues de téléphone portable) ;

• www.amazon.com (revues des produits) ;

• www.CNETdownload.com (revues des produits)

Trang 19

1.5 Approches de la classification des sentiments 9

Ces sites accueillent des millions d’avis sur les produits par les consommateurs [Butow,F

at al]

1.4.2 Blogs

Un blog est un système ou les personnes peuvent écrire sur différens sujets dans un but

de partager avec d’autres personnes sur le même site La simplicité de la création des blogsainsi que leur forme libre a rendu le blogging un événement accessible Sur la blogosphère,nom associé à l’univers de tous les blogs, nous trouvons un nombre important de messagesrelatifs à une panoplie de sujets d’intérêt Les blogs sont utilisés comme sources d’opinionsdans la plupart des études relatives à l’analyse des sentiments [Butow,F at al]

1.4.3 Micro-blogs

Les micro-blogs sont parmi les outils de communication les plus populaires pour lesutilisateurs d’Internet Chaque jour, des millions de messages apparaissent dans des sitesWeb populaires pour les micro-blogging tels que : Twitter , Tumblr , Facebook Parfois lesmessages Twitter expriment des opinions qui sont utilisées comme source de données pourclassifier le sentiment [Butow,F at al]

Quant au choix de sources des données, nous avons choisi d’utiliser le Micro-Blog ter pour la collecte de nos données Nous allons présenter les diverse approches permettant

Twit-de classer les sentiments

1.5 Approches de la classification des sentiments

Les méthodes existantes d’analyse des sentiments peuvent être regroupées en deuxcatégories principales [Amine Abdaoui et al 2016],[Anne-Lyse Minard et al DEFT2018.] :

1 Basé sur la connaissance

2 Basé sur l’apprentissage automatique

1 Dans les méthodes basées sur la connaissance, également appelées classification desentiments basée sur le Lexicon, l’objectif est de construire ou d’utiliser des lexiques

de mots de sentiments existants avec les étiquettes de sentiments indiquées pour lesmots ou les phrases du texte La classification du texte est définie par des règles ; parexemple, une fonction sur les mots, telle que la somme de leurs polarités [Taboada

et al 2011] Cependant, il faut des ressources linguistiques puissantes pour extraire

la connaissance des mots, qui ne sont pas toujours disponibles

Trang 20

[Amine Abdaoui et al 2016] ont construit un lexique(FEEL), utilisant uniquementNRC Word Emotion Association Lexicon (NRC-EmoLex) et une liste d’adjectifs dedépart étiquetés Cette liste ne contient que des adjectifs positifs (par exemple, gé-nial, sympa, cool) et des adjectifs négatifs (par exemple, mauvais, ennuyeux) Leurméthode récupère et étiquette automatiquement les synonymes (même polarité) et lesantonymes (polarité opposée) Ce processus permet à la liste de devenir un lexique.

Un inconvénient de cette approche est qu’elle n’est applicable que dans les langues

ó FEEL est disponible Dans tous les cas, la méthode basée sur la connaissancepeut s’avérer inopérante en raison du bruit dans les données textuelles, tandis que lacréation manuelle de règles pour combiner les informations sur les mots obtenus deslexiques de sentiment prend du temps et des efforts

2 Par contre[Lei Zhang 17 Jan 2013], l’apprentissage machine nécessite la formationd’un modèle pour prédire la polarité du texte Le modèle est formé avec les messagestexte, étiquetés pour leur sentiment et représentés en tant que vecteurs caractéris-tiques Ce dernier nécessite classiquement un prétraitement du texte en utilisant desoutils de traitement de la langue tels que NLTK[Natural Language Toolkit] Le pré-traitement du texte implique principalement la création de jetons, la création de liens,

le balisage et éventuellement l’analyse du texte La sélection des caractéristiques propriées à partir des données est cruciale et s’est révélée être un problème majeur

ap-et constitue toujours un objectif clé pour les chercheurs

Des travaux antérieurs sur l’analyse des sentiments ont exploité des méthodes bienconnues d’apprentissage automatique supervisé, comme le réseau de neurones récur-rent (RNN) [Anne-Lyse Minard et al DEFT2018.], les réseaux de neurones convolu-tifs (CNN) [Antoine Sainson et al DEFT2018.], le random Forests[Wahid et al 2017].Notre travail se concentre également sur les modèles d’apprentissage automatique.Nous développerons ces approches dans le chapitre 2

1.6 Contributions

La principale contribution de cette recherche est une analyse approfondie sur les rithmes de classification pour extraire les avis des tweets A cet effet, deux méthodes serontétudiées :

algo-1 l’approche lexicale qui utilise des dictionnaires de mots,

2 l’apprentissage machine en utilisant l’algorithme BiLSTM

Nous avons analysé des algorithmes et testé des implémentations de ces algorithmesdans le cadre de ces deux approches afin d’étudier leur performance pour la détection,dans les tweets, de la polarité Nous cherchons a élire le meilleur outil dans le cadre denotre projet

Trang 21

1.6 Contributions 11

1.6.1 Processus Gèneral

La figure suivante 1.2 fournit un aperçu general de ce processus Nous décrirons dansles chapitre 3 et chapitre 4 les principales tâches de chaque étape

Figure 1.2 – Processus Gèneral

Le chapitre suivant présente brièvement l’état de l’art et l’approche particulière

Trang 22

État de l’art

L’analyse de sentiments se concentre aujourd’hui sur l’attribution d’une polarité à desexpressions subjectives (les mots et les phrases qui expriment des opinions, des émotions,des sentiments, etc.) afin de décider de l’orientation d’un document [Turney, 2002], [Wilson

et al., 2004] ou de la valeur positive/négative/neutre d’une opinion dans un document oumicro-blog [Hatzivassiloglou McKeown, 1997], [Yu Hatzivassiloglou, 2003], [Kim Hovy,2004]

2.1 Les diverses approches d’analyse de sentiment

L’analyse des opinions n’est pas récente, elle a été étudiée depuis les années 90 pendant, dans des années 2000, l’analyse de sentiment suscité l’intérêt des scientifiques enraison de son importance dans différents domaines scientifiques.[Lui, B et al 2012] Deplus, la grande disponibilité des données textuelles pousse la recherche dans ce domainesur de nouveaux développements

Ce-Selon Bing Liu dans [Lui, B 2012] : l’analyse des sentiments est une zone de ment qui suscite l’intérêt de l’homme et en particulier des organisations parce que l’analysedes sentiments peut être utilisée pour le processus de prise de décision Les individus nesont plus limités à demander des opinions d’amis sur le produit ou un service, ils peuventtrouver librement l’information sur Internet De plus, les organisations peuvent gagner dutemps et de l’argent en évitant de mener des enquêtes, ils peuvent se concentrer sur letraitement des opinions qui peuvent être obtenues à partir du Web Néanmoins, il est im-portant de noter que les sources qui contiennent des données textuelles sont bruyantes, ilest parfois important d’extraire le sens essentiel de l’information utilisée L’analyse des sen-timents utilise des techniques et des approches différentes pour traiter cette tâche difficile[Lui, B 2012]

développe-12

Trang 23

2.1 Les diverses approches d’analyse de sentiment 13

L’analyse des sentiments peut être effectuée aux niveaux suivants :

• Au niveau du document [Turney, et al 2002] A ce niveau, la tâche principale est dedéfinir l’avis du document entier (Avis devrait être exprimé sur un seul sujet)

• au niveau de la phrase [Bütow, F et al 2007] Ici, chaque phrase est considérée comme

un court document qui peut être subjectif ou objectif La phrase Subjective exprime

le sentiment

Les techniques de classification d’analyse de sentiment sont principalement divisées enapprentissage machine et approches basées sur le lexique [Medhat et al 2014] (voir FIGURE2.1)

Figure 2.1 – Approches d’analyse de sentiment

Décrivons les approches fondées sur la lexique et celles basées sur l’apprentissage de lamachine

Trang 24

2.1.1 Approche basée sur les lexiques

La première technique qui peut être utilisée pour l’analyse des sentiments est la méthodebasée sur le lexique Elle utilise un lexique qui se compose des termes avec des scores desentiment respectifs à chaque terme Le terme peut être associé avec un seul mot, unephrase ou expression [Chiavetta, F et al, 2016] Le sentiment est défini en fonction de

la présence ou de l’absence des termes dans le lexique L’approche fondée sur le lexiquecomprend l’approche à base de corpus et l’approche basée sur un dictionnaire

(A) Approche basée sur un dictionnaire

L’idée principale derrière l’approche basée sur un dictionnaire est d’utiliser des bases

de données lexicales pour extraire le sentiment du document Sur la base de [Lui, B 2012],[Hailong, Z et al, 2014], un ensemble de sentiment de semences mots[ mots croisés et motsFléchés] (par exemple, bon, mauvais) avec leur polarité sont collectées à la main

Figure 2.2 – Exemples d’une base de données lexicales

L’étape suivante consiste à utiliser les mots polaires pour enrichir un ensemble en cherchant des synonymes et antonymes respectifs dans une base de données lexicale.Nous pouvons citer des exemples de dictionnaire de données : FEEL, a French ExpandedEmotion Lexicon [Amine Abdaoui et al 2016, pp 1-23.] ou encore Polarimots[Gala and

Trang 25

re-2.1 Les diverses approches d’analyse de sentiment 15

Brun, 2012], Propagation de polarités dans des familles de mots ou encore Diko[Lafourcade

et al., 2015a, 2015b] La procédure de consultation est itérative A chaque itération del’algorithme, la mise à jour prend un ensemble de mots et recherche encore tant qu’il yaura de nouveaux mots à inclure

Par exemple, si le marketing était sur un appareil photo, les auteurs récupèrent descaractéristiques telles que la qualité d’image et la taille de l’appareil photo Grâce a l’uti-lisation de ces caractéristiques, la classification a été faite sur des avis positif et négatif.Pour attribuer une étiquette positive ou négative pour une phrase, d’abord, les chercheursont récupéré les mots polaires de chaque examen

Par exemple la phrase donne les résultats suivants "je suis à l’ arrêt de bus

je stresse de fou mais ça sert à rien de stresser putain"

Figure 2.3 – Exemples de la polarité

Dans ce cas, les adjectifs ont été utilisés La prédiction était basée sur la polarité d’unadjectif qui avait la même polarité que ses synonymes et opposée à la polarité de sesantonymes La méthode qui a été décrite dans [Hu, et al 2004] a montré de bons résultats,

la précision moyenne est constituée de 84% Par conséquent, la méthode actuelle peut êtreefficace pour la prédiction de polarité de la phrase

(B) Approche basée sur le corpus

Dans [Lui, B 2012], Bing Liu indique qu’une approche basée sur un corpus peut êtreappliquée dans deux cas Le premier cas est une identification de mots d’opinion et de leurspolarités dans le corpus de domaine en utilisant un ensemble donné de mots d’opinion Ledeuxième cas concerne la construction d’un nouveau lexique dans un domaine particulier

à partir d’un autre lexique à l’aide d’un corpus de domaine Les résultats suggèrent quemême si les mots d’opinion dépendent du domaine, il peut arriver que le même mot aitune orientation opposée selon le contexte

Nous avons testé cette approche sur notre jeu de données

Trang 26

Les recherches menées par [Hatzivassiloglou, et al, 1997] occupent une place importantedans la littérature sur les techniques à base de corpus Les auteurs ont proposé une méthodequi extrait l’orientation sémantique d’adjectifs conjoints du corpus La technique est baséesur l’utilisation de corpus textuels et de mots d’opinion initiaux (adjectifs) Des règleslinguistiques spéciales sont appliquées aux corpus afin de détecter les mots d’opinion avecles polarités correspondantes Les auteurs supposent que les adjectifs ont la même polarités’ils sont joints par la conjonction «et».

Cependant, la conjonction «mais» est utilisée pour relier des adjectifs de polaritésopposées De plus, des conjonctions telles que «ou», «soit-ou», «ni l’un ni l’autre» sontutilisées Parfois, ces règles ne s’appliquent pas

2.1.2 Approche apprentissage de la machine

La deuxième technique qui peut être utilisée pour l’analyse de sentiment est tissage machine (machine learning) qui comprend des méthodes d’apprentissage machinesupervisée et non supervisée

l’appren-(A) La méthode d’apprentissage machine non supervisée

Dans le cas de l’apprentissage non supervisé, l’apprentissage par la machine se fait defaçon totalement autonome Des données sont alors communiquées à la machine sans luifournir les exemples de résultats attendus en sortie

Si cette solution semble idéale sur le papier car elle ne nécessite pas de grands jeux dedonnées étiquetés (dont les résultats attendus sont connus et communiqués à l’algorithme),

il est important de comprendre que ces deux types d’apprentissages ne sont par nature pasadaptés aux mêmes types de situation

L’apprentissage non supervisé est principalement utilisé en matière de clusterisation,procédé destiné à regrouper un ensemble d’éléments hétérogènes sous forme de sous groupeshomogènes ou liés par des caractéristiques communes La machine fait alors elle même lesrapprochements en fonction de ces caractéristiques qu’elle est en mesure de repérer sansnécessiter d’intervention externe De cette capacité à effectuer de la clusterisation découleégalement la possibilité de mettre au point un système de recommandation ( le systèmepeut par exemple recommander un livre ou un film à un utilisateur en fonction des gỏtsd’utilisateurs partageant des caractéristiques communes) ainsi que la possibilité de mettre

au point un système de détection d’anomalies

(B) La méthode d’apprentissage machine supervisée

Les méthodes d’apprentissage automatique supervisé supposent la présence de donnéesd’apprentissage étiquetées qui sont utilisées pour le processus d’apprentissage Nous nous

Trang 27

2.1 Les diverses approches d’analyse de sentiment 17

référons au cas ó le classificateur définit l’étiquette à laquelle l’objet appartient En tantque jeu de données d’apprentissage, les documents étiquetés doivent être utilisés Habituel-lement, le modèle de sac de mots [Tang et al, 2016] est utilisé pour représenter un documentsous forme de vecteur de caractéristiques d = w1, w2 wi, , wN , ó N est défini pour tousles termes uniques du jeu de données d’apprentissage et wi est le poids du ième terme.Pour convertir un jeu de données d’apprentissage en un vecteur de caractéristiques, il fautcréer un vocabulaire comportant N mots uniques à partir des données d’apprentissage Enoutre, n’importe lequel des modèles de caractéristiques peut être utilisé pour construire unvecteur de caractéristiques

Une fois que le jeu de données est représenté sous forme de vecteur, il peut être utilisépar le classificateur pour l’apprentissage et l’estimation des étiquettes Différents types deméthodes peuvent être utilisés pour former le classificateur Parlons de certains d’entreelles La méthode la plus courante et la plus simple utilisée pour la classification du texteest Nạve Bayes [Tang et al, 2016], [Go, A et al, 2009], [Gautam, G et al, 2014], [Pang,

B et al, 2002] Le modèle est basé sur le théorème de Bayes en supposant que les entitéssont indépendantes Le classifieur Nạve Bayes définit la probabilité que le document ap-partienne à une classe particulière Les avantages du classifieur Bayes sont les suivants :simplicité de mise en œuvre, processus d’apprentissage assez rapide, résultats assez bonségalement [Bütow, F et al], [Gautam, G et al, 2014], [Pang, B et al, 2002] Cependant,l’hypothèse «nạve» peut poser problème car, dans le monde réel, les fonctionnalités sontdépendantes Selon [Go, A et al, 2009] «l’idée des modèles Maximum Entropy est qu’il fautpréférer les modèles les plus uniformes qui satisfont une contrainte donnée» La probabilitéque le document appartienne à une classe particulière [Go, A et al, 2009], [Gautam, G et

al, 2014] est estimée comme suit :

En outre, les auteurs [chikersal, P et al 2015] ont appliqué le classificateur SVM port Vector Machine) (les émoticơnes de classificateur SVM ont été supprimées de l’en-semble de données de d’apprentissage) Ils ont utilisé un noyau linéaire et une régularisationL1 dans toutes les expériences Les auteurs ont utilisé diverses fonctionnalités telles que

(Sup-le mot n-grammes, (Sup-les balises POS(Part of Speech), (Sup-les ngrammes de caractères ainsi quedifférents lexiques : lexique Bing Liu, le lexique Sentiment140, SentiWordNet, etc L’idée

Trang 28

de leur approche est de combiner deux méthodes afin d’améliorer la précision et le rappel.

En résumant les résultats, on peut en conclure qu’une approche basée sur des règlespeut améliorer la prédiction faite avec le classifieur SVM

Le classifieur SVM a également été utilisé dans [Go, A et al, 2009], [Gautam, G et al,2014], [Pang, B et al, 2002] La méthode suppose une division de l’espace en sous-espacescorrespondant à des classes particulières En termes de classification binaire, l’idée de laphase d’apprentissage consiste à découvrir un hyperplan qui sépare au mieux un jeu dedonnées en deux classes avec la marge maximale La marge est la distance entre l’hyperplan

et le point de données le plus proche de l’ensemble défini par l’hyperplan Ces points dedonnées proches de l’hyperplan sont appelés des vecteurs de support Ces derniers sont deséléments critiques, car leur suppression modifierait la position du séparateur [Manning, C

et al, 2008]

Donc,l’approche SVM peut parfois surpasser des algorithmes tels que Nạve Bayes,Maximum Entropy [Pang, B et al, 2002] Cependant, SVM ne convient pas aux grandsensembles de données en raison de la complexité temporelle de SVM Une autre solutionpour la classification du texte est l’utilisation de réseaux de neurones (NN) [Pang, B et al,2002]

Le réseau neuronal artificiel suit les principes du réseau neuronal biologique Il estsupposé que le réseau de neurones peut résoudre les problèmes de la même manière que leshumains Le NN est un ensemble de neurones interconnectés En général, NN a plusieurscouches

2.2 Une approche particulière basée sur le modèle

BIL-STM

L’analyse des sentiments est un objet d’étude intéressant pour les chercheurs en telligence artificielle, les linguistes informatiques, les chercheurs en sciences cognitives etles neurobiologistes Comme indiqué précédemment, l’une des approches les plus efficacespour l’analyse des sentiments est le traitement du langage naturel avec l’apprentissageautomatique Pour pouvoir résoudre les problèmes de classification et de régression, l’exi-gence fondamentale de l’utilisation de l’apprentissage automatique supervisé est ladisponibilité des données

in-Sur la base de cette approche,nous allons en particulier étudié l’apport de modèlesd’attention Ces modèles, très populaires, permettent dans le cas de données séquentiellescomme le sont nos tweets, de fonder la décision du réseau sur la base de certains mots.C’est-à-dire que le réseau va être entraỵné à donner beaucoup de poids aux mots de l’entréepertinents pour prédire la classe attendue, et très peu de poids aux autres mots

Trang 29

2.2 Une approche particulière basée sur le modèle BILSTM 19

En pratique, ces modèles d’attention sont implémentés sous la forme d’une couche deneurones supplémentaire avec une activation softmax et dont les poids sont ensuite mul-tipliés à la sortie de la couche BiLSTM Nous avons deux branches avec la même archi-tecture (Embedding, Bi-LSTM, couche d’attention, et un neurone de sortie par branche).Une branche apprend si le tweet est POSITIF ou non, et l’autre s’il est NEGATIF ou non

La combinaison des deux sorties permet bien d’avoir les quatre classes possible (NEUTREquand les deux branches renvoient 0, MIXPOSNEG quand les deux renvoient 1)

Le système que nous utilisons est celui mis en place par [Davide buscaldi et al Deft2018]

Ce système utilise les réseaux de neurones récurrents pour implanter un classifieur, plusspécifiquement les Bidirectional Long Short-Term Memory(BiLSTM) (Hochreiter Schmid-huber, 1997) qui sont largement utilisés en traitement automatique des langues Selon lesauteurs la classification se fait en trois temps :

1 Le texte est séparé aux espaces Chaque segment est traité comme une séquenced’octets lue de gauche à droite et de droite à gauche par deux réseaux récurrentsniveau caractère Les vecteurs résultats des lectures sont additionnés et servent dereprésentation du segment, dite compositionnelle

Pour une séquence de caractères s = c1 cm, on calcule pour chaque position hi =LST M o(hi1, e(ci)) et h0i = LST M o0(h0i + 1, e(ci)) , ó e est la fonction de plon-gement des caractères vers les vecteurs denses, et LSTM est un raccourci pour unefonction implantant la cellule récurrente des LSTM La représentation compositon-nelle du segment est c(s) = hm+ h01

2 La séquence de segments est lue à nouveau de gauche à droite et de droite à gauchepar de nouveaux réseaux récurrents niveau mot qui prennent en entrée pour chaquesegment la représentation compositionnelle venant de l’étape précédente à laquelle

on ajoute une représentation vectorielle du segment si celui-ci était présent plus de

10 fois dans le corpus d’entraỵnement Pour une séquence de segments p = s1 sn,

on calcule li = LST M m(li1, c(si) + e(si)) , l0i = LST M m0(li+ 1, c(si) + e(si)), ó

c est la représentation compositionnelle donnée ci-dessus et e la fonction de gement que l’on étend aux segments vus dans l’ensemble d’entraỵnement Les étatsfinaux obtenues après lecture dans les deux directions sont sommés et servent dereprésentation de la phrase d’entrée, r(p) = ln+ l01

plon-3 La représentation obtenue sert d’entrée à un perceptron multi-niveaux qui effectue

la classification finale, aussi bien que pour la classification de polarité : o(p) = σ(O ×max(0, (W ×r(p)+b))) ó σ est l0oprateur sof tmax, W, O des matrices et b unvecteur

On interprète la sortie comme une distribution de probabilité sur les classes de tweets Cette interprétation probabiliste nous permet de réduire l’apprentissage des paramètres

du système (ie les plongements de caractères et de segments fréquents, O, W, b, ainsi queles paramètres des 4 cellules LSTM) à la maximisation de la vraisemblance du corpus d’en-traỵnement On utilise l’algorithme AMSgrad [Reddi et al., 2018] pour calculer la taille du

Trang 30

pas lors de la descente de gradient Pour éviter le sur-apprentissage, nous procédons auxdeux ajustements suivants :

– On écarte aléatoirement du corpus d’entraînement 10% des phrases qui sont utiliséescomme ensemble de validation, ce qui permet de décider quand les paramètres sonttoujours utiles sur des données inconnues

– On utilise la technique du dropout [Srivastava et al., 2014], sur tous les vecteurs àchaque étage du réseau

L’approche que nous avons adoptée pour la classification d’opinion de tweets est ractérisée par une utilisation mixte d’une technologie symbolique fondée sur des règles etd’une technologie statistique reposant sur l’extraction de caractère, approche dans laquelle

ca-la méthode symbolique a un poids plus important (D Buscaldi et al 2018), La technologiesymbolique fait d’abord une analyse du texte phrase par phrase et en extrait ensuite lesrelations qui véhiculent des sentiments

Nous allons présenter dans les prochains chapitres le processus que nous avons suivipour développer notre approche de la collecte de tweets (chapitre 3), suivie du choix de

la méthode de classification (chapitre 4) et enfin d’une étape de visualisation de résultats(chapitre 5)

Trang 31

La collecte est une étape qui consiste à obtenir les données d’étude liées à la thématique

du projet Nous présentons dans cette section l’approche globale que nous avons suivie, lescontrôles de données que nous avons réalisés, les stratégies spécifiques de collecte appliquéesainsi qu’une première présentation des corpus obtenus

Approche

Nous avons utilisé un script concu par Jefferson Henrique, qui contourne certaineslimitations de l’API officielle de Twitter Ceci nous a permis d’une part de contrôler lafiabilité des données collectées et d’autre part de ne pas fournir nos clés de compte Twitter

à un service tierse comme c’est souvent le cas

Ngày đăng: 28/08/2020, 17:05

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w