; des indices qui permettent de les distinguer aisément des autres sons Ce travail est donc divisé en deux parties : la partie théorique et la partie pratique En ce qui concerne la parti
Trang 1Institut de la Francophonie pour l’Informatique
INRIA de Lorrain - LORIA
MÉMOIRE DE FIN D’ÉTUDES
Lieu : Laboratoire Lorrain en Informatique et ses Applications
615, rue du Jarbin Botanique
54600 Villers-lès-nancy, France Date : 2 avril 2007 – 30 septembre 2007
Par LE Manh Tuan Encadrants : Anne BONNEAU et Martine CADOT
ANALYSE ACOUSTIQUE DE SONS BIEN IDENTIFIÉS PAR UN SYSTEME DE
RECONNAISSANCE AUTOMATIQUE DE
LA PAROLE
Trang 2Remerciements
Tout d’abord, je tiens à remercier M Yves Laprie de m’avoir accueilli pendant mes 6 mois dans son équipe Je remercie également mes deux encadrantes, Mme Anne Bonneau et Mme Martine Cadot, qui m’ont donné la direction, les conseils et les explications utiles pour mon stage
Je tiens à remercier Farid Feiz et Blaise Potard, thésards dans l’équipe Parole, pour leur aide dans la préparation des logiciels nécessaires et de l’environnement de travail
Je voudrais aussi exprimer ma gratitude pour mes collègues de bureau, Aminata POUYE et Julie BUSSET, qui ont contribué au bon déroulement de mon travail
Enfin, un grand merci à mes collègues à LORIA, mes amis à Nancy pour leurs sentiments, leurs soutiens et leurs encouragements pendant le temps de mon stage
Un grand merci à tous !
LE Manh Tuan
Trang 3
Ce sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement, afin de les renforcer et d’améliorer l’intelligibilité de la parole Il concerne plus particulièrement l’analyse acoustique des sons reconnus par un système de reconnaissance automatique de la parole (RAP) destiné à rechercher des sons bien prononcés
Basé sur un système de RAP destiné à détecter les belles réalisations acoustiques d'un son d'un point de vue acoustique, l’objectif de ce stage est d’analyser les sorties de ce système pour vérifier si les sons reconnus par ce système possèdent ou non des indices acoustiques discriminants (c.-à-d des indices qui permettent de les distinguer aisément des autres sons) Dans
le cadre du stage, notre travail se concentre sur l’analyse des indices acoustiques des consonnes occlusives Ces consonnes sont étudiées dans des contextes différents des voyelles
Le résultat de cette étude montre qu’il y a des différences entre les sons bien identifiés et les sons mal identifiés Les consonnes qui sont bien identifiées ont tendance à être dans une zone de moindre confusion entre les classes, tandis que les consonnes qui sont mal identifiées sont principalement situées dans une région de grande confusion entre les classes
Il existe aussi des zones indices acoustiques qui permettent de bien distinguer les consonnes bien identifiées et les consonnes mal identifiées Cependant, ces zones ne sont pas claires et elles dépendent du contexte vocalique
Mots-clés : analyse d’indice acoustique, son bien identifié, son mal identifiés, fréquence,
émergence, proéminence, durée du bruit, qualité, occupation
Trang 4Abstract
This subject proceeds of the motivation to detect sounds which are well-realized acoustically, in order to reinforce them and to improve the intelligibility of speech It more particularly relates to the acoustic analysis of the sounds recognized by a automatic speech recognition system (ASR) intended to find out well-realized sounds
Based on a ASR system intended to detect the good acoustic realizations of a sound from an acoustic point of view, the object of our training course is to analyze the exits of this system to check if the sounds recognized by this system have or not discriminating acoustic indices (it mean : the indices which make it possible to easily distinguish them from the other sounds) According to the scope of the training course, our work concentrates on the analysis of the acoustic indices of the occlusive consonants These consonants are studied in contexts different
of the vowels
The result of this study shows that there are differences between the well-realized sounds and badly-realized sounds The consonants which are well-realized have tendency to be in a zone of less confusion between the classes, while the consonants which are badly-realized are mainly located in an area of great confusion between the classes
There are also acoustic zones indices which make it possible to distinguish the well-realized consonants well and the badly-realized consonants However, these zones are not clear and they depend on the context of vowel
Keywords : analyze acoustic index, well-realized, badly-realized, frequency, emergence,
prominence, duration of the noise, quality, occupation
Trang 5Table des matières
Remerciements 2
Résumé 3
Abstract 4
Table des matières 5
Liste des figures 7
Liste des tables 8
CHAPITRE 1 INTRODUCTION 9
1.1 Présentation de l’environnement de travail 9
1.1.1 Introduction du LORIA 9
1.1.2 Équipe Parole et leurs projets 10
1.1.3 Environnement de travail 11
1.2 Introduction du stage 12
1.3 Organisation du rapport 13
CHAPITRE 2 LA PAROLE 14
2.1 Qu’est ce que c’est la parole ? 14
2.2 Production de la parole 15
2.3 Caractéristiques phonétiques 17
2.3.1 Phonème 17
2.3.2 Voyelles 17
2.3.3 Consonnes 19
2.4 Lecture de spectrogramme 20
2.4.1 Spectrogramme 20
2.4.2 Lecture de spectrogramme 21
2.4.3 Exemple de lecture de spectrogramme 22
CHAPITRE 3 INDICES ACOUSTIQUES 26
3.1 Introduction de l’indice acoustique 26
3.2 Indices du burst 27
3.2.1 Fréquence et émergence du burst 28
3.2.2 La compacité spectrale 29
3.2.3 La durée du bruit 30
3.3 Indices de transition 30
3.3.1 Les transitions labiales 31
3.3.2 Les transitions dentales 31
3.3.3 Les transitions plato-vélaires 32
Trang 6CHAPITRE 4 CONTEXTE DU STAGE 33
4.1 Présentation de Snorri 33
4.2 Présentation de WinSnoori 34
4.3 Contexte du stage 35
CHAPITRE 5 ANALYSE EXPERIMENTAL 38
5.1 Objectif 38
5.2 Hypothèses 39
5.3 Protocole expérimental 39
5.3.1 Corpus 39
5.3.2 Acquisition des indices 40
5.3.3 Analyse acoustique 46
5.4 Analyse des indices acoustiques 49
5.4.1 Objectif 49
5.4.2 Expérimentation 50
5.4.3 Discussion 50
CHAPITRE 6 CONCLUSION ET PERSPECTIVE 64
6.1 Conclusion 64
6.2 Perspectives 64
Références 66
Annexe 1 Code Source 67
Annexe 2 Les plans des indices 71
Trang 7Liste des figures
Figure 1 Appareil phonatoire [3] 15
Figure 2 Modèle mécanique de production de la parole 16
Figure 3 Exemple de son voisé (haut) et non – voisé (bas) 17
Figure 4 Triangle vocalique pour le français 18
Figure 5 Spectre de ‘my speech’ 21
Figure 6 Un exemple de la lecture du spectrogramme [12] 23
Figure 7 Analyse du burst de la syllabe /ko/ 28
Figure 8 La transition des formants 31
Figure 9 Présentation de l’interface de Snorri 34
Figure 10 Présentation de l’interface de Winsnoori 34
Figure 11 Les étapes de l’apprentissage « Élitiste » 36
Figure 12 Exemple de description d’un triplet 40
Figure 13 Le processus d’acquisition des indices 43
Figure 14 Distribution des sons selon la fréquence du burst (contexte antérieur) 53
Figure 15 Distribution des sons selon la fréquence et l’émergence (contexte antérieur) 54
Figure 16 Distribution des sons selon la fréquence et la durée (contexte antérieur) 55
Figure 17 Distribution des sons selon la fréquence et la qualité (contexte antérieur) 56
Figure 18 Distribution des sons selon la fréquence et l’émergence adaptée aux vélaires et aux dentales (contexte antérieur) 57
Figure 19 Distribution des sons selon la fréquence du burst (contexte central) 60
Figure 20 Distribution des sons selon la fréquence et l’émergence (contexte central) 60
Trang 8Liste des tables
Table 1 Les phonèmes du français 14 Table 2 La classification des phonème du français en traits distinctifs 20 Table 3 Comptage de confusion pour contexte antérieur (émergence normale) 50 Table 4 Comptage de confusion pour contexte antérieur (émergence adaptée aux vélaires et aux dentale) 52 Table 5 Comptage de confusion pour contexte central (émergence normale) 58 Table 6 Comptage de confusion pour contexte central (émergence adaptée aux vélaires et aux dentales) 59 Table 7 Comptage de confusion pour contexte arrondi (émergence normale) 61 Table 8 Comptage de confusion pour contexte arrondi (émergence adaptée aux vélaires et aux dentales) 62 Table 9 Comptage de confusion pour contexte postérieur (émergence normale) 63 Table 10 Comptage de confusion pour contexte postérieur (émergence adaptée aux vélaires et aux dentales) 63
Trang 9CHAPITRE 1 INTRODUCTION
Ce stage a été réalisé au LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications) à Nancy, France, du 2 avril au 30 septembre 2007, au sein de l’équipe PAROLE Dans le premier chapitre nous ferons tout d’abord une petite présentation du laboratoire LORIA et de l’équipe PAROLE ainsi que l’environnement de travail Puis nous ferons une introduction concernant le stage et l’objectif de notre travail
1.1 Présentation de l’environnement de travail
1.1.1 Introduction du LORIA
Le Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), est une unité mixte de recherche (UMR 7503) commune à plusieurs établissements:
• CNRS, Centre National de Recherche Scientifique
• INPL, Institut National Polytechnique de Lorraine
• INRIA, Institut National de Recherche en Informatique et en Automatique
• UHP, Université Henri Poincaré, Nancy 1
• Université Nancy 2
La signature, le 19 décembre 1997, du contrat quadriennal avec le Ministère de l’Education Nationale, de la Recherche et de la Technologie et par une convention entre les cinq partenaires a officialisé la création de cette unité de recherche Cette unité a été renouvelée en
2001
Elle succède ainsi au CRIN (Centre de Recherche en Informatique de Nancy), et associe les équipes communes entre celui-ci et l’unité de Recherche INRIA Lorraine Le LORIA est situé sur le campus de la faculté des sciences de Nancy
Depuis février 2007, Karl Tombre est le directeur du LORIA et de L’INRIA
Le LORIA est un laboratoire de plus de 450 personnes parmi lesquelles :
• 150 chercheurs et enseignants-chercheurs
un tiers de doctorants et post doctorants
Trang 10• des ingénieurs, techniciens et personnels administratifs
Organisé en équipes de recherche et services de soutien à la recherche
C'est aussi chaque année
• une trentaine de chercheurs étrangers invités
• des coopérations internationales avec des pays des cinq continents
• une quarantaine de contrats industriels
Ces personnels sont répartis en 27 équipes de recherche et en services d’aide à la recherche Chaque équipe rassemble des chercheurs, des doctorants et des assistants techniques
ou administratifs, pour la réalisation d’un projet de recherche
Les missions principales du LORIA :
• Recherche fondamentale et appliquée au niveau international dans le domaine des Sciences et Technologies de l'Information et de la Communication
• Formation par la recherche en partenariat avec les Universités lorraines
• Transfert technologique par le biais de partenariats industriels et par l'aide à la création d'entreprises
1.1.2 Équipe Parole et leurs projets
Ce stage s’est déroulé dans l’équipe PAROLE dirigée par Yves Laprie L’équipe a pour thème de recherche « Analyse, Perception et Reconnaissance automatique de la parole » (Projet INRIA-LORIA)
Le thème de recherche de l’équipe Parole est l’étude de la communication parlée et recouvre un vaste spectre d’activités qui comprend l’étude de la perception humaine des indices acoustiques, l’analyse de la parole et la reconnaissance automatique Ces travaux s’inscrivent dans la perspective de construire des interfaces vocales efficaces dans des systèmes embarqués et multimodaux
Les activités de recherche de l’équipe Parole sont divisées en deux thèmes :
• Analyse de la parole Ce thème concerne l’analyse et la perception du signal
acoustique, l’étude de l’inversion acoustico-articulatoire et l’analyse de la parole
Trang 11Ce thème permet le développement de nombreuses applications dans les domaines
de la thérapie de réhabilitation vocale, dans l’amélioration des aides auditives et dans l’apprentissage des langues
• Modélisation de la parole pour la reconnaissance automatique Ce thème
concerne l’étude des modèles stochastiques, des modèles de langage et des modèles multibandes Ce thème permet le développement de nombreuses applications dans les domaines de la reconnaissance automatique de la parole, dans la dictée automatique, dans l’alignement texte-parole et dans la classification des divers signaux de la parole
En outre, l’équipe a développé de bonnes relations scientifiques et industrielles comme :
• Participation aux projets européens TIDE (Projet ISAEUS) et Telematics (Projet VODIS)
• Collaborations régionales avec l’hôpital central, le PES (Pôle Européen de Santé)
• Coopération avec les universités de Tunis, Bruxelles (ULB), CMU, STL (Speech Transmission Laboratory)
1.1.3 Environnement de travail
Ce stage a été réalisé au sein de l’équipe Parole Nous avons utilisé des outils et l’environnement commun de l’équipe
L’environnement de travail s’effectue sous Windows XP et Linux Afin de se connecter
et d’utiliser les programmes de Linux à partir de Windows, nous avons utilisé les logiciels :
putty et WinSCP pour se connecter à Linux et XWin pour fonctionner le logiciel Snorri sous
Windows (Snorri est un logiciel de traitement de la parole qui fonctionne sous Linux)
La programmation s’effectue en langage C et C++, les programmes sont développés en
langage C++ et après ils sont rattachés à Snorri et ils fonctionnent comme des fonctions de
Snorri
La gestion du code source est effectuée par le logiciel CVS (Concurrent Versions System) C’est un logiciel libre de gestion des versions et il est utilisé dans l’équipe pour gérer les codes sources Il permet de surveiller toutes les modifications apportées par tous les membres
de l’équipe Pour notre travail, nous avons fait une copie du code source dans un répertoire, et
Trang 12toutes les modifications nécessaires sont effectuées dans ce répertoire Cela a pour but de ne pas influencer sur les autres membres de l’équipe
Les logiciels de traitement de la parole utilisés dans ce travail sont Snorri (un logiciel fonctionnant sous Linux) et Winsnoori (la version Windows de Snorri)
Les statistiques des données s’effectuent à l’aide du le logiciel Microsoft Excel
1.2 Introduction du stage
Notre sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement, dans le but d’améliorer l’intelligibilité de la parole Il concerne plus particulièrement l’analyse acoustique des sons de la sortie d’un système de reconnaissance automatiquement de la parole destiné à rechercher des sons bien prononcés
L’objectif de ce stage est de vérifier si les sorties de ce système correspondent à des belles réalisations d'un point de vue acoustique, et de vérifier s’ils possèdent des indices acoustiques discriminants (c.-à-d ; des indices qui permettent de les distinguer aisément des autres sons)
Ce travail est donc divisé en deux parties : la partie théorique et la partie pratique
En ce qui concerne la partie théorique, nous avons étudié les théories nécessaires concernant notre travail : la parole et la production de la parole, le traitement de la parole, la reconnaissance de la parole, les caractéristiques et les indices acoustiques de sons de la parole Nous avons également lu de nombreux articles et livres qui nous ont servi à mieux comprendre les problèmes concernant notre travail
En ce qui concerne la partie pratique, nous avons débuté par l’étude des sons qui sont reconnus par un système de reconnaissance automatique de la parole Cette étude a pour but d’étudier les contextes et les caractéristiques des sons qui sont utilisés pour faire le corpus Ensuite, basé sur un système de codage et de traitement de la parole, nous avons modifié et ajouté des fonctions qui permettent d’extraire des indices acoustiques d’un son Ces fonctions sont développées en langage C++ Et puis, nous avons utilisé ces fonctions pour calculer les indices acoustiques des sons qui sont bien identifiés et des sons qui sont mal identifiés par ce système Enfin, à partir des indices acquis, nous avons fait des statistiques et donné des résultats sur la comparaison entre les différentes types des sons
Trang 131.3 Organisation du rapport
Ce rapport introduit les connaissances acquises sur l’étude de la parole que nous avons réalisé au LORIA dans le cadre de ce stage Le contenu principal du rapport concerne les théories de traitement de la parole, les caractéristiques phonétiques, les indices acoustiques des voyelles et des consonnes, et l’analyse acoustique des consonnes qui sont bien identifiés et mal identifiés par un système de RAP
Le rapport se compose de 6 chapitres:
Chapitre 1 : ce chapitre est consacré à une petite présentation du lieu ó nous avons fait le stage, le sujet et l’objectif du stage
Chapitre 2 : ce chapitre donne les théories de base qui concerne le travail : la parole et sa production, les caractéristiques phonétiques des sons de la parole
Chapitre 3 : ce chapitre présente les indices acoustiques qui sont utilisés dans le travail
Chapitre 4 : ce chapitre est consacré à la présentation des outils utilisés dans notre travail
et préciser le contexte du travail
Chapitre 5 : ce chapitre présente les travaux pratiques, les expérimentations réalisées dans
Trang 14CHAPITRE 2 LA PAROLE
Avant de présenter les contenus principaux, nous présenterons un peu la théorie de la parole qui intéresse notre travail C’est une petite introduction de la parole et sa production et des caractéristiques principales de sons de la parole
2.1 Qu’est ce que c’est la parole ?
La parole est un moyen de communication très efficace et naturel de l'humain La parole
se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine dans les mécanismes de production La parole apparaît physiquement comme une variation de la pression
de l'air causée et émise par le système articulatoire Les sons de parole sont produits soit par des vibrations des cordes vocales (source de voisement), soit par une turbulence crée par l'air s’écoulant rapidement dans une constriction ou lors du relâchement d’une occlusion du conduit vocal (sources de bruit) L'unité de parole de plus petite taille est un phonème (voyelle ou consonne) Le nombre de phonèmes est toujours très limité, normalement inférieur à cinquante Par exemple : la langue française comprend 36 phonème
Table 1 Les phonèmes du français
Trang 152.2 Production de la parole
La parole est produite par le système articulatoire, présenté à la figure 1 :
Figure 1 Appareil phonatoire [3]
La parole peut être décrite comme le résultat de l'action volontaire et coordonnée des appareils respiratoire et masticatoire Cette action se déroule sous le contrôle du système nerveux central qui reçoit en permanence des informations par rétroaction auditive et par les sensations cénesthésiques
L'appareil respiratoire fournit l'énergie nécessaire à la production de sons, en poussant de l'air à travers la trachée-artère Le mouvement du flux d'air cause la vibration des cordes vocales Cette vibration se propage à travers la cavité pharyngienne, la cavité buccale et la cavité nasale Selon la position des articulateurs (mâchoire, langue, palais, lèvre, bouche), des sons différents sont produits
Trang 16Figure 2 Modèle mécanique de production de la parole
L’intensité du son émis est liée à la pression de l’air en amont du larynx, sa hauteur est
fixée par la fréquence de vibration des cordes vocales, appelée fréquence fondamentale (ou
pitch) La fréquence fondamentale peut varier selon le genre (masculin ou féminin) et l’âge du
locuteur La fréquence du fondamental peut varier [2] :
• De 80 à 200 Hz pour une voix masculine
• De 150 à 450 Hz pour une voix féminine
• De 200 à 600 Hz pour une voix d’enfant
Les sons voisés résultent d'une vibration quasi périodique des cordes vocales et ce sont des signaux quasi périodiques Par contre les sons non voisés ne présentent pas de structure
périodique, ils sont considérés comme des bruits blancs filtrés par la transmittance de la partie du conduit vocal située entre la constriction et les lèvres
Trang 17Figure 3 Exemple de son voisé (haut) et non – voisé (bas)
La figure 3 donne un exemple de sons voisé et non voisé On y constate que le son voisé (en haut) représente des zones assez périodiques, appelées zones voisées, tandis que le son non voisé (en bas) représente des zones bruitées, appelées zones non voisées
2.3 Caractéristiques phonétiques
2.3.1 Phonème
La plupart des langues naturelles sont composées à partir de sons distincts, les phonèmes Un phonème est la plus petite unité présente dans la parole [2] Le nombre de phonèmes est toujours très limité (normalement inférieur à cinquante) et ça dépend de chaque langue Les phonèmes peuvent être classés en fonction de trois variables essentielles : le voisement (activité des cordes vocales), le mode d’articulation (type de mécanisme de production) et le lieu d’articulation (endroit de resserrement maximal du conduit vocal)
2.3.2 Voyelles
Les voyelles sont des sons voisés qui résultent de l’excitation du conduit vocal par des impulsions périodiques de pression liées aux oscillations des cordes vocales Chacune des voyelles correspond à une configuration particulière du conduit vocal Les voyelles se
Trang 18différencient principalement les unes des autres par leur lieu d’articulation, leur aperture, et leur
nasalisation On distingue ainsi les voyelles antérieures, moyennes et postérieures, selon la position de la langue, et les voyelles ouvertes et fermées, selon le degré d’ouverture du conduit vocal
Il y a deux types de voyelle : les voyelles orales (i, e, u, .) qui sont émises sans intervention de la cavité nasale et les voyelles nasales (ã, ε~ , …) qui font intervenir la cavité nasale La langue française comprend douze voyelles orales émises seulement par la bouche, ainsi que quatre voyelles nasales correspondant à la mise en parallèle des cavités nasales sur la cavité buccale par abaissement du voile du palais
Chaque voyelle se caractérise par les résonances du conduit vocal qu’on appelle “les
formants” En général, les trois premiers formants sont suffisants pour caractériser toutes les
voyelles
Il est commode de représenter une voyelle sur un plan F1, F2 pour voir le “triangle
articulatoire ” ou “triangle vocalique ” de la phonétique Ce triangle représente la position de la
langue dans la cavité buccale selon les 2 axes F1 “antérieur-postérieur ” et F2 “ouvert-fermé ”,
selon que la langue est massée en avant vers la zone dentale (i), basse et étalée loin du palais (a),
ou massée postérieurement vers le voile (u) F1 représente la position de la langue F2 dépend de l'ouverture de la cavité buccale Les autres formants représentent d'autres facteurs comme l'arrondissement des lèvres
Figure 4 Triangle vocalique pour le français
Trang 192.3.3 Consonnes
Les consonnes sont des sons qui sont produits par une turbulence créée par le passage de l’air dans une constriction du conduit (les consonnes non voisées) ou une source périodique liée
à la vibration des cordes vocales s’ajoute à la source de bruit (les consonnes voisées) Il y a trois
types de consonnes : les fricatives (ou constrictives), les occlusives et les nasales
Les fricatives sont créées par une constriction du conduit vocal au niveau du lieu
d’articulation (le palais [ï,ï], les dents [s, z], ou les lèvres [f, v]) Les fricatives non voisées sont caractérisées par un écoulement d’air turbulent à travers la glotte, tandis que les fricatives voisées combinent des composantes d’excitation périodique et turbulente : les cordes vocales s’ouvrent et se ferment périodiquement, mais la fermeture n’est jamais complète
Les occlusives correspondent quant à elles à des sons essentiellement dynamiques Une
forte pression est créée en amont d’une occlusion maintenue en un certain point du conduit vocal (les palais [k, g], les dentales [t, d], ou les lèvres [p, b]), puis relâché brusquement La période d’occlusion est appelée la phase de tenue Pour les occlusives voisées [b, d, g] un son basse fréquence est émis par vibration des cordes vocales pendant la phase de tenue; pour les occlusives non voisées [p, t, k], la tenue est un silence
Les consonnes nasales [m, n, ï] font intervenir les cavités nasales par abaissement du
voile du palais
Les consonnes sont caractérisées par la fréquence de spectre, la durée d’existence et la transition du son
Trang 20Table 2 La classification des phonème du français en traits distinctifs 2.4 Lecture de spectrogramme
2.4.1 Spectrogramme
Un spectrogramme est une représentation visuelle de la parole Il permet de voir l’évolution de l’énergie dans l’échelle des fréquences en fonction du temps L'amplitude du spectre (l’énergie) y apparaît sous la forme de niveaux de gris dans un diagramme en deux axes :
le temps (de gauche à droite) et la fréquence (de basse fréquence (son grave) à haute fréquence (son aigu)) Ils mettent en évidence l’enveloppe spectrale du signal, et permettent par conséquent
de visualiser l’évolution temporelle des formants Les périodes voisées y apparaissent sous la forme de bandes verticales plus sombres
Trang 21Figure 5 Spectre de ‘my speech’
2.4.2 Lecture de spectrogramme
La lecture de spectrogramme contient 4 étapes élémentaires :
• Étape 1 : Connaître les 3 dimensions du spectrogramme Ce sont l’énergie (l’intensité), le temps et la fréquence du spectre
• Étape 2 : Savoir distinguer les consonnes et les voyelles
o Les consonnes sont des sons produits avec une constriction plus ou moins forte dans le conduit vocal Donc l’intensité du spectre est relativement faible et sur le spectrogramme sa noirceur n’est pas très forte
o Alors que les voyelles sont des sons produits sans aucune constriction forte dans le conduit vocal, l’intensité du spectre est relativement élevée et sur le spectrogramme sa noirceur est relativement foncée
• Étape 3 : Savoir reconnaître les grandes classes de consonnes Il y a 3 types de consonnes, les occlusives, les fricatives et les sonantes
o Les occlusives sont produites par une occlusion complète dans le conduit vocal, donc pendant l’occlusion, l’air ne passe pas et sur le
Trang 22spectrogramme, il correspond à un silence (sauf le voisement pour les sonores)
o Les fricatives sont produites avec une forte constriction (mais pas complète) dans le conduit vocal Donc il y a une turbulence de l’air dans le conduit vocal et sur le spectrogramme cette turbulence correspond au bruit
de friction
o Les sonantes /m, n, l, R/ sont produites avec une constriction partielle dans
le conduit vocal et nasal Donc, l’air passe d’une façon relativement libre
et sur le spectrogramme il y a des formants comme les voyelles, mais ces formants sont moins forts que ceux des voyelles
o Il y a deux types pour les occlusives et les fricatives : sourdes et sonores Pour les occlusives et les fricatives sonores, les plis vocaux vibrent alors sur le spectrogramme ils présentent une barre de voisement Tandis que, les plis vocaux des occlusives et des fricatives sourdes ne vibrent pas, donc sur le spectrogramme il n’y a pas de barre de voisement
• Étape 4 : savoir reconnaỵtre les grandes classes de voyelles Les voyelles se différencient les unes les autres par leurs formants Un formant est la zone de fréquence ó il y a une concentration (renforcement) d’énergie Dans les voyelles orales, il y a en moyenne 1 formant par 1000Hz (voix d’homme) On utilise souvent le spectrogramme à bande large pour visualiser les formants et les formants y apparaissent sous les formes des bandes noires horizontales Les voyelles orales sont divisées en des classes :
o Les voyelles antérieurs /i e, ε, y (a)/, avec ces voyelles, la distance entre F1-F2 est supérieur à la distance entre F2-F3
o Les voyelles postérieur /a o O u/, avec ces voyelles, la distance entre F2 est inférieur à la distance entre F2-F3
F1-o Les voyelles centrales / o oe/, avec ces voyelles, les formants sont plus (ou moins) équidistants
2.4.3 Exemple de lecture de spectrogramme
Voici un exemple de la lecture du spectrogramme Cet exemple illustre une décision des mots à partir d’un spectrogramme Ce spectrogramme se compose de quatre mots, chaque mot est identifié par une des paires suivantes :
Trang 231 HE/SHE
2 CHAINS/TRAINS
3 MEEK/WEAK
4 LEADERS/READERS
"She trains weak leaders"
Figure 6 Un exemple de la lecture du spectrogramme [12]
[ʃ], IPA 134
Dans l’intervalle [75ms – 225ms], on a [ʃ] et non [ h ] pour deux raisons La première est
qu'il est trop fort Ca a l'amplitude absolue d’une voyelle et non d’une consonne Ainsi cette fricative très forte est inclinée aux fréquences plus élevées, typiques des sibilants en général
Ceci ressemble à [ʃ] plutôt que [ s ] puisque l'énergie est très petite dessous du F2,
au-dessous duquel elle tombe assez brusquement ([ s ] a un bruit large qui peut diminuer aux fréquences plus basses, mais il fera graduellement) Le fait qu'elle tombe à la droite au-dessous
Trang 24du F2 est soupçonneux, si vous vous demandiez En outre [ s ] n'aurait pas cette force spécifique dans F2/F3/F4, mais vraisemblablement ferait centrer beaucoup une large bande simple beaucoup plus fortement [ h ] aurait moins d'énergie au-dessus de tous, et n'aurait pas n'importe quel genre de discontinuité avec la voyelle suivante (excepté en termes d'exprimer)
[t], IPA 103 + 404, 151 + 402
Dans l’intervalle [350ms – 450ms], le choix ici est entre [ʃ] ou [] L’espace pour l’occlusive va d'environ 325 ms au relâchement entre 375 et 400 ms Le relâchement fricatif fonctionne probablement entre 25 et 50 ms Le 'centre' du moment de /r/ est autour 425 ms Notez que les formants se déplacent rapidement à environ 450 ms Ainsi nos choix, de 400 à 450
ms sont les /r/ ou [ʃ] Notez l'intensité du bruit au relâchement, il est sibilant et centré en bas
Mais notez que l'intensité tombe assez rapidement, et le bruit est dans la forme des formants suivants Le F2 commence vers le haut partout ó il part sur le relâchement (autour de 1900 hertz), et tombe rapidement juste en dessous de 1500 Hz Le F3 tombe, et notez dans le relâchement, des angles des transitions de chaque cơté, il ressemble que F3 tombe en dessous de
2000 Hz, mais il n'y a pas beaucoup d'évidence qui il y arrive vraiment A l’aide du bas de F3 et
de la proximité de F2 et de F3, on peut expliquer la forme de /tr/
[w], IPA 170
Approximante ou nasale ? Nous regardons le segment voisé dans l’intervalle [725ms – 800ms] Il y a moins d'énergie dans la barre de voisement que dans la voyelle suivante, mais c'est typique des nasales et des approximantes fermées Les transitions sont la plupart du temps labial, bien que F3 n'aide pas beaucoup Nasale ou non ? Les nasales ne doivent pas avoir les bords anguleux Voir le moment près de 800 ms dans le spectrogramme, le bord ici est le voile fermé et l’acoustique change soudainement L'énergie qui était perdue par la nasalisation est soudainement regagnée, les résonances principales changent et les formants durent pendant la transition, suggérant quelque chose d’oral partout Donc c’est la transition de /w/ à la voyelle suivante
[], IPA 209
Enfin c’est une discrimination entre les approximantes, un /r/ et un /l/ Notez le voisement dans l’intervalle [1000ms – 1075ms] Ceci ne semble pas une nasale en raison de la continuité en tout point La barre de voisement de F1 est continue en amplitude et en fréquence, cela indique
Trang 25une addition soudaine ou la perte d'une cavité Donc, qu’est ce qui fait la différence entre un /r/ et
un /l/ ? C’est le F3 Pour /r/, F3 est abaissé tandis que pour /l/ F3 est augmenté Mais ó se situe F3 ? F1 est vers le bas en dessous de 500 Hz Le F2 est juste au dessus de 1000 Hz, et F3 est autour 2750 Hz Dans le spectrogramme c’est un F3 augmenté, alors cela exprime le spectre de /l/
Trang 26
CHAPITRE 3 INDICES ACOUSTIQUES
Notre travail consiste à faire un analyse acoustique sur les consonnes occlusives reconnues par un système de reconnaissance automatique de la parole Cet analyse a pour but d’étudier la relation entre les classes de consonnes bien identifiées et mal identifiées Ce chapitre est donc consacré à présenter les indices acoustiques qui sont utilisés dans cet analyse Ces indices lient aux propriétés de l’explosion (burst), le mouvement des formants avant et après le relâchement de l’air (transition des formant)
3.1 Introduction de l’indice acoustique
Un des buts de l’équipe Parole dans le thème d’analyse de la parole est d’étudier des caractéristiques acoustiques des sons de la parole (formant, fréquence fondamentale, caractéristiques spectrales des bruits d’explosion ou de friction, ) Et l’équipe étudie aussi la définition d’indices acoustiques très discriminants et très bien marqués, appelés « indices forts » qui permettent d’identifier avec une grande fiabilité et de manière automatique une catégorie phonétique (un trait) à partir de certaines de ses réalisations acoustiques En effet, un indice fort est un indice très discriminant d'un point de vue phonétique et bien marqué d'un point de vue acoustique Les indices forts permettent de rechercher des représentants bien réalisés acoustiquement La détection très fiable de sons bien réalisés peut avoir deux types d’applications : fournir des informations très fiables au système de reconnaissance automatique
et élaguer la recherche lexicale d’une part, et améliorer l’intelligibilité de la parole par le renforcement des sons qui ont été bien réalisés d’autre part
Les indices forts sont divisés en deux types : indices forts de préférence (indices positifs)
et indices forts d’exclusion (indices négatifs) Les indices positifs autorisent l'identification immédiate d'un trait Ils définissent une région d’un espace acoustique ó figure un certain nombre de représentants d’une classe, et aucun autre représentant des autres classes Par contre les indices négatifs sont destinés à éliminer certains traits avec certitude, donc ils permettent d’élaguer la recherche lexicale Ces indices recherchent des configurations spectrales qui ne sont jamais observées pour un lieu d’articulation mais qui apparaissent pour un ou plusieurs autres
lieux
Trang 27Les indices forts sont étudiés dans l’équipe Parole il y a quelques années et la définition d'indices forts a été commencé par les occlusives sourdes du français en considérant à la fois le bruit d'explosion et les transitions formantiques Après avoir élaboré une procédure de segmentation automatique de l'attaque du bruit, et testé les indices pour ce segment, les transitions formantiques ont été étudiées Et maintenant un premier ensemble d'indices des bruits d’explosion et des transitions de formants pour les occlusives a été défini et testé
Ces indices permettent d’identifier de manière certaine les occlusives sourdes et dans notre travail, ils sont utilisés pour étudier la différence entre les occlusives sourdes bien identifiées et mal identifiées et la classification des consonnes en bien identifié et mal identifié pour chaque lieu d’articulation
3.2 Indices du burst
Les consonnes occlusives sont produites avec une occlusion complète dans le conduit vocal suivie d’un relâchement brutal de l’air (bruit d’explosion) et le burst est l’élément qui correspond à la phase de relâchement de l’air Il est un des caractéristiques les plus importantes des consonnes occlusives
Le Burst commence au relâchement de l’articulation (à la fin de la fermeture) et finit par
la première période de la voyelle subséquente (dans un séquence Consonne - Voyelle) Il est peut être divisé en trois segments : la transition, la frication et l’aspiration (généralement absents en français)
Voici un exemple de l’analyse de la transition du burst de la syllabe /ko/ En haute c’est
un plan de deux dimensions : la fréquence (Hz) et le temps (ms) Ce plan représente la segmentation du burst en deux parties : la transition et la friction (bruit) et ces éléments sont déterminés par trois barres verticales Au centre c’est la représentation de l’énergie qui est supérieur un seuil calculé par le silence dans une fenêtre de 4ms du En bas la transition spectrale (à gauche) et la friction spectrale du burst (à droite)
Trang 28Figure 7 Analyse du burst de la syllabe /ko/
3.2.1 Fréquence et émergence du burst
La fréquence du burst est mesurée par la fréquence du pic le plus proéminent (ou "pic
principal") Edwards [4] a observé que ce pic est généralement inférieur à 2500 Hz pour les labiales, et supérieur à 2500 Hz pour les alvéolaires La fréquence maximale du pic principal des vélaires est près de F2 des voyelles avant arrondies ou voyelles arrières et plus haut encore que le F3 des voyelles avant non-arrondies Elle change approximativement de 700-800 Hz à plus de
3000 Hz en fonction du degré d’antériorité et de labialisation
C’est un des indices acoustiques les plus importants pour l’identification du lieu d’articulation des consonnes occlusives [4] Il est lié à la corrélation des traits diffus/compacts Nous avons observé de grands chevauchements entre les domaines couverts par les valeurs de ce critère pour différents lieux d'articulation Ainsi la fréquence maximale seule n'a pas constituée l'information fortement fiable, même pour la distinction entre les dentales et les labiales, et doit
être associée à un critère évaluant la proéminence du pic principal (l’émergence) L’émergence
du pic principal est estimée par la comparaison de sa valeur maximale d'énergie à la valeur
Trang 29moyenne du spectre (première méthode), et à la valeur du pic le deuxième proéminent (deuxième méthode)
3.2.2 La compacité spectrale
La compacité (ou occupation) représente la concentration de l’énergie dans une zone de fréquence relativement étroite et centrale Un son est qualifié de compact si son spectre est caractérisé par une concentration d’énergie très élevée dans une région fréquentielle relativement étroite et centrale (celle du pic spectral proéminent, pour les occlusives) En fait, la centralité correspond à une notion relativement abstraite puisque la « concentration d’énergie élevée » est située dans des régions fréquentielles très différentes selon les catégories de sons
Une occlusive sera donc considérée comme compacte si le pic spectral proéminent est très intense par rapport au reste du spectre (concentration d’énergie très importante) et que sa largeur est relativement restreinte En pratique, deux pics distants de moins de 500 Hertz ont été regroupés en un seul pic
Afin de caractériser la concentration de l’énergie autour du maximum spectral, nous avons d’abord évalué la quantité d’énergie du pic principal (énergie cumulée) par rapport à celle
du spectre Comme ce critère prenait parfois des valeurs élevées pour des spectres non compacts,
ne contenant qu’un seul pic peu proéminent, nous l’avons remplacé par une évaluation de la proéminence du pic principal Celle-ci a été calculée par rapport à la moyenne spectrale d’une part, et au deuxième pic spectral le plus proéminent d’autre part; cette dernière méthode s’est révélée légèrement plus performante sur un petit corpus d’apprentissage et nous l’avons adoptée Notre premier critère de compacité repose donc sur la proéminence du pic principal par rapport
au deuxième pic spectral
Le deuxième critère rendant compte de la compacité est l’allure générale du spectre Nous rendons compte de l’allure générale du pic, et en particulier de sa largeur restreinte par un
critère que nous avons appelé critère de « qualité » La qualité du pic est évaluée selon la somme
sur chaque canal fréquence du pic spectral :
∑
=
−
n i
i freq freqC i
spectre
1
2
))((
*)(
Cette formule prend en compte l’énergie de chaque point du pic ainsi que sa distance par rapport au maximum spectral ainsi que son énergie de telle sorte que plus le pic sera large et
Trang 30bombé, plus la qualité sera jugée faible En revanche, un pic étroit dont l’énergie est relativement élevée autour du maximum mais faible ailleurs, comme pour les pics de résonance, sera considéré comme un pic de bonne qualité
3.2.3 La durée du bruit
La durée du bruit (calculée du début de l’attaque jusqu’à la première période de la voyelle subséquente) est un indice discriminant pour le lieu d’articulation des occlusives Les vélaires tendent à avoir les bursts les plus longs et les labiales les plus courts Néanmoins, il y a des chevauchements très importants entre les valeurs des durées du burst pour différents lieux d'articulation, même pour un contexte phonétique simple, ainsi il est impossible de définir des régions distinctives de cet indice
Ce n'est pas un critère très discriminant, mais il est utile de veiller à ce que le bruit ait une durée minimale En effet, si le bruit est très bref, le spectre représentant l'attaque de la consonne
se rapproche de celui de la voyelle subséquente, ce qui peut entraîner un mauvais déclenchement
de l’indice palato-vélaire (dans le cas, par exemple, d’une forte proéminence du pic correspondant au F2) Un bruit bref peut aussi résulter d'une erreur de segmentation, due à la présence d'un bruit parasite avant le bruit d’explosion réél La forme spectrale de ce type de bruit est imprévisible et il convient bien entendu d'éliminer cette source potentielle d'erreur
Dans ce travail, ce critère est combiné avec d’autres critères pour étudier les consonnes occlusives
3.3 Indices de transition
Les transitions formantiques fournissent des indices qui sont importants pour l’identification du lieu d’articulation des occlusives, mais très sensibles aux différentes sources
de variation qui s’exercent sur la parole (contexte vocalique, locuteur, la vitesse de la parole)
Les indices de transition se basent sur les fréquences et les pentes des formants F2 et F3 à
la frontière entre la voyelle et la consonne L’évaluation des fréquences est réalisée des deux côtés de la consonne: les onsets des transitions de F2 et F3 dans la séquence CV et les offset des transitions de F2 et F3 dans la séquence VC
Pour les indices de transition des occlusives, l'évaluation automatique des fréquences et des pentes de formants à la frontière « occlusives – voyelle » est très difficile mais elles constituent l'information importante pour le lieu d’articulation des occlusives (Delattre et autres,
Trang 311955) Nous avons choisi d'évaluer la pente à la frontière plutơt qu'à une période fixe ou une partie fixe de la voyelle, pour au moins deux raisons Premièrement, la pente à la frontière est l'endroit le plus directement lié à lieu d’articulation des occlusives (Fant, 1973) Deuxièmement,
la durée moyenne des voyelles est très différente selon le corpus considéré, ainsi une longueur fixe représenterait les parties très différentes des voyelles et une partie fixe de différente longueur
Les indices de transition des formants dépendent beaucoup du lieu d’articulation des consonnes et du contexte vocalique Nous décrivons brièvement les caractéristiques de transitions des formants en fonction du lieu d’articulation des consonnes et du contexte vocalique
Figure 8 La transition des formants
3.3.1 Les transitions labiales
Dans les labiales, tous les formants (F1, F2, F3) descendent dans la fermeture (contexte VC), et montent vers le haut de la fermeture (contexte CV) La labialisation abaissant la fréquence des formants, les transitions #CV sont montantes devant les voyelles non arrondies, mais peuvent être légèrement descendantes devant les voyelles non arrondies En contexte VCV
en revanche, si la première voyelle est plus antérieure que la seconde et si les deux voyelles sont coarticulées, la pente descend fortement
3.3.2 Les transitions dentales
Les dentales sont les seules consonnes à posséder un locus, le point réél ou virtuel vers lequel se dirigent (contexte VC) ou d’ó proviennent (contexte CV) les transitions, relativement stable La fréquence de celui-ci est à peu près égale à 1800 Hz devant les voyelles non arrondies
Transition des formants
1800
Hz
Trang 32et 1600 Hz devant les voyelles arrondies Le relâchement du burst a une énergie considérable au dessus de 4000 Hz, ressemblant souvent à un short [s]
3.3.3 Les transitions plato-vélaires
Dans les vélaires, le F2 et le F3 déplacent l'un vers l'autre dans la fermeture, et ils se séparent à la fermeture Les vélaires ont fréquemment un double burst/
Les seules pentes bien marquées pour les transitions #CV apparaissent devant les voyelles centrales et antérieures ouvertes Elles descendent de la consonne à la voyelle suivante
et forment avec la transition montante de F3 ce qu’il est convenu d’appeler la « pince vélaire »
En contexte VCV néanmoins, Öhman a montré que la pente de la transition de F2 est susceptible
de changer de direction quand la voyelle précédant la consonne est une voyelle d’arrière Devant
les voyelles d’arrière, les fréquences initiales des transitions sont très variables (D KP, p383, Sussmann, p 1313), alors que devant les voyelles antérieures fermées, la pente est relativement
plate et peu discriminante
Trang 33CHAPITRE 4 CONTEXTE DU STAGE
Dans ce chapitre, nous allons présenter les outils utilisés dans le stage : le logiciel Snorri
et Winsnorri, montrer sur quoi se basent nos travaux et préciser le contexte du projet
4.1 Présentation de Snorri
Snorri est un logiciel d’étude de la parole qui est développé en langage C et sous l’environnement de Unix et Motif Il a été développé et amélioré depuis 15 ans par l’équipe Parole Ce logiciel est destiné à faciliter le travail du chercheur en reconnaissance de la parole, en phonétique, en perception ou encore en traitement du signal (suivi de formant, identification des occlusives, ) Les fonctions de base de Snorri permettent de calculer plusieurs types de spectrogrammes et d'éditer le signal de parole de manière très fine (couper, coller, filtrages et atténuations diverses) car le spectrogramme permet de connaître la répercussion acoustique de toutes les modifications À cela s'ajoute un grand nombre de fonctions destinées à étiqueter phonétiquement ou orthographiquement des signaux de parole, des fonctions destinées à extraire
la fréquence fondamentale de la parole, des fonctions destinées à piloter le synthétiseur de Klatt
et d'autres à utiliser la synthèse PSOLA
Trang 34Figure 9 Présentation de l’interface de Snorri 4.2 Présentation de WinSnoori
WinSnoori est la version commerciale de Snorri qui marche sur Windows Il permet donc
en premier lieu de visualiser le signal de parole au cours du temps, mais aussi de visualiser différents types de spectrogrammes (à bande large, à bande étroite…) associé au signal traité L’utilisateur a la possibilité d’étiqueter phonétiquement et orthographiquement le signal de parole traité dans le but de l’analyser
Figure 10 Présentation de l’interface de Winsnoori
Winsnoori est à la fois un outil de recherche pour les chercheurs en traitement de la parole et un outil pédagogique (surtout d’illustration) pour les enseignants de phonétique Il comprend également diverses fonctions d’analyse : visualisation, écoute, zoom, filtrage, calcul des formants, synthétiseur de Klatt Il permet aussi d’analyser les indices prosodiques du signal traité puisqu’il permet la visualisation du contour mélodique (qui correspond aux variations de la fréquence fondamentale), la durée des phonèmes et des syllabes (quand le signal a été segmenté) ainsi que l’énergie du signal
En outre, il contient des fonctions de modification du signal fondées sur une version améliorée développée au sein de l’équipe de la technique TD-PSOLA (cela implique la modification de la durée de segments et/ou la modification de la fréquence fondamentale) qui
Trang 35vont être d’une aide précieuse dans le domaine de l’apprentissage de la prosodie anglaise par des locuteurs français
4.3 Contexte du stage
Notre travail est basé sur un système de RAP, développée dans l’équipe Parole, et fondée sur les modèles de Markov Ce système permet de détecter les belles réalisations acoustiques d'un son d'un point de vue acoustique Pour le faire, il utilise une approche, appelée « Élitiste », qui est une boucle « apprentissage-reconnaissance » sur le corpus d’apprentissage, de telle sorte que, à la fin de cette boucle, nous possédions pour chaque son des modèles construits à partir d’exemplaires systématiquement bien identifiés, appelée « modèle sélectif », et des modèles construits à partir d’exemplaires qui ont été au moins une fois mal identifiés, appelée « modèle non sélectif »
Voici les étapes de l’apprentissage élitiste :
Corpus A Signaux acoustiques
+ Annotations phonétiques
(1) Phase d’apprentissage
(2) Phase de reconnaissance
(3) DWT: séparation entre les sons bien identifies
et mal identifiés
(4) Phase d’apprentissage
Les modèles de HMM pour les sons bien identifiés et mal identifié
Start
Trang 36Figure 11 Les étapes de l’apprentissage « Élitiste »
Cette approche contient 4 étapes :
Étape 1 : On effectue un premier apprentissage classique à partir des signaux acoustiques et de la transcription phonétique disponible afin de conduire aux modèles acoustiques traditionnels (les modèles de Markov cachés)
Étape 2 : On effectue la reconnaissance des phrases du corpus d’apprentissage à partir de ces modèles
Étape 3 : On détermine par alignement forcé avec la transcription phonétique de
la phrase les sons bien reconnus Les étiquettes des sons mal reconnus sont modifiées
Étape 4 : On effectue un nouvel apprentissage à partir des sons bien reconnus pour créer des nouveaux modèles de son systématiquement bien identifiés et des autres sons
On répète l’apprentissage en revenant à l’étape 2 tant que le taux d’identification des bons modèles n’est pas suffisant et que le nombre d’exemples d’apprentissage le permet
On peut voir que, à chaque itération de la boucle, les sons qui ont été bien identifiés à l’étape précédente (tous les sons à la première étape) et qui sont correctement identifiés lors de l’itération en cours sont placés dans la classe des « bons exemples » du son qu’ils représentent Les sons qui ont été mal identifiés au moins une fois sont placés dans la classe des « mauvais exemples » À chaque nouvelle itération donc, deux sortes de modèles sont créés pour chaque son : de « bons modèles » qui sont construits à partir de sons systématiquement bien identifiés, et de « moins bon modèles » qui sont construits à partir des autres sons de cette classe Plus nous effectuons d’itérations, plus le taux de reconnaissance obtenu par les modèles associés aux sons bien identifiés augmente, mais le nombre de bons exemples à partir desquels sont construits ces modèles diminue
Par conséquent, à la sortie du système, on a deux types de sons : les sons bien identifiés qui sont reconnus par les modèles sélectifs, et les sons mal identifiés qui sont reconnus par les modèles non sélectifs
Basé sur ces deux types de sons, l’objectif de notre travail est d’analyser les indices acoustiques des sons bien identifiés et des sons mal identifiés pour mieux comprendre la
Trang 37différence entre ces deux types de sons et la classification faite par Markov en bien identifié et mal identifié
Le cadre du travail est d’analyser les indices acoustiques des occlusives non voisées Comme les caractéristiques spectrales du burst sont plus appropriées pour identifier les occlusives, notre travail sont concentrées sur les indices du burst et les indices de transitions des formants
Pour calculer les indices acoustiques, nous avons utilisé le logiciel Snorri en modifiant des fonctions disponibles et en ajoutant des nouvelles fonctions qui permettent d’extraire des indices acoustiques à partir du signal d’un son
Afin de pouvoir effectuer un analyse sur les indices acquis, nous avons émis deux hypothèses :
Première hypothèse : Il y a des différences entre les occlusives bien identifiées et les occlusives mal identifiées Les occlusives mal identifiées sont situées dans des régions de grande confusion entre les classes de sons et les occlusives mal identifiées sont principalement dans des zones de moindre confusion entre les classes
Deuxième hypothèse : il existe une distribution distincte entre les classes de sons bien identifiés et mal identifiés pour chaque lieu d’articulation
Trang 38CHAPITRE 5 ANALYSE EXPERIMENTAL
Le chapitre 5 est consacré à présenter les travaux pratiques dans le cadre du stage Dans
ce chapitre, nous allons présenter les expérimentations qui ont été réalisées pendant le temps de
ce stage Tout d’abord nous allons présenter l’objectif de ces expérimentations et les hypothèses que nous avons données avant de faire l’analyse Ensuite c’est le protocole expérimental pour les travaux pratiques Ce protocole montre le processus de notre travail : le corpus utilisé, la méthode d’acquisition des indices acoustiques et la manière de faire l’analyse sur ces indices Enfin nous présenterons l’analyse réalisée sur les indices ainsi que les résultats et les discussions
5.1 Objectif
L’objectif du stage est de faire l’analyse des sons (les sons bien identifiés et les sons mal identifiés) qui sont reconnus par un système de reconnaissance de la parole destiné à détecter les belles réalisations acoustiques d’un son Cet analyse a pour but de vérifier si ces sons possèdent des indices acoustiques discriminants (c-à-d ; les indices qui permettent de distinguer aisément les différentes classes de sons)
Le but des expérimentations est donc d’analyser les indices acoustiques des sons bien identifiés et des sons mal identifiés pour mieux comprendre la différence entre ces deux types de sons et la classification faite par Markov en bien identifiés et mal identifiés pour chaque lieu d’articulation L’analyse doit également fournir des éléments de réponse aux questions :
Existe-t-il une distribution distincte entre les classes de sons bien identifiés et mal identifiés pour chaque lieu d’articulation ?
Existe-t-il des zones qui favorisent ou éliminent tel lieu d’articulation de manière quasi radicale ?
Le cadre de ce stage est d’analyser les indices acoustiques des consonnes occlusives non voisées, donc ces expérimentations se concentrent sur les consonnes occlusives non voisées: labiale /p/, vélaire /k/, et dentale /t/ Les consonnes sont étudiées en prenant compte l’impact de leurs contextes de voyelles
Trang 39Deuxième hypothèse : il existe une distribution distincte entre les classes de sons bien identifiés et mal identifiés pour chaque lieu d’articulation
5.3 Protocole expérimental
5.3.1 Corpus
Afin d’analyser les sons reconnus par un système de reconnaissance automatique de la parole (RAP), les corpus utilisés dans ce travail sont des sorties d’un système de RAP destiné à détecter les belles réalisations acoustiques Ces corpus sont divisés en deux types de sons : les sons bien identifiés et les sons mal identifiés
Le fait qu’on veut analyser les caractéristiques dynamiques des sons en prenant en compte l’impact de leurs contextes Donc les consonnes doivent être étudiées en prenant en compte leur contexte phonétique (c-a-d, les phénomènes de coarticulation liés à la présence des phonèmes voisins) En conséquence, chaque consonne est mise dans un triplet qui est constitué par un phonème avec son contexte phonétique Chaque triplet se compose de 3 phonèmes et il s'articule donc autour des deux frontières du phone central comme le montre la figure 12 A chacune des frontières sont attachées les événements acoustiques suivants s'ils sont présents
Transitions formantiques,
Burst avec sa durée, son intensité et la localisation fréquentielle des concentrations d'énergie
Limite inférieure de bruit (pour les fricatives),
Points d'échange des cavités formantiques,
Profil de la micromélodie
Trang 40Figure 12 Exemple de description d’un triplet
Dans le cadre du stage, les consonnes sont analysées en utilisant les triplets qui sont sous
la forme : V1CV2, ó :
C : une des consonnes occlusives non voisées : /p/, /t/ et /k/
V1 : la voyelle [a] (ou [e])
V2 : une voyelle, V2 est choisie selon des différents contextes :
o Contexte postérieur : [u], [o], [ə]
o Contexte antérieur : [i], [e]
o Contexte central : [a], [è], [oe]
o Contexte arrondi : [y], [ue]
5.3.2 Acquisition des indices
5.3.2.1. Les problèmes de calcul des indices
Ce sont les problèmes de fréquence et d’émergence qui lient au deuxième max de /k/, et à l’acuité des dentales, qui ont plusieurs pics dans le haut du spectre, dont il ne faut pas en tenir compte
Nous allons procédé à la recherche d’un Max Bas et d’un Max Haut Pour les deux maximums, nous ne tenons pas compte des fréquences supérieures à 3000 Hz pour rechercher la proéminence, soit par rapport au deuxième maximum, soit par rapport à la moyenne Donc, la proéminence est calculée dans la zone 0-3000 Hz