ANALYSE ACOUSTIQUE DE SONS BIEN IDENTIFIÉS PAR UN SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

; des indices qui permettent de les distinguer aisément des autres sons Ce travail est donc divisé en deux parties : la partie théorique et la partie pratique En ce qui concerne la parti

Trang 1

Institut de la Francophonie pour l’Informatique

INRIA de Lorrain - LORIA

MÉMOIRE DE FIN D’ÉTUDES

Lieu : Laboratoire Lorrain en Informatique et ses Applications

615, rue du Jarbin Botanique

54600 Villers-lès-nancy, France Date : 2 avril 2007 – 30 septembre 2007

Par LE Manh Tuan Encadrants : Anne BONNEAU et Martine CADOT

ANALYSE ACOUSTIQUE DE SONS BIEN IDENTIFIÉS PAR UN SYSTEME DE

RECONNAISSANCE AUTOMATIQUE DE

LA PAROLE

Trang 2

Remerciements

Tout d’abord, je tiens à remercier M Yves Laprie de m’avoir accueilli pendant mes 6 mois dans son équipe Je remercie également mes deux encadrantes, Mme Anne Bonneau et Mme Martine Cadot, qui m’ont donné la direction, les conseils et les explications utiles pour mon stage

Je tiens à remercier Farid Feiz et Blaise Potard, thésards dans l’équipe Parole, pour leur aide dans la préparation des logiciels nécessaires et de l’environnement de travail

Je voudrais aussi exprimer ma gratitude pour mes collègues de bureau, Aminata POUYE et Julie BUSSET, qui ont contribué au bon déroulement de mon travail

Enfin, un grand merci à mes collègues à LORIA, mes amis à Nancy pour leurs sentiments, leurs soutiens et leurs encouragements pendant le temps de mon stage

Un grand merci à tous !

LE Manh Tuan

Trang 3

Ce sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement, afin de les renforcer et d’améliorer l’intelligibilité de la parole Il concerne plus particulièrement l’analyse acoustique des sons reconnus par un système de reconnaissance automatique de la parole (RAP) destiné à rechercher des sons bien prononcés

Basé sur un système de RAP destiné à détecter les belles réalisations acoustiques d'un son d'un point de vue acoustique, l’objectif de ce stage est d’analyser les sorties de ce système pour vérifier si les sons reconnus par ce système possèdent ou non des indices acoustiques discriminants (c.-à-d des indices qui permettent de les distinguer aisément des autres sons) Dans

le cadre du stage, notre travail se concentre sur l’analyse des indices acoustiques des consonnes occlusives Ces consonnes sont étudiées dans des contextes différents des voyelles

Le résultat de cette étude montre qu’il y a des différences entre les sons bien identifiés et les sons mal identifiés Les consonnes qui sont bien identifiées ont tendance à être dans une zone de moindre confusion entre les classes, tandis que les consonnes qui sont mal identifiées sont principalement situées dans une région de grande confusion entre les classes

Il existe aussi des zones indices acoustiques qui permettent de bien distinguer les consonnes bien identifiées et les consonnes mal identifiées Cependant, ces zones ne sont pas claires et elles dépendent du contexte vocalique

Mots-clés : analyse d’indice acoustique, son bien identifié, son mal identifiés, fréquence,

émergence, proéminence, durée du bruit, qualité, occupation

Trang 4

Abstract

This subject proceeds of the motivation to detect sounds which are well-realized acoustically, in order to reinforce them and to improve the intelligibility of speech It more particularly relates to the acoustic analysis of the sounds recognized by a automatic speech recognition system (ASR) intended to find out well-realized sounds

Based on a ASR system intended to detect the good acoustic realizations of a sound from an acoustic point of view, the object of our training course is to analyze the exits of this system to check if the sounds recognized by this system have or not discriminating acoustic indices (it mean : the indices which make it possible to easily distinguish them from the other sounds) According to the scope of the training course, our work concentrates on the analysis of the acoustic indices of the occlusive consonants These consonants are studied in contexts different

of the vowels

The result of this study shows that there are differences between the well-realized sounds and badly-realized sounds The consonants which are well-realized have tendency to be in a zone of less confusion between the classes, while the consonants which are badly-realized are mainly located in an area of great confusion between the classes

There are also acoustic zones indices which make it possible to distinguish the well-realized consonants well and the badly-realized consonants However, these zones are not clear and they depend on the context of vowel

Keywords : analyze acoustic index, well-realized, badly-realized, frequency, emergence,

prominence, duration of the noise, quality, occupation

Trang 5

Table des matières

Remerciements 2

Résumé 3

Abstract 4

Table des matières 5

Liste des figures 7

Liste des tables 8

CHAPITRE 1 INTRODUCTION 9

1.1 Présentation de l’environnement de travail 9

1.1.1 Introduction du LORIA 9

1.1.2 Équipe Parole et leurs projets 10

1.1.3 Environnement de travail 11

1.2 Introduction du stage 12

1.3 Organisation du rapport 13

CHAPITRE 2 LA PAROLE 14

2.1 Qu’est ce que c’est la parole ? 14

2.2 Production de la parole 15

2.3 Caractéristiques phonétiques 17

2.3.1 Phonème 17

2.3.2 Voyelles 17

2.3.3 Consonnes 19

2.4 Lecture de spectrogramme 20

2.4.1 Spectrogramme 20

2.4.2 Lecture de spectrogramme 21

2.4.3 Exemple de lecture de spectrogramme 22

CHAPITRE 3 INDICES ACOUSTIQUES 26

3.1 Introduction de l’indice acoustique 26

3.2 Indices du burst 27

3.2.1 Fréquence et émergence du burst 28

3.2.2 La compacité spectrale 29

3.2.3 La durée du bruit 30

3.3 Indices de transition 30

3.3.1 Les transitions labiales 31

3.3.2 Les transitions dentales 31

3.3.3 Les transitions plato-vélaires 32

Trang 6

CHAPITRE 4 CONTEXTE DU STAGE 33

4.1 Présentation de Snorri 33

4.2 Présentation de WinSnoori 34

4.3 Contexte du stage 35

CHAPITRE 5 ANALYSE EXPERIMENTAL 38

5.1 Objectif 38

5.2 Hypothèses 39

5.3 Protocole expérimental 39

5.3.1 Corpus 39

5.3.2 Acquisition des indices 40

5.3.3 Analyse acoustique 46

5.4 Analyse des indices acoustiques 49

5.4.1 Objectif 49

5.4.2 Expérimentation 50

5.4.3 Discussion 50

CHAPITRE 6 CONCLUSION ET PERSPECTIVE 64

6.1 Conclusion 64

6.2 Perspectives 64

Références 66

Annexe 1 Code Source 67

Annexe 2 Les plans des indices 71

Trang 7

Liste des figures

Figure 1 Appareil phonatoire [3] 15

Figure 2 Modèle mécanique de production de la parole 16

Figure 3 Exemple de son voisé (haut) et non – voisé (bas) 17

Figure 4 Triangle vocalique pour le français 18

Figure 5 Spectre de ‘my speech’ 21

Figure 6 Un exemple de la lecture du spectrogramme [12] 23

Figure 7 Analyse du burst de la syllabe /ko/ 28

Figure 8 La transition des formants 31

Figure 9 Présentation de l’interface de Snorri 34

Figure 10 Présentation de l’interface de Winsnoori 34

Figure 11 Les étapes de l’apprentissage « Élitiste » 36

Figure 12 Exemple de description d’un triplet 40

Figure 13 Le processus d’acquisition des indices 43

Figure 14 Distribution des sons selon la fréquence du burst (contexte antérieur) 53

Figure 15 Distribution des sons selon la fréquence et l’émergence (contexte antérieur) 54

Figure 16 Distribution des sons selon la fréquence et la durée (contexte antérieur) 55

Figure 17 Distribution des sons selon la fréquence et la qualité (contexte antérieur) 56

Figure 18 Distribution des sons selon la fréquence et l’émergence adaptée aux vélaires et aux dentales (contexte antérieur) 57

Figure 19 Distribution des sons selon la fréquence du burst (contexte central) 60

Figure 20 Distribution des sons selon la fréquence et l’émergence (contexte central) 60

Trang 8

Liste des tables

Table 1 Les phonèmes du français 14 Table 2 La classification des phonème du français en traits distinctifs 20 Table 3 Comptage de confusion pour contexte antérieur (émergence normale) 50 Table 4 Comptage de confusion pour contexte antérieur (émergence adaptée aux vélaires et aux dentale) 52 Table 5 Comptage de confusion pour contexte central (émergence normale) 58 Table 6 Comptage de confusion pour contexte central (émergence adaptée aux vélaires et aux dentales) 59 Table 7 Comptage de confusion pour contexte arrondi (émergence normale) 61 Table 8 Comptage de confusion pour contexte arrondi (émergence adaptée aux vélaires et aux dentales) 62 Table 9 Comptage de confusion pour contexte postérieur (émergence normale) 63 Table 10 Comptage de confusion pour contexte postérieur (émergence adaptée aux vélaires et aux dentales) 63

Trang 9

CHAPITRE 1 INTRODUCTION

Ce stage a été réalisé au LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications) à Nancy, France, du 2 avril au 30 septembre 2007, au sein de l’équipe PAROLE Dans le premier chapitre nous ferons tout d’abord une petite présentation du laboratoire LORIA et de l’équipe PAROLE ainsi que l’environnement de travail Puis nous ferons une introduction concernant le stage et l’objectif de notre travail

1.1 Présentation de l’environnement de travail

1.1.1 Introduction du LORIA

Le Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), est une unité mixte de recherche (UMR 7503) commune à plusieurs établissements:

• CNRS, Centre National de Recherche Scientifique

• INPL, Institut National Polytechnique de Lorraine

• INRIA, Institut National de Recherche en Informatique et en Automatique

• UHP, Université Henri Poincaré, Nancy 1

• Université Nancy 2

La signature, le 19 décembre 1997, du contrat quadriennal avec le Ministère de l’Education Nationale, de la Recherche et de la Technologie et par une convention entre les cinq partenaires a officialisé la création de cette unité de recherche Cette unité a été renouvelée en

2001

Elle succède ainsi au CRIN (Centre de Recherche en Informatique de Nancy), et associe les équipes communes entre celui-ci et l’unité de Recherche INRIA Lorraine Le LORIA est situé sur le campus de la faculté des sciences de Nancy

Depuis février 2007, Karl Tombre est le directeur du LORIA et de L’INRIA

Le LORIA est un laboratoire de plus de 450 personnes parmi lesquelles :

• 150 chercheurs et enseignants-chercheurs

un tiers de doctorants et post doctorants

Trang 10

• des ingénieurs, techniciens et personnels administratifs

Organisé en équipes de recherche et services de soutien à la recherche

C'est aussi chaque année

• une trentaine de chercheurs étrangers invités

• des coopérations internationales avec des pays des cinq continents

• une quarantaine de contrats industriels

Ces personnels sont répartis en 27 équipes de recherche et en services d’aide à la recherche Chaque équipe rassemble des chercheurs, des doctorants et des assistants techniques

ou administratifs, pour la réalisation d’un projet de recherche

Les missions principales du LORIA :

• Recherche fondamentale et appliquée au niveau international dans le domaine des Sciences et Technologies de l'Information et de la Communication

• Formation par la recherche en partenariat avec les Universités lorraines

• Transfert technologique par le biais de partenariats industriels et par l'aide à la création d'entreprises

1.1.2 Équipe Parole et leurs projets

Ce stage s’est déroulé dans l’équipe PAROLE dirigée par Yves Laprie L’équipe a pour thème de recherche « Analyse, Perception et Reconnaissance automatique de la parole » (Projet INRIA-LORIA)

Le thème de recherche de l’équipe Parole est l’étude de la communication parlée et recouvre un vaste spectre d’activités qui comprend l’étude de la perception humaine des indices acoustiques, l’analyse de la parole et la reconnaissance automatique Ces travaux s’inscrivent dans la perspective de construire des interfaces vocales efficaces dans des systèmes embarqués et multimodaux

Les activités de recherche de l’équipe Parole sont divisées en deux thèmes :

• Analyse de la parole Ce thème concerne l’analyse et la perception du signal

acoustique, l’étude de l’inversion acoustico-articulatoire et l’analyse de la parole

Trang 11

Ce thème permet le développement de nombreuses applications dans les domaines

de la thérapie de réhabilitation vocale, dans l’amélioration des aides auditives et dans l’apprentissage des langues

• Modélisation de la parole pour la reconnaissance automatique Ce thème

concerne l’étude des modèles stochastiques, des modèles de langage et des modèles multibandes Ce thème permet le développement de nombreuses applications dans les domaines de la reconnaissance automatique de la parole, dans la dictée automatique, dans l’alignement texte-parole et dans la classification des divers signaux de la parole

En outre, l’équipe a développé de bonnes relations scientifiques et industrielles comme :

• Participation aux projets européens TIDE (Projet ISAEUS) et Telematics (Projet VODIS)

• Collaborations régionales avec l’hôpital central, le PES (Pôle Européen de Santé)

• Coopération avec les universités de Tunis, Bruxelles (ULB), CMU, STL (Speech Transmission Laboratory)

1.1.3 Environnement de travail

Ce stage a été réalisé au sein de l’équipe Parole Nous avons utilisé des outils et l’environnement commun de l’équipe

L’environnement de travail s’effectue sous Windows XP et Linux Afin de se connecter

et d’utiliser les programmes de Linux à partir de Windows, nous avons utilisé les logiciels :

putty et WinSCP pour se connecter à Linux et XWin pour fonctionner le logiciel Snorri sous

Windows (Snorri est un logiciel de traitement de la parole qui fonctionne sous Linux)

La programmation s’effectue en langage C et C++, les programmes sont développés en

langage C++ et après ils sont rattachés à Snorri et ils fonctionnent comme des fonctions de

Snorri

La gestion du code source est effectuée par le logiciel CVS (Concurrent Versions System) C’est un logiciel libre de gestion des versions et il est utilisé dans l’équipe pour gérer les codes sources Il permet de surveiller toutes les modifications apportées par tous les membres

de l’équipe Pour notre travail, nous avons fait une copie du code source dans un répertoire, et

Trang 12

toutes les modifications nécessaires sont effectuées dans ce répertoire Cela a pour but de ne pas influencer sur les autres membres de l’équipe

Les logiciels de traitement de la parole utilisés dans ce travail sont Snorri (un logiciel fonctionnant sous Linux) et Winsnoori (la version Windows de Snorri)

Les statistiques des données s’effectuent à l’aide du le logiciel Microsoft Excel

1.2 Introduction du stage

Notre sujet procède de la motivation de rechercher des sons qui sont bien réalisés acoustiquement, dans le but d’améliorer l’intelligibilité de la parole Il concerne plus particulièrement l’analyse acoustique des sons de la sortie d’un système de reconnaissance automatiquement de la parole destiné à rechercher des sons bien prononcés

L’objectif de ce stage est de vérifier si les sorties de ce système correspondent à des belles réalisations d'un point de vue acoustique, et de vérifier s’ils possèdent des indices acoustiques discriminants (c.-à-d ; des indices qui permettent de les distinguer aisément des autres sons)

Ce travail est donc divisé en deux parties : la partie théorique et la partie pratique

En ce qui concerne la partie théorique, nous avons étudié les théories nécessaires concernant notre travail : la parole et la production de la parole, le traitement de la parole, la reconnaissance de la parole, les caractéristiques et les indices acoustiques de sons de la parole Nous avons également lu de nombreux articles et livres qui nous ont servi à mieux comprendre les problèmes concernant notre travail

En ce qui concerne la partie pratique, nous avons débuté par l’étude des sons qui sont reconnus par un système de reconnaissance automatique de la parole Cette étude a pour but d’étudier les contextes et les caractéristiques des sons qui sont utilisés pour faire le corpus Ensuite, basé sur un système de codage et de traitement de la parole, nous avons modifié et ajouté des fonctions qui permettent d’extraire des indices acoustiques d’un son Ces fonctions sont développées en langage C++ Et puis, nous avons utilisé ces fonctions pour calculer les indices acoustiques des sons qui sont bien identifiés et des sons qui sont mal identifiés par ce système Enfin, à partir des indices acquis, nous avons fait des statistiques et donné des résultats sur la comparaison entre les différentes types des sons

Trang 13

1.3 Organisation du rapport

Ce rapport introduit les connaissances acquises sur l’étude de la parole que nous avons réalisé au LORIA dans le cadre de ce stage Le contenu principal du rapport concerne les théories de traitement de la parole, les caractéristiques phonétiques, les indices acoustiques des voyelles et des consonnes, et l’analyse acoustique des consonnes qui sont bien identifiés et mal identifiés par un système de RAP

Le rapport se compose de 6 chapitres:

Chapitre 1 : ce chapitre est consacré à une petite présentation du lieu ó nous avons fait le stage, le sujet et l’objectif du stage

Chapitre 2 : ce chapitre donne les théories de base qui concerne le travail : la parole et sa production, les caractéristiques phonétiques des sons de la parole

Chapitre 3 : ce chapitre présente les indices acoustiques qui sont utilisés dans le travail

Chapitre 4 : ce chapitre est consacré à la présentation des outils utilisés dans notre travail

et préciser le contexte du travail

Chapitre 5 : ce chapitre présente les travaux pratiques, les expérimentations réalisées dans

Trang 14

CHAPITRE 2 LA PAROLE

Avant de présenter les contenus principaux, nous présenterons un peu la théorie de la parole qui intéresse notre travail C’est une petite introduction de la parole et sa production et des caractéristiques principales de sons de la parole

2.1 Qu’est ce que c’est la parole ?

La parole est un moyen de communication très efficace et naturel de l'humain La parole

se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine dans les mécanismes de production La parole apparaît physiquement comme une variation de la pression

de l'air causée et émise par le système articulatoire Les sons de parole sont produits soit par des vibrations des cordes vocales (source de voisement), soit par une turbulence crée par l'air s’écoulant rapidement dans une constriction ou lors du relâchement d’une occlusion du conduit vocal (sources de bruit) L'unité de parole de plus petite taille est un phonème (voyelle ou consonne) Le nombre de phonèmes est toujours très limité, normalement inférieur à cinquante Par exemple : la langue française comprend 36 phonème

Table 1 Les phonèmes du français

Trang 15

2.2 Production de la parole

La parole est produite par le système articulatoire, présenté à la figure 1 :

Figure 1 Appareil phonatoire [3]

La parole peut être décrite comme le résultat de l'action volontaire et coordonnée des appareils respiratoire et masticatoire Cette action se déroule sous le contrôle du système nerveux central qui reçoit en permanence des informations par rétroaction auditive et par les sensations cénesthésiques

L'appareil respiratoire fournit l'énergie nécessaire à la production de sons, en poussant de l'air à travers la trachée-artère Le mouvement du flux d'air cause la vibration des cordes vocales Cette vibration se propage à travers la cavité pharyngienne, la cavité buccale et la cavité nasale Selon la position des articulateurs (mâchoire, langue, palais, lèvre, bouche), des sons différents sont produits

Trang 16

Figure 2 Modèle mécanique de production de la parole

L’intensité du son émis est liée à la pression de l’air en amont du larynx, sa hauteur est

fixée par la fréquence de vibration des cordes vocales, appelée fréquence fondamentale (ou

pitch) La fréquence fondamentale peut varier selon le genre (masculin ou féminin) et l’âge du

locuteur La fréquence du fondamental peut varier [2] :

• De 80 à 200 Hz pour une voix masculine

• De 150 à 450 Hz pour une voix féminine

• De 200 à 600 Hz pour une voix d’enfant

Les sons voisés résultent d'une vibration quasi périodique des cordes vocales et ce sont des signaux quasi périodiques Par contre les sons non voisés ne présentent pas de structure

périodique, ils sont considérés comme des bruits blancs filtrés par la transmittance de la partie du conduit vocal située entre la constriction et les lèvres

Trang 17

Figure 3 Exemple de son voisé (haut) et non – voisé (bas)

La figure 3 donne un exemple de sons voisé et non voisé On y constate que le son voisé (en haut) représente des zones assez périodiques, appelées zones voisées, tandis que le son non voisé (en bas) représente des zones bruitées, appelées zones non voisées

2.3 Caractéristiques phonétiques

2.3.1 Phonème

La plupart des langues naturelles sont composées à partir de sons distincts, les phonèmes Un phonème est la plus petite unité présente dans la parole [2] Le nombre de phonèmes est toujours très limité (normalement inférieur à cinquante) et ça dépend de chaque langue Les phonèmes peuvent être classés en fonction de trois variables essentielles : le voisement (activité des cordes vocales), le mode d’articulation (type de mécanisme de production) et le lieu d’articulation (endroit de resserrement maximal du conduit vocal)

2.3.2 Voyelles

Les voyelles sont des sons voisés qui résultent de l’excitation du conduit vocal par des impulsions périodiques de pression liées aux oscillations des cordes vocales Chacune des voyelles correspond à une configuration particulière du conduit vocal Les voyelles se

Trang 18

différencient principalement les unes des autres par leur lieu d’articulation, leur aperture, et leur

nasalisation On distingue ainsi les voyelles antérieures, moyennes et postérieures, selon la position de la langue, et les voyelles ouvertes et fermées, selon le degré d’ouverture du conduit vocal

Il y a deux types de voyelle : les voyelles orales (i, e, u, .) qui sont émises sans intervention de la cavité nasale et les voyelles nasales (ã, ε~ , …) qui font intervenir la cavité nasale La langue française comprend douze voyelles orales émises seulement par la bouche, ainsi que quatre voyelles nasales correspondant à la mise en parallèle des cavités nasales sur la cavité buccale par abaissement du voile du palais

Chaque voyelle se caractérise par les résonances du conduit vocal qu’on appelle “les

formants” En général, les trois premiers formants sont suffisants pour caractériser toutes les

voyelles

Il est commode de représenter une voyelle sur un plan F1, F2 pour voir le “triangle

articulatoire ” ou “triangle vocalique ” de la phonétique Ce triangle représente la position de la

langue dans la cavité buccale selon les 2 axes F1 “antérieur-postérieur ” et F2 “ouvert-fermé ”,

selon que la langue est massée en avant vers la zone dentale (i), basse et étalée loin du palais (a),

ou massée postérieurement vers le voile (u) F1 représente la position de la langue F2 dépend de l'ouverture de la cavité buccale Les autres formants représentent d'autres facteurs comme l'arrondissement des lèvres

Figure 4 Triangle vocalique pour le français

Trang 19

2.3.3 Consonnes

Les consonnes sont des sons qui sont produits par une turbulence créée par le passage de l’air dans une constriction du conduit (les consonnes non voisées) ou une source périodique liée

à la vibration des cordes vocales s’ajoute à la source de bruit (les consonnes voisées) Il y a trois

types de consonnes : les fricatives (ou constrictives), les occlusives et les nasales

Les fricatives sont créées par une constriction du conduit vocal au niveau du lieu

d’articulation (le palais [ï,ï], les dents [s, z], ou les lèvres [f, v]) Les fricatives non voisées sont caractérisées par un écoulement d’air turbulent à travers la glotte, tandis que les fricatives voisées combinent des composantes d’excitation périodique et turbulente : les cordes vocales s’ouvrent et se ferment périodiquement, mais la fermeture n’est jamais complète

Les occlusives correspondent quant à elles à des sons essentiellement dynamiques Une

forte pression est créée en amont d’une occlusion maintenue en un certain point du conduit vocal (les palais [k, g], les dentales [t, d], ou les lèvres [p, b]), puis relâché brusquement La période d’occlusion est appelée la phase de tenue Pour les occlusives voisées [b, d, g] un son basse fréquence est émis par vibration des cordes vocales pendant la phase de tenue; pour les occlusives non voisées [p, t, k], la tenue est un silence

Les consonnes nasales [m, n, ï] font intervenir les cavités nasales par abaissement du

voile du palais

Les consonnes sont caractérisées par la fréquence de spectre, la durée d’existence et la transition du son

Trang 20

Table 2 La classification des phonème du français en traits distinctifs 2.4 Lecture de spectrogramme

2.4.1 Spectrogramme

Un spectrogramme est une représentation visuelle de la parole Il permet de voir l’évolution de l’énergie dans l’échelle des fréquences en fonction du temps L'amplitude du spectre (l’énergie) y apparaît sous la forme de niveaux de gris dans un diagramme en deux axes :

le temps (de gauche à droite) et la fréquence (de basse fréquence (son grave) à haute fréquence (son aigu)) Ils mettent en évidence l’enveloppe spectrale du signal, et permettent par conséquent

de visualiser l’évolution temporelle des formants Les périodes voisées y apparaissent sous la forme de bandes verticales plus sombres

Trang 21

Figure 5 Spectre de ‘my speech’

2.4.2 Lecture de spectrogramme

La lecture de spectrogramme contient 4 étapes élémentaires :

• Étape 1 : Connaître les 3 dimensions du spectrogramme Ce sont l’énergie (l’intensité), le temps et la fréquence du spectre

• Étape 2 : Savoir distinguer les consonnes et les voyelles

o Les consonnes sont des sons produits avec une constriction plus ou moins forte dans le conduit vocal Donc l’intensité du spectre est relativement faible et sur le spectrogramme sa noirceur n’est pas très forte

o Alors que les voyelles sont des sons produits sans aucune constriction forte dans le conduit vocal, l’intensité du spectre est relativement élevée et sur le spectrogramme sa noirceur est relativement foncée

• Étape 3 : Savoir reconnaître les grandes classes de consonnes Il y a 3 types de consonnes, les occlusives, les fricatives et les sonantes

o Les occlusives sont produites par une occlusion complète dans le conduit vocal, donc pendant l’occlusion, l’air ne passe pas et sur le

Trang 22

spectrogramme, il correspond à un silence (sauf le voisement pour les sonores)

o Les fricatives sont produites avec une forte constriction (mais pas complète) dans le conduit vocal Donc il y a une turbulence de l’air dans le conduit vocal et sur le spectrogramme cette turbulence correspond au bruit

de friction

o Les sonantes /m, n, l, R/ sont produites avec une constriction partielle dans

le conduit vocal et nasal Donc, l’air passe d’une façon relativement libre

et sur le spectrogramme il y a des formants comme les voyelles, mais ces formants sont moins forts que ceux des voyelles

o Il y a deux types pour les occlusives et les fricatives : sourdes et sonores Pour les occlusives et les fricatives sonores, les plis vocaux vibrent alors sur le spectrogramme ils présentent une barre de voisement Tandis que, les plis vocaux des occlusives et des fricatives sourdes ne vibrent pas, donc sur le spectrogramme il n’y a pas de barre de voisement

• Étape 4 : savoir reconnaỵtre les grandes classes de voyelles Les voyelles se différencient les unes les autres par leurs formants Un formant est la zone de fréquence ó il y a une concentration (renforcement) d’énergie Dans les voyelles orales, il y a en moyenne 1 formant par 1000Hz (voix d’homme) On utilise souvent le spectrogramme à bande large pour visualiser les formants et les formants y apparaissent sous les formes des bandes noires horizontales Les voyelles orales sont divisées en des classes :

o Les voyelles antérieurs /i e, ε, y (a)/, avec ces voyelles, la distance entre F1-F2 est supérieur à la distance entre F2-F3

o Les voyelles postérieur /a o O u/, avec ces voyelles, la distance entre F2 est inférieur à la distance entre F2-F3

F1-o Les voyelles centrales / o oe/, avec ces voyelles, les formants sont plus (ou moins) équidistants

2.4.3 Exemple de lecture de spectrogramme

Voici un exemple de la lecture du spectrogramme Cet exemple illustre une décision des mots à partir d’un spectrogramme Ce spectrogramme se compose de quatre mots, chaque mot est identifié par une des paires suivantes :

Trang 23

1 HE/SHE

2 CHAINS/TRAINS

3 MEEK/WEAK

4 LEADERS/READERS

"She trains weak leaders"

Figure 6 Un exemple de la lecture du spectrogramme [12]

[ʃ], IPA 134

Dans l’intervalle [75ms – 225ms], on a [ʃ] et non [ h ] pour deux raisons La première est

qu'il est trop fort Ca a l'amplitude absolue d’une voyelle et non d’une consonne Ainsi cette fricative très forte est inclinée aux fréquences plus élevées, typiques des sibilants en général

Ceci ressemble à [ʃ] plutôt que [ s ] puisque l'énergie est très petite dessous du F2,

au-dessous duquel elle tombe assez brusquement ([ s ] a un bruit large qui peut diminuer aux fréquences plus basses, mais il fera graduellement) Le fait qu'elle tombe à la droite au-dessous

Trang 24

du F2 est soupçonneux, si vous vous demandiez En outre [ s ] n'aurait pas cette force spécifique dans F2/F3/F4, mais vraisemblablement ferait centrer beaucoup une large bande simple beaucoup plus fortement [ h ] aurait moins d'énergie au-dessus de tous, et n'aurait pas n'importe quel genre de discontinuité avec la voyelle suivante (excepté en termes d'exprimer)

[t], IPA 103 + 404, 151 + 402

Dans l’intervalle [350ms – 450ms], le choix ici est entre [ʃ] ou [] L’espace pour l’occlusive va d'environ 325 ms au relâchement entre 375 et 400 ms Le relâchement fricatif fonctionne probablement entre 25 et 50 ms Le 'centre' du moment de /r/ est autour 425 ms Notez que les formants se déplacent rapidement à environ 450 ms Ainsi nos choix, de 400 à 450

ms sont les /r/ ou [ʃ] Notez l'intensité du bruit au relâchement, il est sibilant et centré en bas

Mais notez que l'intensité tombe assez rapidement, et le bruit est dans la forme des formants suivants Le F2 commence vers le haut partout ó il part sur le relâchement (autour de 1900 hertz), et tombe rapidement juste en dessous de 1500 Hz Le F3 tombe, et notez dans le relâchement, des angles des transitions de chaque cơté, il ressemble que F3 tombe en dessous de

2000 Hz, mais il n'y a pas beaucoup d'évidence qui il y arrive vraiment A l’aide du bas de F3 et

de la proximité de F2 et de F3, on peut expliquer la forme de /tr/

[w], IPA 170

Approximante ou nasale ? Nous regardons le segment voisé dans l’intervalle [725ms – 800ms] Il y a moins d'énergie dans la barre de voisement que dans la voyelle suivante, mais c'est typique des nasales et des approximantes fermées Les transitions sont la plupart du temps labial, bien que F3 n'aide pas beaucoup Nasale ou non ? Les nasales ne doivent pas avoir les bords anguleux Voir le moment près de 800 ms dans le spectrogramme, le bord ici est le voile fermé et l’acoustique change soudainement L'énergie qui était perdue par la nasalisation est soudainement regagnée, les résonances principales changent et les formants durent pendant la transition, suggérant quelque chose d’oral partout Donc c’est la transition de /w/ à la voyelle suivante

[], IPA 209

Enfin c’est une discrimination entre les approximantes, un /r/ et un /l/ Notez le voisement dans l’intervalle [1000ms – 1075ms] Ceci ne semble pas une nasale en raison de la continuité en tout point La barre de voisement de F1 est continue en amplitude et en fréquence, cela indique

Trang 25

une addition soudaine ou la perte d'une cavité Donc, qu’est ce qui fait la différence entre un /r/ et

un /l/ ? C’est le F3 Pour /r/, F3 est abaissé tandis que pour /l/ F3 est augmenté Mais ó se situe F3 ? F1 est vers le bas en dessous de 500 Hz Le F2 est juste au dessus de 1000 Hz, et F3 est autour 2750 Hz Dans le spectrogramme c’est un F3 augmenté, alors cela exprime le spectre de /l/

Trang 26

CHAPITRE 3 INDICES ACOUSTIQUES

Notre travail consiste à faire un analyse acoustique sur les consonnes occlusives reconnues par un système de reconnaissance automatique de la parole Cet analyse a pour but d’étudier la relation entre les classes de consonnes bien identifiées et mal identifiées Ce chapitre est donc consacré à présenter les indices acoustiques qui sont utilisés dans cet analyse Ces indices lient aux propriétés de l’explosion (burst), le mouvement des formants avant et après le relâchement de l’air (transition des formant)

3.1 Introduction de l’indice acoustique

Un des buts de l’équipe Parole dans le thème d’analyse de la parole est d’étudier des caractéristiques acoustiques des sons de la parole (formant, fréquence fondamentale, caractéristiques spectrales des bruits d’explosion ou de friction, ) Et l’équipe étudie aussi la définition d’indices acoustiques très discriminants et très bien marqués, appelés « indices forts » qui permettent d’identifier avec une grande fiabilité et de manière automatique une catégorie phonétique (un trait) à partir de certaines de ses réalisations acoustiques En effet, un indice fort est un indice très discriminant d'un point de vue phonétique et bien marqué d'un point de vue acoustique Les indices forts permettent de rechercher des représentants bien réalisés acoustiquement La détection très fiable de sons bien réalisés peut avoir deux types d’applications : fournir des informations très fiables au système de reconnaissance automatique

et élaguer la recherche lexicale d’une part, et améliorer l’intelligibilité de la parole par le renforcement des sons qui ont été bien réalisés d’autre part

Les indices forts sont divisés en deux types : indices forts de préférence (indices positifs)

et indices forts d’exclusion (indices négatifs) Les indices positifs autorisent l'identification immédiate d'un trait Ils définissent une région d’un espace acoustique ó figure un certain nombre de représentants d’une classe, et aucun autre représentant des autres classes Par contre les indices négatifs sont destinés à éliminer certains traits avec certitude, donc ils permettent d’élaguer la recherche lexicale Ces indices recherchent des configurations spectrales qui ne sont jamais observées pour un lieu d’articulation mais qui apparaissent pour un ou plusieurs autres

lieux

Trang 27

Les indices forts sont étudiés dans l’équipe Parole il y a quelques années et la définition d'indices forts a été commencé par les occlusives sourdes du français en considérant à la fois le bruit d'explosion et les transitions formantiques Après avoir élaboré une procédure de segmentation automatique de l'attaque du bruit, et testé les indices pour ce segment, les transitions formantiques ont été étudiées Et maintenant un premier ensemble d'indices des bruits d’explosion et des transitions de formants pour les occlusives a été défini et testé

Ces indices permettent d’identifier de manière certaine les occlusives sourdes et dans notre travail, ils sont utilisés pour étudier la différence entre les occlusives sourdes bien identifiées et mal identifiées et la classification des consonnes en bien identifié et mal identifié pour chaque lieu d’articulation

3.2 Indices du burst

Les consonnes occlusives sont produites avec une occlusion complète dans le conduit vocal suivie d’un relâchement brutal de l’air (bruit d’explosion) et le burst est l’élément qui correspond à la phase de relâchement de l’air Il est un des caractéristiques les plus importantes des consonnes occlusives

Le Burst commence au relâchement de l’articulation (à la fin de la fermeture) et finit par

la première période de la voyelle subséquente (dans un séquence Consonne - Voyelle) Il est peut être divisé en trois segments : la transition, la frication et l’aspiration (généralement absents en français)

Voici un exemple de l’analyse de la transition du burst de la syllabe /ko/ En haute c’est

un plan de deux dimensions : la fréquence (Hz) et le temps (ms) Ce plan représente la segmentation du burst en deux parties : la transition et la friction (bruit) et ces éléments sont déterminés par trois barres verticales Au centre c’est la représentation de l’énergie qui est supérieur un seuil calculé par le silence dans une fenêtre de 4ms du En bas la transition spectrale (à gauche) et la friction spectrale du burst (à droite)

Trang 28

Figure 7 Analyse du burst de la syllabe /ko/

3.2.1 Fréquence et émergence du burst

La fréquence du burst est mesurée par la fréquence du pic le plus proéminent (ou "pic

principal") Edwards [4] a observé que ce pic est généralement inférieur à 2500 Hz pour les labiales, et supérieur à 2500 Hz pour les alvéolaires La fréquence maximale du pic principal des vélaires est près de F2 des voyelles avant arrondies ou voyelles arrières et plus haut encore que le F3 des voyelles avant non-arrondies Elle change approximativement de 700-800 Hz à plus de

3000 Hz en fonction du degré d’antériorité et de labialisation

C’est un des indices acoustiques les plus importants pour l’identification du lieu d’articulation des consonnes occlusives [4] Il est lié à la corrélation des traits diffus/compacts Nous avons observé de grands chevauchements entre les domaines couverts par les valeurs de ce critère pour différents lieux d'articulation Ainsi la fréquence maximale seule n'a pas constituée l'information fortement fiable, même pour la distinction entre les dentales et les labiales, et doit

être associée à un critère évaluant la proéminence du pic principal (l’émergence) L’émergence

du pic principal est estimée par la comparaison de sa valeur maximale d'énergie à la valeur

Trang 29

moyenne du spectre (première méthode), et à la valeur du pic le deuxième proéminent (deuxième méthode)

3.2.2 La compacité spectrale

La compacité (ou occupation) représente la concentration de l’énergie dans une zone de fréquence relativement étroite et centrale Un son est qualifié de compact si son spectre est caractérisé par une concentration d’énergie très élevée dans une région fréquentielle relativement étroite et centrale (celle du pic spectral proéminent, pour les occlusives) En fait, la centralité correspond à une notion relativement abstraite puisque la « concentration d’énergie élevée » est située dans des régions fréquentielles très différentes selon les catégories de sons

Une occlusive sera donc considérée comme compacte si le pic spectral proéminent est très intense par rapport au reste du spectre (concentration d’énergie très importante) et que sa largeur est relativement restreinte En pratique, deux pics distants de moins de 500 Hertz ont été regroupés en un seul pic

Afin de caractériser la concentration de l’énergie autour du maximum spectral, nous avons d’abord évalué la quantité d’énergie du pic principal (énergie cumulée) par rapport à celle

du spectre Comme ce critère prenait parfois des valeurs élevées pour des spectres non compacts,

ne contenant qu’un seul pic peu proéminent, nous l’avons remplacé par une évaluation de la proéminence du pic principal Celle-ci a été calculée par rapport à la moyenne spectrale d’une part, et au deuxième pic spectral le plus proéminent d’autre part; cette dernière méthode s’est révélée légèrement plus performante sur un petit corpus d’apprentissage et nous l’avons adoptée Notre premier critère de compacité repose donc sur la proéminence du pic principal par rapport

au deuxième pic spectral

Le deuxième critère rendant compte de la compacité est l’allure générale du spectre Nous rendons compte de l’allure générale du pic, et en particulier de sa largeur restreinte par un

critère que nous avons appelé critère de « qualité » La qualité du pic est évaluée selon la somme

sur chaque canal fréquence du pic spectral :

∑

=

−

n i

i freq freqC i

spectre

1

2

))((

*)(

Cette formule prend en compte l’énergie de chaque point du pic ainsi que sa distance par rapport au maximum spectral ainsi que son énergie de telle sorte que plus le pic sera large et

Trang 30

bombé, plus la qualité sera jugée faible En revanche, un pic étroit dont l’énergie est relativement élevée autour du maximum mais faible ailleurs, comme pour les pics de résonance, sera considéré comme un pic de bonne qualité

3.2.3 La durée du bruit

La durée du bruit (calculée du début de l’attaque jusqu’à la première période de la voyelle subséquente) est un indice discriminant pour le lieu d’articulation des occlusives Les vélaires tendent à avoir les bursts les plus longs et les labiales les plus courts Néanmoins, il y a des chevauchements très importants entre les valeurs des durées du burst pour différents lieux d'articulation, même pour un contexte phonétique simple, ainsi il est impossible de définir des régions distinctives de cet indice

Ce n'est pas un critère très discriminant, mais il est utile de veiller à ce que le bruit ait une durée minimale En effet, si le bruit est très bref, le spectre représentant l'attaque de la consonne

se rapproche de celui de la voyelle subséquente, ce qui peut entraîner un mauvais déclenchement

de l’indice palato-vélaire (dans le cas, par exemple, d’une forte proéminence du pic correspondant au F2) Un bruit bref peut aussi résulter d'une erreur de segmentation, due à la présence d'un bruit parasite avant le bruit d’explosion réél La forme spectrale de ce type de bruit est imprévisible et il convient bien entendu d'éliminer cette source potentielle d'erreur

Dans ce travail, ce critère est combiné avec d’autres critères pour étudier les consonnes occlusives

3.3 Indices de transition

Les transitions formantiques fournissent des indices qui sont importants pour l’identification du lieu d’articulation des occlusives, mais très sensibles aux différentes sources

de variation qui s’exercent sur la parole (contexte vocalique, locuteur, la vitesse de la parole)

Les indices de transition se basent sur les fréquences et les pentes des formants F2 et F3 à

la frontière entre la voyelle et la consonne L’évaluation des fréquences est réalisée des deux côtés de la consonne: les onsets des transitions de F2 et F3 dans la séquence CV et les offset des transitions de F2 et F3 dans la séquence VC

Pour les indices de transition des occlusives, l'évaluation automatique des fréquences et des pentes de formants à la frontière « occlusives – voyelle » est très difficile mais elles constituent l'information importante pour le lieu d’articulation des occlusives (Delattre et autres,

Trang 31

1955) Nous avons choisi d'évaluer la pente à la frontière plutơt qu'à une période fixe ou une partie fixe de la voyelle, pour au moins deux raisons Premièrement, la pente à la frontière est l'endroit le plus directement lié à lieu d’articulation des occlusives (Fant, 1973) Deuxièmement,

la durée moyenne des voyelles est très différente selon le corpus considéré, ainsi une longueur fixe représenterait les parties très différentes des voyelles et une partie fixe de différente longueur

Les indices de transition des formants dépendent beaucoup du lieu d’articulation des consonnes et du contexte vocalique Nous décrivons brièvement les caractéristiques de transitions des formants en fonction du lieu d’articulation des consonnes et du contexte vocalique

Figure 8 La transition des formants

3.3.1 Les transitions labiales

Dans les labiales, tous les formants (F1, F2, F3) descendent dans la fermeture (contexte VC), et montent vers le haut de la fermeture (contexte CV) La labialisation abaissant la fréquence des formants, les transitions #CV sont montantes devant les voyelles non arrondies, mais peuvent être légèrement descendantes devant les voyelles non arrondies En contexte VCV

en revanche, si la première voyelle est plus antérieure que la seconde et si les deux voyelles sont coarticulées, la pente descend fortement

3.3.2 Les transitions dentales

Les dentales sont les seules consonnes à posséder un locus, le point réél ou virtuel vers lequel se dirigent (contexte VC) ou d’ó proviennent (contexte CV) les transitions, relativement stable La fréquence de celui-ci est à peu près égale à 1800 Hz devant les voyelles non arrondies

Transition des formants

1800

Hz

Trang 32

et 1600 Hz devant les voyelles arrondies Le relâchement du burst a une énergie considérable au dessus de 4000 Hz, ressemblant souvent à un short [s]

3.3.3 Les transitions plato-vélaires

Dans les vélaires, le F2 et le F3 déplacent l'un vers l'autre dans la fermeture, et ils se séparent à la fermeture Les vélaires ont fréquemment un double burst/

Les seules pentes bien marquées pour les transitions #CV apparaissent devant les voyelles centrales et antérieures ouvertes Elles descendent de la consonne à la voyelle suivante

et forment avec la transition montante de F3 ce qu’il est convenu d’appeler la « pince vélaire »

En contexte VCV néanmoins, Öhman a montré que la pente de la transition de F2 est susceptible

de changer de direction quand la voyelle précédant la consonne est une voyelle d’arrière Devant

les voyelles d’arrière, les fréquences initiales des transitions sont très variables (D KP, p383, Sussmann, p 1313), alors que devant les voyelles antérieures fermées, la pente est relativement

plate et peu discriminante

Trang 33

CHAPITRE 4 CONTEXTE DU STAGE

Dans ce chapitre, nous allons présenter les outils utilisés dans le stage : le logiciel Snorri

et Winsnorri, montrer sur quoi se basent nos travaux et préciser le contexte du projet

4.1 Présentation de Snorri

Snorri est un logiciel d’étude de la parole qui est développé en langage C et sous l’environnement de Unix et Motif Il a été développé et amélioré depuis 15 ans par l’équipe Parole Ce logiciel est destiné à faciliter le travail du chercheur en reconnaissance de la parole, en phonétique, en perception ou encore en traitement du signal (suivi de formant, identification des occlusives, ) Les fonctions de base de Snorri permettent de calculer plusieurs types de spectrogrammes et d'éditer le signal de parole de manière très fine (couper, coller, filtrages et atténuations diverses) car le spectrogramme permet de connaître la répercussion acoustique de toutes les modifications À cela s'ajoute un grand nombre de fonctions destinées à étiqueter phonétiquement ou orthographiquement des signaux de parole, des fonctions destinées à extraire

la fréquence fondamentale de la parole, des fonctions destinées à piloter le synthétiseur de Klatt

et d'autres à utiliser la synthèse PSOLA

Trang 34

Figure 9 Présentation de l’interface de Snorri 4.2 Présentation de WinSnoori

WinSnoori est la version commerciale de Snorri qui marche sur Windows Il permet donc

en premier lieu de visualiser le signal de parole au cours du temps, mais aussi de visualiser différents types de spectrogrammes (à bande large, à bande étroite…) associé au signal traité L’utilisateur a la possibilité d’étiqueter phonétiquement et orthographiquement le signal de parole traité dans le but de l’analyser

Figure 10 Présentation de l’interface de Winsnoori

Winsnoori est à la fois un outil de recherche pour les chercheurs en traitement de la parole et un outil pédagogique (surtout d’illustration) pour les enseignants de phonétique Il comprend également diverses fonctions d’analyse : visualisation, écoute, zoom, filtrage, calcul des formants, synthétiseur de Klatt Il permet aussi d’analyser les indices prosodiques du signal traité puisqu’il permet la visualisation du contour mélodique (qui correspond aux variations de la fréquence fondamentale), la durée des phonèmes et des syllabes (quand le signal a été segmenté) ainsi que l’énergie du signal

En outre, il contient des fonctions de modification du signal fondées sur une version améliorée développée au sein de l’équipe de la technique TD-PSOLA (cela implique la modification de la durée de segments et/ou la modification de la fréquence fondamentale) qui

Trang 35

vont être d’une aide précieuse dans le domaine de l’apprentissage de la prosodie anglaise par des locuteurs français

4.3 Contexte du stage

Notre travail est basé sur un système de RAP, développée dans l’équipe Parole, et fondée sur les modèles de Markov Ce système permet de détecter les belles réalisations acoustiques d'un son d'un point de vue acoustique Pour le faire, il utilise une approche, appelée « Élitiste », qui est une boucle « apprentissage-reconnaissance » sur le corpus d’apprentissage, de telle sorte que, à la fin de cette boucle, nous possédions pour chaque son des modèles construits à partir d’exemplaires systématiquement bien identifiés, appelée « modèle sélectif », et des modèles construits à partir d’exemplaires qui ont été au moins une fois mal identifiés, appelée « modèle non sélectif »

Voici les étapes de l’apprentissage élitiste :

Corpus A Signaux acoustiques

+ Annotations phonétiques

(1) Phase d’apprentissage

(2) Phase de reconnaissance

(3) DWT: séparation entre les sons bien identifies

et mal identifiés

(4) Phase d’apprentissage

Les modèles de HMM pour les sons bien identifiés et mal identifié

Start

Trang 36

Figure 11 Les étapes de l’apprentissage « Élitiste »

Cette approche contient 4 étapes :

Étape 1 : On effectue un premier apprentissage classique à partir des signaux acoustiques et de la transcription phonétique disponible afin de conduire aux modèles acoustiques traditionnels (les modèles de Markov cachés)

Étape 2 : On effectue la reconnaissance des phrases du corpus d’apprentissage à partir de ces modèles

Étape 3 : On détermine par alignement forcé avec la transcription phonétique de

la phrase les sons bien reconnus Les étiquettes des sons mal reconnus sont modifiées

Étape 4 : On effectue un nouvel apprentissage à partir des sons bien reconnus pour créer des nouveaux modèles de son systématiquement bien identifiés et des autres sons

On répète l’apprentissage en revenant à l’étape 2 tant que le taux d’identification des bons modèles n’est pas suffisant et que le nombre d’exemples d’apprentissage le permet

On peut voir que, à chaque itération de la boucle, les sons qui ont été bien identifiés à l’étape précédente (tous les sons à la première étape) et qui sont correctement identifiés lors de l’itération en cours sont placés dans la classe des « bons exemples » du son qu’ils représentent Les sons qui ont été mal identifiés au moins une fois sont placés dans la classe des « mauvais exemples » À chaque nouvelle itération donc, deux sortes de modèles sont créés pour chaque son : de « bons modèles » qui sont construits à partir de sons systématiquement bien identifiés, et de « moins bon modèles » qui sont construits à partir des autres sons de cette classe Plus nous effectuons d’itérations, plus le taux de reconnaissance obtenu par les modèles associés aux sons bien identifiés augmente, mais le nombre de bons exemples à partir desquels sont construits ces modèles diminue

Par conséquent, à la sortie du système, on a deux types de sons : les sons bien identifiés qui sont reconnus par les modèles sélectifs, et les sons mal identifiés qui sont reconnus par les modèles non sélectifs

Basé sur ces deux types de sons, l’objectif de notre travail est d’analyser les indices acoustiques des sons bien identifiés et des sons mal identifiés pour mieux comprendre la

Trang 37

différence entre ces deux types de sons et la classification faite par Markov en bien identifié et mal identifié

Le cadre du travail est d’analyser les indices acoustiques des occlusives non voisées Comme les caractéristiques spectrales du burst sont plus appropriées pour identifier les occlusives, notre travail sont concentrées sur les indices du burst et les indices de transitions des formants

Pour calculer les indices acoustiques, nous avons utilisé le logiciel Snorri en modifiant des fonctions disponibles et en ajoutant des nouvelles fonctions qui permettent d’extraire des indices acoustiques à partir du signal d’un son

Afin de pouvoir effectuer un analyse sur les indices acquis, nous avons émis deux hypothèses :

Première hypothèse : Il y a des différences entre les occlusives bien identifiées et les occlusives mal identifiées Les occlusives mal identifiées sont situées dans des régions de grande confusion entre les classes de sons et les occlusives mal identifiées sont principalement dans des zones de moindre confusion entre les classes

Deuxième hypothèse : il existe une distribution distincte entre les classes de sons bien identifiés et mal identifiés pour chaque lieu d’articulation

Trang 38

CHAPITRE 5 ANALYSE EXPERIMENTAL

Le chapitre 5 est consacré à présenter les travaux pratiques dans le cadre du stage Dans

ce chapitre, nous allons présenter les expérimentations qui ont été réalisées pendant le temps de

ce stage Tout d’abord nous allons présenter l’objectif de ces expérimentations et les hypothèses que nous avons données avant de faire l’analyse Ensuite c’est le protocole expérimental pour les travaux pratiques Ce protocole montre le processus de notre travail : le corpus utilisé, la méthode d’acquisition des indices acoustiques et la manière de faire l’analyse sur ces indices Enfin nous présenterons l’analyse réalisée sur les indices ainsi que les résultats et les discussions

5.1 Objectif

L’objectif du stage est de faire l’analyse des sons (les sons bien identifiés et les sons mal identifiés) qui sont reconnus par un système de reconnaissance de la parole destiné à détecter les belles réalisations acoustiques d’un son Cet analyse a pour but de vérifier si ces sons possèdent des indices acoustiques discriminants (c-à-d ; les indices qui permettent de distinguer aisément les différentes classes de sons)

Le but des expérimentations est donc d’analyser les indices acoustiques des sons bien identifiés et des sons mal identifiés pour mieux comprendre la différence entre ces deux types de sons et la classification faite par Markov en bien identifiés et mal identifiés pour chaque lieu d’articulation L’analyse doit également fournir des éléments de réponse aux questions :

Existe-t-il une distribution distincte entre les classes de sons bien identifiés et mal identifiés pour chaque lieu d’articulation ?

Existe-t-il des zones qui favorisent ou éliminent tel lieu d’articulation de manière quasi radicale ?

Le cadre de ce stage est d’analyser les indices acoustiques des consonnes occlusives non voisées, donc ces expérimentations se concentrent sur les consonnes occlusives non voisées: labiale /p/, vélaire /k/, et dentale /t/ Les consonnes sont étudiées en prenant compte l’impact de leurs contextes de voyelles

Trang 39

Deuxième hypothèse : il existe une distribution distincte entre les classes de sons bien identifiés et mal identifiés pour chaque lieu d’articulation

5.3 Protocole expérimental

5.3.1 Corpus

Afin d’analyser les sons reconnus par un système de reconnaissance automatique de la parole (RAP), les corpus utilisés dans ce travail sont des sorties d’un système de RAP destiné à détecter les belles réalisations acoustiques Ces corpus sont divisés en deux types de sons : les sons bien identifiés et les sons mal identifiés

Le fait qu’on veut analyser les caractéristiques dynamiques des sons en prenant en compte l’impact de leurs contextes Donc les consonnes doivent être étudiées en prenant en compte leur contexte phonétique (c-a-d, les phénomènes de coarticulation liés à la présence des phonèmes voisins) En conséquence, chaque consonne est mise dans un triplet qui est constitué par un phonème avec son contexte phonétique Chaque triplet se compose de 3 phonèmes et il s'articule donc autour des deux frontières du phone central comme le montre la figure 12 A chacune des frontières sont attachées les événements acoustiques suivants s'ils sont présents

Transitions formantiques,

Burst avec sa durée, son intensité et la localisation fréquentielle des concentrations d'énergie

Limite inférieure de bruit (pour les fricatives),

Points d'échange des cavités formantiques,

Profil de la micromélodie

Trang 40

Figure 12 Exemple de description d’un triplet

Dans le cadre du stage, les consonnes sont analysées en utilisant les triplets qui sont sous

la forme : V1CV2, ó :

C : une des consonnes occlusives non voisées : /p/, /t/ et /k/

V1 : la voyelle [a] (ou [e])

V2 : une voyelle, V2 est choisie selon des différents contextes :

o Contexte postérieur : [u], [o], [ə]

o Contexte antérieur : [i], [e]

o Contexte central : [a], [è], [oe]

o Contexte arrondi : [y], [ue]

5.3.2 Acquisition des indices

5.3.2.1. Les problèmes de calcul des indices

Ce sont les problèmes de fréquence et d’émergence qui lient au deuxième max de /k/, et à l’acuité des dentales, qui ont plusieurs pics dans le haut du spectre, dont il ne faut pas en tenir compte

Nous allons procédé à la recherche d’un Max Bas et d’un Max Haut Pour les deux maximums, nous ne tenons pas compte des fréquences supérieures à 3000 Hz pour rechercher la proéminence, soit par rapport au deuxième maximum, soit par rapport à la moyenne Donc, la proéminence est calculée dans la zone 0-3000 Hz

Định dạng
Số trang	82
Dung lượng	1,35 MB