LES RESEAUX DE NEURONE AVEC L’ENTREE DISCRETE POUR LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

re-au nivere-au de trame que le PMCC.Ce mémoire de n d'études décrit nos eorts de balancer ces trois caractéristiques dans la struction de diérents sytèmes, dans les quels nous compense

Trang 1

Institut de la Francophonie pour l’Informatique

VIETNAM Institut Dalle Molle d’Intelligence Artificielle Perceptive SUISSE

Rapport du stage de fin d’études

Promotion 8

Sujet

Les RESEAUX DE NEURONE avec L’ENTREE DISCRETE pour la RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Stagiaire Responsable

Martigny, Suisse : Mars 2004 – Janvier 2005

Trang 2

In memory of my father, M San TO

Trang 3

Table des matières

1.1 Problématique 1

1.2 La limite des systèmes de RAP courants 2

1.2.1 Le taux d'erreur 2

1.2.2 La vitesse 3

1.3 Objectifs 4

1.4 Remarque 4

1.5 Organisation du mémoire 4

2 Vue d'ensemble d'un système de RAP d'IDIAP 6 2.1 Extraction de caractéristiques 6

2.2 Évaluation de vraisemblance/postérieurs de phonème 8

2.3 Décodage 9

2.4 Le problème avec l'apprentissage d'un PMC 9

2.5 Background: La Quantication Vectorielle par la Maximisation d'Estimation 10

3 Le PMC discret pour RAP 13 3.1 La conception théorique 14

3.1.1 La quantication vectorielle des caractéristiques 15

3.1.2 L'entraînement du PMC discret 16

3.1.3 Le facteur d'accélération en théorie 18

ii

Trang 4

TABLE DES MATIÈRES iii

3.2 Expérience sur Numbers'95 20

3.2.1 La préparation de l'expérience 20

3.2.2 Résultats de l'exactitude de la trame 20

3.2.3 L'analyse du comportement de l'ET 20

3.2.4 Résultats du Facteur d'Accélération (FA) 23

3.2.5 L'analyse du comportement du FA 26

3.3 Conclusion 29

4 Le Perceptron Deux Couches Discret (PDCD) pour RAP 30 4.1 Introduction 30

4.1.1 La conception du PDCD 31

4.1.2 La conception du PMCC-2 31

4.2 La fusion des experts 32

4.2.1 La combination des classicateurs 32

4.2.2 La RAP multi-canaux 33

4.3 La combination des réseaux utilisant l'entropie inverse 33

4.3.1 Le multi-canaux de full-combination 34

4.3.2 Combination basé sur l'entropie inverse 34

4.4 La comparaison et combination des PDCD, PMCC-2 et PMCC 35

4.4.1 Entropie Moyenne et Erreur Moyenne selon les Moindres Carrés 37

4.4.2 Analyse de la combination 37

4.5 Conclusion 42

5 Conclusion et Tâches futures 43 5.1 Conclusion 43

5.2 Tâches futures 44

6 ANNEXE 45 6.1 Le temps utilisé des fonctions de l'implémentation des PMCs 45

6.2 Les matrices de confusion à la sortie des réseaux 48

6.3 L'article comme résultat du projet 52

6.4 Pour mieux comprendre ce mémoire de n d'études 52

Trang 5

Liste des Figures

2.1 Schéma fonctionnel d'un système connexionniste-HMM typique 6

2.2 Schéma fonctionnel de l'apprentissage et la structure du groupement de QV de base [courtoisie de L.Rabiner et al.] 7

3.1 Le diagramme d'un système Connexionniste-HMM avec l'entrée discrète 15

3.2 Comparaison d'un PMC continu et un PMC discret, ó B = 3 . 17

3.3 Comparaison de l'exactitude de la trame (ET) des deux PMCs (a), elle est zoomée (b) pour visualiser la diérence 21

3.4 Les trois caractéristiques de QV qui inuencent l'erreur de classication du PMC discret 22 3.5 Les tailles de couche cachée des deux PMCs 23

3.6 La diérence entre le FA théorique et expérimental, sur la totalité de 450,005 échantillons 24 3.7 FA expérimental avec diérents nombres d'échantillons 25

3.8 Le temps utilisé (en seconde) par chaque connexion Cachée-Sortie (a) et le temps pour chaque 10,000 échantillons 27

3.9 Le temps utilisé (en seconde) par chaque connexion creuse d'Entrée-Cachée (a) et le temps pour chaque 10,000 échantillons 28

4.1 Un système multi-canaux de deux canaux, soit (PMCC + PMCC-2), soit (PMCC + PDCD) 36

4.2 Les mesures au niveau du mot et de la trame 38

4.3 "Pourcentage" de Correction de tous les phonèmes 39

4.4 PDCD: Mesures de l'exactitudes de la trame et du mot pour tous les tailles du dictionnaire 40 4.5 Les PDCDs de diérent W: ET, EM avant et après la combination avec PMCC 41

4.6 "Pourcentage" de Correction de tous les phonèmes, quand la taille du dictionnaire est 100 42

6.1 Le temps utilisé par les fonctions principales du program, avec T anh comme la fonction d'activation à la couche cachée 46

6.2 Gprof Hard-Tanh 47

6.3 PDCD: matrice de confusion à la sortie 49

6.4 PMCC-2: matrice de confusion à la sortie 50

6.5 PMCC: matrice de confusion à la sortie 51

iv

Trang 6

Qu'est-ce que c'est ce mémoire ?

C'est le mémoire de n de mes études à l'IFI, un Institut Francophone de la formation en Informatique

du 3 ème cycle Ce mémoire

1 Décrit mon travail du stage à l'Insititut de Recherche IDIAP en Suisse, un stage de recherche sur

la Reconnaissance Automatique de la Parole (RAP).

2 Utilise les connaissances acquises pendant les 3 semestres d'études à l'IFI Les cours suivants ont

de grandes importances à mon travail du stage

• Programmation sur UNIX (N.H.Quang): comment lancer de gros programmes et manipuler

du grand nombre de scripts de recherche en Shell/Perl sur l'UNIX A l'IDIAP on a 70 chercheurs, chacun exécute quotidiennement ses programmes La question est comment exécuter toutes ces tâches judicieusement.

• Génie Logiciel (H.T.Vinh): comment collaborer avec d'autres informaticiens dans l'équipe

• Méthodologie de Recherche (D.N.Vu): la recherche est de découvrir de nouveaux menus à notre Restaurant dont les clients sont DARPA, NSF, et les Industries

• Travaux d'intérêt personnel encadré (TIPE) (P.Bellot): c.-à-d une recherche individuelle qui demande une direction minimale du Responsable.

bibliothèque de Torch.

• Gestion du Projet (H.T.Vinh): comment gérer les époques du projet C'est un projet de recherche sponsorisé par DARPA dont la gestion du temps et de la qualité est indispensable.

Ma recherche en RAP à l'IDIAP est de diminuer le taux d'erreur de la reconnaissance, et d'élargir la base

de donnée d'apprentissage de la parole Je l'ai faite en utilisant un des Réseaux de Neurone Articiel

de l'Entrée Discrète Pendant mon stage à l'IDIAP, on m'a appelait homme du Réseau Discret".

v

Trang 7

re-au nivere-au de trame que le PMCC.

Ce mémoire de n d'études décrit nos eorts de balancer ces trois caractéristiques dans la struction de diérents sytèmes, dans les quels nous compense la perte de performance avec la capacitéd'entraîner sue de très grandes bases de données, ou nous essayons à combiner plusieurs réseaux dans

con-un système hybride, an d'augmenter la performance

Bien que les expériences et l'implémentation initiales de notre nouveaux systèmes discrets sontloin d'être réellement conclusive, le potentiel théorique du projet est prouvé Nous arrivons à uneestimation impressive de borne inférieure du CPU Nous arrivons aussi à construire deux réseaux dediérent propriétés mais ayant l'exactitude comparable d'un PMCC standard Nous avons achevé àaugmenté l'Exactitude du Mot de 0.25% relative, sur Numbers'95 1, avec une combination de deuxréseaux dans un système utilisant le MMC Nous avons aussi déni les directions de futur très proche

du projet, en vue d'achever les résultats conclusives

Dans ce mémoire de n d'études de 3-ème cycle, nous fournissons un détail riche des résultatsacquises, avec l'espoir que les suggestions et contributions des lecteurs vont nous aider de réduire letemps à arriver à un système vraiment complet

Couches (PMC), Modèle de Markov Caché (MMC), entrée discrète, vecteur creux, QuanticationVectorielle (QV), Facteur d'Accélération (FA), Exactitude du Mot (EM), Exactitude de la Trame(ET), combination des classicateurs, multi-canaux

1 une base de données de parole, pour la reconnaissance des chires: 0, 1, 2, , 9

vi

Trang 8

This thesis describes our eorts to balance these properties in dierent systems, in which we try tocompensate the performance lost by the ability to train on very large database, or we try to combinemultiple neural network in a hybrid framework, in order to increase the performance.

Although initial implementation and experiments of our discrete system, mainly due to time tation, are far to be really conclusive , the theoretical potential of the project is proven We have come

limi-up with a quite impressive estimation of the CPU lower bound, have some discrete network's frameaccuracy comparable to a continuous standard one, and even got 0.25% of Word Accuracy relativeincrease on Numbers'952 with a combination of multiple networks in a HMM frame work We havealso dene the very near future direction of the project, in order to have really conclusive results

In this Master Thesis, we will provide you with rich details of the results we have got, with a hopethat your suggestions and contribution may help us reduce the time of reaching a real complete system

(MLP), Hidden Markov Model (HMM), Discrete Input, sparse vector, Vector Quantization (VQ),speed-up, Word Accuracy (WA), Frame Accuracy (FA), classier combination, multi-stream

2 a speech database, for the recognition of digits like: 0, 1, 2, , 9

vii

Trang 9

com-de la parole à IDIAP ont également contribué intellectuellement à ce travail.

La vie dans une petite ville étrangère comme Martigny n'est pas toujours très agréable, mais monami, Quan Le m'aidait à lui s'adapter Quan était plus que mon ami, mon frère et mon tuteur

Un grand merci à Dr Ho Tuong Vinh de l'IFI pour son aide dans la rédaction de la versionFrancaise du mémoire

Un grand merci à Dr Vu Duong de l'Eurocontrol pour son aide dans la rédaction de la sion Anglaise du mémoire Il est toujours, avec Prof Patrick Bellot à l'ENST, une grande sourced'aspiration et motivation pour ma recherche

ver-Et je veux remercier la Suisse avec le Chocolat, la Neige et l'Esprit de travail auprès des Suisses.J'aurai eu visité toute la Suisse si mon travail n'aurai pas été si dûr

Finalement, si vous trouvez le français de ce mémoire susamment facile à lire, alors vous voulezpeut-être remercier M Nguyen Khac Hieu de ses corrections orthographiques et grammaticales

viii

Trang 10

Les systèmes d'État-de-l'Art de la RAP sont soit le modèle Perceptron Multi Couches/Modèle

de Markov Caché (MLP/HMM en Anglais) (abrévié comme le modèle connexioniste, ou système bride), soit le Modèle des Gaussiens Mélangés/Modèle de Markov Caché (GMM/HMM en Anglais)

hy-De grands instituts dans le monde de la RAP sont: CMU, MIT, AT&T, IBM, SRI, Cambridge versity, ICSI-Berkeley, IDIAP, Parmi eux, IDIAP et ICSI contribuent le plus dans le développe-ment du modèle MLP/HMM

Uni-ix

Trang 11

de la Parole, Vision par Ordinateur, Requise de l'Information, Authentication Biométrique, tion Multi Modale et Apprentissage Automatique.

Interac-L'IDIAP (http://www.idiap.ch) est très connu dans le monde par sa recherche en Traitement de

la Parole, dirigée par Hervé Bourlard - qui était pionnier et est maintenant très active dans le ModèleConnexionniste de la RAP, et Hynek Hermansky - l'auteur du PLP, RASTA, TANDEM et TRAPS -les techniques avancées de la RAP

Mon stage qui a duré 11 mois, s'est déroulé au sein de l'équipe Traitement de la Parole de l'IDIAP:http://www.idiap.ch/speech Le groupe est extrêmement chaud, car chaque semaine il y a toujoursune certaine nouveauté dans la recherche des membres du group

Je travaillais aussi avec trois membres du groupe de l'Apprentissage Automatique à l'IDIAP ettrois membres du groupe de Traitement de la Parole à l'ICSI-Berkeley (International Computer Sci-ence Institute at University of California at Berkeley)

70 chercheurs de l'IDIAP travail très dûr et collaborent très ecacement Chaque semaine on a

un rendez-vous de l'équipe, un autre de tout IDIAP; et chaque deux semaines on a un Session deLecture

x

Trang 12

Liste des Notations

overtting le phénomène quand un modèle statistique apprend trơp un ensemble des échantillons,

ou la fonction simulée par le modèle colle trop aux données undertting la fonction simulée du modèle ne colle pas assez aux données

trame une unité de longueur de 10 mili-secondes de la parole original: égale au "frame" en

Anglais cas de formation = exemple de formation/entraỵnement = (Anglais) training case = pattern = example exactitude de la trame (ET) pourcentage de trame correctement étiquetée utilisé sa probabilité postérieure

estimée par un Réseau de Neurone (frame accuracy en Anglais) exactitude du mot (EM) pourcentage de mot correctement reconnue (Word Accuracy en Anglais) Taux d'Erreur de Mot

mais en réalité il n'existe pas

de substitution

N ×100 %, ó N: le nombre de mots, D: nombre de deletion, S: nombre

de substitution et I: nombre de Insertion

Word Error Rate (WER) W ER = 100 % - W A

vecteur creux vecteur dont la plus part des éléments sont zéro (sparse vector en Anglais)

facteur en Anglais)

l'entrée du PMC dictionnaire le structure de la Quantication Vectorielle (codebook en Anglais)

mot du dictionnaire chaque centrọde du dictionnaire (codeword en Anglais)

X = x1x2 x N Séquence des vecteurs acoustiques au temps de 1 à N

par l'analyse du PLP

delta delta La partie représentante le dynamique de seconde ordre du vecteur x n

p(q k | x) la probabilité postérieur ou probabilité a postériori de l'état q k conditionné par le

vecteur d'entrée des caractéristiques acoustiques x

xi

Trang 13

LISTE DES FIGURES xii

classicateur un réseau de neurone articiel Dans ce mémoire, les réseaux de neurone ne sont pas

utilisés pour la tâche de classication, mais pour estimer les probabilités a posteriori

Trang 14

Liste des Jargons

Bien que plusieurs modèles de RNA sont similaires ou identiques aux modèles statistiques connus, les terminologies utilisées dans la littérature de RNA sont assez diérents de celles dans le statistiques Dans ce tableau, on liste les terminologies les plus utilisées, et leurs équivalences dans le statistiques.

xiii

Trang 15

Chapitre 1

Introduction

De nouvelles opinions sont toujours suspectées, et souvent opposées, sans aucune raison, mais car

elles ne sont pas encore populaires

John Locke

-Bien que de grands succès dans le domaine de la RAP soient obtenus récemment, la taille deson vocabulaire1 est encore très limitée et la performance de reconnaissance des systèmes est encoreincomparable à ce qui achevé par l'homme

1.1 Problématique

Considérons d'énormes eorts dans l'étude de la RAP dans le dernier demi-siècle, on peut toujoursdemander pourquoi ce domaine est encore un thème de recherche 2 Le problème c'est que: lestechniques existantes sont insusantes à résoudre le problème général de la RAP Les dicultés de ceproblème peuvent être décrites dans les caractéristiques de la tâche, comme suit:

1 Est-ce que le système est Dépendant du Locuteur (optimisé pour un locuteur) ou Indépendant

du Locuteur (qui peut reconnaître la voix de n'importe qui)? Pour les systèmes massivementutilisés (e.g.: les réseaux de téléphone public), seul le deuxième système est utile Dans ce cas,l'indépendance du locuteur est obtenue par l'utilisation d'un modèle entraîné sur des bases dedonnées contenants une large population des locuteurs représentatives

2 Est-il capable de reconnaître la Parole Isolée (prononcée avec des pauses courtes) ou Parole tinue (pas de pause)? Le deuxième cas est plus dicile, car les mots prononcé sont coarticulés

Con-La coarticulation nous demande d'avoir une base de données assez large an de couvrir toutesles variabilités des mots à leur frontières

Une extension provocante du deuxième système peut reconnaître la Parole Naturelle ou sationnelle, qui n'est plus la parole dictée, mais contient les déformation de la parole (e.g.: Je

Conver-ne suis pas français est prononcé comme Chuis pas français), ou bien les hésitations (e.g.: le

Euh prolongé), les phrases non-grammaticales (e.g: Je suis pas français) Dans ce cas, unebase de données assez large pour bien décrire la coarticulation est indispensable

3 Est-t-il capable de fonctionner sur un grand vocabulaire? Plus le vocabulaire est grand, plus lacoarticulation rend le système facile à se trompe

1 Bien que quelques systèmes courants fonctionnent sur les très grands vocabulaires, il reste encore quelques traintes, comme la limitation à une tâche très spécique, sur des systèmes qui fonctionnent assez bien an d'être utile

con-2 La RAP, comme dit les Industries de technologie de la parole à leurs clients, est un Problème déjà résolu maintenant En fait elle ne l'est pas

1

Trang 16

CHAPITRE 1 INTRODUCTION 2

4 Y-a-t-il des contraintes de la langue ou de la tâche.? Une telle contrainte aide le système dedécouvrir si une phrase est légale ou non Souvent un système de la RAP a plus de contrainted'un être humain, car plus la contrainte du système est simple, plus la reconnaissance est dicile.Étant donnée ces dicultés du problème général de la RAP, on peut voir que, d'une part on doitenrichir les modèles mathématiques dans le progrès de trouver la solution, et d'autre part, un élar-gissement de la base de données des prononciations est indispensable

1.2 La limite des systèmes de RAP courants

1.2.1 Le taux d'erreur

C'est la base de données, ou la tâche qui décide le Taux d'Erreur d'un système de RAP Avant de voirles meilleurs taux d'erreur des système, il vaut comprendre des propriétés d'une base de donnée Unebase de donnée est:

Caractérisée par

Prononciation Isolée; Continue; Connectée

Intonation Dictée; Naturelle; Conversation

Environnement Chambre; Voiture; Usine; Téléphone

Tache Nouvelles; Agent de tourist; N'importe quell

dans laquelle:

• Isolée: il y a des pauses entre les mots

• Continue: pas de pause

• Connecté: par exemple un numéro de téléphone: 84 4 624 00 75 est prononcé comme 8-4 4 6-2-4

0-0 7-5 ó − dénote la connexion Le type connecté est utilisé seulement avec des chires

• Dictée: l'intonation est comme dans une dictée, c.à.d: non naturelle

• Chambre/Voiture/Usine: La parole est enregistrée dans l'environnement correspondant C'est

le bruit qui dégrade la qualité de la parole

• Téléphone: La parole est enregistré d'autre part au téléphone C'est la qualité du canal, et aussi

le codage de compression qui inuencent la qualité de la parole

• Nouvelles: La session Nouvelles à la Radio ou Télévision

• Agent de tourist: les mots utilisés dans la conversation sont limités dans un contexte E.g: Jeveux réserver un avion de Paris à Londre, au 28 Avril 2005

Notons que la Tâche inuence la complexité du problème de la RAP comme il décide la taille devocabulaire, la perplexité, et aussi le niveau de confusabilité entre les mots prononcés (e.g.: entre Ilest et Il ait)

Si l'on prend conscience de toutes les complexités d'une tâche, on peut comprendre pourquoi laRAP est encore une vrai recherche, quand on a déjà achevé des résultats impressionnants il y a desdécennies, avec la tâche des chires Dans la table suivant, le taux d'erreur du mot (TEM) de 0.2%est obtenue dans une tâche des 11 chires, mais on doit accepter des erreurs de plus de 30% avec

Trang 17

d'autre tâches: 3

Un système de RAP nous demande d'une énorme ressource de calcul, premièrement pour l'entraỵnement

des modèles statistiques (Réseau de Neurone Articielou les Mélanges Gaussiennes ) pour apprendre

une base de donnée qui est de plus en plus large et, deuxièmement pour le décodage (i.e.: une recherche

de Viterbi pour trouver la plus probable séquence des mots correspondante à une phrase prononcéedonnée au système) Pour avoir une performance de reconnaissance acceptable, la vitesse d'un système

de RAP nous donne un problème

Il est cru [20] que si l'on garde la structure du réseau de neurone, an de décroỵtre le Taux d'Erreur

de reconnaissance, un système hybride (PMC/MMC) doit accroỵtre simultanément:

• La taille de l'ensemble d'apprentissage (le nombre d'échantillons d'apprentissage d'une base dedonnées)

• La taille du réseau PMC (Qui est le nombre de connexions faisant partie dans l'apprentissage

du réseau)

Ces deux augmentation implique que le temps de calcul d'un tel système accroỵt beaucoup plus

rapide que la taille de données (dont la relation est approchée rapprochée comme Θ(N) ó N est le

nombre d'échantillons d'apprentissage)

Récemment, en 1999 l'ICSI-Berkeley, Cambridge University et École Polytechnique de Mons mencent à travailler sur une base de données de 74 heures de parole enregistrées qui correspond à

com-16.7 × 106 échantillons d'apprentissage Leur réseau de neurone a 700,000 connexions a été intégrédans une machine multi-CPU assez rapide de leur temps, et l'apprentissage sur cette base de données

a été ni après 1.5 mois

En 2004 l'ICSI-Berkeley et l'IDIAP planient de travailler sur une base de données de 2,000 heures,

qui correspond à 45 × 107 échantillons L'apprentissage sur une partie de 44 heures (107 échantillons)

3 Les données ici sont collectées d'une lecture de Lawrence R Rabiner et de mes collègues à l'IDIAP - Suisse

Trang 18

a été ni après 3 jours, sur une machine Pentium 4, 3.0 Ghz et 1GBytes de RAM Il est estimé que la

base de données de 45 × 107 échantillons est appris dans au moins UNE ANNÉE

Cette impossibilité de travailler sur de grandes bases de données nous a forcé de penser à modier

le structure du Réseau de Neurone, qui a pour but de réduire le nombre de calculs

1.3 Objectifs

Le mémoire de n d'études suivant décrit un projet construire les systèmes hybrides (c.-à-d dessystèmes utilisant le Modèle Connexionniste) Les premiers objectifs de cette recherche, visant unediérence exible de vitesse et de performance de reconnaissance, incluent :

1 Aller de nouveau au Perceptron Multi Couches à l'Entrée Discrète (PMCD) avec l'espoir queleurs pertes dans la performance peuvent être équilibrées par les capacités de manipuler de plusgrandes quantités de données d'apprentissage

2 Obtenir plus grande Exactitude du Mot en combinant les sorties du PMCD et d'un PMC continustandard (PMCC) et

3 Combiner plusieurs PMCCs avec diérentes propriétés

Ce mémoire de n d'études rapporte comment nous atteignons ces objectifs par

1 Établissant un réseau qui accélère le temps d'entraînement sur de grandes ou très grandes bases

de données par un ordre de grandeur, en même temps, minimiser la perte de performance,

2 Observer si le type d'erreurs faites par notre nouveau PMCD est diérent de celui du PMCC.Cette diérence est venues de diérentes tailles du contexte temporel et de diérente résolutionsdes caractéristique entrées aux système,

3 Observer les propriétés de la résolution des caractéristiques et du contexte temporel données àdiérents PMCCs

1.4 Remarque

Dans le cadre d'un Mémoire Master, bien que ce mémoire est sur un PMC discret, on ne fournitpas une théorie du PMC et son application à la RAP, mais on invite le lecteur curieux à lire [3] et[2] Notons que, comme la RAP utilise les connaissances de plusieurs domaines, il est donc presqueimpossible de présenter en détail toutes les techniques utilisées dans un projet

Bien que le projet est pour travailler sur de très grande bases de données, ce mémoire rapporteseulement des résultats d'expériences sur Numbers'95 , une base de données assez petite La raison estque cette base de données est considéré classique, dont plusieurs résultats de recherches pour toutesles approches sont disponibles Une fois que le sanity check sur Number'95 est fait, les résultats sontgénéralisés à d'autres base de données, e.g Switchboard

1.5 Organisation du mémoire

Ce mémoire de n d'études décrit les détails du projet Le reste de ce chapitre nous une vue d'ensembledes systèmes hybrides pour la RAP Le détail du problème donné par ces système est formulé, et unebref introduction à la Quantication Vectorielle utilisé par les systèmes du projet est fournie à la n

Trang 19

du Chapitre

Le chapitre 3 est la partie principale du mémoire La conception d'un PMCD est dénie, puis unestimation théorique du Facteur d'Accélération d'un PMCD à un PMCC est construite La discussiondes techniques avancées utilisées dans la littérature du PMCC est fournit, et elles sont appliquées pour

le nouveau PMCD Les résultats d'expériences sur Numbers'95 sont données, avec une explicationsdes diérence théorie-réalité

Le chapitre 4 décrit un nouveau type de réseau d'entrée discrète: un Perceptron de Deux CouchesDiscrète D'ailleur un PMCC de diérentes caractéristiques d'entrée est construit Une bref introduc-tion de la combination des classicateurs est donné, qui aide d'améliorer la performance du systèmehybride de la RAP, utilisant les réseaux neuronaux de diérentes propriétés proposés par ce projet

En conclusion, il y a une brève discussion de futures tâches pour obtenir des conclusions plussolide

Trang 20

Signa l

N um é rique

Est im a t e ur de la vra ise m bla nc e du phone Réseau de Neuron Artificiel comme Classificateur

« le »

« chat »

« est»

Le x ique (Modèle de Markov Caché)

c h a t

c h i e n e

Quelles caractéristiques acoustiques sont là dans l'entrée ?

Le but de la première étape est d'établir les représentations (un ensemble de caractéristiques)

du signal de parole qui fournissent la plupart d'informations sur le contenu phonétique du signal,

6

Trang 21

CHAPITRE 2 VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP 7

c'est-à-dire, ces représentations seront robustes aux variations acoustiques mais sensibles au contenulinguistique Dans le cas idéal, ces caractéristiques acoustiques ne changent pas beaucoup quand lesmêmes mots sont parlés beaucoup de fois (ou par diérents locuteurs, dans le cas de l'indépendance

du locuteur), mais changent de manière signicative quand les diérentes choses sont dites And'atteindre ainsi, les vecteurs de caractéristiques de la parole doivent fournir une représentation com-pacte et cohérente de toutes les informations appropriées de la parole gurée au le signal, tout en

ltrant dehors l'information de non-discours Typiquement, ces caractéristiques sont calculées sousforme des vecteurs de dimension de n, ó chaque vecteur correspond à une trame donnée (c.-à-d àcourt terme, de longueur constante du signal de la parole)

Ces vecteurs de caractéristique peuvent être sous forme de discret ou densité-continue Dans cetterecherche nous emploierons tous ces deux genres de caractéristiques pour comparer leurs eets.L'entrée continue dans cette recherche est obtenue au moyen d'une technique d'analyse appelée

la prédiction linéaire perceptuelle (c.-à-d PLP) Comme la plupart des paradigmes d'extraction

de caractéristique dans la reconnaissance de la parole, PLP implique une application de l'analyse

psy-chophysique de l'audition (psychophysics of hearing) pour dériver une évaluation de spectre auditif :(1) la résolution spectrale de bande-critique, (2) la courbe de volume-égal, et (3) la loi de puissance duvolume d'intensité Le spectre auditif est alors rapproché par un modèle auto-régressif de tout-poteau(autoregressive all-pole model) Un modèle du tout-poteau de 5eme-ordre est ecace en supprimantles détails dépendant du locuteur du spectre auditif En comparaison de l'analyse prédictive linéaire(LP) conventionnelle, l'analyse de PLP est plus conformée à l'audition humaine, en outre, PLP estexécutablement ecace et rapporte une représentation bas-dimensionnelle de la parole D'autres dé-tails sur PLP peuvent être trouvés dans [15]

L'entrée discrète est obtenue par une quantication vectorielle , une méthode qui divise

au-tomatiquement un espace de caractéristique (PLP) dans diérents clusters basés sur des données

d'entraỵnement Ceci peut être employé pour la réduction de dimension de données, qui applique ungrand nombre de points de caractéristique à un nombre mineur de faisceaux Étant donné un point detest de l'espace de caractéristique, nous pouvons déterminer le faisceau auquel ce point devrait êtreassocié [Figure 2.2]

d( , )

Indexes des codebooks

L’algorithme de groupement (Maximisation d’Espoir)

d( , )

Codebook de

M vecteurs

Vecteurs de la

parole entrée Quantificateur

L’ensemble des vecteurs

Trang 22

En même but, l'information contextuelle de la parole est capturé par l'utilisation d'une combination

de 9 trames consécutives

2.2 Évaluation de vraisemblance/postérieurs de phonème

Quels sont les sons phonétiques dans ces caractéristiques ?

Après avoir extrait un ensemble de caractéristiques de taille n de chaque trame des données

de la parole, le processus de reconnaissance passe à l'étape d'évaluation de probabilité postérieure(aussi nommée probabilité a-postériori) de phonème , ó les caractéristiques acoustiques d'entrée

sont appliquées à la vraisemblance acoustique de l'état (c.-à-d évaluations de p(x | q i) ou

probabil-ités postérieurs de l'état de la forme, p(q i | x) Dans le premier cas, un système Modèle MélangéGaussien (MMG) est typiquement employé pour produire des évaluations des vraisemblances d'état.Ces vraisemblances sont alors appliqués à un système de décodage basé sur le Modèle de MarkovCaché qui détermine les hypothèses de mot les plus probables pour une énoncée donnée Alterna-tivement, certains système de RAP utilisent les modèles distinctifs tels que les réseaux de neuron

articiels (RNAs) pour calculer des évaluations de p(q i | x) Ces évaluations sont ensuite converties

en vraisemblance échellée (scaledlikelihoods en Anglais) de forme p(q i | x)/p(q) 1 avant d'êtretraité d'une façon semblable par un décodeur basé sur MMC

Comme indiqué plus tơt, le système d'IDIAP emploie un RNA pour établir une application entreles vecteurs de caractéristique d'entrée et les évaluations des probabilités postérieures pour chaqueétat Puisque ces évaluations de probabilité sont conditionnées sur les caractéristiques d'entrée,nous référons typiquement aux sorties du RNA comme les probabilités postérieures d'état ou simple-

ment les postérieurs Pour ce mémoire, nous emploierons la notation, p(q n

de 56 classes de phonème sont dénis par le système d'IDIAP, mais il faut noter que certains phonèmes

ne sont pas utilisés dans une certaine tâche vocale La plupart des tâches concernant la reconnaissancedes chaỵnes-de-chires, par exemple, exigent seulement 26 phonèmes, et quelques tâches de la parole

de conversation exigent seulement 47 phonèmes

L'architecture utilisée pour tous les RNAs comme estimateurs décrits dans ce mémoire se pose de trois couches de noeuds: une couche d'entrée , une couche cachée , et une couche de sortie

com- La couche d'entrée accepte un total de CW ∗ M de valeurs entrée , ó M est la longueur de chaque vecteur de caractéristique, et CW est la fenêtre de contexte donnée (c.-à-d le nombre de

vecteurs consécutifs de caractéristique appliqués au RNA) Ces valeurs d'entrée sont appliquées par

un système entièrement relié (fullyconnected) avec des fonctions non-linéaires à la couche cachée,

qui sont pareillement appliquées à 56 noeuds de sortie représentant les postérieurs de sortie pour

chaque état Dans les couches caché et de sortie, la valeur d'un noeud indiqué, j, est calculée comme

f (w 0j +Pi w ij x ij), ó x 1j , x 2j , , x N j représente l'ensemble de tous les noeuds qui sont reliés à

l'entrée de j et le w 0j , w 1j , w 2j , , w N j représente un ensemble correspondant des poidsdeconnexion Une non-linéarité douce telle que le sigmọde est typiquement choisie pour la fonction de f(·) à la

1ce vraisemblance échellée est égal à p(q i | x)en utilisant la règle de Bayes

2 beaucoup de systèmes de reconnaissance de la parole dénissent les états multiples pour chaque phonème.

Trang 23

couche cachée, et du type de softmax est typiquement choisie pour f(·) à la couche de sortie Pour

entraỵner le réseau, une critère d'erreur (par exemple entropie-croisée des postérieurs de sortie en cequi concerne les étiquettes (objectif) de l'entraỵnement) est diérencié en ce qui concerne les poidsinternes, et les poids sont mis à jour en conséquence par un taux d'apprentissage 3 prédénis Aprèschaque mise à jour, l'exactitude de la trame du RNA est examinée sur un corpus tenu-dehors des don-

nées de validation-croisée pour empêcher trơp de l'apprentissage (overtraining en Anglais) Cette

exactitude de la trame implique simplement le pourcentage des trames dont l'étiquette du phonème

(phonemelabel en Anglais) est aussi le phonème la plus probable (i.e.: la probabilité postérieure la

plus haute des sorties de l'ANN) Une fois l'exactitude de la trame sur la validation-croisée cent à diminuer, le montant de chaque mise à jour des poids est réduit jusqu'à ce que le processus del'apprentissage soit nalement arrêté Dans nos expériences, cette stratégie d'apprentissage s'appelle

commen-l'apprentissage de new-bob (qui est semblable d'une technique nommée simulatedannealing).

D'autres détails sur l'apprentissage et la conception du RNAs peuvent être trouvés dans [2]

du modèle acoustique Le but des ces MMCs est de modéliser les probabilités a priori des transitions

d'état dans une phrase (an utterance) basée sur des observations faites à partir de la parole réelle Par

exemple, un MMC pourrait être fait apprendre pour coder la probabilité que l'état de phonème /ae/passe /t/, conditionnée sur la durée de /ae/ et sur le fait que l'état de phonème précédent était /k/.Étant donné un ensemble susamment riche de probabilités de transition, un MMC peut être em-

ployé pour estimer des probabilités a priori de la forme p(Q | M h), ó Q = q n

une séquence entière d'état ou un chemin dans une énoncé 4, et M h représente le MMC donné.Ces vraisemblances a priori de chemin sont alors employées en même temps que d'autres statistiques,

y compris des modèles de langue et les sorties du modèle acoustique pour arriver à la probabilité

RAP, M.

Pour d'autres détails sur le décodeur, le lecteur est invité à lire [14] et [2]

2.4 Le problème avec l'apprentissage d'un PMC

Bien que le modèle hybride PMC/MMC soit employé couramment dans des tâches de RAP, il impliquel'utilisation d'une énorme nombre de calculs à l'Unité Centrale de Traitement pour fair apprentissage

le PMC sur une base de données assez large On va formuler le problème par les paragraphes ci-dessous.Étant donnée une base de données à apprendre et un modèle d'apprentissage, on veut construireune machine utilisant ce modèle pour apprendre cette base de donnée, de manière que la machine,après avoir appris cette base de données, a une capacité de bien fonctionner sur d'autres base de

3 ce qui contrơle la vitesse de mis à jour des poids.

4le mot énoncé et notre traduction du mot utterance en Anglais, trouvez-le dans ListedesNotations

Trang 24

données de même type Cette capacité est nommé généralisation Normalement, la condition saire d'une bonne généralisation est Ωmin < Ω θ < Ω max, ó Ωθ est le nombre de paramètres decette machine, et Ωminet Ωmax dépend de la base de données et du modèle d'apprentissage utilisé par

néces-la machine Les cas ó Ωmin > Ω θou Ωθ > Ω max sont dit underfitting et overfitting respectivement.

Pour notre PMC, souvent il est entièrement relié [1-2], c.-à-d : chaque neurone dans une coucheest relié à tous les neurones de la couche qui suit Prenons I, H, K le nombre de noeuds dans la couche

de l'entrée, caché et de sortie d'un PMC (à 3 couches) typique, son nombre de paramètres (nombre

de poids de raccordement) est

En 1998, Yann LeCun [7] a prouvé qu'un PMC entièrement relié peut être ecacement formée

en utilisant un algorithme de rétro-propagation (back-propagation) avec une stratégie d'apprentissagestochastique (ó des poids sont mis à jour avec chaque échantillon d'apprentissage) Cette méthoded'apprentissage, employée couramment dans le système de l'état-de-l'art, a un inconvénient: le temps

de l'apprentissage accroỵt au moins linéairement avec (a) le nombre de paramètres et (b) le nombre

de l'échantillons d'apprentissage, si l'on xe chacun des deux nombres et change l'autre Il est clairqu'an d'éviter le problème de undertting et overtting en entraỵnant un PMC sur une base de don-nées, le nombre de paramètres du PMC devrait être assez grand comparé au nombre de l'échantillonsd'apprentissage [8] Ceci, accompagné de (a) et de (b), montre que le procédure d'apprentissage du

PMC standard a une complexité de O(N2), ó N est le nombre d'échantillons.

Dans les systèmes de RAP auparavant, comme ceux de [14] et [2], les dictionnaires de

Quan-tication Vectorielle (QV) ont été employés comme entrée discrète an de diminuer les nombred'échantillons d'apprentissage, de sorte que la plupart de matériel à ce moment-là puisse supporter laquantité de calcul requise dans la reconnaissance Ensuite, des vecteurs de caractéristique de densitécontinue ont été employés avec l'augmentation de la puissance informatique du PC moderne (voyez [3]pour un vue d'ensemble de ces systèmes) Ce changement en entrée continue a amélioré l'exactitude

de la reconnaissance, mais a impliqué une diculté quand les tâches de la parole sont devenues de plus

en plus compliquées Pour un système de RAP avec grand vocabulaire et parole continue, nous avons

vu une demande d'avoir une base de données de 2000 heures de discours enregistré, qui peuvent mener

à un nombre d'échantillons d'apprentissage de 7.108 si le discours est traité toute les 10 milliseconds

Le fait que les ordinateurs courants et futurs pourrait pas supporter ce genre de base de données nous

a menés à aller de nouveau à l'entrée discrète Nous numérisons l'entrée continue en employant des

l'espace d'entrée par des vecteurs creux ou vecteurs 1-de-k

2.5 Background: La Quantication Vectorielle par la Maximisation

d'Estimation

La quantication est le processus de rapprocher les signaux continus en amplitude par des symbolesdiscrets La quantication vectorielle est une quantication jointe des valeurs ou des paramètres designal Un quanticateur vectoriel est décrit par un dictionnaire, qui est un ensemble de vecteur xe

de prototype (également visé comme mot du dictionnaire) Pour eectuer le processus de

quantica-tion, le vecteur d'entrée est comparé avec chaque mot du dictionnaire dans le dictionnaire en utilisant

un mesure d'appartenance Le vecteur d'entrée est alors remplacé par l'index du mot du dictionnaireavec la plus petite déformation

Nous employons l'algorithme ME (Maximisation d'Évaluation) pour le Groupement Gaussien,

la version prolongée et plus douce de l'algorithme de groupement K-Means pour former le

Trang 25

d'adhésion de vecteur d'entrée x n à mot du dictionnaire q k est déni en tant que d k (x n) qui est

une probabilité postérieure P (q k | x n , θ) , ó θ signie le paramètre de notre quanticateur Si nous

assumons une distribution gaussienne de densité de vecteur, alors cette mesure est estimée près

2π d √

det(Σk)e −12(x n −µ k)TΣ−1 k (x n −µ k)· P (q k |Θ)

ó µ k et Σk sont le moyen et écart-type de la distribution du k-ème mot du dictionnaire.

C'est la synopsis de l'algorithme de ME pour la quantication

• Commence de K modèles Gaussiens initiaux N (µ k , Σ k ), k = 1 · · · K, avec les probabilité prieures

égales à P (q k ) = 1/K

• Faire :

1 Étape d'Estimation(Évaluation) : évaluer (estimer) les probabilités P (q (old) k |x n , Θ (old))

que chaque point de données (data point) x n appartient à la classe q k (old):

j P (q j (old) |Θ (old) ) · p(x n |µ (old) j , Σ (old) j )

Cette étape est équivalente à avoir un ensemble Q de variables cachées continues, prenant les valeurs dans l'intervalle [0.1], qui donnent l'étiquetage des données en disant dans quelle mesure un point x n appartient à la classe q k Ceci représente une classication douce,puisqu'un point peut appartenir, par exemple, 60% à la classe 1 et 40% à la classe 2

Dans le cas présent, toutes les données participent à la mise à jour de tous les modèles,

mais leur participation est pesée par la valeur de P (q k (old) |x n , Θ (old))

3 Aller à l'étape 1

• Jusqu'à : la croissance totale de vraisemblance des données d'entraỵnement tombe dans quelqueseuil désiré

Trang 26

La critère globale dénie par le cas présent est :

Alors, le J nal représente la frontière inférieure pour la vraisemblance jointe de toutes les données

correspondantes à tous les modèles Cette critère est localement maximisée par cet algorithme

Le lecteur intéressé peut trouver de plus grands détails au sujet des applications de l'algorithme

de ME à l'évaluation de paramètre pour le modèles de Mélange Gaussienne et de Markov Cachés dans[5] Les propriétés de convergence de l'algorithme sur les Mélanges Gaussiens sont étudiées dans [6]

Le ME a un certain nombre de propriétés qui lui font un algorithme particulièrement attrayant pourdes modèles de Mélange Elle apprécie la satisfaction automatique des contraintes probabilistes, laconvergence monotone sans avoir besoin de mettre un taux d'apprentissage, et une basse cỏt de calcul.Pour le problème de groupement, un algorithme ME peut avoir une réputation d'être lent, au-dessus d'un certain algorithme de groupement classique, par exemple K-Means, mais pour ce projet

de recherche cet inconvénient de calcul n'est pas un grand problème En eet, la quantication rielle est faite seulement une fois, en comparant aux plusieurs passages de l'entraỵnement d'un RNAaussi bien que dautre traitement exigé pour la reconnaissance de la parole

vecto-Une question peut être soulevée pendant cette quantication, celle est la qualité de groupementdépend beaucoup de la bonne initialisation des centres de surface gaussiens de mélange

Trang 27

Chapitre 3

Le PMC discret pour RAP

On commence par une description d'un PMC à l'entrée continue standard pour RAP qui est térisée par trois parties suivantes:

(a) Caractéristiques continues d'entrée

(b) Technique d'analyse de PLP qui s'est avérée ecace en préservant l'information tique tout en supprimant des variations dépendantes du locuteur [Hermansky, 1990a].Cette technique aide aussi de décorréler les variables d'entrée, qui est indispensable pourl'apprentissage discriminative comme celui du Gradient Stochastique Souvent, on utiliseles 12 coecients du PLP et un coecient d'énergie pour former un vecteur des caractéris-

linguis-tiques directe de 13 éléments (noté x directe)

(c) l'Utilisation des caractéristiques dynamiques de la parole [Furui, 1986] comme les trées additionnelles pour établir un vecteur augmenté de caractéristique Souvent, on

en-utilise le dynamique de première ordre, dit deltas ou x∆ et de seconde ordre, dit delta −

(d) l'Utilisation du contexte temporel de 9 trames consécutives [Hervé, 1994] Ces 9 trames

consécutives forment un vecteur d'entrée du PMC de 39 × 9 = 351 éléments.

(e) Brouiller les échantillons de sorte que deux échantillons contigus appartiennent rarement àune même classe

(f) Régulariser les variables d'entrée par: (1) centrer les variables d'entrée en soustrayant lemoyen (pour que le nouveau moyen soit zéro), et (2) normaliser les variables d'entrée à unécart type de 1

Trang 28

CHAPITRE 3 LE PMC DISCRET POUR RAP 14

(d) Employer la stratégie stochastique d'apprentissage: mettre à jour le poids après que

chaque échantillon de l'apprentissage soit introduit dans le réseau Cette stratégie célère l'apprentissage plus que la stratégie de l'apprentissage par lot, puisque le nombre del'échantillon d'apprentissage est beaucoup plus grand de le nombre de classe à apprendre(sur Numbers'95, il est 450.000 échantillons comparés avec 27 classe)

ac-(e) Employer l'apprentissage de new-bob , qui est: gardez le taux d'apprentissage tial (qui est 0.08 sur les bases de données comme Numbers'95 et CTS 1) jusqu'à cequ'une augmentation d'erreur de validation-croisée soit vue, on diminue alors graduelle-ment ce taux d'apprentissage par un facteur de 2 L'apprentissage se termine quand letaux d'apprentissage égal à un seuil

(a) Une fonction d'activation de softmax à la couche de sortie: y k = exp(net k)

PK

la valeur de sortie du noeud de sortie k, net k est l'entrée à ce noeud de sortie k, K est le

nombre total de noeuds de sortie, c.-à-d nombre des phonèmes à reconnaỵtre

(b) La fonction de cỏt d'erreur est une entropie-croisée

la sortie désirée, y est la sortie observée.

En général c'est la description des techniques les plus récents pour un modèle connexionniste pourRAP 2 Notre PMC discret utilise la plupart de ces techniques, et ne change qu'un peu dans Les

3.1 La conception théorique

Étant donné une base de données et une procédure d'apprentissage, lorsqu'il n'y a pas d'overfitting,

plus nous avons paramètres, plus notre PMC peut généraliser mieux, mais plus il converge lentement.Notre but dans ce projet est de trouver un algorithme pour réduire le temps de l'apprentissage óles données de l'apprentissage se multiplient, ainsi nous pouvons augmenter le nombre de paramètrestout en même temps augmentant de manière signicative la quantité de données de l'apprentissagequi peuvent être pratiquement manipulées Cette philosophie a permis notre système d'apprendre unetrès grande base de données quand un système de l'entrée continue normal ayant un nombre égal desparamètres en est incapable

À partir d'un PMC entièrement relié, nous comprimons" le nombre de connexions en

• employant seulement un sous-ensemble de ces connexions

• permutant des indices de ce sous-ensemble dans l'ensemble total des connexions

À chaque moment (correspondant à un échantillon d'apprentissage), seulement qu'un sous-ensemble

de poids doit être tenu en compte dans le processus de Transfert et Rétro-propagation (alors le tempsd'apprentissage est réduit à celui d'un PMC standard), mais en général tous les noeuds participentdans l'apprentissage (donc le nombre de paramètres égale à celui d'un PMC standard) An d'exécuterceci, avec chaque échantillon, le sous-ensemble de noeuds participant aux connexions réelles a besoin

de transférer autant l'information des données que possible À la couche d'entrée, cela signie unereprésentation de l'espace de caractéristique de toutes les données comme un nombre (réduit) lim-ité de points Cette réduction est comme une réduction de dimension, et peut être faite par unequantication vectorielle [Figure 3.1]

1 voir [9] pour une guide comment choisir ce taux d'apprentissage

2 Le lecteur curieux est invité à lire [1], [2] et [9]

Trang 29

L'Ent ré e Audit if Traitement du signal

« le »

« chat »

« est»

Le x ique (Modèle de Markov Caché)

Figure 3.1: Le diagramme d'un système Connexionniste-HMM avec l'entrée discrète

3.1.1 La quantication vectorielle des caractéristiques

La quantication est faite par un processus de groupement, dans laquelle un espace original de vecteur

de caractéristique est réduit à un ensemble limité des centrọdes Plus nous réduisons la dimension,plus nous perdons l'information de données mais nous traitons plus facilement les données postérieure-ment La facilité de traitement des données se transformera en facteur d'accélération dans notre PMCdiscret, et l'information perdue des données se transformera en dégradation dans l'exactitude de clas-sication du réseau Notre travail est alors d'équilibrer entre le facteur d'accélération et l'exactitude

À partir d'une espace de caractéristique de 39 dimensions (12 coecients de PLP plus l'énergie

et leur delta et delta-delta), nous voulons le diviser dans B sous-espaces, chacun a w b mot du

dic-tionnaires Le problème est alors l'option du nombre de dictionnaires (B), du nombre de mot du dictionnaires pour chaque dictionnaire (w b )(ó chaque dictionnaire correspond à une partition de

ces 39 éléments)

Nous commençons par B = 1 et voyons quelques résultats d'exactitude de la trame de moins de65% Cette grande perte de l'exactitude est peut-être à cause de la perte de l'information, quand oncomprimons les 39 valeurs du vecteur des caractéristiques en une seule indice de mot du dictionnaire.Donc, quelle est la valeur optimale de B ?

Notons que ce vecteur x = [x directe , x∆, x ∆−∆]dont les éléments de x sont décorélés mais les ments de x∆ et x ∆−∆ sont dépendants de ceux de x Cette information nous encourage de quantier ces trois partition de x indépendamment Il nous reste à choisir les w b Pour la simplicité, nous

élé-choisissons w b = W ∀b , et commence à trouver W Il sera prouvé que ce W inuence la performance

de reconnaissance de notre système et aussi le facteur d'accélération [voir la section 3.1.3]

Étant diérent des approches précédentes qui remplacent la valeur de caractéristique de densitécontinue par une valeur (discrète) quantiée, notre approche applique ces valeurs dans les vecteurs

creux Chaque partition des 39 caractéristiques correspondant à un dictionnaire est appliqué à un vecteur creux (vecteur d'unité) de W éléments: 0 0 1 0 0 ó W est la taille de dictionnaire

(nombre de mot du dictionnaires) pour chacun de ces trios, et la position du nombre 1 est l'indice dumot du dictionnaire correspondant à cette centrọde De plus, en codant chaque vecteur creux comme

Trang 30

l'index w i du chire 1, nous avons appliqué un vecteur de 39 éléments à un vecteur w1w2 w B de B éléments, et nous réduisons ainsi la taille de base de données avec un facteur de 39/B.

3.1.2 L'entraỵnement du PMC discret

Notre nouveau PMC discret dière de l'un standard uniquement par les entrées discrètes Il a W ×B×9 des entrées dont seulement B x 9 sont diérents de zéro Dans l'apprentissage et la reconnaissance, seulement ces entrées non-zéro sont prises en considération pendant l'étape de l'addition (feed −

[Figure 3.2]

Pour prendre l'avantage de PMCs standard utilisé dans les tâches de RAP [1, 2], notre PMCdiscret a l'architecture suivante :

(a) Caractéristiques continues d'entrée

(b) Vecteur des caractéristiques x de 13 éléments: 12 coecients de PLP et 1 coecient

d'énergie

(c) Vecteur augmenté de caractéristiques x = [x directe , x∆, x ∆−∆]de 39 éléments

(d) Partager le vecteur de 39 éléments en 3 partitions Construire à partir de chaque partition

un vecteur creux Représente chaque vecteur par l'indice de chire 1 Finalement, on a unvecteur de 3 élément

(e) l'Utilisation du contexte temporel de 9 trames consécutives [Hervé, 1994] Ces 9 tramesconsécutives forment un vecteur d'entrée du PMC de 27 éléments

(f) Brouiller les échantillons de sorte que deux échantillons contigus appartiennent rarement àune même classe

(a) La fonction de non-linéarité à la couche cachée: un sigmọde symétrique (tangente

hyper-bolique) f(x) = 1−e −x

1+e −x

(b) Placer les valeurs à atteindre dans la marge du sigmọde, typiquement de +1 et -1

(c) Employer la stratégie stochastique d'apprentissage: mettre à jour le poids après que chaque

échantillon de l'apprentissage soit introduit dans le réseau

(d) Employer l'apprentissage de new-bob , qui est: (1) garder le taux d'apprentissage initial(qui est 0.08 sur les bases de données comme Numbers'95 et CTS 3) jusqu'à ce qu'uneaugmentation d'erreur de validation-croisée soit vue, (2) diminuer graduellement ce tauxd'apprentissage par un facteur de 2 (ce facteur de 2 est utiliser dans presque toutes les bases

de données) L'apprentissage se termine quand le taux d'apprentissage égal à un seuil

(a) Une fonction d'activation de softmax à la couche de sortie: y k = exp(net k)

PK

la valeur de sortie du noeud de sortie k, net k est l'entrée à ce noeud de sortie k, K est le

nombre total de noeuds de sortie, c.-à-d nombre de phonèmes à reconnaỵtre

(b) La fonction de cỏt d'erreur est une entropie-croisée

la sortie désiré, y est la sortie observée.

Dans l'entraỵnement, le comportement de notre PMC discret est presque le même d'un PMCstandard Avec cette spécication, l'entraỵnement s'arrête après 5-8 itération (sur Numbers'95)

3 voir [9] pour une guide comment choisir ce taux d'apprentissage

Trang 31

Trang 32

3.1.3 Le facteur d'accélération en théorie

L'idée fondamentale de notre PMC de l'entrée discrète est de réduire le nombre de connexions entre

les noeuds pour chaque calcul vers-l'avant et vers-l'arrière (forwardandbackward), ce qui réduit ainsi

le nombre de multiplications cumulées en apprentissage La diérence des multiplications cumuléesentre ces deux PMCs est:

1 Dans le première composant du réseau: entre la couche entrée et la couche cachée Plus précisé:

• PMC continue utilise une multiplication matrice(H c , I c ) × vecteur(I c), dont la matricereprésente des valeurs des poids de connexions entrée-cachée, et le vecteur représente lesvaleurs d'entrée

• PMC discret utilise une sélection dans la matrice des poids par l'indices C'est une

implé-mentation intelligente de la multiplication matrice(H d , I d ) × vecteur creux(I d)

2 Dans le deuxième composant du réseau: entre la couche cachée et la couche sortie

• PMC continue utilise une multiplication matrice(K, H c ) × vecteur(H c), dont la matricereprésente des valeurs des poids de connexions entrée-cachée, et le vecteur représente lesvaleurs sorties de la couche cachées

• PMC discret utilise une multiplication matrice(K, H d ) × vecteur(H d), dont la matricereprésente des valeurs des poids de connexions cachée-sortie, et le vecteur représente lesvaleurs sorties de la couche cachées

Nous appelons le facteur d'accélération le gain de la vitesse de notre PMC comparé avec du PMC(continu) standard Pour la simplicité d'analyse théorique, nous proposons une hypothèse ci dessous:Hypothèse-1: Les multiplications cumulées des valeurs des poids prennent l'essentiel

du temps d'apprentissage d'un PMC

Cette hypothèse est la base de l'analyse théorique dans cette section, et c'est la section 3.2.2 quidécide le degré de précision de cette hypothèse dans une base de donnée réel (Numbers'95)

Il est cru que le nombre de paramètre d'une machine d'apprentissage automatique prend un rôledécisif en décidant sa performance En cette section, nous comparerons deux PMC: un avec l'entréecontinue et autre avec l'entrée discrète, tous les deux ayant le même nombre de paramètres LeFacteur d'Accélération (FA) est estimé tout en comparant le nombre de multiplications cumulées desdeux réseaux, et nous montrons que ce facteur estimé dépend principalement de la taille du dictionnaire

Prenons I, H, K le nombre de noeuds pour les couches entrée, cachée et sortie, et d/c les indices pour les réseaux discret/continu Puisque les deux réseaux ont le même nombre de sorties, nous

assignons ce numéro comme K

1 Nombre des paramètres (NP) pour chaque réseau:

• Continu :

N P c = (I c + 1)H c + (H c + 1)K

Trang 33

9B + K + 1

ó β = 9B+ K+1 W

9B+K+1

β est un coecient spécique pour chaque base de données, qui dépend approximativement de K

et W seulement Sur la base de données Numbers'95, nous employons souvent 27 phonèmes: K = 27,

ainsi si nous limitons W dans l'intervalle de [50-120] (l'intervalle de bonne quantication), nous avons

télé-phone) prouvent que c bd = 0.36

Il est clair que l'Hypothèse-1 (3.1.3) nous donne une dépendance linéaire du F A à W , qui est indépendant de B C'est la section 3.2.2 qui vérie cette hypothèse dans deux aspects: (1) la linéarité

et (2) la valeur du β.

Trang 34

3.2 Expérience sur Numbers'95

Des expériences sont faits sur le Numbers'95 C'est une base de données de 2 heures de la paroleenregistrée dans laquelle chaque énoncé est une chaîne connectée de nombres (par exemple centquatre-vingt cinq ) extraite à partir d'un discours général, collectionnée par téléphone par OGI[14] On commence nos expériences sur cette base de données comme une contrôle de santé duPMC discret, car l'on peut facilement comparer le résultat de notre modèle et d'autres modèle qui yfonctionne bien

3.2.1 La préparation de l'expérience

Dans cette base de données, il y a 30 mots représentés par 27 phonèmes L'apprentissage est exécuté

sur les énoncés (utterance en Anglais) de la parole sans bruit Dans cette base de données, il y a 2997 énoncés pour l'apprentissage, 303 pour la validation-croisée et de 1143 pour le test, qui sont 450005

points de données pour l'apprentissage, 48592 pour la validation et 171310 pour le test respectivement.Notre PMC standard fonctionne sur des données continues (caractéristiques de PLP), a 351(13*3*9) des entrées, 500 unités cachées et 27 sorties Pour l'apprentissage du réseau, chacun descoecients cepstraux de PLP a été normalisé pour moyens égaux à zéro et écart-types unitaires àtravers toutes les classes Les constantes de normalisation sont sauvegardées pour l'usage dans lareconnaissance., et nous avons obtenu une exactitude de la trame de 78% sur un réseau de 190.000paramètres

Plusieurs expériences ont été réalisées sur notre PMC discret de 300.000 paramètres pour le choix

du W (la taille du dictionnaire) Nous commençons à choisir W dans la liste des puissances de 2 :

16, 32, 64, 128, 256 et trouvons que la meilleure exactitude de la trame est quelque part entre 64 et

128 Pour avoir les résultats plus précisés, nous choisissons W dans une série additive dont le facteurd'addition est 6: 10, 16, 22, 28, 34, 40, 46, 52, 58, 64, 70, 76, 82, 88, 94, 100, 106, 112, 118, 124,

130, 136, 142, 148, 154, 160 Les sections suivante est pour les résultats

3.2.2 Résultats de l'exactitude de la trame

La gure 3.3 nous montre

• une diérence de l'Exactitude de la Trame (ET) entre le PMC continu standard et les PMCs

discrets Le meilleur ET du PMC discret est 74.7% (dont W = 106), qui est 3.3% absolument

et 4.2% relativement moins que celui d'un PMC continu

• les meilleurs ETs sont obtenus avec 60 < W < 120, qui sont appelés points de saturation: dans

cette région, les valeurs sont stochastiquement identiques

Dans la section suivante, nous donnons une analyse de ce résultat

3.2.3 L'analyse du comportement de l'ET

D'abord, nous expliquons pourquoi ET discret < ET continu ∀W Nous commençons par étudier pourquoi

Dans la gure 3.3, nous avons donné l'évaluation sur l'ensemble de test d'un PMC continu déjà entraîné sur une base de donné d'apprentissage Un PMC ayant appris la relation en un paire

tou-4La relation içi est en fait la probabilité p(q k |x apprentissage)

Trang 35

Trang 36

jours une variabilité acoustique et un bruit du x, c.-à-d x apprentissage 6= x test est souvent le cas,

et le PMC doit faire une interpolation ou extrapolation dans la reconnaissance de x test Ce sont

cette extrapolation et interpolation 5 qui gênèrent l'erreur de classication, qui est appelée commeexactitude de la trame dans la littérature de RAP

Cette erreur de généralisation s'applique aussi dans le PMC discret, mais elle est inuencée par laQuantication Vectorielle (QV) dans trois aspects suivants:

1 La QV fait un lissage (smoothing en Anglais) de bruit et de variabilité, c.-à-d deux instances diérentes de x peut être représentées par une même indice Dans ce cas, le QV réduit l'erreur

de généralisation (Figure 3.4(a))

2 La QV gênère une confusion, c.-à-d deux vecteurs d'entrée x1 et x2 ayant deux étiquettes

diérentes q i et q j peut être transformés en une seule indice c w Cette contradiction d'étiquette

des deux échantillons (c w , q i) et (c w , q j) augmente l'erreur de généralisation (Figure 3.4(b))

3 La QV détruit la distribution continue: le fait que tous les échantillons faisant partie à ungroupe (un mot du dictionnaire) sont encodées comme une même indice détruit la distributiondes caractéristiques continues dans l'espace originale Cet eet de QV augmente l'erreur degénéralisation (Figure 3.4(c))

même classe, ensuite

ils sont tous encodés

comme cw

jq

qj) mais ils sont tous encodés comme cw

(c) Applatissement de distribution:Tous les points faisant partie à un centrọde sont traités comme équi-probable

Figure 3.4: Les trois caractéristiques de QV qui inuencent l'erreur de classication du PMC discret

C'est la balance de ces trois aspects de QV qui décide la performance du PMC discret comparéepar celle du PMC continu La gure 3.3 nous indiquons que la QV fait plus de déformation etd'applatissement de distribution que lissage pour le PMC discret en comparant avec le PMC continu,

car ET discret < ET continu ∀W En général, on dit que la QV introduit une perte d'information auPMC discret 6

5 elles sont appelées comme généralisation dans la littérature du PMC

6 et cette perte d'information n'est appliquée qu'à un certain système, car dans le Chapitre suivant, un autre réseau

de Perceptron discret peut avoir le même ET qu'un PMC continu

Định dạng
Số trang	72
Dung lượng	9,26 MB