LUẬN văn kỹ THUẬT PHẦN mềm EXTRACTION DES CARACTÉRISTIQUES POUR LA RECONNAISSANCE DES CARACTÈRES VIETNAMIENS EN LIGNE

’est pourquoi, le but de ce mémoire se concentre sur les études de la reconnaissance des caractères manuscrits vietnamiens isolées en ligne et la recherche des caractéristiques pertinent

Trang 1

F ’ T

EXTRACTION DES CARACTÉRISTIQUES POUR

LA RECONNAISSANCE DES CARACTÈRES

Trang 2

’est pourquoi, le but de ce mémoire se concentre sur les études de la reconnaissance des caractères manuscrits vietnamiens isolées en ligne et la recherche des caractéristiques pertinentes à extraire afin d’améliorer le résultat de la reconnaissance

Pour la démonstration, un système de reconnaissance des caractères vietnamiens est construit L’écriture a été capturée par la tablette et ensuite traitée en trois étapes : le prétraitement comprenant l’échantillonnage et la normalisation, l’extraction des caractéristiques et la classification Ce système se fonctionne grâce aux caractéristiques proposées et au classificateur SVM, qui, selon plusieurs recherches, est reconnu comme

un bon classificateur Au volet de l’extraction des caractéristiques, la combinaison des deux caractéristiques en ligne et hors ligne a été utilisée

Mots clés: reconnaissance de l’écriture vietnamienne en ligne, SVM, extraction

des caractéristiques, combinaison des deux caractéristiques

Trang 3

ABSTRACT

Automatic handwriting recognition is the transcription of handwritten from different sources in digital form text Currently, there is extensive research on the Indo-European languages, but it still is rare studies on the eastern languages, including Vietnamese In addition, in the process to recognize handwriting, feature extraction of handwriting is an important step that affects its performance, speed and accuracy

Therefore, the aim of this thesis focuses on the study of the recognition of isolated Vietnamese online handwritten characters and on the research of the relevant features extraction in order to improve the result of the recognition

For the demonstration, a system is built to recognize Vietnamese character The handwriting was captured by the tablet and then treated in three stages: preprocessing including sampling and standardization, feature extraction and classification The system works through the proposedfeatures and SVM classifier, which according to several studies, is recognized as a good classifier The part of the feature extraction, a combination of two features online and offline was used

Keywords: online Vietnamese writing recognition, SVM, feature extraction,

characteristics combination

Trang 4

TABLE DES MATIÈRES

RÉSUMÉ 2

ABSTRACT 3

TABLE DES MATIÈRES 4

LISTE DES FIGURES 7

REMERCIEMENTS 9

CHAPITRE 1: INTRODUCTION 10

CHAPITRE 2: RECONNAISSANCE DES CARACTERES VIETNAMIENS EN LIGNE 14

2.1 LARECONNAISSANCEDEL’ T 14

2.2 LARECONNAISSANCEDESCARACTÈRESVIETNAMIENSENLIGNE 16

2.2.1 La langue vietnamienne 16

2.2.2 La caractéristique de données 17

2.2.3 Le modèle de reconnaissance 19

2.3 L’ TATDEL’A T 21

2.4 CONCLUSION 22

CHAPITRE 3: EXTRACTION DES CARACTÉRISTIQUES 24

3.1 INTRODUCTION 24

3.2 ZONE 25

3.3 PROJECTIONS 26

3.4 LERATIODELAHAUTEURSURLALARGEUR 27

3.5 NOMBREDETRACES 28

3.6 CHANGEMENTDEDIRECTIONDEL’ T 29

Trang 5

3.7 MOMENTSGÉOMÉTRIQUES 30

3.7.1 Moments de Hu 31

3.7.2 Moments de Zernike 32

3.8 AUTRESCARACTÉRISTIQUESENLIGNE 33

3.9 LESSEPTCARACTÉRISTIQUESPARPOINT 33

3.10 CONCLUSION 34

CHAPITRE 4 : MACHINE À VECTEUR DE SUPPORT 35

4.1 INTRODUCTION 35

4.2 MACHINEÀVECTEURDESUPPORT 35

4.3 SVMLINÉAIRE 38

4.4 SVMNONLINÉAIRE 40

4.5 CASMULTI-CLASSE 40

4.6 APPLICATION 41

4.7 CONCLUSION 41

CHAPITRE 5 : EXPÉRIMENTATIONS 42

5.1 MODÈLEDERECONNAISSANCE 42

5.1.1 Prétraitement 43

5.1.2 Extraction et sélection des caractéristiques 44

5.1.3 Reconnaissance 48

5.2 RÉSULTATSOBTENUS 48

5.3 PROBLÈMEAVECLETAUXDELACLASSIFICATION 50

5.4 CONCLUSION 51

CHAPITRE 6 : CONCLUSION 52

6.1 RÉSULTATSOBTENUS 52

6.2 LIMITATIONS 52

6.3 DÉVELOPPEMENTDUSUJET 53

Trang 6

ANNEXE 54

LA GUIDE DE L’UTILISATION DE L’OUTIL 54

1 L’ T FA DEL’ T A T 54

2 L’ T FA DELARECONNAISSANCE 55

RÉFÉRENCES 57

Trang 7

LISTE DES FIGURES

Figure 1.1 Communication écrite homme-machine 11

Figure 2.1 La différence entre le système écriture en-ligne et hors-ligne 15

Figure 2.2 ignaux d’entrée du système en ligne (à gauche) et hors ligne (à droit) 16

Figure 2.3 n fichier des données de l’écriture en ligne sous le format P 18

Figure 2.4 Le modèle de reconnaissance des caractères manuscrits 19

Figure 3.1 Les stratégies pour le zonage : 25

Figure 3.2 Le zonage de 6 26

Figure 3.3 La projection verticale de la lettre « E » 27

Figure 3 4 La projection verticale de la lettre « F » 27

Figure 3.5 La normalisation de taille de la lettre ”l” 27

Figure 3.6 La série des points de la lettre « E » 28

Figure 3.7 Un fichier de données de « x » sous le format UNIPEN 30

Figure 4.1 L’hyperplan sépare les deux ensembles de points 36

Figure 4.2 Les vecteurs de support 36

Figure 4.3 L’hyperplan optimal 37

Figure 4.4 L’hyperplan avec faible marge et le meilleur hyperplan séparateur 37

Figure 4.5 SVM linéaire et SVM non linéaire 38

Figure 4.6 L’hyperplan de 2 dimensions 39

Figure 4.7 La transformation de l’espace des données 40

Figure 5.1 Le modèle de reconnaissance du système de reconnaissance des caractères manuscrits en ligne en utilisant le SVM 42

Figure 5.2 Le caractère avant et après le ré-échantillonnage 44

Figure 5.3 Le caractère « Ẫ » 50

Figure 5.4 Le caractère « Ễ » 50

Figure 5.5 La similitude entre ”u” et ”v” 51

Figure 5.6 La similitude entre ”l” et ”e” 51

Trang 8

LISTE DES TABLEAUX

Tableau 5.1 Les caractéristiques sélectionnées 46 Tableau 5.2 Les caractéristiques sélectionnées 48 Tableau 5.3 Résultat de la reconnaissance de caractère 50

Trang 9

Je remercie aussi les membres du jury pour avoir accepté de juger mon travail, et avoir pris leur temps pour lire et juger ce travail

Je tiens également à remercier tous les professeurs, en particulier ceux de la

Faculté pour avoir créé toutes les conditions favorables et pour leur soutien que j’ai

constamment reçus pendant mon travail

L’ensemble de mes amis, qui m’a aidé et qui m’a encouragé, trouve aussi ici l’expression de ma reconnaissance

Les mots sont insuffisants pour exprimer mes sentiments et ma gratitude envers ceux qui de près ou de loin ont apporté leur secours, leur soutien pendant mon travail ainsi que pendant mes années universitaires Je ne pourrai jamais oublier leur affection et leurs encouragements qu’ils m’ont réservés

Malgré tous mes efforts infatigables pour parachever ce mémoire, il y existe certainement des erreurs Je serai très heureuse de recevoir toutes les opinions, les contributions et les commentaires pour perfectionner mon travail

Trang 10

CHAPITRE 1: INTRODUCTION

L’écriture manuscrite est un des plus anciens et des plus importants moyens de communication entre les hommes, qui leur permet à s’échanger des informations sans le support de la voix Bien sûr, l’écriture de chaque personne est originale, unique en raison d’une combinaison très complexe de multiples différences de psychologie, de tempérament, d’état d’âme ou d’esprit, de caractère, des premières pratiques d’écriture et

de dextérité manuelle Pourtant toutes les lettres des écritures d’une même langue - infiniment diversifiées soient-elles – pourvu qu’elles soient lisibles, doivent représenter

un minimum de traits distinctifs qui permettent de les décoder assez facilement

Aujourd’hui, malgré le développement accéléré des moyens de communication, l’écriture manuscrite constitue toujours un lien étroit et apprécié entre les individus, entre les consommateurs et leur organisme de distribution, entre les citoyens et leur administration,… l leur permet d’échanger des sentiments, des idées, des informations naturellement et efficace ans la vie moderne, l’écriture manuscrite est non seulement

un moyen de communication entre les hommes mais aussi entre l’homme et la machine

Trang 11

Figure 1.1 Communication écrite homme-machine

De nos jours, avec le développement de la technologie, de la société et de l’économie, l’utilisation des formulaires imprimés dans les transactions commerciales et les procédures administratives devient très populaire Pourtant, le traitement des formulaires remplis prend beaucoup de temps et de travail ’ailleurs, c’est très cỏteux

et il peut y avoir des erreurs lorsque la quantité d’informations à traiter est grande et complexe Grâce à la reconnaissance de l’écriture, de nombreux obstacles semblent avoir été surmontés lle offre beaucoup d’avantages dans plusieurs domaines tels que le traitement automatique de dossiers, de formulaires administratifs, la lecture de chèques bancaires, etc…

Il existe deux catégories distinguées des systèmes de reconnaissance:

 La reconnaissance en-ligne: l’échantillon d’encre est constitué d’un ensemble de

coordonnées bidimensionnelles en fonction du temps;

 La reconnaissance hors-ligne: l’écriture est disponible sous forme d’image

Trang 12

La reconnaissance en-ligne est généralement beaucoup plus efficace que la reconnaissance hors-ligne car les échantillons sont beaucoup plus informatifs Pourtant, il faut évidemment un matériel spécifique pour saisir un tel échantillon, c’est le cas notamment des stylos numériques ou des stylets sur agendas électroniques ou sur les tablettes

ans le domaine de la reconnaissance de l’écriture, l’extraction des caractéristiques est l’étape la plus importante qui affecte la vitesse, l’exactitude de la reconnaissance Il y a des caractères qui permettent un bon résultat quand ils sont utilisés ensemble À côté des caractéristiques qui améliorent la performance, il y a aussi des caractéristiques qui brouillent le résultat de reconnaissance ’est pourquoi, la sélection des caractéristiques à extraire est probablement le facteur le plus important pour atteindre

la plus haute performance Nombreuses sont des recherches déjà effectuées sur les langues occidentales mais elles restent encore rares sur le vietnamien, une langue aux nombreux signes diacritiques

e sujet a pour but d’étudier les caractéristiques à extraire pour recevoir un bon résultat dans la reconnaissance de l’écriture vietnamienne en ligne ans la première partie, on présentera tout d’abord l’histoire, l’état de l’art de la reconnaissance de caractères manuscrits et l’extraction des caractéristiques n abordera aussi sur la caractéristique de la langue vietnamienne, la caractéristique de données et le processus de

la reconnaissance

La deuxième partie introduira les caractéristiques utilisées pour l’extraction ’est une des étapes importantes dans la reconnaissance d’écriture Pour chaque caractéristique, on présentera aussi des algorithmes, des manières pour les extraire

ans la suite, on abordera la technique d’apprentissage utilisée qui s’appelle V (Machine à vecteurs de support ou séparateur à vaste marge, en anglais Support Vector achine) ’est un classificateur linéaire qui aide à résoudre les problèmes de discrimination et de régression

Trang 13

La partie qui suit consacrera aux résultats obtenus à partir de ce projet et discutera sur les éléments influencés

La dernière partie va conclure nos travaux et mentionner les limites et les developements de la recherche

Trang 14

CHAPITRE 2: RECONNAISSANCE DES CARACTERES VIETNAMIENS

EN LIGNE

2.1 LA RECONNAISSANCE DE L’ÉCRITURE

La reconnaissance automatique de l’écriture, étudiée depuis plus de 50 ans, est la transcription des données manuscrites à partir des différentes sources telles que des documents papiers, photographies, écrans tactiles,… en texte sous forme numérique, destiné à être utilisé par l'ordinateur Aujourd’hui, malgré le développement de la technologie de l’information, l’écriture demeure un moyen essentiel dans la communication entre les hommes et aussi entre l’home et la machine ’est pourquoi, la reconnaissance d’écriture devient un problème important et elle se montre très utile dans l’économie, l’industrielle, l’administration, ó elle prend une grande importance grâce à son applicabilité à la reconnaissance de l’écriture sur les documents scannés ou sur les interfaces basées sur l'utilisation du stylo Il y a eu des systèmes qui ont des impacts significatifs sur l’économie et la vie quotidienne telles que l'interprétation des adresses postales ou la lecture de chèques bancaires Cela provient de nombreuses recherches portées sur la reconnaissance d’écriture

Les données sont converties sous forme numérique, ou par scanner de l'écriture sur

le papier, ou bien en écrivant avec un stylo spécial sur une surface électronique tel qu'un numériseur combiné avec un écran à cristaux liquides Les deux approches sont : la reconnaissance hors ligne et la reconnaissance en ligne

Trang 15

Figure 2.1 La différence entre le système écriture en-ligne et hors-ligne

La reconnaissance hors ligne se réfère à un processus de reconnaissance effectué après que l’écriture a été capturée Les données de l’écriture sont généralement présentées sous forme d’image, ce qui approche le traitement d’image à base de récupérer des informations textuelles

Dans le cas en ligne, des coordonnées bidimensionnelles des points consécutifs de l'écriture en fonction du temps sont disponibles Alors que dans le cas hors-ligne, seulement les écritures terminées sont disponibles sous forme d'image La figure 2.1 montre la différence entre ces deux catégories

Trang 16

Figure 2.2 ignaux d’entrée du système en ligne (à gauche) et hors ligne (à droit)

Le taux de reconnaissance est beaucoup plus élevé dans le cas en-ligne en comparaison avec le cas hors-ligne ’est pourquoi, dans ce mémoire, nous nous focalisons sur la reconnaissance des caractères en ligne

2.2 LA RECONNAISSANCE DES CARACTÈRES VIETNAMIENS EN LIGNE

ans la reconnaissance de l'écriture en ligne, les signaux de l’écriture sont capturés à partir des traces du stylus sur la surface d'une tablette Les signaux d'entrée sont à la reconnaissance, ce qui donne alors le texte de l'entrée manuscrite La reconnaissance de l’écriture en ligne est aussi appelée la reconnaissance en temps réel parce que les caractères sont reconnus comme elles sont écrites Il consiste à utiliser les périphériques à base du stylus pour capturer la séquence des coordonnées des points Cela donne des informations sur le nombre, l’ordre, la direction et la vitesse des traits

2.2.1 La langue vietnamienne

Le vietnamien est la langue officielle du Viet Nam Le « quốc ngữ » (écriture de la langue nationale) est une romanisation de la langue vietnamienne possédant le statut

Trang 17

d’orthographe officielle ’est un alphabet latin augmenté de nombreux diacritiques servant à noter tant la valeur phonétique de certaines lettres que les tons de la langue

L’ensemble complet des caractères vietnamiens contient 99 classes qui peuvent être classés en trois sous-ensembles comme suivant:

Le format UNIPEN, géré par la Fondation Internationale Unipen (iUF), permet une représentation hiérarchique des données manuscrites en ligne [4] Il contient 16000 chiffres isolés, 28000 caractères majuscules isolés et 61000 caractères minuscules isolés

e format est capable d’annoter les données suffisantes pour encoder toutes les informations sur les conditions de prise, du scripteur, de segmentation, de la qualité des données, de l’étiquetage…

Trang 18

Figure 2.3 n fichier des données de l’écriture en ligne sous le format P

Selon le format UNIPEN utilisé, chaque fichier commence par les informations sur les coordonnées, la taille, la résolution,… es informations sont séparées par les mots clés La partie suivie contient les données l s’agit de stockage de chaque trace sous forme d’ensemble des points entre 2 mots clés « PEN_DOWN » et « PEN_UP », de stockage de chaque point par la coordonnée X, la coordonnée Y

Les informations et la description détaillées du format UNIPEN peuvent être trouvées à la page de iUF [4]

Trang 19

2.2.3 Le modèle de reconnaissance

Les étapes principales du processus de reconnaissance d’écriture manuscrite en ligne sont montrées par le diagramme dans la figure 2.4

Figure 2.4 Le modèle de reconnaissance des caractères manuscrits

Les données utilisées dans le système de reconnaissance sont divisées en deux parties : la partie d’entraînement - qui est utilisée pour créer le modèle de reconnaissance

- et la partie de reconnaissance - qui est utilisée pour la reconnaissance

Toutes les deux parties sont tout d’abord passées en deux étapes : le prétraitement

et l’extraction de caractéristique

Trang 20

 L’étape de prétraitement: Cette étape prépare les données pour l’étape d’extraction La donnée créée par l’équipement ne peut pas être utilisée tout de suite parce qu’il y a beaucoup de bruits ’est pourquoi cette étape, très importante, augmente l’efficacité de la classification et la performance de la reconnaissance lle essaie d’effacer les informations indésirables comme le bruit

en utilisant les techniques qui règlent les données telles que le ré-échantillonnage,

la normalisation,…

 L’étape d’extraction de caractéristiques: L'extraction de caractéristiques est une procédure très importante pour extraire des caractéristiques qui sont les attributs séparés et sont peut-être identifiées et mesurées A partir d'ici, chaque objet sera représenté par ses vecteurs de caractéristiques, comportant des informations nécessaires, qui aident à distinguer les classes de façon cohérente et claire La qualité du système de traitement dépend directement du bon choix du contenu de ces vecteurs Mais dans de nombreux cas, la résolution pratique du problème devient presque impossible à cause de la dimensionnalité trop importante de ces vecteurs Par conséquent, il est souvent utile, et parfois nécessaire, de réduire celle-ci à une taille plus compatible avec les méthodes de résolution, même si cette réduction peut conduire à une légère perte d'informations

 L’étape de classification : La classification est le processus d’attribution des données à leur classe correspondante par rapport à des groupes ayant des caractéristiques homogènes Il y a deux étapes dans la construction d’un classificateur : l’entraînement et la reconnaissance ertaines techniques de classification utilisées dans les systèmes de reconnaissance développés précédemment sont le réseau de neurones, la machine à vecteur support (SVM), la classification bayésienne, la classification d’arbre de décision ans ce mémoire, nous utilisons le SVM

Trang 21

2.3 L’ÉTAT DE L’ART

La reconnaissance de l’écriture est encore un problème bien difficile pour les chercheurs L'histoire de la reconnaissance de caractères peut être tracée dès 1900, lorsque le scientifique russe Turing a tenté de développer une aide pour les handicapés visuels En 1914, Hyman Eli Goldberg a inventé et a fait breveter son «contrôleur», un dispositif, considéré comme le premier exemple de reconnaissance de l’écriture en ligne qui ait converti des caractères numériques manuscrits en données électriques qui, à leur tour instruisent une machine en temps réel À partir des années 80, l’apparition des tablettes graphiques pouvant capturer les coordonnées du mouvement du tracé a permis aux chercheurs de s’intéresser à la reconnaissance d’écriture en ligne

Jusqu’à maintenant, il existe des systèmes facilitant la reconnaissance dont:

P ++, , A AP pour l’arabe, Quick troke pour le chinois,

Actuellement la reconnaissance de l’écriture en-ligne n’est pas un problème nouveau l y a déjà de nombreuses recherches sur l’extraction de caractéristiques pour la reconnaissance de l’écriture

 Heutte et al [6] ont utilisé sept différentes familles de caractéristiques qui comportent les caractéristiques statistiques et structurelles

 Alors que la recherche de Brijesh et al [10] utilise les caractéristiques structurelles, le changement de direction d’écriture, le zonage pour créer un seul vecteur de caractéristique global Le résultat montre que cette caractéristique globale est très efficace et prometteuse ’ailleurs, le point fort de cette recherche est que les caractéristiques peuvent être extractées sans le redimensionnement du caractère

 ans la recherche d’Ahmad et al [11], chaque caractère a été ré-échantillonné et ses caractéristiques sont extraites basées sur la direction et la courbure Il a conclu que le SVM donne le résultat le meilleur sur les données UNIPEN et IRONOFF en

Trang 22

comparant le SVM, le MLP (Multiplayer Perceptrons) et le TDNN (Time Delay Neural Network)

Quant à la reconnaissance des caractères vietnamiens, il y en a certaines recherches qui utilisent de préférence les données hors ligne

 Anh Phuong Pham [1] a proposé un modèle de reconnaissance de l’écriture isolée basée sur le SVM, qui comporte une certaine simple et efficace méthode d’extraction de caractéristiques l a conclu que le zonage, la projection et le profil réduisent la taille des données d’entrée en augmentant la vitesse de reconnaissance Dans son autre recherche qui combine le SVM et la caractéristique wavelet Haar, le résultat montre que cette méthode obtient une précision satisfaisante et prometteuse Pourtant la taille des données est un peu élevée (256 caractéristiques) ; cela diminue la vitesse de reconnaissance

 De son côté, De Cao Tran [2] utilise, pour la reconnaissance en ligne, 45 caractéristiques statistiques et structurales, en utilisant le SVM comme le classificateur, extrait à partir des données en ligne et hors ligne telles que les moments, la projection horizontale, la projection verticale, le nombre des traces, les coordonnées, les cosinus,… ette recherche propose en même temps une méthode de recognition qui réduit la taille du problème en reconnaissant séparément l’accent et la lettre

En particulier, on obtient désormais des résultats acceptables pour la reconnaissance de caractères manuscrits isolés en ligne et particulièrement pour la reconnaissance des caractères vietnamiens

2.4 CONCLUSION

Une bonne compréhension des problèmes, des connaissances générales sur la reconnaissance des caractères manuscrits en ligne ainsi que le système d’écriture et les

Trang 23

propriétés des données est la première étape importante dans la construction et la recherche d’un système de reconnaissance e chapitre a présenté une vue d’ensemble du système de reconnaissance des écritures manuscrites vietnamiennes Dans la prochaine partie, nous aborderons l’extraction des caractéristiques, une des étapes les plus importantes dans le modèle de reconnaissance qui influence la performance d’algorithme

Trang 24

CHAPITRE 3: EXTRACTION DES CARACTÉRISTIQUES

3.1 INTRODUCTION

L'objectif principal de l'extraction de caractéristiques est d’améliorer la vitesse et

la précision de la classification pour la reconnaissance Comme mentionnée dans plusieurs littératures, l'extraction des caractéristiques joue un rôle important dans le processus général de reconnaissance de l'écriture

Les méthodes d'extraction de caractéristiques tombent entre ces catégories [12]:

+ La statistique: méthode basée sur une planification de la façon dont les données

sont recueillies et sélectionnée Elle est basée sur la théorie des probabilités et des hypothèses Les principales méthodes d'extraction dans cette catégorie sont les suivantes:

 Partitionnement en régions régulières ou irrégulières

 Profils et projections

 Les distances et les passages

+ La structure: Les caractéristiques sont extraites de façon que chaque valeur

contienne des informations sur la structure de l'image telles que le ratio, le nombre de traits, le nombre de points croisés,…

+ Les transformations globales et les moments: La transformation de Fourier du

contour de l'image est extraite pour reconstruire le contour de l’image Les moments sont utilisés pour reconnaître l’ampleur, la traduction, l’invariante et la rotation d'une image

de caractère La structure originale de l'image peut être reconstruite à partir des coefficients de moment

Dans ce mémoire, la combinaison de toutes ces catégories est utilisée Ce chapitre sera consacré à la représentation de ces méthodes d’extraction des caractéristiques, ce que nous avons étudié dans ce mémoire

Trang 26

Figure 3.2 Le zonage de 6

3.3 PROJECTIONS

Les histogrammes de projection, introduites en 1956 par Glauberman, sont depuis très longtemps utilisés dans le domaine de la reconnaissance de formes Cette technique est principalement utilisée pour la segmentation des caractères, des mots et de lignes de texte l s’agit d’un histogramme cumulé des densités de chaque colonne pour les projections verticales, de chaque ligne pour les projections horizontales ou des lignes obliques pour les projections obliques Dans notre mémoire, les axes de cet histogramme sont ensuite divisés en 16 parties égales; puis chaque point trouvé est projeté sur l'axe des

x et y

ette caractéristique sépare efficacement des lettres comme ”m” et ”n” ou ” ” et

”F”, etc

Les figures 3.3 et 3.4 ci-dessous montrent la différence entre la projection verticale

de la lettre « E » et la projection verticale de la lettre « F » On constate que dans le diagramme de la projection de la lettre « E » il y a trois régions denses, tandis qu’il en y a seulement deux pour le diagramme de la projection de la lettre « F »

Trang 27

Figure 3.3 La projection verticale de la lettre « E »

Figure 3 4 La projection verticale de la lettre « F »

Pourtant, les projections d'histogrammes sont très sensibles à la rotation et, dans une certaine mesure, à la variabilité dans le style d'écriture

3.4 LE RATIO DE LA HAUTEUR SUR LA LARGEUR

Le grand problème dans la reconnaissance d’écriture se trouve dans les distorsions

du pattern d’origine urtout, la distorsion s’effectue pendant la normalisation comme la lettre ”l” indiquée dans la figure 3.2

Figure 3.5 La normalisation de taille de la lettre ”l”

Trang 28

Après la normalisation, la lettre ”l” ressemble à la lettre ”e” onc, dans ce mémoire, nous essayons à calculer le ratio de la hauteur sur la largeur avant la normalisation

R =

ó : h : la hauteur de la boỵte contenant le caractère avant la normalisation

l : la largeur de la boỵte contenant le caractère avant la normalisation

La boỵte contenant le caractère est définie comme suivant :

Étant donné A comme un ensemble de points du caractère avec

minx = {min (x/(x,y) A}, miny = {min (x/(x,y) A}, maxx = {max (x/(x,y) A}, maxy = {max (x/(x,y) A},

La boỵte contenant A est formée par quatre lignes :

x = minx, x = maxx, y = miny, y = maxy

3.5 NOMBRE DE TRACES

La trace est définie comme un trajet continu du stylo du moment ó il est placé sur

la surface d’écriture jusqu’au moment ó il est relevé ans ce cas, la trace est une série des points à partir du point ”P _ W ” au point ”P _ P” ans ce mémoire, nous calculons le nombre de traces pour chaque caractère en comptant le nombre de

”P _ W ” dans l’ensemble de données pour un caractère

Figure 3.6 La série des points de la lettre « E »

Trang 29

Par exemple, dans la figure 3.4 on peut compter qu’il y a trois « PEN_DOWN »

Et alors, on sait que cette lettre comporte trois traces

Des caractères différents peuvent avoir des nombres différents de traces Il y a des caractères qui sont souvent écrits seulement en une trace tels que le « C », le « O », le

« c », le « e », le « o », ou des caractères qui sont souvent écrits en deux traces tels que

le « D », le « F », le « f », le « ê », le « ơ », etc… ’est pourquoi cette caractéristique contribue à distinguer plusieurs caractères

3.6 CHANGEMENT DE DIRECTION DE L’ÉCRITURE

L’écriture en ligne a obtenu des résultats meilleurs que l’écriture hors ligne, car plus d’information est capturée telle que la direction, l’ordre des traits de l’écriture Le changement de direction de l’écriture est considéré comme le changement du stylo allant

du haut (/bas) en bas (/haut) ou de gauche (/droite) à droite (/gauche)

Pour chaque caractère ou chiffre le changement de direction pourrait être similaire Grâce à l’utilisation des coordonnées de deux points consécutifs, on peut obtenir le changement de direction de l’écriture

Định dạng
Số trang	58
Dung lượng	1,55 MB