’est pourquoi, le but de ce mémoire se concentre sur les études de la reconnaissance des caractères manuscrits vietnamiens isolées en ligne et la recherche des caractéristiques pertinent
Trang 1F ’ T
EXTRACTION DES CARACTÉRISTIQUES POUR
LA RECONNAISSANCE DES CARACTÈRES
Trang 2’est pourquoi, le but de ce mémoire se concentre sur les études de la reconnaissance des caractères manuscrits vietnamiens isolées en ligne et la recherche des caractéristiques pertinentes à extraire afin d’améliorer le résultat de la reconnaissance
Pour la démonstration, un système de reconnaissance des caractères vietnamiens est construit L’écriture a été capturée par la tablette et ensuite traitée en trois étapes : le prétraitement comprenant l’échantillonnage et la normalisation, l’extraction des caractéristiques et la classification Ce système se fonctionne grâce aux caractéristiques proposées et au classificateur SVM, qui, selon plusieurs recherches, est reconnu comme
un bon classificateur Au volet de l’extraction des caractéristiques, la combinaison des deux caractéristiques en ligne et hors ligne a été utilisée
Mots clés: reconnaissance de l’écriture vietnamienne en ligne, SVM, extraction
des caractéristiques, combinaison des deux caractéristiques
Trang 3ABSTRACT
Automatic handwriting recognition is the transcription of handwritten from different sources in digital form text Currently, there is extensive research on the Indo-European languages, but it still is rare studies on the eastern languages, including Vietnamese In addition, in the process to recognize handwriting, feature extraction of handwriting is an important step that affects its performance, speed and accuracy
Therefore, the aim of this thesis focuses on the study of the recognition of isolated Vietnamese online handwritten characters and on the research of the relevant features extraction in order to improve the result of the recognition
For the demonstration, a system is built to recognize Vietnamese character The handwriting was captured by the tablet and then treated in three stages: preprocessing including sampling and standardization, feature extraction and classification The system works through the proposedfeatures and SVM classifier, which according to several studies, is recognized as a good classifier The part of the feature extraction, a combination of two features online and offline was used
Keywords: online Vietnamese writing recognition, SVM, feature extraction,
characteristics combination
Trang 4TABLE DES MATIÈRES
RÉSUMÉ 2
ABSTRACT 3
TABLE DES MATIÈRES 4
LISTE DES FIGURES 7
REMERCIEMENTS 9
CHAPITRE 1: INTRODUCTION 10
CHAPITRE 2: RECONNAISSANCE DES CARACTERES VIETNAMIENS EN LIGNE 14
2.1 LARECONNAISSANCEDEL’ T 14
2.2 LARECONNAISSANCEDESCARACTÈRESVIETNAMIENSENLIGNE 16
2.2.1 La langue vietnamienne 16
2.2.2 La caractéristique de données 17
2.2.3 Le modèle de reconnaissance 19
2.3 L’ TATDEL’A T 21
2.4 CONCLUSION 22
CHAPITRE 3: EXTRACTION DES CARACTÉRISTIQUES 24
3.1 INTRODUCTION 24
3.2 ZONE 25
3.3 PROJECTIONS 26
3.4 LERATIODELAHAUTEURSURLALARGEUR 27
3.5 NOMBREDETRACES 28
3.6 CHANGEMENTDEDIRECTIONDEL’ T 29
Trang 53.7 MOMENTSGÉOMÉTRIQUES 30
3.7.1 Moments de Hu 31
3.7.2 Moments de Zernike 32
3.8 AUTRESCARACTÉRISTIQUESENLIGNE 33
3.9 LESSEPTCARACTÉRISTIQUESPARPOINT 33
3.10 CONCLUSION 34
CHAPITRE 4 : MACHINE À VECTEUR DE SUPPORT 35
4.1 INTRODUCTION 35
4.2 MACHINEÀVECTEURDESUPPORT 35
4.3 SVMLINÉAIRE 38
4.4 SVMNONLINÉAIRE 40
4.5 CASMULTI-CLASSE 40
4.6 APPLICATION 41
4.7 CONCLUSION 41
CHAPITRE 5 : EXPÉRIMENTATIONS 42
5.1 MODÈLEDERECONNAISSANCE 42
5.1.1 Prétraitement 43
5.1.2 Extraction et sélection des caractéristiques 44
5.1.3 Reconnaissance 48
5.2 RÉSULTATSOBTENUS 48
5.3 PROBLÈMEAVECLETAUXDELACLASSIFICATION 50
5.4 CONCLUSION 51
CHAPITRE 6 : CONCLUSION 52
6.1 RÉSULTATSOBTENUS 52
6.2 LIMITATIONS 52
6.3 DÉVELOPPEMENTDUSUJET 53
Trang 6ANNEXE 54
LA GUIDE DE L’UTILISATION DE L’OUTIL 54
1 L’ T FA DEL’ T A T 54
2 L’ T FA DELARECONNAISSANCE 55
RÉFÉRENCES 57
Trang 7LISTE DES FIGURES
Figure 1.1 Communication écrite homme-machine 11
Figure 2.1 La différence entre le système écriture en-ligne et hors-ligne 15
Figure 2.2 ignaux d’entrée du système en ligne (à gauche) et hors ligne (à droit) 16
Figure 2.3 n fichier des données de l’écriture en ligne sous le format P 18
Figure 2.4 Le modèle de reconnaissance des caractères manuscrits 19
Figure 3.1 Les stratégies pour le zonage : 25
Figure 3.2 Le zonage de 6 26
Figure 3.3 La projection verticale de la lettre « E » 27
Figure 3 4 La projection verticale de la lettre « F » 27
Figure 3.5 La normalisation de taille de la lettre ”l” 27
Figure 3.6 La série des points de la lettre « E » 28
Figure 3.7 Un fichier de données de « x » sous le format UNIPEN 30
Figure 4.1 L’hyperplan sépare les deux ensembles de points 36
Figure 4.2 Les vecteurs de support 36
Figure 4.3 L’hyperplan optimal 37
Figure 4.4 L’hyperplan avec faible marge et le meilleur hyperplan séparateur 37
Figure 4.5 SVM linéaire et SVM non linéaire 38
Figure 4.6 L’hyperplan de 2 dimensions 39
Figure 4.7 La transformation de l’espace des données 40
Figure 5.1 Le modèle de reconnaissance du système de reconnaissance des caractères manuscrits en ligne en utilisant le SVM 42
Figure 5.2 Le caractère avant et après le ré-échantillonnage 44
Figure 5.3 Le caractère « Ẫ » 50
Figure 5.4 Le caractère « Ễ » 50
Figure 5.5 La similitude entre ”u” et ”v” 51
Figure 5.6 La similitude entre ”l” et ”e” 51
Trang 8LISTE DES TABLEAUX
Tableau 5.1 Les caractéristiques sélectionnées 46 Tableau 5.2 Les caractéristiques sélectionnées 48 Tableau 5.3 Résultat de la reconnaissance de caractère 50
Trang 9Je remercie aussi les membres du jury pour avoir accepté de juger mon travail, et avoir pris leur temps pour lire et juger ce travail
Je tiens également à remercier tous les professeurs, en particulier ceux de la
Faculté pour avoir créé toutes les conditions favorables et pour leur soutien que j’ai
constamment reçus pendant mon travail
L’ensemble de mes amis, qui m’a aidé et qui m’a encouragé, trouve aussi ici l’expression de ma reconnaissance
Les mots sont insuffisants pour exprimer mes sentiments et ma gratitude envers ceux qui de près ou de loin ont apporté leur secours, leur soutien pendant mon travail ainsi que pendant mes années universitaires Je ne pourrai jamais oublier leur affection et leurs encouragements qu’ils m’ont réservés
Malgré tous mes efforts infatigables pour parachever ce mémoire, il y existe certainement des erreurs Je serai très heureuse de recevoir toutes les opinions, les contributions et les commentaires pour perfectionner mon travail
Trang 10CHAPITRE 1: INTRODUCTION
L’écriture manuscrite est un des plus anciens et des plus importants moyens de communication entre les hommes, qui leur permet à s’échanger des informations sans le support de la voix Bien sûr, l’écriture de chaque personne est originale, unique en raison d’une combinaison très complexe de multiples différences de psychologie, de tempérament, d’état d’âme ou d’esprit, de caractère, des premières pratiques d’écriture et
de dextérité manuelle Pourtant toutes les lettres des écritures d’une même langue - infiniment diversifiées soient-elles – pourvu qu’elles soient lisibles, doivent représenter
un minimum de traits distinctifs qui permettent de les décoder assez facilement
Aujourd’hui, malgré le développement accéléré des moyens de communication, l’écriture manuscrite constitue toujours un lien étroit et apprécié entre les individus, entre les consommateurs et leur organisme de distribution, entre les citoyens et leur administration,… l leur permet d’échanger des sentiments, des idées, des informations naturellement et efficace ans la vie moderne, l’écriture manuscrite est non seulement
un moyen de communication entre les hommes mais aussi entre l’homme et la machine
Trang 11Figure 1.1 Communication écrite homme-machine
De nos jours, avec le développement de la technologie, de la société et de l’économie, l’utilisation des formulaires imprimés dans les transactions commerciales et les procédures administratives devient très populaire Pourtant, le traitement des formulaires remplis prend beaucoup de temps et de travail ’ailleurs, c’est très cỏteux
et il peut y avoir des erreurs lorsque la quantité d’informations à traiter est grande et complexe Grâce à la reconnaissance de l’écriture, de nombreux obstacles semblent avoir été surmontés lle offre beaucoup d’avantages dans plusieurs domaines tels que le traitement automatique de dossiers, de formulaires administratifs, la lecture de chèques bancaires, etc…
Il existe deux catégories distinguées des systèmes de reconnaissance:
La reconnaissance en-ligne: l’échantillon d’encre est constitué d’un ensemble de
coordonnées bidimensionnelles en fonction du temps;
La reconnaissance hors-ligne: l’écriture est disponible sous forme d’image
Trang 12La reconnaissance en-ligne est généralement beaucoup plus efficace que la reconnaissance hors-ligne car les échantillons sont beaucoup plus informatifs Pourtant, il faut évidemment un matériel spécifique pour saisir un tel échantillon, c’est le cas notamment des stylos numériques ou des stylets sur agendas électroniques ou sur les tablettes
ans le domaine de la reconnaissance de l’écriture, l’extraction des caractéristiques est l’étape la plus importante qui affecte la vitesse, l’exactitude de la reconnaissance Il y a des caractères qui permettent un bon résultat quand ils sont utilisés ensemble À côté des caractéristiques qui améliorent la performance, il y a aussi des caractéristiques qui brouillent le résultat de reconnaissance ’est pourquoi, la sélection des caractéristiques à extraire est probablement le facteur le plus important pour atteindre
la plus haute performance Nombreuses sont des recherches déjà effectuées sur les langues occidentales mais elles restent encore rares sur le vietnamien, une langue aux nombreux signes diacritiques
e sujet a pour but d’étudier les caractéristiques à extraire pour recevoir un bon résultat dans la reconnaissance de l’écriture vietnamienne en ligne ans la première partie, on présentera tout d’abord l’histoire, l’état de l’art de la reconnaissance de caractères manuscrits et l’extraction des caractéristiques n abordera aussi sur la caractéristique de la langue vietnamienne, la caractéristique de données et le processus de
la reconnaissance
La deuxième partie introduira les caractéristiques utilisées pour l’extraction ’est une des étapes importantes dans la reconnaissance d’écriture Pour chaque caractéristique, on présentera aussi des algorithmes, des manières pour les extraire
ans la suite, on abordera la technique d’apprentissage utilisée qui s’appelle V (Machine à vecteurs de support ou séparateur à vaste marge, en anglais Support Vector achine) ’est un classificateur linéaire qui aide à résoudre les problèmes de discrimination et de régression
Trang 13La partie qui suit consacrera aux résultats obtenus à partir de ce projet et discutera sur les éléments influencés
La dernière partie va conclure nos travaux et mentionner les limites et les developements de la recherche
Trang 14CHAPITRE 2: RECONNAISSANCE DES CARACTERES VIETNAMIENS
EN LIGNE
2.1 LA RECONNAISSANCE DE L’ÉCRITURE
La reconnaissance automatique de l’écriture, étudiée depuis plus de 50 ans, est la transcription des données manuscrites à partir des différentes sources telles que des documents papiers, photographies, écrans tactiles,… en texte sous forme numérique, destiné à être utilisé par l'ordinateur Aujourd’hui, malgré le développement de la technologie de l’information, l’écriture demeure un moyen essentiel dans la communication entre les hommes et aussi entre l’home et la machine ’est pourquoi, la reconnaissance d’écriture devient un problème important et elle se montre très utile dans l’économie, l’industrielle, l’administration, ó elle prend une grande importance grâce à son applicabilité à la reconnaissance de l’écriture sur les documents scannés ou sur les interfaces basées sur l'utilisation du stylo Il y a eu des systèmes qui ont des impacts significatifs sur l’économie et la vie quotidienne telles que l'interprétation des adresses postales ou la lecture de chèques bancaires Cela provient de nombreuses recherches portées sur la reconnaissance d’écriture
Les données sont converties sous forme numérique, ou par scanner de l'écriture sur
le papier, ou bien en écrivant avec un stylo spécial sur une surface électronique tel qu'un numériseur combiné avec un écran à cristaux liquides Les deux approches sont : la reconnaissance hors ligne et la reconnaissance en ligne
Trang 15Figure 2.1 La différence entre le système écriture en-ligne et hors-ligne
La reconnaissance hors ligne se réfère à un processus de reconnaissance effectué après que l’écriture a été capturée Les données de l’écriture sont généralement présentées sous forme d’image, ce qui approche le traitement d’image à base de récupérer des informations textuelles
Dans le cas en ligne, des coordonnées bidimensionnelles des points consécutifs de l'écriture en fonction du temps sont disponibles Alors que dans le cas hors-ligne, seulement les écritures terminées sont disponibles sous forme d'image La figure 2.1 montre la différence entre ces deux catégories
Trang 16Figure 2.2 ignaux d’entrée du système en ligne (à gauche) et hors ligne (à droit)
Le taux de reconnaissance est beaucoup plus élevé dans le cas en-ligne en comparaison avec le cas hors-ligne ’est pourquoi, dans ce mémoire, nous nous focalisons sur la reconnaissance des caractères en ligne
2.2 LA RECONNAISSANCE DES CARACTÈRES VIETNAMIENS EN LIGNE
ans la reconnaissance de l'écriture en ligne, les signaux de l’écriture sont capturés à partir des traces du stylus sur la surface d'une tablette Les signaux d'entrée sont à la reconnaissance, ce qui donne alors le texte de l'entrée manuscrite La reconnaissance de l’écriture en ligne est aussi appelée la reconnaissance en temps réel parce que les caractères sont reconnus comme elles sont écrites Il consiste à utiliser les périphériques à base du stylus pour capturer la séquence des coordonnées des points Cela donne des informations sur le nombre, l’ordre, la direction et la vitesse des traits
2.2.1 La langue vietnamienne
Le vietnamien est la langue officielle du Viet Nam Le « quốc ngữ » (écriture de la langue nationale) est une romanisation de la langue vietnamienne possédant le statut
Trang 17d’orthographe officielle ’est un alphabet latin augmenté de nombreux diacritiques servant à noter tant la valeur phonétique de certaines lettres que les tons de la langue
L’ensemble complet des caractères vietnamiens contient 99 classes qui peuvent être classés en trois sous-ensembles comme suivant:
Le format UNIPEN, géré par la Fondation Internationale Unipen (iUF), permet une représentation hiérarchique des données manuscrites en ligne [4] Il contient 16000 chiffres isolés, 28000 caractères majuscules isolés et 61000 caractères minuscules isolés
e format est capable d’annoter les données suffisantes pour encoder toutes les informations sur les conditions de prise, du scripteur, de segmentation, de la qualité des données, de l’étiquetage…
Trang 18Figure 2.3 n fichier des données de l’écriture en ligne sous le format P
Selon le format UNIPEN utilisé, chaque fichier commence par les informations sur les coordonnées, la taille, la résolution,… es informations sont séparées par les mots clés La partie suivie contient les données l s’agit de stockage de chaque trace sous forme d’ensemble des points entre 2 mots clés « PEN_DOWN » et « PEN_UP », de stockage de chaque point par la coordonnée X, la coordonnée Y
Les informations et la description détaillées du format UNIPEN peuvent être trouvées à la page de iUF [4]
Trang 192.2.3 Le modèle de reconnaissance
Les étapes principales du processus de reconnaissance d’écriture manuscrite en ligne sont montrées par le diagramme dans la figure 2.4
Figure 2.4 Le modèle de reconnaissance des caractères manuscrits
Les données utilisées dans le système de reconnaissance sont divisées en deux parties : la partie d’entraînement - qui est utilisée pour créer le modèle de reconnaissance
- et la partie de reconnaissance - qui est utilisée pour la reconnaissance
Toutes les deux parties sont tout d’abord passées en deux étapes : le prétraitement
et l’extraction de caractéristique
Trang 20 L’étape de prétraitement: Cette étape prépare les données pour l’étape d’extraction La donnée créée par l’équipement ne peut pas être utilisée tout de suite parce qu’il y a beaucoup de bruits ’est pourquoi cette étape, très importante, augmente l’efficacité de la classification et la performance de la reconnaissance lle essaie d’effacer les informations indésirables comme le bruit
en utilisant les techniques qui règlent les données telles que le ré-échantillonnage,
la normalisation,…
L’étape d’extraction de caractéristiques: L'extraction de caractéristiques est une procédure très importante pour extraire des caractéristiques qui sont les attributs séparés et sont peut-être identifiées et mesurées A partir d'ici, chaque objet sera représenté par ses vecteurs de caractéristiques, comportant des informations nécessaires, qui aident à distinguer les classes de façon cohérente et claire La qualité du système de traitement dépend directement du bon choix du contenu de ces vecteurs Mais dans de nombreux cas, la résolution pratique du problème devient presque impossible à cause de la dimensionnalité trop importante de ces vecteurs Par conséquent, il est souvent utile, et parfois nécessaire, de réduire celle-ci à une taille plus compatible avec les méthodes de résolution, même si cette réduction peut conduire à une légère perte d'informations
L’étape de classification : La classification est le processus d’attribution des données à leur classe correspondante par rapport à des groupes ayant des caractéristiques homogènes Il y a deux étapes dans la construction d’un classificateur : l’entraînement et la reconnaissance ertaines techniques de classification utilisées dans les systèmes de reconnaissance développés précédemment sont le réseau de neurones, la machine à vecteur support (SVM), la classification bayésienne, la classification d’arbre de décision ans ce mémoire, nous utilisons le SVM
Trang 21
2.3 L’ÉTAT DE L’ART
La reconnaissance de l’écriture est encore un problème bien difficile pour les chercheurs L'histoire de la reconnaissance de caractères peut être tracée dès 1900, lorsque le scientifique russe Turing a tenté de développer une aide pour les handicapés visuels En 1914, Hyman Eli Goldberg a inventé et a fait breveter son «contrôleur», un dispositif, considéré comme le premier exemple de reconnaissance de l’écriture en ligne qui ait converti des caractères numériques manuscrits en données électriques qui, à leur tour instruisent une machine en temps réel À partir des années 80, l’apparition des tablettes graphiques pouvant capturer les coordonnées du mouvement du tracé a permis aux chercheurs de s’intéresser à la reconnaissance d’écriture en ligne
Jusqu’à maintenant, il existe des systèmes facilitant la reconnaissance dont:
P ++, , A AP pour l’arabe, Quick troke pour le chinois,
Actuellement la reconnaissance de l’écriture en-ligne n’est pas un problème nouveau l y a déjà de nombreuses recherches sur l’extraction de caractéristiques pour la reconnaissance de l’écriture
Heutte et al [6] ont utilisé sept différentes familles de caractéristiques qui comportent les caractéristiques statistiques et structurelles
Alors que la recherche de Brijesh et al [10] utilise les caractéristiques structurelles, le changement de direction d’écriture, le zonage pour créer un seul vecteur de caractéristique global Le résultat montre que cette caractéristique globale est très efficace et prometteuse ’ailleurs, le point fort de cette recherche est que les caractéristiques peuvent être extractées sans le redimensionnement du caractère
ans la recherche d’Ahmad et al [11], chaque caractère a été ré-échantillonné et ses caractéristiques sont extraites basées sur la direction et la courbure Il a conclu que le SVM donne le résultat le meilleur sur les données UNIPEN et IRONOFF en
Trang 22comparant le SVM, le MLP (Multiplayer Perceptrons) et le TDNN (Time Delay Neural Network)
Quant à la reconnaissance des caractères vietnamiens, il y en a certaines recherches qui utilisent de préférence les données hors ligne
Anh Phuong Pham [1] a proposé un modèle de reconnaissance de l’écriture isolée basée sur le SVM, qui comporte une certaine simple et efficace méthode d’extraction de caractéristiques l a conclu que le zonage, la projection et le profil réduisent la taille des données d’entrée en augmentant la vitesse de reconnaissance Dans son autre recherche qui combine le SVM et la caractéristique wavelet Haar, le résultat montre que cette méthode obtient une précision satisfaisante et prometteuse Pourtant la taille des données est un peu élevée (256 caractéristiques) ; cela diminue la vitesse de reconnaissance
De son côté, De Cao Tran [2] utilise, pour la reconnaissance en ligne, 45 caractéristiques statistiques et structurales, en utilisant le SVM comme le classificateur, extrait à partir des données en ligne et hors ligne telles que les moments, la projection horizontale, la projection verticale, le nombre des traces, les coordonnées, les cosinus,… ette recherche propose en même temps une méthode de recognition qui réduit la taille du problème en reconnaissant séparément l’accent et la lettre
En particulier, on obtient désormais des résultats acceptables pour la reconnaissance de caractères manuscrits isolés en ligne et particulièrement pour la reconnaissance des caractères vietnamiens
2.4 CONCLUSION
Une bonne compréhension des problèmes, des connaissances générales sur la reconnaissance des caractères manuscrits en ligne ainsi que le système d’écriture et les
Trang 23propriétés des données est la première étape importante dans la construction et la recherche d’un système de reconnaissance e chapitre a présenté une vue d’ensemble du système de reconnaissance des écritures manuscrites vietnamiennes Dans la prochaine partie, nous aborderons l’extraction des caractéristiques, une des étapes les plus importantes dans le modèle de reconnaissance qui influence la performance d’algorithme
Trang 24CHAPITRE 3: EXTRACTION DES CARACTÉRISTIQUES
3.1 INTRODUCTION
L'objectif principal de l'extraction de caractéristiques est d’améliorer la vitesse et
la précision de la classification pour la reconnaissance Comme mentionnée dans plusieurs littératures, l'extraction des caractéristiques joue un rôle important dans le processus général de reconnaissance de l'écriture
Les méthodes d'extraction de caractéristiques tombent entre ces catégories [12]:
+ La statistique: méthode basée sur une planification de la façon dont les données
sont recueillies et sélectionnée Elle est basée sur la théorie des probabilités et des hypothèses Les principales méthodes d'extraction dans cette catégorie sont les suivantes:
Partitionnement en régions régulières ou irrégulières
Profils et projections
Les distances et les passages
+ La structure: Les caractéristiques sont extraites de façon que chaque valeur
contienne des informations sur la structure de l'image telles que le ratio, le nombre de traits, le nombre de points croisés,…
+ Les transformations globales et les moments: La transformation de Fourier du
contour de l'image est extraite pour reconstruire le contour de l’image Les moments sont utilisés pour reconnaître l’ampleur, la traduction, l’invariante et la rotation d'une image
de caractère La structure originale de l'image peut être reconstruite à partir des coefficients de moment
Dans ce mémoire, la combinaison de toutes ces catégories est utilisée Ce chapitre sera consacré à la représentation de ces méthodes d’extraction des caractéristiques, ce que nous avons étudié dans ce mémoire
Trang 26Figure 3.2 Le zonage de 6
3.3 PROJECTIONS
Les histogrammes de projection, introduites en 1956 par Glauberman, sont depuis très longtemps utilisés dans le domaine de la reconnaissance de formes Cette technique est principalement utilisée pour la segmentation des caractères, des mots et de lignes de texte l s’agit d’un histogramme cumulé des densités de chaque colonne pour les projections verticales, de chaque ligne pour les projections horizontales ou des lignes obliques pour les projections obliques Dans notre mémoire, les axes de cet histogramme sont ensuite divisés en 16 parties égales; puis chaque point trouvé est projeté sur l'axe des
x et y
ette caractéristique sépare efficacement des lettres comme ”m” et ”n” ou ” ” et
”F”, etc
Les figures 3.3 et 3.4 ci-dessous montrent la différence entre la projection verticale
de la lettre « E » et la projection verticale de la lettre « F » On constate que dans le diagramme de la projection de la lettre « E » il y a trois régions denses, tandis qu’il en y a seulement deux pour le diagramme de la projection de la lettre « F »
Trang 27Figure 3.3 La projection verticale de la lettre « E »
Figure 3 4 La projection verticale de la lettre « F »
Pourtant, les projections d'histogrammes sont très sensibles à la rotation et, dans une certaine mesure, à la variabilité dans le style d'écriture
3.4 LE RATIO DE LA HAUTEUR SUR LA LARGEUR
Le grand problème dans la reconnaissance d’écriture se trouve dans les distorsions
du pattern d’origine urtout, la distorsion s’effectue pendant la normalisation comme la lettre ”l” indiquée dans la figure 3.2
Figure 3.5 La normalisation de taille de la lettre ”l”
Trang 28Après la normalisation, la lettre ”l” ressemble à la lettre ”e” onc, dans ce mémoire, nous essayons à calculer le ratio de la hauteur sur la largeur avant la normalisation
R =
ó : h : la hauteur de la boỵte contenant le caractère avant la normalisation
l : la largeur de la boỵte contenant le caractère avant la normalisation
La boỵte contenant le caractère est définie comme suivant :
Étant donné A comme un ensemble de points du caractère avec
minx = {min (x/(x,y) A}, miny = {min (x/(x,y) A}, maxx = {max (x/(x,y) A}, maxy = {max (x/(x,y) A},
La boỵte contenant A est formée par quatre lignes :
x = minx, x = maxx, y = miny, y = maxy
3.5 NOMBRE DE TRACES
La trace est définie comme un trajet continu du stylo du moment ó il est placé sur
la surface d’écriture jusqu’au moment ó il est relevé ans ce cas, la trace est une série des points à partir du point ”P _ W ” au point ”P _ P” ans ce mémoire, nous calculons le nombre de traces pour chaque caractère en comptant le nombre de
”P _ W ” dans l’ensemble de données pour un caractère
Figure 3.6 La série des points de la lettre « E »
Trang 29Par exemple, dans la figure 3.4 on peut compter qu’il y a trois « PEN_DOWN »
Et alors, on sait que cette lettre comporte trois traces
Des caractères différents peuvent avoir des nombres différents de traces Il y a des caractères qui sont souvent écrits seulement en une trace tels que le « C », le « O », le
« c », le « e », le « o », ou des caractères qui sont souvent écrits en deux traces tels que
le « D », le « F », le « f », le « ê », le « ơ », etc… ’est pourquoi cette caractéristique contribue à distinguer plusieurs caractères
3.6 CHANGEMENT DE DIRECTION DE L’ÉCRITURE
L’écriture en ligne a obtenu des résultats meilleurs que l’écriture hors ligne, car plus d’information est capturée telle que la direction, l’ordre des traits de l’écriture Le changement de direction de l’écriture est considéré comme le changement du stylo allant
du haut (/bas) en bas (/haut) ou de gauche (/droite) à droite (/gauche)
Pour chaque caractère ou chiffre le changement de direction pourrait être similaire Grâce à l’utilisation des coordonnées de deux points consécutifs, on peut obtenir le changement de direction de l’écriture