Nous avons dans un premier temps extrait les caractéristiques de chaque document image du flux par vectorisation à l’aide de différents réseaux CNN.Ensuite, pour chaque cas d’extraction
Trang 1UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ
INSTITUT FRANCOPHONE INTERNATIONAL
ABALO Kokou
ETUDE ET MISE EN OEUVRE DE
SEGMENTATION DOCUMENTAIRE PAR
MACHINE LEARNING
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
HANỌ - 2020
Trang 2UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ
INSTITUT DE LA FRANCOPHONIE POUR L’INNOVATION
ABALO Kokou
ETUDE ET MISE EN OEUVRE DE
SEGMENTATION DOCUMENTAIRE PAR
MACHINE LEARNING
Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
Sous la direction de :
Mr Marc DENTY
Trang 4Table des matières
1 Présentation du projet 3
1.1 Structure d’accueil 3
1.2 Contexte du projet 3
1.3 Problématique 3
1.4 Objectifs du stage 4
1.5 Périmètres du projet 4
2 État de l’art 5
2.1 Généralités sur l’apprentissage automatique 5
2.2 Les réseaux de neurones 5
2.2.1 Le perceptron multi couches 5
2.2.2 Réseau de neurones à convolution (CNN) 6
2.2.3 Les réseaux de neurones récurrents 7
2.3 Quelques articles connexes pertinents 8
2.3.1 Article 1 : Document Flow Segmentation for Business Applications[3] 8 2.3.2 Article 2 : An Approach to the Segmentation of Multi-page Document Flow Using Binary Classification[1] 12
2.3.3 Article 3 : Page Stream Segmentation with Convolutional Neural Nets Combining Textual and Visual Features[6] 14
2.3.4 Bilan récapitulatif des articles les plus pertinents étudiés 15
3 Solution proposée 17
Trang 53.2.4 InceptionV3 22
3.3 Vecteurs de caractéristiques de transition 22
3.4 Prédiction sans logique métier associée 23
3.4.1 MLP 23
3.4.2 LSTM 23
3.4.3 LSTM Bidirectionnel 24
3.5 Prédiction avec logique métier associée 25
3.6 Evaluation des modèles 26
3.7 Segmentation 26
4 Expérimentation et analyse des résultats 29
4.1 Pré-traitement des données 29
4.2 Première phase de réalisation 30
4.2.1 Vectorisation 30
4.2.2 Vecteurs de caractéristiques de transition 31
4.2.3 Tests suivant les différents modèles d’extraction de caractéristiques 31 4.3 Deuxième phase de réalisation 34
4.3.1 Test sur le corpus global 34
4.3.2 Prise en compte de la logique métier 35
4.4 Outils et environnement de travail 35
4.5 Difficultés du stage 36
Trang 6Table des figures
1 Perceptron[5] 6
2 Classification multi classes 6
3 Convolution[2] 6
4 RNN 8
5 Organigramme de segmentation des documents, basé sur une classification super-visée (a) formation, (b) tests 9
6 Illustration du cas d’usage de la solution proposée 18
7 Illustration de l’architecture fonctionnelle de la solution proposée 19
8 Jeu de données de test et d’expérimentation 20
9 VGG16 - Caractéristiques d’entrée et de sortie 21
10 VGG19 - Caractéristiques d’entrée et de sortie 21
11 Xception - Caractéristiques d’entrée et de sortie 22
12 InceptionV3 - Caractéristiques d’entrée et de sortie 22
13 MLP - Architecture 23
14 LSTM - Architecture 24
15 LSTM Bidirectionnel - Architecture 25
16 Architecture prédiction de la classe métier 25
17 Simulation de découpage de flux 26
18 Aspect visuel général du corpus 29
19 Aspect visuel général du corpus apuré 30
20 Fichiers vectorisés 31
21 Extraction de caractéristiques et Prédiction MLP 32
22 Accuracy de Prédiction MLP 32
23 Vgg19 avec Prédiction RNN 32
24 Accuracy - Vgg19 avec Prédiction RNN 32
25 Variation de la taille de fenêtre de lecture 33
Trang 731 Statistiques de découpage par rapport au modèle vgg19 + LSTM Bidirectionnel
- Avec logique métier 35
32 Architecture VGG16 39
33 Architecture VGG19 39
34 Architecture Xception 40
35 Architecture Inception V3 40
Trang 8Liste des tableaux
1 Représentation des caractéristiques 10
2 Evaluation de quelques approches de segmentation de flux de documents 15
3 Tableau récapitulatif des articles les plus pertinents étudiés 16
4 Labélisation classification binaire 20
5 Labélisation classification métier 20
6 MLP network hyperparameters 31
Trang 9− L’Institut Francophone International (IFI) en cotutelle avec l’Université de la Rochelle, et
de tous les professeurs, pour leur enseignement et leurs rigueurs ;
− Laboratoire Tessi Lab pour l’accueil et le suivi de ce stage ;
− Mes encadrants pour les explications, les conseils, les différentes pistes de réflexion etl’appui technique dans mon encadrement
Trang 10Le présent mémoire s’inscrit dans le contexte de la gestion électronique de documents avec lesdifférents concepts et technologies de l’Intelligence Artificielle Avec l’avènement des TICs, la nu-mérisation, le stockage et la gestion de documents papier devient un volet incontournable dans
le maintien du système d’information de toutes organisations La structuration du stockage deces informations requiert en amont des méthodes et techniques, en particulier dans le cas denumérisation par lots de grande quantité de documents Ainsi la séparation automatique du flux
de pages numérisées en ensembles continus de pages correspondant aux documents physiquesest une étape importante qui, toutefois, implique des problématiques
Le travail réalisé porte sur l’étude de différentes méthodes de segmentation de flux de documentsnumérisés par Machine Learning Pour ce faire, nous avons d’une part, fait usage de réseaux
de neurones à convolution (CNN) combinés avec du réseau MLP (Multi-Layer Perceptron) etd’autre part, de réseaux de neurones à convolution combinés avec le réseau RNN (RecurrentNeural Network)
L’objectif étant de tester ces deux approches en afin d’identifier laquelle est la mieux adaptéepour les données image à traiter Le noeud du problème à résoudre était de déterminer la nature
de la transition entre deux pages successives : “continuité du même document” (CD) ou “débutd’un nouveau document” (ND) Nous avons dans un premier temps extrait les caractéristiques
de chaque document image du flux par vectorisation à l’aide de différents réseaux CNN.Ensuite, pour chaque cas d’extraction de vecteurs de caractéristiques, nous avons combiné sui-vant différents modes, et ce sur une fenêtre donnée, ces vecteurs de pages consécutives en unseul vecteur de caractéristiques de transition Ce dernier alors est passé à un classificateur bi-naire MLP ou RNN selon l’approche choisi afin de déterminer le type de transition entre lespages consécutives Des résultats obtenus, nous avons procédé au regroupement des pages cor-respondant à chaque document Enfin nous avons effectué les tests de précision par rapport
au découpage du flux en documents en vue d’évaluer la performance de chaque approche Nosévaluations ont en effet révélé que la méthode de segmentation du flux de documents utilisant
la combinaison des modèles VGG19 et LSTM Bidirectionnel est la plus performante
Afin d’optimiser les résultats obtenus à partir de l’approche retenue, nous avons associé à cettedernière la logique métier Pour cela nous avons couplé en parallèle au modèle de classificationbinaire obtenu un modèle permettant de déterminer la catégorie de chaque document Ensuite,
Trang 11Mots clés : Apprentissage supervisé, Réseaux de neurones convolutifs, Réseaux de neurones
récurrent, Deep learning, Machine learning, Extraction de caractéristiques, Segmentation cumentaire, classification de documents images, Classification binaire, Gestion électronique dedocuments
Trang 12This Master thesis report is part of the electronic documents management field with ficial Intelligence philosophy and technologies Through the advent of ICTs, digitization,storage and management of paper documents become a main component with all orga-nizations information systems’ maintaining Structuring the storage of this kind of datarequires methods and techniques upstream, in particular in the case of batch scanning
Arti-of large quantities Arti-of documents Thus the automatic segmentation Arti-of the scanned pagesflow into continuous sets of pages corresponding to physical documents is an importantstep which, however, involves difficulties
The work carried out through this report relates to the study of different methods ofsegmenting scanned documents flow by a Machine Learning based system To do this,
on one hand, we used convolutional neural networks (CNN) combined with the MLP(Multi-Layer Perceptron) network and, on the other hand, convolutional neural networkscombined with the RNN network (Recurrent Neural Network)
The goal is to test these two approaches in order to identify which one is the best suitedfor the image data to be processed The crux of the problem to be solved was to determinethe type of nature of the transition between two consecutive pages : "continuity of thesame document" (CD) or "beginning of a new document" (ND) We first extracted thecharacteristics of each document image from the workflow by vectorization using differentCNN frameworks
Then for each case of extraction of feature vectors, we have combined through differentway, and this over a given frame size, these vectors of consecutive pages into a single vector
of transition feature vector The resulting feature vector is then passed through a binaryMLP or RNN classifier depending on the approach chosen in order to determine the type
of transition between consecutive pages From the results obtained, we proceeded to groupthe pages corresponding to each document Finally, we performed statistical tests related
to the documents image stream segmentation into unique documents in order to assessthe performance of each approach Our evaluations revealed that the document flow seg-mentation method using the combination of the VGG19 and Bidirectional LSTM models
is the most efficient In order to optimize the results obtained from the chosen approach,
we have associated the business logic with the latter For that reason, we have coupled,
in parallel to the binary classification model obtained, a model allowing to determine the
Trang 13works, Deep learning, Machine learning, Feature extraction, Documentary segmentation,documents images classification, Binary classification, Electronic document management.
Trang 14Multi Layer Perceptron : MLP
Deep Learning : DL
Recurrent Neuronal Network : RNN
Long short-term memory : LSTM
Convolution Neuronal Network : CNN
Page précédente à la page en cours : P i−1
Page deuxième précédente à la page en cours : P i−2
Page suivante à la page en cours : P i+1
Page deuxième page suivante à la page en cours : P i+2
Trang 15INTRODUCTION GENERALE
La recherche scientifique ne cesse de progresser dans la mise en place de nouveaux conceptspour faciliter le quotidien de l’homme Dans la mêlée, les sciences informatiques en géné-ral et l’Intelligence Artificielle en particulier regorgent d’innovations Les algorithmes dehaut niveau supplantent de plus en plus les tâches manuelles fastidieuses et complexes.Ainsi de multiples activités humaines bénéficient des avantages de l’avancée des TICs.C’est d’ailleurs dans cette optique que moultes entreprises et organisations se procurentdes systèmes informatiques de plus en plus performants
En effet, en se référant au cas de figure de gestion d’archives par le passé, les documentsmanuscrits ou dactylographiés ou encore imprimés sont stockés physiquement dans destiroirs et classeurs Mais au fil du temps, ces documents deviennent volumineux et encom-brants dans les bureaux et services Aussi la recherche d’un document quelconque parmiles tas de papiers devenait difficile et fastidieuse, à cause des temps de fouille souventassez longs, et aussi parfois impossible Cette situation embarrassante a conduit, dans unpremier temps, à la numérisation simple des documents Ces derniers sont numérisés etstockés dans les ordinateurs et sur différents supports Ces documents stockés devenaient
à leur tour aussi énormes et par conséquent ont commencé par engendrer également desdifficultés de gestion et de manipulation
Il est fastidieux de retrouver un document par les méthodes basiques Les difficultés liées
à la recherche d’un fichier pourront se remarquer d’une part Lorsqu’on veut se servird’un outil de recherche intégré au système d’exploitation d’autre part, le problème est en-core plus prononcé dans ce contexte Cela pouvait conduire parfois au découragement oudésintéressement des utilisateurs qui ne sont le plus souvent pas du domaine de l’informa-tique, mais qui s’en servent juste dans l’accomplissement de leurs tâches professionnelles.L’apparition des scanners industriels accentue cette problématique avec la numérisationpar lots Pour y remédier, différents concepts apparaissent et sont implémentés à traversdes applications métiers Avec ces dernières, on effectue en amont la séparation des flux
de pages en insérant manuellement des pages de séparation ou des marques lisibles par
la machine dans le flux au cours de la numérisation [3] Néanmoins, le processus de tri etd’introduction des feuilles de séparation s’avère fastidieux, cỏteux et parfois sujet auxerreurs
Cependant, avec les concepts de l’IA, beaucoup d’organisations se lancent pour défi leurmise en application dans la gestion des systèmes d’informations et dans les procédures detravail L’application de l’IA au processus de découpage de flux de documents numérisés
en constitue un cas
C’est justement dans ce contexte que s’inscrit notre sujet de stage initié par la société
Trang 16Tessi Lab et intitulé : “ Etude et mise en oeuvre de segmentation documentaire par chine Learning” Il s’agit de développer un système de séparation automatique capable
Ma-de segmenter un flux Ma-de documents sans aucune information préalable sur le nombre Ma-depages ou la catégorie de documents Ce type de système, basé sur le Machine Learning,devrait analyser le contenu des pages successives et indiquer les pages limites du flux dedocuments ó chaque document peut représenter un ensemble de pages successives bienordonnées
Afin de parvenir à la réalisation de notre solution, nous avons organisé notre travail autour
de quatre(4) grands chapitres
Le Chapitre 1 intitulé "Présentation du projet" présente notre cadre de stage ainsi que laproblématique et les objectifs de notre travail
Le Chapitre 2 ayant pour titre "État de l’art" présente l’étude bibliographique concernant
la segmentation documentaire, les différentes méthodes et architectures d’ApprentissageAutomatique utilisées pour cette problématique
Dans le Chapitre 3 intitulé "Solution Proposée", nous abordons les solutions envisagées àl’issu des différentes approches de résolution basées sur l’apprentissage automatique expo-sées dans l’état de l’art Nous faisons usage de combinaison de CNN et MLP d’une part, etd’autre part de CNN et RNN Afin d’identifier le meilleur taux de précision, quelque soit
la méthode utilisée, nous ferons des tests par rapport à différents modes de combinaison
de caractéristiques
En dernier lieu, nous présentons les différents résultats des expérimentations et approchesutilisées sur les flux de documents image de même que les comparaisons entre les mé-thodes utilisées dans le chapitre que nous intitulons "Implémentation, expérimentation etanalyse des résultats"
Trang 17développe-Les clients du groupe Tessi concernent principalement les banques, assurances et sociétés
du secteur financier et immobilier Il prend ainsi en charge aujourd’hui, à travers dix (10)centres de traitement industriel et douze(12) ateliers de proximité, la dématérialisation
de flux de documents et la réalisation d’autres tâches de back office pour ces clients
Les outils technologiques utilisées dans les centres et ateliers du groupe Tessi sont produitspar Tessi lab via sa plateforme logicielle dénommée Tessi lab document reader (TLDR) quiest une solution innovante d’OCR et d’analyse de documents non formatés et qui cherche
à répondre à une demande de reconnaissance de documents spécifiques dans un contexteindustriel Cette plateforme s’agrège continuellement de nouvelles fonctionnalités pour saperformance et son efficacité d’une part vis-à-vis des exigences du clients et d’autre partpour tirer avantages de la veille technologique C’est fort de ce dernier aspect qu’est initiénotre sujet de stage
En effet, l’environnement de production Tessi dématérialise des courriers de façon massive.Ces documents sont numérisés et stockés de manière structurée Cependant, la structu-ration du stockage des documents numérisés à des fins d’usage métier est subordonnée
à la séparation automatique du flux de pages scannés en ensembles continus de pagescorrespondant aux documents physiques Cette étape de séparation automatique requiert
en amont des méthodes et techniques, en particulier dans le cas de numérisation par lots
de grande quantité de documents Pour ce faire, on effectue la séparation des flux de pages
à numériser en insérant manuellement des feuilles dites « séparateurs » ou des marqueslisibles par une machine, telles que des codes à barres, pour indiquer la fin d’un document.Cependant, cette approche s’avère fastidieuse, cỏteuse et parfois sujette aux erreurs :
− Dans le cas des séparateurs de pages, ceux-ci doivent être insérés correctement avant
le balayage des pages et, s’ils ne doivent pas être réutilisés, supprimés par la suite ;
Trang 18− Puisqu’il s’agit des opérations à volume élevé, les cỏts engendrés par cette méthodepeuvent être énormes.
Il s’agit de mettre en place un système de Machine Learning permettant de :
− Supprimer le positionnement de séparateurs physiques dans la segmentation des flux
de documents ;
− Automatiser la tâche de séparation de documents ;
− Gagner en temps d’exécution et limiter les ressources nécessaires ;
− Avoir un système fiable et générique avec un taux d’erreur faible
Le système d’apprentissage à réaliser devra prendre en compte les éléments suivants dansles données à traiter :
− Zone de texte
− La taille des polices du texte
− Zone d’image ou de logo
− Tableaux
− Zone de texte manuscrite
− Ligne de signature électronique
− Zone de signature manuscrite
− Zone de cachet à l’encre
− Les rotations légères de documents scannés (donc de rotation légère de ligne)
− Les rotations à 180◦ de documents scannés
Trang 19Chapitre II
2 État de l’art
L’apprentissage automatique encore appelé "Machine Learning" est un processus qui crée
un modèle à partir d’un jeu de données d’entraỵnement, dans le but, par exemple, declassifier, mesurer ou prendre des décisions sur de nouvelles données On distingue deuxtypes d’apprentissage :
− L’apprentissage supervisé, qui consiste à analyser un jeu de données empiriques,appelée base de données d’entraỵnement Ces données sont étiquetées ou labellisées,c’est à dire associées à une description ou information, afin de pouvoir caractériser
un jeu de données inconnu L’algorithme d’apprentissage apprend ainsi à partir deplusieurs milliers d’exemples étiquetés en établissant la relation qui permet de relierles données aux labels
− L’apprentissage non supervisé, ó l’algorithme doit opérer en l’absence tions
2.2.1 Le perceptron multi couches
Le MLP (Multi Layer Perceptron), perceptron multicouche, est un type de réseaux deneurones formels organisé en plusieurs couches au sein desquelles une information circule
de la couche d’entrée vers la couche de sortie uniquement Il s’agit donc d’un réseau àpropagation directe (feedforward) Chaque couche (de la première et dernière couche) estconstituée d’un nombre variable de neurones Les neurones de la dernière couche dite «
de sortie » étant les sorties du système global Le MLP est formé d’une première couched’unités (ou neurones) qui permettent de « lire » les données Chaque unité correspond
à une des variables d’entrée On peut rajouter une unité appelée biais qui est toujoursactivée (Figure 1) dont l’intérêt est de déterminer si un neurone est activé et d’augmenter
la flexibilité du modèle Ces unités sont reliées à une seule et unique unité de sortie, quireçoit la somme des unités qui lui sont reliées, pondérée par des poids de connexion
w j L’unité de sortie applique alors une fonction d’activation à cette sortie Dans le casd’un problème de régression (Figure 1), il n’est pas nécessaire de transformer la sommepondérée reçue en entrée La fonction d’activation est la fonction identité nommée a, elleretourne ce qu’elle a reçu en entrée
Soient : a la fonction identité, w0 le biais, w j le j ieme poids, x p la p ieme entrée, y (i) la sortie
du modèle
Trang 20Figure 1 – Perceptron[5]
Dans le cas d’un problème de classification multi classes, nous pouvons modifier ture du perceptron (Figure 2) Au lieu d’utiliser une seule unité de sortie, il est possibled’en utiliser autant que de classes Chacune de ces unités sera connectée à toutes les unités
l’architec-d’entrée On aura donc ainsi n(x i) poids de connexion, ó n est le nombre de neuronespar couche et x est le nombre d’entrée
Figure 2 – Classification multi classes
L’entraỵnement d’un perceptron est donc un processus itératif Après chaque observation,nous pouvons ajuster les poids de connexion de sorte à réduire l’erreur de prédiction faitepar le perceptron dans son état actuel
2.2.2 Réseau de neurones à convolution (CNN)
Trang 21Les réseaux de neurones à convolution sont une forme particulière de réseaux de neuronesmulti-couches dont l’architecture de connexions est inspirée de celle du cortex visuel desmammifères Pour mieux comprendre le fonctionnement d’un réseau de neurones à convo-lution, nous allons prendre un exemple simplifié et chercher à déterminer si une imagereprésente un X ou un O Le CNN n’a qu’une seule tâche à réaliser :
chaque fois qu’on lui présente une image, il doit décider si cette image représente un X
ou un O
Leur conception suit les mécanismes visuels des êtres vivants Ces réseaux de neuronesartificiels (aussi baptisés réseaux de neurones à convolution ou CNN) sont capables decatégoriser les informations des plus simples aux plus complexes Ils consistent en unempilage multi-couches de neurones, des fonctions mathématiques à plusieurs paramètresajustables, qui pré-traitent de petites quantités d’informations Les réseaux convolutifssont caractérisés par leurs premières couches convolutives (généralement une à trois) Unecouche convolutive est basée, comme son nom l’indique, sur le principe mathématique deconvolution (Figure 3) et cherche à repérer la présence d’un motif (dans un signal ou dansune image par exemple)
Pour une image, la première couche convolutive peut détecter les contours des objets(par exemple un cercle), la seconde couche convolutive peut combiner les contours enobjets (par exemple une roue) et les couches suivantes (non nécessairement convolutives)peuvent utiliser ces informations pour distinguer les objets se trouvant dans l’image Unephase d’apprentissage sur des objets connus permet de trouver les meilleurs paramètres
en montrant par exemple à la machine des milliers d’images de X et O L’un des jeux est de trouver des méthodes pour ajuster ces paramètres le plus rapidement et leplus efficacement possible Les réseaux de neurones à convolution sont utilisés dans denombreuses domaines comme la reconnaissance d’images, de vidéos ou le traitement dulangage naturel
en-2.2.3 Les réseaux de neurones récurrents
RNN est un type d’ANN, qui a une connexion récurrente avec lui-même Cette connexion
récurrente permet à RNN d’apprendre l’effet de l’entrée précédente x t−1 avec l’entrée
actuelle x t tout en prédisant la sortie à l’instant textit t Cela donne aux RNN le sens
du contexte temporel
Ci-dessous est une figure qui montre la vue d’un RNN Comme le montre la figure, lesactivations de couche cachées calculées à l’instant textit t-1 sont introduites en entrée àl’instant textit t
Trang 22Figure 4 – RNN
Un réseau récurrent contient un état qui est mis à jour après chaque pas de temps, cequi permet aux réseaux récurrents de modéliser des longueurs arbitraires de donnéesséquentielles ou diffusées, par ex texte Le réseau commence avec un état zéro qui estensuite mis à jour en fonction des poids, des biais et de l’entrée de longueur fixe aprèschaque pas de temps
Les équations ci-dessous décrivent la couche cachée textit h à l’instant textit t et tion qui décrit la couche de sortie du réseau RNN
l’équa-h t = H(W xh ∗ x t + W hh ∗ h t−1 + b h)
y t = W hy ∗ h t + b y
La formation du RNN se fait normalement en estimant la sortie probable suivante dans
la séquence, puis en modifiant les poids en conséquence Cependant, considérons un flux
de données pour lequel une prédiction est effectuée à chaque pas de temps, chaque diction sera basée sur l’entrée actuelle et toutes les entrées précédentes Il est donc trèsdifficile de former avec précision le réseau car les gradients disparaîtront ou exploserontprogressivement plus les séquences seront longues
Des travaux effectués par des équipes de chercheurs dans le contexte de la segmentation
du flux de documents nécessitent d’être explorés en vue de mieux définir les contours denotre approche de solution Nous allons à cet effet présenter les grandes lignes de certains
Trang 23un algorithme qui traite le flux de documents comme des paires de pages consécutives
et étudie la relation qui existe entre ces dernières Ainsi chaque image individuelle de laséquence est classée comme continuité du même document (CD) ou début d’un nouveaudocument (ND) Pour cette classification binaire, ces auteurs s’appuient sur des carac-téristiques textuelles extraites des résultats OCR et classent les pages avec SVM et lesperceptrons multicouches (MLP)
2.3.1.1-Démarche
Afin de réaliser ce travail, ces auteurs ont proposé une approche comportant trois paux modules à savoir :
princi-− l’extraction des caractéristiques ;
− la modélisation relationnelle d’une paire de pages ;
− la classification
La figure 5 illustre ces trois principaux modules de l’approche proposée
Figure 5 – Organigramme de segmentation des documents, basé sur une classification supervisée (a)
formation, (b) tests
a- Extraction de caractéristiques
L’extraction des caractéristiques consiste dans un premier temps en l’analyse des ments textuels se trouvant dans les documents commerciaux en vue de déterminer s’ilexiste une possibilité de continuité ou de rupture entre deux pages consécutives Pour cefaire, de chaque page sont extraits des éléments indicateurs par OCR Le résultat obtenu
élé-de l’extraction est sous format XML composé élé-de différents éléments caractéristiques Ceséléments sont classés en neuf (9) types à savoir : date, heure, téléphone, code zip, les
Trang 24caractères alphanumériques, les nombres, les numéros de page, les expressions de tion et les marges Chaque type est associé à une fonction permettant son extraction del’ensemble des caractéristiques obtenus.
saluta-Par exemple, pour une page pi, la fonction f1 extrait toutes les dates de la page, f2 les
heures, f7 le numéro de page, et ainsi de suite Au cas ó la fonction ne trouve aucunélément correspondant à son type, elle retourne un ensemble vide (Tableau 1)
Ensuite vient l’étape de modélisation du rapport existant entre deux(2) pages tives : continuité ou rupture
consécu-Table 1 – Représentation des caractéristiques
b- Modélisation des relations
Afin de modéliser la relation entre deux pages consécutives p i et p i+1, et ainsi identifier s’il
y a continuité ou rupture, ces auteurs ont adopté l’approche de modélisation de relationentre les couples de pages consécutives de la façon suivante :
− Chaque page est représentée par un vecteur v i de dimension neuf (9), cette valeurétant le nombre de tous les types de caractéristiques ;
− L’intersection entre les vecteurs représentant deux(2) pages consécutives est alors
Trang 25− "-1" s’il n’y a pas d’intersection, implique que les caractéristiques existent mais sontdifférentes, traduisant une segmentation ou une rupture ;
− " 0 ”représente à la fois les ensembles de motifs ou l’un d’eux dans v i et v i+1 estvide ; il n’y a pas de correspondance entre les caractéristiques ou les caractéristiquesn’existent pas, ce qui traduit un rejet potentiel
c- Classification
Le classifieur prend en entrée, les vecteurs représentant le couple de pages Le classificateurclasse chaque couple de pages entrant comme appartenant au même document Il est aussiassocié à la décision du classificateur une couche supplémentaire basée sur les probabilitésd’appartenance à une classe afin d’affiner la classification
b- Analyste des résultats
Afin de comprendre ce qui a causé les erreurs d’identification de continuité ou rupture dedocuments, les auteurs ont analysé les résultats sur la base de données 4 qui représente
la plus grande base de données
Dans le cas ó les ruptures ont été classées comme des continuités, ils ont compté currence de descripteurs indiquant la continuité La même analyse a été effectuée sur les
l’oc-erreurs de continuité Des analyses il en ressort que les caractéristiques f1, f6 et f9 sontcelles qui apparaissent le plus souvent dans les cas des erreurs de rupture ou de continuité.Ainsi il en résulte que les autres fonctionnalités sont peu discriminantes
Trang 26Remarque : L’approche de ces auteurs prend juste en compte les textes ; d’autres élémentscomme les tableaux, les logos ou images n’y sont pas inclus.
2.3.2 Article 2 : An Approach to the Segmentation of Multi-page Document
Flow Using Binary Classification[1]
Dans cet article, tout comme dans l’article précédent, les auteurs présentent une méthode
de segmentation du flux de pages de documents appliquée à des documents bancaireshétérogènes Leur approche est basée sur le contenu des images et intègre également desfonctionnalités basées sur les polices dans les documents Cette méthode implique unmodèle de sac de mots visuels (BoVW) sur les descripteurs de caractéristiques basés surdes images conçues et une nouvelle approche pour combiner les pages consécutives d’undocument en un seul vecteur de caractéristiques représentant la transition entre ces pages
À l’aide des vecteurs de caractéristiques de transition, ils utilisent trois classificateursbinaires différents pour établir des prédictions sur la relation entre des pages consécutives
2.3.2.1-Démarche
Afin de réaliser ce travail, ces auteurs ont opté pour la méthode suivante déclinée en trois(3) étapes :
− La détermination des descripteurs de caractéristiques d’image ;
− L’utilisation du modèle BoVW et de l’approche de correspondance Visual Wordspour obtenir des similitudes d’image ;
− La représentation du vecteur de caractéristique de transition et l’analyse de différentsclassificateurs binaires
Les travaux de ces chercheurs ont porté sur les images binaires, et donc les valeurs despixels ne peuvent prendre que 0 ou 1 Au lieu de faire usage des méthodes SIFT[4] quisont couramment utilisées dans la réalisation de nombreuses applications de vision parordinateur, ces auteurs découpent chaque document image en petits patches (60x40) repré-sentant ainsi de petites régions de l’image et ayant un nombre minimal de caractéristiquesfacilement extractibles En vue de déterminer les variations structurelles entre patches,quatre (4) types de descripteurs de caractéristiques suivants sont alors calculés sur cha-cun à partir des pixels le constituant : Écart-type de colonne, Écart-type de ligne, Valeur
Trang 27est constitué par utilisation du clustering k-means (avec k=4) [7] Ce dictionnaire estensuite considéré comme le centre des clusters issus de l’apprentissage Chaque patched’une image test est alors mappé à un mot donné dont le centre du cluster est le plusproche du vecteur de caractéristiques de ce patche Les mots obtenus comme résultatssont alors rangés en séquences pour constituer des images de documents de tailles 60x40patches Ensuite il est procédé les calculs de similarité entre des pages consécutives d’unflux de documents.
b- Vecteur de caractéristique de transition
A cette étape, un seul vecteur de caractéristiques représentant la relation entre deuxpages consécutives est construit sur l’ensemble du flux de documents Les caractéristiquescontenues dans ce vecteur sont issues à la fois des mesures de similarité basée sur lesimages mentionnées précédemment et des caractéristiques textuelles Ces caractéristiquestextuelles sont extraites avec l’outil ABBYY FineReader Engine Le type et la tailledes polices constituent des caractéristiques déterminants pouvant permettre également larelation entre deux(2) pages consécutives La nature des relations entre les pages est alorsmatérialisée par les labels 0 ou 1 «0» signifie que deux(2) documents qui se suivent dans
un flux ne sont pas les mêmes tandis que «1» indiquent qu’ils le sont
c- Classification
Le vecteur de caractéristique de transition, comme expliqué précédemment, et tant un flux document passé comme entrée à un classifieur binaire afin de décider desclasses de transitions disponibles A cet effet, trois types différents de classifieur pour laclassification binaire sont utilisés à savoir : la machine à vecteurs de support (SVM), laforêt de décision aléatoire (RDF) et le perceptron multicouche (MLP)
représen-2.3.2.2- Résultats expérimentaux
Les expérimentations sont effectuées sur une base de donée composée de 267 documentshétérogènes avec un nombre total de 3268 pages Trois algorithmes différents d’analyse declassification du problème de classification binaire sont alors comparés dans cette étude.Pour chacun de ces algorithmes, le jeu de données est partitionné en sous-ensemblesd’apprentissage et de test dans un rapport de 50% à 50%
Des résultats obtenus, on déduit que le classifieur RDF surpasse les autres méthodes declassification en termes de critères d’évaluation des performances, sauf pour la valeur derappel Ce classifieur atteint une moyenne de précision de classification de 87,2% et valeur
de précision de 90,1%, qui sont initialement des résultats prometteurs pour ce problème
de segmentation du flux de documents hétérogènes