Etude et mise en oeuvre de segmentation documentaire par ma chine learning

Nous avons dans un premier temps extrait les caractéristiques de chaque document image du flux par vectorisation à l’aide de différents réseaux CNN.Ensuite, pour chaque cas d’extraction

Trang 1

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ

INSTITUT FRANCOPHONE INTERNATIONAL

ABALO Kokou

ETUDE ET MISE EN OEUVRE DE

SEGMENTATION DOCUMENTAIRE PAR

MACHINE LEARNING

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANỌ - 2020

Trang 2

UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ

INSTITUT DE LA FRANCOPHONIE POUR L’INNOVATION

ABALO Kokou

ETUDE ET MISE EN OEUVRE DE

SEGMENTATION DOCUMENTAIRE PAR

MACHINE LEARNING

Spécialité : Systèmes Intelligents et Multimédia

Code : Programme pilote

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de :

Mr Marc DENTY

Trang 4

Table des matières

1 Présentation du projet 3

1.1 Structure d’accueil 3

1.2 Contexte du projet 3

1.3 Problématique 3

1.4 Objectifs du stage 4

1.5 Périmètres du projet 4

2 État de l’art 5

2.1 Généralités sur l’apprentissage automatique 5

2.2 Les réseaux de neurones 5

2.2.1 Le perceptron multi couches 5

2.2.2 Réseau de neurones à convolution (CNN) 6

2.2.3 Les réseaux de neurones récurrents 7

2.3 Quelques articles connexes pertinents 8

2.3.1 Article 1 : Document Flow Segmentation for Business Applications[3] 8 2.3.2 Article 2 : An Approach to the Segmentation of Multi-page Document Flow Using Binary Classification[1] 12

2.3.3 Article 3 : Page Stream Segmentation with Convolutional Neural Nets Combining Textual and Visual Features[6] 14

2.3.4 Bilan récapitulatif des articles les plus pertinents étudiés 15

3 Solution proposée 17

Trang 5

3.2.4 InceptionV3 22

3.3 Vecteurs de caractéristiques de transition 22

3.4 Prédiction sans logique métier associée 23

3.4.1 MLP 23

3.4.2 LSTM 23

3.4.3 LSTM Bidirectionnel 24

3.5 Prédiction avec logique métier associée 25

3.6 Evaluation des modèles 26

3.7 Segmentation 26

4 Expérimentation et analyse des résultats 29

4.1 Pré-traitement des données 29

4.2 Première phase de réalisation 30

4.2.1 Vectorisation 30

4.2.2 Vecteurs de caractéristiques de transition 31

4.2.3 Tests suivant les différents modèles d’extraction de caractéristiques 31 4.3 Deuxième phase de réalisation 34

4.3.1 Test sur le corpus global 34

4.3.2 Prise en compte de la logique métier 35

4.4 Outils et environnement de travail 35

4.5 Difficultés du stage 36

Trang 6

Table des figures

1 Perceptron[5] 6

2 Classification multi classes 6

3 Convolution[2] 6

4 RNN 8

5 Organigramme de segmentation des documents, basé sur une classification super-visée (a) formation, (b) tests 9

6 Illustration du cas d’usage de la solution proposée 18

7 Illustration de l’architecture fonctionnelle de la solution proposée 19

8 Jeu de données de test et d’expérimentation 20

9 VGG16 - Caractéristiques d’entrée et de sortie 21

10 VGG19 - Caractéristiques d’entrée et de sortie 21

11 Xception - Caractéristiques d’entrée et de sortie 22

12 InceptionV3 - Caractéristiques d’entrée et de sortie 22

13 MLP - Architecture 23

14 LSTM - Architecture 24

15 LSTM Bidirectionnel - Architecture 25

16 Architecture prédiction de la classe métier 25

17 Simulation de découpage de flux 26

18 Aspect visuel général du corpus 29

19 Aspect visuel général du corpus apuré 30

20 Fichiers vectorisés 31

21 Extraction de caractéristiques et Prédiction MLP 32

22 Accuracy de Prédiction MLP 32

23 Vgg19 avec Prédiction RNN 32

24 Accuracy - Vgg19 avec Prédiction RNN 32

25 Variation de la taille de fenêtre de lecture 33

Trang 7

31 Statistiques de découpage par rapport au modèle vgg19 + LSTM Bidirectionnel

- Avec logique métier 35

32 Architecture VGG16 39

33 Architecture VGG19 39

34 Architecture Xception 40

35 Architecture Inception V3 40

Trang 8

Liste des tableaux

1 Représentation des caractéristiques 10

2 Evaluation de quelques approches de segmentation de flux de documents 15

3 Tableau récapitulatif des articles les plus pertinents étudiés 16

4 Labélisation classification binaire 20

5 Labélisation classification métier 20

6 MLP network hyperparameters 31

Trang 9

− L’Institut Francophone International (IFI) en cotutelle avec l’Université de la Rochelle, et

de tous les professeurs, pour leur enseignement et leurs rigueurs ;

− Laboratoire Tessi Lab pour l’accueil et le suivi de ce stage ;

− Mes encadrants pour les explications, les conseils, les différentes pistes de réflexion etl’appui technique dans mon encadrement

Trang 10

Le présent mémoire s’inscrit dans le contexte de la gestion électronique de documents avec lesdifférents concepts et technologies de l’Intelligence Artificielle Avec l’avènement des TICs, la nu-mérisation, le stockage et la gestion de documents papier devient un volet incontournable dans

le maintien du système d’information de toutes organisations La structuration du stockage deces informations requiert en amont des méthodes et techniques, en particulier dans le cas denumérisation par lots de grande quantité de documents Ainsi la séparation automatique du flux

de pages numérisées en ensembles continus de pages correspondant aux documents physiquesest une étape importante qui, toutefois, implique des problématiques

Le travail réalisé porte sur l’étude de différentes méthodes de segmentation de flux de documentsnumérisés par Machine Learning Pour ce faire, nous avons d’une part, fait usage de réseaux

de neurones à convolution (CNN) combinés avec du réseau MLP (Multi-Layer Perceptron) etd’autre part, de réseaux de neurones à convolution combinés avec le réseau RNN (RecurrentNeural Network)

L’objectif étant de tester ces deux approches en afin d’identifier laquelle est la mieux adaptéepour les données image à traiter Le noeud du problème à résoudre était de déterminer la nature

de la transition entre deux pages successives : “continuité du même document” (CD) ou “débutd’un nouveau document” (ND) Nous avons dans un premier temps extrait les caractéristiques

de chaque document image du flux par vectorisation à l’aide de différents réseaux CNN.Ensuite, pour chaque cas d’extraction de vecteurs de caractéristiques, nous avons combiné sui-vant différents modes, et ce sur une fenêtre donnée, ces vecteurs de pages consécutives en unseul vecteur de caractéristiques de transition Ce dernier alors est passé à un classificateur bi-naire MLP ou RNN selon l’approche choisi afin de déterminer le type de transition entre lespages consécutives Des résultats obtenus, nous avons procédé au regroupement des pages cor-respondant à chaque document Enfin nous avons effectué les tests de précision par rapport

au découpage du flux en documents en vue d’évaluer la performance de chaque approche Nosévaluations ont en effet révélé que la méthode de segmentation du flux de documents utilisant

la combinaison des modèles VGG19 et LSTM Bidirectionnel est la plus performante

Afin d’optimiser les résultats obtenus à partir de l’approche retenue, nous avons associé à cettedernière la logique métier Pour cela nous avons couplé en parallèle au modèle de classificationbinaire obtenu un modèle permettant de déterminer la catégorie de chaque document Ensuite,

Trang 11

Mots clés : Apprentissage supervisé, Réseaux de neurones convolutifs, Réseaux de neurones

récurrent, Deep learning, Machine learning, Extraction de caractéristiques, Segmentation cumentaire, classification de documents images, Classification binaire, Gestion électronique dedocuments

Trang 12

This Master thesis report is part of the electronic documents management field with ficial Intelligence philosophy and technologies Through the advent of ICTs, digitization,storage and management of paper documents become a main component with all orga-nizations information systems’ maintaining Structuring the storage of this kind of datarequires methods and techniques upstream, in particular in the case of batch scanning

Arti-of large quantities Arti-of documents Thus the automatic segmentation Arti-of the scanned pagesflow into continuous sets of pages corresponding to physical documents is an importantstep which, however, involves difficulties

The work carried out through this report relates to the study of different methods ofsegmenting scanned documents flow by a Machine Learning based system To do this,

on one hand, we used convolutional neural networks (CNN) combined with the MLP(Multi-Layer Perceptron) network and, on the other hand, convolutional neural networkscombined with the RNN network (Recurrent Neural Network)

The goal is to test these two approaches in order to identify which one is the best suitedfor the image data to be processed The crux of the problem to be solved was to determinethe type of nature of the transition between two consecutive pages : "continuity of thesame document" (CD) or "beginning of a new document" (ND) We first extracted thecharacteristics of each document image from the workflow by vectorization using differentCNN frameworks

Then for each case of extraction of feature vectors, we have combined through differentway, and this over a given frame size, these vectors of consecutive pages into a single vector

of transition feature vector The resulting feature vector is then passed through a binaryMLP or RNN classifier depending on the approach chosen in order to determine the type

of transition between consecutive pages From the results obtained, we proceeded to groupthe pages corresponding to each document Finally, we performed statistical tests related

to the documents image stream segmentation into unique documents in order to assessthe performance of each approach Our evaluations revealed that the document flow seg-mentation method using the combination of the VGG19 and Bidirectional LSTM models

is the most efficient In order to optimize the results obtained from the chosen approach,

we have associated the business logic with the latter For that reason, we have coupled,

in parallel to the binary classification model obtained, a model allowing to determine the

Trang 13

works, Deep learning, Machine learning, Feature extraction, Documentary segmentation,documents images classification, Binary classification, Electronic document management.

Trang 14

Multi Layer Perceptron : MLP

Deep Learning : DL

Recurrent Neuronal Network : RNN

Long short-term memory : LSTM

Convolution Neuronal Network : CNN

Page précédente à la page en cours : P i−1

Page deuxième précédente à la page en cours : P i−2

Page suivante à la page en cours : P i+1

Page deuxième page suivante à la page en cours : P i+2

Trang 15

INTRODUCTION GENERALE

La recherche scientifique ne cesse de progresser dans la mise en place de nouveaux conceptspour faciliter le quotidien de l’homme Dans la mêlée, les sciences informatiques en géné-ral et l’Intelligence Artificielle en particulier regorgent d’innovations Les algorithmes dehaut niveau supplantent de plus en plus les tâches manuelles fastidieuses et complexes.Ainsi de multiples activités humaines bénéficient des avantages de l’avancée des TICs.C’est d’ailleurs dans cette optique que moultes entreprises et organisations se procurentdes systèmes informatiques de plus en plus performants

En effet, en se référant au cas de figure de gestion d’archives par le passé, les documentsmanuscrits ou dactylographiés ou encore imprimés sont stockés physiquement dans destiroirs et classeurs Mais au fil du temps, ces documents deviennent volumineux et encom-brants dans les bureaux et services Aussi la recherche d’un document quelconque parmiles tas de papiers devenait difficile et fastidieuse, à cause des temps de fouille souventassez longs, et aussi parfois impossible Cette situation embarrassante a conduit, dans unpremier temps, à la numérisation simple des documents Ces derniers sont numérisés etstockés dans les ordinateurs et sur différents supports Ces documents stockés devenaient

à leur tour aussi énormes et par conséquent ont commencé par engendrer également desdifficultés de gestion et de manipulation

Il est fastidieux de retrouver un document par les méthodes basiques Les difficultés liées

à la recherche d’un fichier pourront se remarquer d’une part Lorsqu’on veut se servird’un outil de recherche intégré au système d’exploitation d’autre part, le problème est en-core plus prononcé dans ce contexte Cela pouvait conduire parfois au découragement oudésintéressement des utilisateurs qui ne sont le plus souvent pas du domaine de l’informa-tique, mais qui s’en servent juste dans l’accomplissement de leurs tâches professionnelles.L’apparition des scanners industriels accentue cette problématique avec la numérisationpar lots Pour y remédier, différents concepts apparaissent et sont implémentés à traversdes applications métiers Avec ces dernières, on effectue en amont la séparation des flux

de pages en insérant manuellement des pages de séparation ou des marques lisibles par

la machine dans le flux au cours de la numérisation [3] Néanmoins, le processus de tri etd’introduction des feuilles de séparation s’avère fastidieux, cỏteux et parfois sujet auxerreurs

Cependant, avec les concepts de l’IA, beaucoup d’organisations se lancent pour défi leurmise en application dans la gestion des systèmes d’informations et dans les procédures detravail L’application de l’IA au processus de découpage de flux de documents numérisés

en constitue un cas

C’est justement dans ce contexte que s’inscrit notre sujet de stage initié par la société

Trang 16

Tessi Lab et intitulé : “ Etude et mise en oeuvre de segmentation documentaire par chine Learning” Il s’agit de développer un système de séparation automatique capable

Ma-de segmenter un flux Ma-de documents sans aucune information préalable sur le nombre Ma-depages ou la catégorie de documents Ce type de système, basé sur le Machine Learning,devrait analyser le contenu des pages successives et indiquer les pages limites du flux dedocuments ó chaque document peut représenter un ensemble de pages successives bienordonnées

Afin de parvenir à la réalisation de notre solution, nous avons organisé notre travail autour

de quatre(4) grands chapitres

Le Chapitre 1 intitulé "Présentation du projet" présente notre cadre de stage ainsi que laproblématique et les objectifs de notre travail

Le Chapitre 2 ayant pour titre "État de l’art" présente l’étude bibliographique concernant

la segmentation documentaire, les différentes méthodes et architectures d’ApprentissageAutomatique utilisées pour cette problématique

Dans le Chapitre 3 intitulé "Solution Proposée", nous abordons les solutions envisagées àl’issu des différentes approches de résolution basées sur l’apprentissage automatique expo-sées dans l’état de l’art Nous faisons usage de combinaison de CNN et MLP d’une part, etd’autre part de CNN et RNN Afin d’identifier le meilleur taux de précision, quelque soit

la méthode utilisée, nous ferons des tests par rapport à différents modes de combinaison

de caractéristiques

En dernier lieu, nous présentons les différents résultats des expérimentations et approchesutilisées sur les flux de documents image de même que les comparaisons entre les mé-thodes utilisées dans le chapitre que nous intitulons "Implémentation, expérimentation etanalyse des résultats"

Trang 17

développe-Les clients du groupe Tessi concernent principalement les banques, assurances et sociétés

du secteur financier et immobilier Il prend ainsi en charge aujourd’hui, à travers dix (10)centres de traitement industriel et douze(12) ateliers de proximité, la dématérialisation

de flux de documents et la réalisation d’autres tâches de back office pour ces clients

Les outils technologiques utilisées dans les centres et ateliers du groupe Tessi sont produitspar Tessi lab via sa plateforme logicielle dénommée Tessi lab document reader (TLDR) quiest une solution innovante d’OCR et d’analyse de documents non formatés et qui cherche

à répondre à une demande de reconnaissance de documents spécifiques dans un contexteindustriel Cette plateforme s’agrège continuellement de nouvelles fonctionnalités pour saperformance et son efficacité d’une part vis-à-vis des exigences du clients et d’autre partpour tirer avantages de la veille technologique C’est fort de ce dernier aspect qu’est initiénotre sujet de stage

En effet, l’environnement de production Tessi dématérialise des courriers de façon massive.Ces documents sont numérisés et stockés de manière structurée Cependant, la structu-ration du stockage des documents numérisés à des fins d’usage métier est subordonnée

à la séparation automatique du flux de pages scannés en ensembles continus de pagescorrespondant aux documents physiques Cette étape de séparation automatique requiert

en amont des méthodes et techniques, en particulier dans le cas de numérisation par lots

de grande quantité de documents Pour ce faire, on effectue la séparation des flux de pages

à numériser en insérant manuellement des feuilles dites « séparateurs » ou des marqueslisibles par une machine, telles que des codes à barres, pour indiquer la fin d’un document.Cependant, cette approche s’avère fastidieuse, cỏteuse et parfois sujette aux erreurs :

− Dans le cas des séparateurs de pages, ceux-ci doivent être insérés correctement avant

le balayage des pages et, s’ils ne doivent pas être réutilisés, supprimés par la suite ;

Trang 18

− Puisqu’il s’agit des opérations à volume élevé, les cỏts engendrés par cette méthodepeuvent être énormes.

Il s’agit de mettre en place un système de Machine Learning permettant de :

− Supprimer le positionnement de séparateurs physiques dans la segmentation des flux

de documents ;

− Automatiser la tâche de séparation de documents ;

− Gagner en temps d’exécution et limiter les ressources nécessaires ;

− Avoir un système fiable et générique avec un taux d’erreur faible

Le système d’apprentissage à réaliser devra prendre en compte les éléments suivants dansles données à traiter :

− Zone de texte

− La taille des polices du texte

− Zone d’image ou de logo

− Tableaux

− Zone de texte manuscrite

− Ligne de signature électronique

− Zone de signature manuscrite

− Zone de cachet à l’encre

− Les rotations légères de documents scannés (donc de rotation légère de ligne)

− Les rotations à 180◦ de documents scannés

Trang 19

Chapitre II

2 État de l’art

L’apprentissage automatique encore appelé "Machine Learning" est un processus qui crée

un modèle à partir d’un jeu de données d’entraỵnement, dans le but, par exemple, declassifier, mesurer ou prendre des décisions sur de nouvelles données On distingue deuxtypes d’apprentissage :

− L’apprentissage supervisé, qui consiste à analyser un jeu de données empiriques,appelée base de données d’entraỵnement Ces données sont étiquetées ou labellisées,c’est à dire associées à une description ou information, afin de pouvoir caractériser

un jeu de données inconnu L’algorithme d’apprentissage apprend ainsi à partir deplusieurs milliers d’exemples étiquetés en établissant la relation qui permet de relierles données aux labels

− L’apprentissage non supervisé, ó l’algorithme doit opérer en l’absence tions

2.2.1 Le perceptron multi couches

Le MLP (Multi Layer Perceptron), perceptron multicouche, est un type de réseaux deneurones formels organisé en plusieurs couches au sein desquelles une information circule

de la couche d’entrée vers la couche de sortie uniquement Il s’agit donc d’un réseau àpropagation directe (feedforward) Chaque couche (de la première et dernière couche) estconstituée d’un nombre variable de neurones Les neurones de la dernière couche dite «

de sortie » étant les sorties du système global Le MLP est formé d’une première couched’unités (ou neurones) qui permettent de « lire » les données Chaque unité correspond

à une des variables d’entrée On peut rajouter une unité appelée biais qui est toujoursactivée (Figure 1) dont l’intérêt est de déterminer si un neurone est activé et d’augmenter

la flexibilité du modèle Ces unités sont reliées à une seule et unique unité de sortie, quireçoit la somme des unités qui lui sont reliées, pondérée par des poids de connexion

w j L’unité de sortie applique alors une fonction d’activation à cette sortie Dans le casd’un problème de régression (Figure 1), il n’est pas nécessaire de transformer la sommepondérée reçue en entrée La fonction d’activation est la fonction identité nommée a, elleretourne ce qu’elle a reçu en entrée

Soient : a la fonction identité, w0 le biais, w j le j ieme poids, x p la p ieme entrée, y (i) la sortie

du modèle

Trang 20

Figure 1 – Perceptron[5]

Dans le cas d’un problème de classification multi classes, nous pouvons modifier ture du perceptron (Figure 2) Au lieu d’utiliser une seule unité de sortie, il est possibled’en utiliser autant que de classes Chacune de ces unités sera connectée à toutes les unités

l’architec-d’entrée On aura donc ainsi n(x i) poids de connexion, ó n est le nombre de neuronespar couche et x est le nombre d’entrée

Figure 2 – Classification multi classes

L’entraỵnement d’un perceptron est donc un processus itératif Après chaque observation,nous pouvons ajuster les poids de connexion de sorte à réduire l’erreur de prédiction faitepar le perceptron dans son état actuel

2.2.2 Réseau de neurones à convolution (CNN)

Trang 21

Les réseaux de neurones à convolution sont une forme particulière de réseaux de neuronesmulti-couches dont l’architecture de connexions est inspirée de celle du cortex visuel desmammifères Pour mieux comprendre le fonctionnement d’un réseau de neurones à convo-lution, nous allons prendre un exemple simplifié et chercher à déterminer si une imagereprésente un X ou un O Le CNN n’a qu’une seule tâche à réaliser :

chaque fois qu’on lui présente une image, il doit décider si cette image représente un X

ou un O

Leur conception suit les mécanismes visuels des êtres vivants Ces réseaux de neuronesartificiels (aussi baptisés réseaux de neurones à convolution ou CNN) sont capables decatégoriser les informations des plus simples aux plus complexes Ils consistent en unempilage multi-couches de neurones, des fonctions mathématiques à plusieurs paramètresajustables, qui pré-traitent de petites quantités d’informations Les réseaux convolutifssont caractérisés par leurs premières couches convolutives (généralement une à trois) Unecouche convolutive est basée, comme son nom l’indique, sur le principe mathématique deconvolution (Figure 3) et cherche à repérer la présence d’un motif (dans un signal ou dansune image par exemple)

Pour une image, la première couche convolutive peut détecter les contours des objets(par exemple un cercle), la seconde couche convolutive peut combiner les contours enobjets (par exemple une roue) et les couches suivantes (non nécessairement convolutives)peuvent utiliser ces informations pour distinguer les objets se trouvant dans l’image Unephase d’apprentissage sur des objets connus permet de trouver les meilleurs paramètres

en montrant par exemple à la machine des milliers d’images de X et O L’un des jeux est de trouver des méthodes pour ajuster ces paramètres le plus rapidement et leplus efficacement possible Les réseaux de neurones à convolution sont utilisés dans denombreuses domaines comme la reconnaissance d’images, de vidéos ou le traitement dulangage naturel

en-2.2.3 Les réseaux de neurones récurrents

RNN est un type d’ANN, qui a une connexion récurrente avec lui-même Cette connexion

récurrente permet à RNN d’apprendre l’effet de l’entrée précédente x t−1 avec l’entrée

actuelle x t tout en prédisant la sortie à l’instant textit t Cela donne aux RNN le sens

du contexte temporel

Ci-dessous est une figure qui montre la vue d’un RNN Comme le montre la figure, lesactivations de couche cachées calculées à l’instant textit t-1 sont introduites en entrée àl’instant textit t

Trang 22

Figure 4 – RNN

Un réseau récurrent contient un état qui est mis à jour après chaque pas de temps, cequi permet aux réseaux récurrents de modéliser des longueurs arbitraires de donnéesséquentielles ou diffusées, par ex texte Le réseau commence avec un état zéro qui estensuite mis à jour en fonction des poids, des biais et de l’entrée de longueur fixe aprèschaque pas de temps

Les équations ci-dessous décrivent la couche cachée textit h à l’instant textit t et tion qui décrit la couche de sortie du réseau RNN

l’équa-h t = H(W xh ∗ x t + W hh ∗ h t−1 + b h)

y t = W hy ∗ h t + b y

La formation du RNN se fait normalement en estimant la sortie probable suivante dans

la séquence, puis en modifiant les poids en conséquence Cependant, considérons un flux

de données pour lequel une prédiction est effectuée à chaque pas de temps, chaque diction sera basée sur l’entrée actuelle et toutes les entrées précédentes Il est donc trèsdifficile de former avec précision le réseau car les gradients disparaîtront ou exploserontprogressivement plus les séquences seront longues

Des travaux effectués par des équipes de chercheurs dans le contexte de la segmentation

du flux de documents nécessitent d’être explorés en vue de mieux définir les contours denotre approche de solution Nous allons à cet effet présenter les grandes lignes de certains

Trang 23

un algorithme qui traite le flux de documents comme des paires de pages consécutives

et étudie la relation qui existe entre ces dernières Ainsi chaque image individuelle de laséquence est classée comme continuité du même document (CD) ou début d’un nouveaudocument (ND) Pour cette classification binaire, ces auteurs s’appuient sur des carac-téristiques textuelles extraites des résultats OCR et classent les pages avec SVM et lesperceptrons multicouches (MLP)

2.3.1.1-Démarche

Afin de réaliser ce travail, ces auteurs ont proposé une approche comportant trois paux modules à savoir :

princi-− l’extraction des caractéristiques ;

− la modélisation relationnelle d’une paire de pages ;

− la classification

La figure 5 illustre ces trois principaux modules de l’approche proposée

Figure 5 – Organigramme de segmentation des documents, basé sur une classification supervisée (a)

formation, (b) tests

a- Extraction de caractéristiques

L’extraction des caractéristiques consiste dans un premier temps en l’analyse des ments textuels se trouvant dans les documents commerciaux en vue de déterminer s’ilexiste une possibilité de continuité ou de rupture entre deux pages consécutives Pour cefaire, de chaque page sont extraits des éléments indicateurs par OCR Le résultat obtenu

élé-de l’extraction est sous format XML composé élé-de différents éléments caractéristiques Ceséléments sont classés en neuf (9) types à savoir : date, heure, téléphone, code zip, les

Trang 24

caractères alphanumériques, les nombres, les numéros de page, les expressions de tion et les marges Chaque type est associé à une fonction permettant son extraction del’ensemble des caractéristiques obtenus.

saluta-Par exemple, pour une page pi, la fonction f1 extrait toutes les dates de la page, f2 les

heures, f7 le numéro de page, et ainsi de suite Au cas ó la fonction ne trouve aucunélément correspondant à son type, elle retourne un ensemble vide (Tableau 1)

Ensuite vient l’étape de modélisation du rapport existant entre deux(2) pages tives : continuité ou rupture

consécu-Table 1 – Représentation des caractéristiques

b- Modélisation des relations

Afin de modéliser la relation entre deux pages consécutives p i et p i+1, et ainsi identifier s’il

y a continuité ou rupture, ces auteurs ont adopté l’approche de modélisation de relationentre les couples de pages consécutives de la façon suivante :

− Chaque page est représentée par un vecteur v i de dimension neuf (9), cette valeurétant le nombre de tous les types de caractéristiques ;

− L’intersection entre les vecteurs représentant deux(2) pages consécutives est alors

Trang 25

− "-1" s’il n’y a pas d’intersection, implique que les caractéristiques existent mais sontdifférentes, traduisant une segmentation ou une rupture ;

− " 0 ”représente à la fois les ensembles de motifs ou l’un d’eux dans v i et v i+1 estvide ; il n’y a pas de correspondance entre les caractéristiques ou les caractéristiquesn’existent pas, ce qui traduit un rejet potentiel

c- Classification

Le classifieur prend en entrée, les vecteurs représentant le couple de pages Le classificateurclasse chaque couple de pages entrant comme appartenant au même document Il est aussiassocié à la décision du classificateur une couche supplémentaire basée sur les probabilitésd’appartenance à une classe afin d’affiner la classification

b- Analyste des résultats

Afin de comprendre ce qui a causé les erreurs d’identification de continuité ou rupture dedocuments, les auteurs ont analysé les résultats sur la base de données 4 qui représente

la plus grande base de données

Dans le cas ó les ruptures ont été classées comme des continuités, ils ont compté currence de descripteurs indiquant la continuité La même analyse a été effectuée sur les

l’oc-erreurs de continuité Des analyses il en ressort que les caractéristiques f1, f6 et f9 sontcelles qui apparaissent le plus souvent dans les cas des erreurs de rupture ou de continuité.Ainsi il en résulte que les autres fonctionnalités sont peu discriminantes

Trang 26

Remarque : L’approche de ces auteurs prend juste en compte les textes ; d’autres élémentscomme les tableaux, les logos ou images n’y sont pas inclus.

2.3.2 Article 2 : An Approach to the Segmentation of Multi-page Document

Flow Using Binary Classification[1]

Dans cet article, tout comme dans l’article précédent, les auteurs présentent une méthode

de segmentation du flux de pages de documents appliquée à des documents bancaireshétérogènes Leur approche est basée sur le contenu des images et intègre également desfonctionnalités basées sur les polices dans les documents Cette méthode implique unmodèle de sac de mots visuels (BoVW) sur les descripteurs de caractéristiques basés surdes images conçues et une nouvelle approche pour combiner les pages consécutives d’undocument en un seul vecteur de caractéristiques représentant la transition entre ces pages

À l’aide des vecteurs de caractéristiques de transition, ils utilisent trois classificateursbinaires différents pour établir des prédictions sur la relation entre des pages consécutives

2.3.2.1-Démarche

Afin de réaliser ce travail, ces auteurs ont opté pour la méthode suivante déclinée en trois(3) étapes :

− La détermination des descripteurs de caractéristiques d’image ;

− L’utilisation du modèle BoVW et de l’approche de correspondance Visual Wordspour obtenir des similitudes d’image ;

− La représentation du vecteur de caractéristique de transition et l’analyse de différentsclassificateurs binaires

Les travaux de ces chercheurs ont porté sur les images binaires, et donc les valeurs despixels ne peuvent prendre que 0 ou 1 Au lieu de faire usage des méthodes SIFT[4] quisont couramment utilisées dans la réalisation de nombreuses applications de vision parordinateur, ces auteurs découpent chaque document image en petits patches (60x40) repré-sentant ainsi de petites régions de l’image et ayant un nombre minimal de caractéristiquesfacilement extractibles En vue de déterminer les variations structurelles entre patches,quatre (4) types de descripteurs de caractéristiques suivants sont alors calculés sur cha-cun à partir des pixels le constituant : Écart-type de colonne, Écart-type de ligne, Valeur

Trang 27

est constitué par utilisation du clustering k-means (avec k=4) [7] Ce dictionnaire estensuite considéré comme le centre des clusters issus de l’apprentissage Chaque patched’une image test est alors mappé à un mot donné dont le centre du cluster est le plusproche du vecteur de caractéristiques de ce patche Les mots obtenus comme résultatssont alors rangés en séquences pour constituer des images de documents de tailles 60x40patches Ensuite il est procédé les calculs de similarité entre des pages consécutives d’unflux de documents.

b- Vecteur de caractéristique de transition

A cette étape, un seul vecteur de caractéristiques représentant la relation entre deuxpages consécutives est construit sur l’ensemble du flux de documents Les caractéristiquescontenues dans ce vecteur sont issues à la fois des mesures de similarité basée sur lesimages mentionnées précédemment et des caractéristiques textuelles Ces caractéristiquestextuelles sont extraites avec l’outil ABBYY FineReader Engine Le type et la tailledes polices constituent des caractéristiques déterminants pouvant permettre également larelation entre deux(2) pages consécutives La nature des relations entre les pages est alorsmatérialisée par les labels 0 ou 1 «0» signifie que deux(2) documents qui se suivent dans

un flux ne sont pas les mêmes tandis que «1» indiquent qu’ils le sont

c- Classification

Le vecteur de caractéristique de transition, comme expliqué précédemment, et tant un flux document passé comme entrée à un classifieur binaire afin de décider desclasses de transitions disponibles A cet effet, trois types différents de classifieur pour laclassification binaire sont utilisés à savoir : la machine à vecteurs de support (SVM), laforêt de décision aléatoire (RDF) et le perceptron multicouche (MLP)

représen-2.3.2.2- Résultats expérimentaux

Les expérimentations sont effectuées sur une base de donée composée de 267 documentshétérogènes avec un nombre total de 3268 pages Trois algorithmes différents d’analyse declassification du problème de classification binaire sont alors comparés dans cette étude.Pour chacun de ces algorithmes, le jeu de données est partitionné en sous-ensemblesd’apprentissage et de test dans un rapport de 50% à 50%

Des résultats obtenus, on déduit que le classifieur RDF surpasse les autres méthodes declassification en termes de critères d’évaluation des performances, sauf pour la valeur derappel Ce classifieur atteint une moyenne de précision de classification de 87,2% et valeur

de précision de 90,1%, qui sont initialement des résultats prometteurs pour ce problème

de segmentation du flux de documents hétérogènes

Định dạng
Số trang	55
Dung lượng	2,52 MB