1. Trang chủ
  2. » Cao đẳng - Đại học

THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – luận văn

62 745 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 2,21 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DT7 là tài liệu chia sẽ nếu có vi phạm bản quyền tác giả hãy liên hệ dangtinn306@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Remerciement J’adresse mes remerciements aux personnes qui m’ont aide´ dans la re´alisation de ce me´moire. En premier lieu, je tiens a` exprimer toute ma reconnaissance a` mes deux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY. Je les remercie de m’avoir encadre´, oriente´e, aide´e et conseille´e. Je les remercie aussi d’avoir e´te´ tre`s patients pour m’encourager a` comple´ter le me´moire quand j’e´tais dans les moments difficiles. J’adresse mes since`res remerciements a` mes professeurs a` l’IFI : Monsieur HO Tuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van Tu pour leur encouragement. Je tiens a` remercier mes chers parents, et mon cher mari VU Viet Minh qui ont toujours e´te´ la` pour moi. Finalement, je remercie tre`s spe´cialement mes amis : Chanthala SENTHAVONG et Damien PHILLIPON pour leur since`re amitie´ et confiance, leur soutien incon- ditionnel et leur encouragement. A` tous ces intervenants, je pre´sente mes remerciements, mon respect et ma grati- tude. i Table des matie`res Re´sume´ iii Abstract iv Liste des Figures v Liste des Tableaux vi 1 Introduction 1 1.1 Contexte et motivation . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Proble´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Objectifs du travail et principales contributions . . . . . . . . . . . 7 2 E´tat de l’art des me´thodes de phrases visuelles 9 2.1 Phrases visuelles construites par feneˆtres coulissantes . . . . . . . . 9 2.2 Groupes de plus proches voisins . . . . . . . . . . . . . . . . . . . . 15 2.3 Chaˆınes des mots visuels . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 Phrases visuelles construites par re´gions . . . . . . . . . . . . . . . 25 3 Mise en œuvre de quelques me´thodes 30 3.1 Protocole expe´rimental . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Me´thode de sacs de phrases visuelles descriptives . . . . . . . . . . 31 3.3 Sacs de sacs de mots visuels . . . . . . . . . . . . . . . . . . . . . . 33 4 Expe´rimentation et discussion 37 4.1 Me´thode d’e´valuation . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Les base d’images utilise´es . . . . . . . . . . . . . . . . . . . . . . . 38 4.3 Analyse des re´sultats . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5 Conclusion 46 A Re´sultats de´taille´s 48 Bibliographie 50 ii Re´sume´ Ces dernie`res anne´es, l’analyse des images par le contenu est devenue un sujet d’e´tude populaire. Parmi de nombreuses me´thodes propose´es, le mode`le de sacs de mots visuels semble prometteur. Il a retenu l’attention des scientifiques avec plusieurs ide´es d’ame´lioration. Parmi ces ide´es, les me´thodes de sac de phrases visuelles sont tre`s bien e´tudie´es mais il n’y a pas a` notre connaissance de document qui re´alise une synthe`se de celles-ci, formellement et expe´rimentalement. Ce travail est donc une e´tude syste´matique avec un regroupement des approches de sacs de phrases visuelles selon la me´thode de construction d’une phrase. De plus, les performances de certaines me´thodes sont aussi e´tudie´es. Parmi les me´thodes de sacs des phrases visuelles, deux me´thodes sont choisies et re-imple´mente´es. Elles sont ensuite analyse´es sur les aspects de performance et de complexite´ (temps d’exe´cution) avec des expe´riences de recherche d’images par le contenu. iii Abstract In recent years, content based image analysis hqs been extensively studied. Among the nu,erous proposed methods, the bag of visual words model seems promising with interesting experimental results. It

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL

ĐÀO THỦY NGÂN

CONCEPTION D'UNE HIÉRARCHIE SÉMANTIQUE ET SPATIALE DE DESCRIPTEURS LOCAUX VISUELS

THIẾT KẾ MỘT HỆ THỐNG PHÂN CẤP NGỮ NGHĨA

VÀ KHÔNG GIAN CỦA CÁC CHỈ SỐ

MÔ TẢ TRỰC QUAN ĐỊA PHƯƠNG

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

HANOI – 2016

Trang 3

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs La source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn

đã được chỉ rõ nguồn gốc

Signature de l’étudiant

Trang 4

J’adresse mes remerciements aux personnes qui m’ont aid´e dans la r´ealisation de

ce m´emoire En premier lieu, je tiens `a exprimer toute ma reconnaissance `a mesdeux encadrants : Madame Muriel VISANI et Monsieur Thierry URRUTY Jeles remercie de m’avoir encadr´e, orient´ee, aid´ee et conseill´ee Je les remercie aussid’avoir ´et´e tr`es patients pour m’encourager `a compl´eter le m´emoire quand j’´etaisdans les moments difficiles

J’adresse mes sinc`eres remerciements `a mes professeurs `a l’IFI : Monsieur HOTuong Vinh, Monsieur NGUYEN Hong Quang, et Madame NGUYEN Thi Van

Tu pour leur encouragement

Je tiens `a remercier mes chers parents, et mon cher mari VU Viet Minh qui onttoujours ´et´e l`a pour moi

Finalement, je remercie tr`es sp´ecialement mes amis : Chanthala SENTHAVONG

et Damien PHILLIPON pour leur sinc`ere amiti´e et confiance, leur soutien ditionnel et leur encouragement

incon-`

A tous ces intervenants, je pr´esente mes remerciements, mon respect et ma tude

grati-i

Trang 5

Table des mati` eres

1.1 Contexte et motivation 1

1.2 Probl´ematique 2

1.3 Objectifs du travail et principales contributions 7

2 Etat de l’art des m´´ ethodes de phrases visuelles 9 2.1 Phrases visuelles construites par fenˆetres coulissantes 9

2.2 Groupes de plus proches voisins 15

2.3 Chaˆınes des mots visuels 21

2.4 Phrases visuelles construites par r´egions 25

3 Mise en œuvre de quelques m´ethodes 30 3.1 Protocole exp´erimental 30

3.2 M´ethode de sacs de phrases visuelles descriptives 31

3.3 Sacs de sacs de mots visuels 33

4 Exp´erimentation et discussion 37 4.1 M´ethode d’´evaluation 37

4.2 Les base d’images utilis´ees 38

4.3 Analyse des r´esultats 42

ii

Trang 6

de phrases visuelles selon la m´ethode de construction d’une phrase De plus, lesperformances de certaines m´ethodes sont aussi ´etudi´ees Parmi les m´ethodes desacs des phrases visuelles, deux m´ethodes sont choisies et re-impl´ement´ees Ellessont ensuite analys´ees sur les aspects de performance et de complexit´e (tempsd’ex´ecution) avec des exp´eriences de recherche d’images par le contenu.

iii

Trang 7

In recent years, content based image analysis hqs been extensively studied Amongthe nu,erous proposed methods, the bag of visual words model seems promisingwith interesting experimental results It raised the attention of several scientistswith many ideas for improvement Among these ideas, bag of visual phrases me-thods are very well studied but there is, to the best of our knowledge, no documentwhich provides a formal and experimental synthesis This work is therefore a sys-tematic study with a categorization of bag of visual phrases approaches according

to the method of construction of a phrase In addition, the performance of somemethods is also reviewed Among the bag of visual phrases methods, two methodsare selected and re-implemented They are then compared on performance andcomplexity (runtime) with some experiments on content based image retrieval

iv

Trang 8

Liste des Figures

1.1 Illustration de l’´etape d’indexation des mots visuels1 4

2.1 Exemple de la fenˆetre coulissante 10

3.1 L’histogramme spatial pour g´en´erer les phrases visuelles candidates2 32

4.1 Exemples de la base d’image MIRFLICKF-250001 38

4.2 Exemples des bases d’images utilis´ees 40

4.3 Temps d’ex´ecution de la m´ethode BBW sur les bases d’imagesdiff´erentes 45

A.1 R´esultats d´etaill´es sur la base ImageNet 48

A.2 R´esultats d´etaill´es sur la base Caltech 49

v

Trang 9

Liste des Tableaux

2.1 M´ethodes de phrases visuelles construites par fenˆetres coulissantes 13

2.2 M´ethodes de plus proches voisins 18

2.3 M´ethodes de chaˆınes de mots visuels 23

2.4 M´ethodes de phrases visuelles construites par r´egion 28

4.1 Le nombre d’images dans les bases d’images 41

4.2 mAP des m´ethodes sur les bases d’images diff´erentes 42

4.3 Temps d’ex´ecution des m´ethodes sur les bases d’images diff´erentes 44

vi

Trang 10

du contenu des images.

L’analyse des images par le contenu est donc un sujet de recherche tr`es ´etudi´er´ecemment Appartenant au domaine de la vision artificielle, une branche del’intelligence artificielle, il s’agit d’un domaine s´eduisant, pratique et dynamiqueavec des possibilit´es d’applications multiples Dans l’ordinateur, les images sontrepr´esent´ees simplement par des chiffres Cependant, au niveau des objets, lesimages peuvent avoir plusieurs caract´eristiques sp´eciales Par exemple, les docu-ments textuels sont constitu´es des mots d´efinis par une langue qui va alors enlimiter leur sens, alors que pour les images, le contenu visuel peut ˆetre tr`es vari´e(une plage, une montagne ou bien mˆeme de l’abstrait) La vari´et´e du contenu desimages refl`ete la vari´et´e dans le monde r´eel Dans le monde visuel, un objet peut

1

Trang 11

Introduction 2

avoir plusieurs formes, plusieurs ´etats et plusieurs couleurs Par exemple, un son peut ˆetre grand, petit, long ou rond La couleur d’un mˆeme objet dans lesdiff´erentes images peut varier selon les conditions de capture, et notamment l’illu-mination Par contre, certains objets peuvent avoir la mˆeme couleur et la mˆemeforme Il est difficile d´ej`a pour l’ˆetre humain de distinguer, par exemple, un chien

pois-et un loup L’analyse des images par le contenu pr´esente donc plusieurs d´efis

Ce m´emoire a ´et´e effectu´e dans le cadre d’un stage de fin d’´etude qui s’inscritdans le contexte du projet CINEDI, financ´e par le CNRS au travers du Groupe deRecherche ISIS (Information, Signal, Image et ViSion) Ce projet traite de l’analysed’images par le contenu, en vue de l’utilisation d’outils de navigation dans desbases d’images, ou de recherche par exemple Le stage s’est d´eroul´e au LaboratoireInformatique, Image et Interaction (L3i) qui est le laboratoire de recherche dudomaine Sciences du Num´erique de l’Universit´e de la Rochelle (France), sous leco-encadrement de Madame Muriel Visani (universit´e de La Rochelle) et MonsieurThierry Urruty (universit´e de Poitiers)

1.2 Probl´ ematique

Mod` ele de sacs de mots visuels classique

Apr`es une vingtaine d’ann´ees d’´etude, plusieurs m´ethodes ont ´et´e propos´ees pourl’analyse des images par le contenu visuel Parmi celles-ci, la m´ethode utilisant lessacs de mots visuels semble ˆetre particuli`erement populaire et ´etudi´ee ces derni`eresann´ees Ce mod`ele est appliqu´e dans des syst`emes de recherche et des syst`emes declassification d’images par le contenu La m´ethode des sacs de mots visuels est in-troduite premi`erement dans [1], inspir´ee par l’approche de sacs de mots dans le do-maine de la recherche d’information textuelle L’id´ee principale du mod`ele de sacs

de mots visuels est de g´en´erer un dictionnaire des ´el´ements visuels repr´esentatifs,appel´es les mots visuels, puis de repr´esenter les images comme un sous-ensembledes mots dans le dictionnaire Les ´etapes principales de ce mod`ele peuvent ˆetrer´esum´ees comme suit :

— D´etection des r´egions d’int´erˆet : il y a deux types de r´egions utilis´eesdans cette m´ethode L’une s’apple Shape Adapted Region (SA), c’est uner´egion construite en adjustant une forme elliptique selon un point d’int´erˆet

Trang 12

— Extraction des descripteurs : c’est l’´etape de repr´esentation des r´egionsd´etect´ees par un vecteur de valeurs Le descripteur SIFT [2] est utilis´edont chaque point d’int´erˆet est d´ecrit par un vecteur `a 128 dimensions.L’ensemble des points d’une image est souvent exprim´e sous la forme d’unematrice `a 128 colonnes o`u chaque ligne est un point et chaque colonne estune des 128 dimensions du descripteur.

— Construction du dictionnaire : pour obtenir un vocabulaire de mots suels, les descripteurs sont regroup´es en cluster Chaque cluster correspond

vi-`

a un mot visuel repr´esent´e par le centre du cluster Un algorithme de tification vectorielle quelconque est appliqu´e pour faire le clustering Dans[1], l’algorithme k-means est choisi Grˆace `a une impl´ementation simple

quan-et une pr´ecision acceptable, cet algorithme est tr`es utilis´e en pratique etconsid´er´e comme efficace pour la construction du dictionnaire bien que negarantissant ni l’optimalit´e, ni un temps de calcul polynomial)

— Repr´esentation des images : pour chaque image, les descripteurs sontd’abord quantifi´es en assignant chaque descripteur au mot visuel le plusproche dans le dictionnaire cr´e´e L’image d’entr´ee est donc repr´esent´ee par

un vecteur de fr´equence de mots visuels (voir la Figure 1.1) Les valeursdans ce vecteur ne sont pas simplement le nombre d’occurrences de chaquemot, elles sont pond´er´ees par une strat´egie de pond´eration standardis´eequi est connue sous le nom Term Frequency - Inverse Document Frequency(TF-IDF) Les fr´equences pond´er´ees sont calcul´ees par la formule 1.1 :

N est le nombre de tous les documents dans la base d’image ; et ni est lenombre d’occurrence du mot i dans toute la base d’image

1 http : //f r.mathworks.com/help/vision/ug/bagof f eatures e ncodeoverview.png

Trang 13

Introduction 4

Pour examiner la performance du mod`ele de sacs des mots visuels, deux exp´eriencessont effectu´ees sur les sc`enes et les objets dans la vid´eo “Run Lola Run” Lapremi`ere exp´erience est une tˆache de scene matching : ´Etant donn´e une sc`ene qui

se trouve dans une localisation d´etermin´ee, il devrait falloir trouver les tramesdans la vid´eo contenant les sc`enes correspondantes qui indiquent la mˆeme lo-calisation que celle de la requˆete Pour construire la base d’images pour utili-ser dans cet exp´erimentation, `a partir de la vid´eo, 164 trames s´electionn´ees quicontiennent les localisations diff´erentes sont extraites (19 localisations en total danscet exp´erience) Une localisation peut apparaˆıtre dans plusieurs trames (entre 4

et 9 trames) et sous des points de vue diff´erents Les images pertinentes pourchaque requˆete sont examin´ees pour calculer la performance de l’´etape de re-cherche La performance est mesur´ee par une valeur moyenne de rang normalis´e

de ces images Le r´esultat montre que 17 sur un total de 19 localisations sontparfaitement trouv´ees, mˆeme sous des changements consid´erables de point de vuedans les trames

La deuxi`eme exp´erience est une tˆache de recherche d’objets Une trame-cl´e estextraite pour chaque seconde de la vid´eo, et environ quatre milles trames cl´es sontutilis´ees pour chaque vid´eo Un objet d’int´erˆet est d´efini par l’utilisateur commeune sous-partie d’une trame La tˆache est de trouver toutes les trames vid´eosqui contiennent l’objet d’int´erˆet et la recherche doit ˆetre effectu´ee en temps r´eel.Dans cette exp´erience, quelques techniques d’augmentation sont propos´ees pouram´eliorer la performance : l’´elimination des mots vides dans le dictionnaire, lere-classement (re-ranking) des r´esultats de recherche selon la coh´erence spatiale.Ces techniques se basent sur les approches similaires dans le domaine de la re-cherche d’informations textuelles Dans l’´etape de recherche, les fichiers invers´es(inverted files) sont appliqu´es pour diminuer le temps de recherche L’utilisation

de ces fichiers prouvent aussi l’analogie entre la recherche d’objets dans les imagesutilisant le mod`ele de sacs de mots visuels et la recherche textuelle Le r´esultat

Trang 14

Introduction 5

obtenu qui est montr´e par les exemples pertinents est exceptionnel : une bonnepr´ecision o`u toutes les trames retourn´ees par la moteur de recherche contiennentl’objet d’int´erˆet Il ne comporte aucun faux n´egatif car aucune trame qui contientl’objet d’int´erˆet n’est manqu´ee

La repr´esentation d’une image sous la forme d’un vecteur des mots visuels, pel´e aussi signature de l’image, via un dictionnaire, permet d’h´eriter beaucoup detechniques efficaces dans le domaine de recherche d’informations textuelles Aveccette repr´esentation, pour comparer deux images, on doit seulement comparer lesdeux histogrammes de fr´equences qui les repr´esentent La performance de cettem´ethode en termes de temps de calcul dans la tˆache de recherche d’objet est tr`esremarquable car on obtient le r´esultat presque sans d´elai Cette m´ethode ouvre uneperspective de d´eveloppement des moteurs de recherche d’images par le contenu

ap-en temps r´eel

Malgr´e des r´esultats prometteurs, ce mod`ele pr´esente encore quelques limites Unelimite majeure qui affecte fortement les r´esultats, est l’ambigu¨ıt´e dans la descrip-tion des images Traditionnellement, un dictionnaire est g´en´er´e en regroupant lesdescripteurs locaux visuels par une m´ethode de clustering comme k-moyennes,BIRCH, Dans la pratique, on s’aper¸coit souvent que les dictionnaires de sacs demots visuels construits de cette mani`ere contiennent naturellement de nombreuxsynonymes et polys`emes Dans de nombreux cas, un objet peut avoir plusieursformes ou ´etats Pour repr´esenter chaque forme, un ensemble diff´erent de motsvisuels est utilis´e Dans des autres cas, un mot visuel peut repr´esenter une partiequelconque d’objets diff´erents Dans le monde r´eel, on voit aussi tr`es souvent qu’il

y a des objets qui ont des parties de forme identique Par cons´equent, deux objetsdiff´erents peuvent ˆetre repr´esent´es par deux vecteurs tr`es proches, et deux objets

de mˆeme type peuvent ˆetre d´ecrits par deux vecteurs tr`es diff´erents

En outre, l’ensemble des mots visuels qui d´ecrivent une image manque encored’ordre Cette caract´eristique est diff´erente dans le contexte textuel, car les motsdans une phrase textuelle ont toujours un ordre En pratique, le changement del’ordre des mots dans une phrase textuelle peut changer le sens de la phrase Lechangement des localisations des mots visuels peut provoquer le changement ducontenu d’une image car un mot visuel peut repr´esenter un d´etail de plusieursobjets diff´erents Donc, c’est une grande am´elioration si les informations spatialespeuvent ˆetre ajout´ees pour d´ecrire une image Dans la proposition, les auteurs ontpropos´e une ´etape de re-classement (re-ranking) des r´esultats utilisant une mesure

Trang 15

Introduction 6

de coh´erence spatiale Cependant, cette ´etape est applicable seulement pour la

tˆache de recherche, et elle est coˆuteuse en termes computationnels

Techniques d’am´ eliorations du mod` ele de sac de mots suels classique

vi-Pour r´eduire l’ambigu¨ıt´e dans la description, de nombreuses id´ees d’am´eliorationont ´et´e propos´ees Plusieurs travaux se concentrent sur l’importance de la relationentre les caract´eristiques des descripteurs bas niveau d’une image, principalementsur la position spatiale du descripteur Dans le mod`ele de sacs des mots visuels ori-ginal, les descripteurs dans une image sont consid´er´es ind´ependants et d´esordonn´es.Dans le monde r´eel, les parties d’un objet ont toujours un ordre spatial Cet ordrepeut ˆetre d´efini par la co-occurrence des descripteurs qui repr´esentent les parties

de l’objet Par cons´equent, la relation spatiale entre les descripteurs locaux estune information utile pour am´eliorer la performance du mod`ele de sac des motsvisuels Pour profiter la relation spatiale des descripteurs, dans des syst`emes derecherche d’image par le contenu, on ajoute une ´etape de v´erification apr`es avoirappliqu´e le mod`ele de sac de mots classiques Les techniques de v´erification spa-tiale (RANSAC par exemple) peuvent am´eliorer la performance du mod`ele, maiselles sont complexes et coˆuteuse en temps de calcul

Une mani`ere plus efficace pour capturer la relation entre les descripteurs est registrer cette relation en construisant des les phrases visuelles qui sont form´ees

d’en-en regroupant certains mots visuels selon des contraintes sp´ecifiques `A partir desphrases construites, un nouveau dictionnaire plus descriptif peut ˆetre g´en´er´e Puis,

au lieu de d´ecrire une image comme un sac des mots visuels, on la d´ecrit comme

un sac des phrases visuelles Similaire au mod`ele de sacs des mots visuels, l’id´ee

de construire les phrases visuelles est inspir´ee par la notion de phrases dans ledomaine d’analyse des documents textuels Le mod`ele de sacs de phrases visuellesest une am´elioration du mod`ele de sacs des mots visuels qui s´eduit fortement lesscientifiques Ce m´emoire est une ´etude sur les diff´erentes m´ethodes des sacs dephrases visuelles

Trang 16

Introduction 7

1.3 Objectifs du travail et principales

contribu-tions

L’objectif principal de ce travail est d’´etudier les diff´erentes m´ethodes existantes

de sacs de phrases visuelles Il s’agit d’une ´etude syst´ematique avec un ment (typologie) des approches de sacs de phrases visuelles selon la m´ethode deconstruction d’une phrase

regroupe-La performance de certaines m´ethodes de sacs de phrases visuelles est aussi min´ee Le mod`ele de sac des mots visuels original [1] est consid´er´e comme lam´ethode de base Parmi les m´ethodes de sacs des phrases visuelles, deux m´ethodesappartenant `a des types diff´erents sont choisies et re-impl´ement´ees, puis elles sontcompar´ees l’une avec l’autre ainsi qu’avec la m´ethode de base

exa-Les contributions de ce m´emoire comportent deux volets :

1 Dans les ann´ees r´ecentes, les m´ethodes de phrases visuelles sont devenuestr`es populaires De nombreuses m´ethodes ont ´et´e propos´ees mais il n’y a pas,

`

a notre connaissance de document qui r´ealise une synth`ese de ces m´ethodes

Ce m´emoire serait donc le premier document qui pr´esente une ´etude tivement compl`ete et syst´ematique des diff´erentes m´ethodes existantes desphrases visuelles

rela-2 Malgr´e l’existence de plusieurs m´ethodes aux r´esultats prometteurs, cune d’entre elles est impl´ement´ee et test´ee avec des dictionnaires de motsvisuels et des bases d’images diff´erentes Cela constitue une difficult´e dans

cha-la r´ealisation d’une comparaison entre les diff´erentes m´ethodes sur la basedes chiffres annonc´ees dans les publications associ´ees `a chacune d’elles Ilest n´ecessaire de r´eexaminer chaque m´ethode en les exp´erimentant dans les

mˆemes conditions Cependant, la r´e-impl´ementation des m´ethodes pour lesexp´eriences provoque beaucoup de probl`emes Dans le cadre ce m´emoire,seulement deux m´ethodes de sac des phrases visuelles sont choisies et re-impl´ement´ees Leurs performances sont compar´ees avec la m´ethode des sacs

de mots visuels classique dans les mˆeme conditions : le mˆeme dictionnaire

et la mˆeme base d’images Pour avoir des comparaisons objectives, cesm´ethodes sont exp´eriment´ees avec trois bases d’images diff´erentes

Le contenu du m´emoire est d´ecoup´e en trois chapitres :

Trang 17

— Chapitre 4 : Comparaison des m´ethodes impl´ement´ees Les r´esultats surplusieurs bases d’images sont pr´esent´es et analys´es.

Trang 18

2.1 Phrases visuelles construites par fenˆ etres

cou-lissantes

Dans ce contexte, “une fenˆetre” est une borne dont la taille est fix´ee par un but, par exemple l’´echelle, le rayon ou la longueur des axes des r´egions elliptiques[4, 5], parfois par une valeur constante [8] Cette fenˆetre est utilis´ee alternative-ment pour d´eterminer les voisins de chaque point d’int´erˆet dans une image, elleest donc appel´ee fenˆetre coulissante

attri-La figure2.1 illustre l’utilisation de la fenˆetre coulissante Les points dans la figurerepr´esentent les points d’int´erˆet On applique la fenˆetre coulissante sur le point

4, puis le point 7 pour d´eterminer leurs voisinages Les deux cercles illustrent les

9

Trang 19

fenˆetres coulissantes correspondant `a ces deux points Les rayons de la fenˆetrecoulissante d´ependent des caract´eristiques du point d’int´erˆet central, donc ils sontdiff´erents l’un de l’autre On voit qu’il y a deux voisins (2 et 5) dans le voisinage dupoint 4 et trois voisins (3, 4 et 8) dans le voisinage du point 7 Dans cet exemple,

le point 4 est un voisin du point 7 mais le point 7 n’est pas un voisin de point 4

La raison est que la distance spatiale entre ces deux points est inf´erieure au rayon

de la fenˆetre du point 7, mais elle est sup´erieure au rayon de la fenˆetre du point 4.Appliquant la fenˆetre coulissante, la m´ethode de Bhatti and Hanbury [5] est unesimple am´elioration de la m´ethode de base Le rayon de la fenˆetre coulissante danscette m´ethode est d´efini en fonction des longueurs des deux axes de la r´egion ellip-tique correspondant `a chaque point d’int´erˆet Une phrase visuelle est simplementune paire de mots construite `a partir d’un point central et d’un des voisins contenudans la fenˆetre coulissante Un nouveau dictionnaire est cr´e´e contenant toutes lespaires distinctes de mots visuels, nomm´e “Relational Features Codebook” Pourd´ecrire une image, un histogramme de phrases visuelles est g´en´er´e en codant lesphrases avec ce dictionnaire Bien que les r´esultats report´es par les auteurs nesoient pas meilleurs que ceux de la m´ethode de base, cette m´ethode est assezsimple et capable de capturer la relation entre les caract´eristiques des images.Apr`es la g´en´eration des candidats (les paires ou groupes des mots visuels quipeuvent ˆetre choisis comme phrases), les phrases visuelles sont choisies selon descrit`eres Ces crit`eres sont diff´erents selon chaque m´ethode Dans [5], aucun crit`eren’est appliqu´e Mais dans l’approche de Chen et al [6], le crit`ere est que les phrasesvisuelles doivent ˆetre discriminantes Cette m´ethode est plus complexe que celledans [5] Tout d’abord, le voisinage spatial de chaque point est d´etermin´e par unefenˆetre coulissante ronde Ensuite, les k voisins les plus proches du point centralsont choisis pour g´en´erer les paires des mots visuels Les paires de mots visuels lesplus discriminantes sont choisies comme phrases visuelles Il faut noter que, dans

Trang 20

cette m´ethode, les voisins de chaque point d’int´erˆet sont choisis par l’algorithme dek-plus proches voisins Donc, cette approche peut aussi ˆetre class´ee dans le groupedes “phrases visuelles comme groupes de k plus proches voisins” qui est pr´esent´edans la section 2.2 Cependant, elle est pr´esent´ee dans le groupe des “phrasesvisuelles construites par fenˆetres coulissantes”, car elle a un point diff´erent desm´ethodes utilisant l’algorithme de k-plus proches voisins : comme le voisinaged’un point d’int´erˆet est d’abord d´etermin´e par une fenˆetre coulissante, on ne peutpas affirmer qu’il y a au moins k autres points dans le voisinage Autrement dit, on

ne trouve pas toujours k voisins pour un point d’int´erˆet Parfois, on ne peut trouveraucun voisin dans la fenˆetre Ce cas n’existe jamais pour les m´ethodes du groupedes m´ethodes utilisant l’algorithme de k-plus proches voisins Par cons´equente, lechoix des voisins d’un point par l’algorithme de k plus proches voisins est seulementconsid´er´e comme un crit`ere pour construire les phrases visuelles apr`es la g´en´erationdes candidats Selon les auteurs, cette m´ethode est capable de garder les phrasesvisuelles descriptives qui ont des basses fr´equences Les r´esultats exp´erimentauxpr´esent´es dans leur publication sont int´eressants Cependant, cette m´ethode estexp´eriment´ee seulement sur des images des monuments

Dans une autre approche [7], la fr´equence est utilis´ee comme un crit`ere pour choisirles phrases visuelles `a partir des paires des mots visuels Pour qu’une paire demots visuels soit une phrase visuelle, le nombre d’images dans la base d’image quicontiennent chaque mot visuel doit ˆetre sup´erieur `a un seuil θ Dans cette m´ethode,

la fenˆetre coulissante qui d´etermine les voisins des points d’int´erˆet est dynamique

Le rayon de la fenˆetre ne d´epend pas seulement du point central, mais aussi desvoisins Pour consid´erer si un point est le voisin d’un autre point, on compare leurdistance euclidienne avec le rayon de la fenˆetre coulissante (la somme des rayons desr´egions locales correspondant `a ces points) Dans ce cas, la relation des points estsym´etrique Si un point d’int´erˆet A est un voisin d’un point B, B est aussi un voisin

du point A Cette m´ethode est une des premi`eres m´ethodes de phrases visuelles.Elle am´eliore la m´ethode de sacs de mots visuels classique sur l’efficacit´e (le tempsd’ex´ecution) et la performance (la qualit´e des r´esultats) Cependant, cette m´ethode

ne fonctionne pas bien si les images ont peu de texture Si les objets principauxdans les images ont peu de d´etails, le nombre de descripteurs SIFT d´etect´es pources objets est bas et ces descripteurs ne sont pas assez proches l’un de l’autre, donc

il est difficile de former de bonnes phrases visuelles En cons´equente, les images nepeuvent pas ˆetre bien d´ecrites Cette m´ethode est aussi peu performante pour lesimages dont l’arri`ere plan est complexe Si l’arri`ere plan est plus complexe que les

Trang 21

objets principaux, la fr´equence des mots visuels d´ecrivant le fond est plus haute quecelle des mots visuels d´ecrivant les objets Les phrases visuelles d´ecrivant l’arri`ereplan peuvent ainsi r´eduire l’importance des phrases visuelles d´ecrivant les objets

et diminuer l’efficacit´e de la m´ethode

En r´esum´e, avec la fenˆetre coulissante, la relation examin´ee entre les mots visuelsest la co-occurrence dans une r´egion donn´ee, plutˆot que leur distance Dans letableau2.1, quelques m´ethodes de sacs de phrases visuelles construites par fenˆetrescoulissantes sont mentionn´ees Dans la plupart de ces m´ethodes, une phrase estd´efinie comme une paire des mots visuels Le nombre de phrases construites `apartir d’un point d’int´erˆet est vari´e, car le rayon de sa fenˆetre coulissante d´ependdes caract´eristiques du point central

Ces m´ethodes ne sont pas trop complexes par rapport `a la m´ethode de base carles phrases visuelles ont une taille limit´ee Par ailleurs, ces m´ethodes ne sont pastrop coˆuteuses en terme de temps de calcul Elles ne doivent pas trier les distancesentre un point et les autres points pour trouver ses voisins Mais, les r´esultatsreport´es montrent que ces m´ethodes n’am´eliorent pas beaucoup la m´ethode desacs de mots visuels classique Comme le rayon de la fenˆetre coulissante d´ependseulement des caract´eristiques du point central, les phrases visuelles ne sont pastr`es robustes au changement de point de vue Dans de tels cas, les m´ethodes des

“phrases visuelles comme groupes de k plus proches voisins” qui sont pr´esent´eesdans la partie suivante semblent ˆetre plus efficaces

Trang 22

Bhatti and

Hanbury [5]

(2010)

Les longueurs des axes

de chaque r´egion liptique, position spa-tiale des r´egions

el-Utiliser une fenˆetre coulissante d’unrayon d´etermin´e en fonction des lon-gueurs des axes de chaque r´egion ellip-tique

2

- Capable de capturer la relationspatiale entre les caract´eristiquesdes images

- Peu d’am´eliorations par rapport

Chen et al

[6] (2014)

Position spatiale et

´echelle des r´egions lo-cales

Regrouper les mots visuels en paires enutilisant le voisinage de chaque pointd’int´erˆet Les paires des mots les plus dis-criminantes sont choisies comme phrasesvisuelles

2

- Bon r´esultat de classification et

de reconnaissance des images demonuments

- Capable de garder les phrasesvisuelles descriptives qui ont unebasse fr´equence

Trang 23

Zheng et al.

[7] (2006)

Position spatiale et lerayon des r´egions lo-cales

Regrouper les mots visuels en paire

Choisir les paires de mots visuels qui tisfassent les conditions de distance et defr´equence

vari´ee

- Meilleure performance que lessacs de mots visuels classique etDVP [4]

Trang 24

2.2 Groupes de plus proches voisins

L’algorithme des k-plus proches voisins est un des algorithmes de classificationles plus simples et populaires ´Etant donn´e un point x et un ensemble de points

A, cet algorithme trouve un sous ensemble de A contenant les k points les plusproches de x en utilisant une distance m´etrique (la distance de Mahalanobis ouEuclidienne, ou une autre distance d´efinie par l’utilisateur)

Parmi les m´ethodes de sacs de phrases visuelles, beaucoup de m´ethodes appliquentl’algorithme des k-plus proches voisins pour d´eterminer le voisinage des pointsd’int´erˆet La premi`ere proposition de sacs de phrases visuelles comme groupes dek-plus proches voisins a ´et´e publi´ee juste apr`es la publication de la m´ethode desac de mots visuels classique, et par les mˆeme auteurs [15] Dans cette proposition,une phrase est d´ecrite comme un groupe de k + 1 points : un point central et ses

k voisins les plus proches spatialement dans l’image Pour comparer la similarit´eentre deux phrases visuelles, on compare d’abord les deux mots correspondantsaux deux points centraux Puis, on compte le nombre de mots communs entre cesphrases Une paire de phrases visuelles est dite “match” (c.`a.d elles d´ecrivent la

mˆeme configuration spatiale) si elles ont au moins m voisins similaires (m ≤ k),o`u m est un seuil fix´e heuristiquement Dans l’exp´erimentation, cette m´ethodeest appliqu´ee pour extraire les objets, les personnages et les sc`enes principauxd’une vid´eo Selon les auteurs, cette m´ethode est assez efficace, mais elle n’est pasinvariante au changement d’´echelle

Dans une autre approche [14], l’algorithme des k-plus proches voisins est combin´eavec l’algorithme de triangulation de Delaunay pour former les phrases visuelles.Pour une image, d’abord les points SURF sont extraits Les points qui corres-pondent aux d´etails les plus saillants dans l’image sont choisis pour former unensemble de points-graines (seeds) Les “graph features” sont form´es en groupantchaque “point-graine” avec ses k voisins les plus proches spatialement Ces pointsdeviennent les sommets du “graph feature” Les arˆetes du graphe sont d´etermin´ees

en appliquant l’algorithme de triangulation de Delaunay sur les sommets Danscette m´ethode, les auteurs utilisent une structure hi´erarchique : `a partir d’un

“point-graine”, quatre graphes de taille croissante sont construits Les tailles desgraphes sont d´etermin´ees par le nombre de sommets Le graphe de la premi`erecouche ne contient que le “point-graine” Le nombre de sommets augmente de 3

Trang 25

pour chaque couche suivante, la derni`ere couche contient 10 points : un graine” et ses 9 plus proches voisins spatialement `A partir des “graph features”,

“point-un dictionnaire comprenant les “graph words” est form´e `A cause de la structurecomplexe des “graph features” (ce n’est pas seulement un vecteur, comme les des-cripteurs standards mais un graphe de vecteurs), l’algorithme k-means n’est pasappropri´e pour la construction du dictionnaire Les auteurs ont s´electionn´e doncl’algorithme de regroupement agglom´eratif hi´erarchique `a deux passages Dans lepremier passage, chaque cat´egorie est examin´e ind´ependamment L’algorithme deregroupement agglom´eratif est appliqu´e sur l’ensemble des “graph features” danschaque cat´egorie Pour calculer la distance entre les “graph features”, une versionpersonnalis´ee de l’algorithme “Context Dependent Kernel” (appliqu´e sur une ma-trice de distance D et une matrice de topologie T des nœuds des graphes compar´es)est utilis´ee Dans le deuxi`eme passage, tous les clusters cr´e´es de toutes les cat´egoriesdans le premier passage sont regroup´es encore une fois pour construire les clus-ters finals (les “graph words”) Dans cette ´etape, les distances entre les m´edianesdes clusters g´en´er´es dans l’´etape pr´ec´edente sont calcul´ees en utilisant la normeL1 Les “graph words” sont form´es `a l’aide des “points-graines”, repr´esentantles m´edianes des “graph features” dans chaque cluster Ces “graph words” sontconsid´er´es comme ´etant les phrases visuelles

Cette m´ethode n’utilise pas directement les descripteurs d’images pour construireles phrases visuelles L’ensemble de “features” sont plutˆot utilis´es en empruntantl’id´ee des k-plus proches voisins pour repr´esenter plus d’informations qu’une seulcaract´eristique Les relations entre les nœuds dans un graphe sont d´etermin´ees parl’algorithme de triangulation de Delaunay, qui est invariante aux changements af-fines des objets dans les images comme la rotation, la translation ou le changementd’´echelle Les “graph features” sont plus robustes que les descripteurs standards

En plus, selon les auteurs, l’utilisation de la structure hi´erarchique peut contribuer

`

a l’am´elioration des r´esultats de la recherche et de la reconnaissance Cependant,l’inconv´enient principal de cette m´ethode est l’absence d’une structure d’indexa-tion pour les “graph words” qui peut provoquer plus de charge en termes de temps

de calcul dans l’´etape de recherche et de reconnaissance

Le tableau 2.2 montre quelques m´ethodes qui utilisent l’algorithme de k-plusproches voisins pour construire les phrases visuelles Bien que, dans tous les cas,

le nombre de points dans le voisinage soit fix´e pour chaque point d’int´erˆet, la

Trang 26

taille des phrases visuelles peut ˆetre variable [10–12, 16] ou bien fix´ee [9, 13–

15] Diff´eremment des voisinages d´etermin´es par les fenˆetres coulissantes, ceuxd´etermin´es par l’algorithme des k-plus proches voisins ont des formes vari´ees Levoisinage d’un point d’int´erˆet peut ˆetre d´efini comme l’enveloppe convexe de l’en-semble de ses k-plus proches voisins Donc, le rayon du voisinage d’un point d´epend

de la distance entre lui et ses voisins Grˆace `a cette caract´eristique, les phrases suelles sont plus robustes au changement de point de vue que celles construites parles fenˆetres coulissantes Cependant, les m´ethodes dans ce groupe ne sont pas ro-bustes au changement d’´echelle Prenons comme exemple deux images d’un mˆemeobjet ayant une ´echelle diff´erente Dans l’image ayant une ´echelle plus grande, onpeut d´etecter plus de points d’int´erˆet que dans celle ayant une ´echelle plus petite

vi-Il peut donc y avoir beaucoup de points d’int´erˆet qui existent dans seulement unedes deux images Deux mˆeme objets peuvent ne pas ˆetre d´ecrits par les mˆemesphrases visuelles avec ce type de m´ethodes

Trang 27

le petit axe principal des deux r´egions liptiques

el-2

- Cette m´ethode ne fonctionnepas bien pour les images ayant unarri`ere plan complexe

vari´ee

- Capable de distinguer les objetsr´ecurrents et l’arri`ere plan dansl’image grˆace aux techniques dequantification de la significativit´estatistique des phrases et de fil-trage des phrases inutiles

Trang 28

- Chaque “n-gram” est une phrase suelle

vi-fixe (2 ou3)

meilleurs r´esultats que lam´ethode classique des sacs

de mots visuels pour la recherche

et aussi la classification, avecplusieurs jeux de donn´ees

+ Les arˆetes sont d´efinies par rithme de triangulation de Delaunay

l’algo Un “graph word” est consid´er´e commeune phrase visuelle

fixe (lataille desphrasesestdiff´erentepourdiff´erentescouches)

- Approche multi-couches

- La combinaison des couchesdonne de meilleurs r´esultatsqu’une seule couche

fixe - Cette m´ethode n’est pas

inva-riante au changement d’´echelle

Trang 30

2.3 Chaˆınes des mots visuels

Il s’agit du groupe le plus sp´ecial : les phrases visuelles des m´ethodes dans cegroupe sont les plus proches des phrases retrouv´ees dans le domaine d’analyse desdocuments textuels Chaque phrase visuelle est un ensemble ordonn´e d’´el´ements(ces ´el´ements peuvent ˆetre les mots visuels ou les histogrammes de fr´equence desmots visuels) Pour les distinguer des autres groupes, on appelle ces phrases vi-suelles “les chaˆınes des mots visuels”

Dans la m´ethode de Nguyen et al [18], chaque image est divis´ee en plusieursr´egions selon deux axes principaux (l’axe vertical et l’axe horizontal) Un histo-gramme qui d´ecrit la fr´equence des mots visuels est g´en´er´e pour chaque r´egion dansl’image Une phrase visuelle est une chaˆıne d’histogrammes selon l’axe majeur del’image Une image est repr´esent´ee par une phrase visuelle Cette m´ethode est uneam´elioration de la m´ethode Spatial Pyramid Matching (SPM) [24], elle h´erite del’´etape de r´epartition de l’image et de la structure hi´erarchique de SPM Pourmesurer la similarit´e entre deux images, les auteurs utilisent un algorithme quiapplique des coˆuts de suppression et d’insertion, et calcule une distance d’´editionentre les deux chaˆınes d’histogrammes Les r´esultats pr´esent´es dans [18] montrentque cette m´ethode donne de meilleures performances que la m´ethode Spatial Py-ramid Matching et plusieurs variantes de celle-ci

Tirilly et al [19] a pr´esent´e une m´ethode qui permet d’examiner les mots visuelsdans une phrase visuelle selon un certain ordre Le processus de construction d’unephrase visuelle se pr´esente comme suit : tout d’abord, on doit construire efficace-ment un dictionnaire de mots visuels et repr´esenter chaque image par un ensemble

de mots visuels en assignant un point d’int´erˆet au mot visuel le plus proche suite, on doit d´efinir un axe qui est repr´esentatif de la position de l’objet dansl’image On projette l’ensemble des mots visuels de fa¸con ordonn´ee sur cet axeprincipal (c’est une projection orthogonale) pour obtenir une repr´esentation finale

En-de l’image entr´ee Pour choisir un bon axe, il faut respecter des crit`eres tion et de direction de l’axe pour que ces projections correspondent `a celles de l’ob-jet dans l’image d’entr´ee Plusieurs strat´egies pour trouver un axe sont possible :utiliser simplement l’axe horizontal ou choisir al´eatoirement deux axes perpendi-culaires ou bien, dans le cas particulier o`u il y a un seul objet dans l’image, l’ACP(Analyse en composantes principales) est un bon choix Cette m´ethode convientparticuli`erement au cas o`u l’image ne contient qu’un seul objet car s’il y en a

Trang 31

plusieurs, le r´esultat de l’ACP est biais´e par les positions relatives de ces objets

En raison de l’utilisation simple d’un axe principal pour repr´esenter l’image, cettem´ethode ne s’adapte pas aux images ayant un arri`ere plan complexe

Le tableau 2.3 recense succinctement quelques m´ethodes des chaˆınes des motsvisuels Il y a peu de points communs entre les approches Un inconv´enient ma-jeur des m´ethodes dans ce groupe est la d´ependance vis-`a-vis de l’invariance ded´etecteur / la variance de l’objet

Ngày đăng: 14/01/2017, 08:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w