1. Trang chủ
  2. » Luận Văn - Báo Cáo

Human action and detect abnormal behavor from camera

54 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 9,66 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Suite à une étude bibliographique approfondir du domaine, en réponse l’objectif chercher, nous optons pour la détection de violence dans une vidéo de surveillance.Pour ce faire, nous avo

Trang 1

UNIVERSITE NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL

COULIBALY Adama

Human action and detect abnormal

behavor from camera

Hành vi con người và phát hiện hành vi

không bình thường từ camera

MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE

HANO¨ I 2020

Trang 2

UNIVERSITE NATIONAL DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL

COULIBALY Adama

Human action and detect abnormal

behavor from camera

Hành vi con người và phát hiện hành vi

không bình thường từ camera

Spécialité : Système Intelligent et multimédia

Code : Programme pilote

MÉMOIRE DE FIN D’ÉTUDES DE MASTER EN INFORMATIQUE

Trang 3

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que lesdonnées et les résultats qui y sont présentés sont exacts et n’ont jamais été pu-bliés ailleurs La source des informations citées dans ce mémoire a été bien précisée

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêutrong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ côngtrình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc

Signature de l’étudiant

COULIBALY Adama

Trang 4

Un grand merci également à toute l’équipe de IFI SOLUTION trop nombreuxpour les citer, qui ont participé de prêt comme de loin à la réalisation et validation

de ce projet Ce travail n’aurait pu être accompli sans leur effort et leur contributionpassionnées

Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi quetous les personnels pédagogiques et administratifs de l’Institut Francophone Inter-national, Université National de Vietnam à Hanoi Je leur suis reconnaissant detout cœur pour avoir assuré et amélioré la qualité de notre formation En particu-lier, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille pourtout leurs efforts à mon éducation, ma santé et bien d’autre chose que je ne peuttoute les énuméré, qui m’ont permit d’être là aujourd’hui J’aimerais aussi exprimer

ma gratitude à M NGUYEN Quang pour son encadrement et ces conseils lors dumodule Travaux Personnel Encadré durant le Master 1 Sans oublier mes amis quiont toujours été là pour moi Votre soutien inconditionnel et vos encouragementsont été d’une grande aide Je vous remercie

Trang 5

Table des figures

1 Violence detection by 3D convolutional networks in ref [10] 10

2 Le logo de IFI SOLUTION 12

3 Exemple de Violences 13

4 Organigramme général de l’approche proposée 16

5 Le processus général pour la génération de sacs-de-mots audio-visuels 17 6 Détection des événements anormaux dans les séquences vidéo 18

7 Processus de fusion multimodale 19

8 Archtecture basées sur les trames (changements inter-images) 20

9 Une illustration des descripteurs de mouvement binaires locaux 21

10 L’encodeur spatio-temporel 23

11 Présentation d’une cellule BiConvLSTM 26

12 Schéma du codeur spatial 27

13 L’architecture à cadre unique 30

14 L’architecture à cadre multiple 31

15 L’architecture du modèle Darknet-19 33

16 ReLU f(x) 34

17 ReLU 35

18 Max Pooling1 36

19 Max Pooling2 36

20 Max Pooling3 36

21 Graphe de la précisions du modèle à cadre unique 40

22 Graphe de la perte du modèle à cadre unique 40

23 Graphe de la précision du modèle à cadre multiple 41

24 Graphe de la perte du modèle à cadre multiple 41

25 Détection de non violence dans la vidéo 01 42

26 Détection de non violence dans la vidéo 02 43

27 Détection de violence dans la vidéo 01 43

28 Détection de violence dans la vidéo 02 44

29 Violence non détecter dans la vidéo 01 44

30 L’architecture de la solution 45

Trang 6

La sécurité des citoyens dans les environnements urbains modernes est un aspectimportant de la qualité de la vie La mise en œuvre d’une approche de la vidéo-surveillance basée sur les villes intelligentes dépend en grande partie de la capacité

de collecte et de traitement de grandes quantités de données urbaines en direct.L’analyse des données provenant de flux vidéo de surveillance à bande passanteélevée fournis par des réseaux de capteurs distribués de grande taille est particu-lièrement difficile Le sujet de ce stage s’inscrit dans le contexte de la détectionautomatique du comportement violent à partir de séquences vidéos de surveillance,qui est une des préoccupations majeures dans le domaine de la vision par ordina-teur Les domaines d’application pour les systèmes de vision sont nombreux Onpeut citer notamment la vidéo surveillance, la recherche et l’indexation automa-tique de vidéos ou encore l’assistance aux personnes âgées et fragiles Cette tâchereste très problématique par le fait des grandes variations dans la manière de réa-liser les comportements, l’apparence de la personne et les variations des conditionsd’acquisition

Le travail réalisé s’inscrit dans le cadre du projet Bahavior Abnormal Detection(Détection de comportement anormal) et fait usage des méthodes de deep lear-ning de la computer vision sur des vidéos issues des caméras de surveillance Lapremière tache à faire était d’étudier le domaine de la détection d’anomalie dansune vidéo de surveillance, de mettre en évidence les différences cas possible, cesrelations, sa sollicité dans le monde réel La seconde tache était de proposer unesolution au problème en spécifiant un cas d’application bien définir et qui soit unbesoin réel dans notre quotidien

Suite à une étude bibliographique approfondir du domaine, en réponse l’objectif chercher, nous optons pour la détection de violence dans une vidéo de surveillance.Pour ce faire, nous avons fait usage de la combinaison de réseaux de neuronesconvolution (CNN), pour l’aspect spatio-temporel afin d’extraire les caractéris-tiques pertinentes ainsi que du réseau de neurones récurrente (RNN) reconnu pour

re-le traitement séquentiel des données, re-le but d’améliorer re-les résultats obtenus

Le modèle mise en place prend suite à notre spécification de domaine, prend enentrée des vidéos pour les modelés CNN, c’est à dire une séquence d’images ex-traire de la vidéo Ils sont capables de faire une prédiction avec un bon taux deprécision et de reconnaˆıtre les comportements violent effectuées par des personnedans une vidéo

Les actions constituant notre base de vidéos sont de deux catégories (Violence etNon-violence), avec lesquelles nous avons fait différentes expérimentations avec lavalidation sur l’ensemble de nos deux actions et à l’issu des entraˆınements nousavons obtenons de bon résultats, mais avec certaines confusion dans certaines ac-tions

Trang 7

Mots clés :réseaux de neurones convolutionnel ; réseaux de neurones récurrente ;l’apprentissage en profondeur ; vision par ordinateur ; détection de comportementanormale ; détection de la violence ; Villes intelligentes

Trang 8

Citizen security in modern urban environments is an important aspect of the lity of life The implementation of a video surveillance approach based on smartcities largely depends on the capacity to collect and process large quantities oflive urban data Analysis of data from high bandwidth surveillance video streamsprovided by large distributed sensor networks is particularly difficult The subject

qua-of this internship is in the context qua-of automatic detection qua-of violent behavior fromsurveillance video sequences, which is one of the major concerns in the field ofcomputer vision The fields of application for vision systems are numerous Theseinclude video surveillance, automatic search and indexing video or the elderly andfrail assistance This task remains very problematic because of the great variations

in the way behaviors achieving, the person appearance of and the variations in theacquisition conditions

The work carried out is part of the Bahavior Abnormal Detection project andmakes use of deep learning methods, computer vision methods on videos from sur-veillance cameras The first task to do was to study the anomaly detection field in

a surveillance video, to highlight the differences cases possible, these relationships,its demand in the real world The second task was to propose a solution to theproblem by specifying a well defined application case which is a real need in ourdaily life

Following a thorough bibliographic study of the field, in response to the objectivesought, we opt for the violence detection in a surveillance video About it, we usedthe combination of convolutional neural networks (CNN), for the spatio-temporalaspect in order to extract the relevant characteristics, as well as the recurrent neu-ral network (RNN) recognized for the sequential data processing, the purpose ofimproving the results obtained The model implemented follows our domain speci-fication, takes as input videos for CNN models, ie a sequence of images extractedfrom the video They are able to make a prediction with a good rate of accuracyand to recognize violent behavior carried out by people in a video The actionsconstituting our video base are of two categories (Violence and No-violence), withwhich we have made different experiments with validation on all of our two actionsand at the end of the training we have obtained good results , but with certainconfusion in certain actions

Keywords : Convolutional neural networks ; recurrent neural networks ; deeplearning ; computer vision ; detection of abnormal behavior ; detection of violence ;Smart cities

Trang 9

DL : Deep Learning ;

CV : Computer Vision ;

CNN : Convolution Neuronal Network ;

RNN : Recurrent Neuronal Network ;

LSTM : Long short-term memory ;

LDA :Latent Dirichlet Allocation ;

SVM : Support Vector Machine ;

Trang 10

Table des matières

1.1 Structure d’accueil 12

1.1.1 Contexte du projet 13

1.1.2 Problématique 13

1.1.3 Objectifs du stage 14

2 État de l’art 15 2.1 Détection de violence : 15

2.1.1 L’approche à l’aide de fonctionnalités de bas niveau 15

2.1.2 L’approches à l’aide du descripteur audio-visuel 16

2.1.3 L’approche heuristique du comportement 17

2.1.4 L’approche basées sur fonctionnalités audio 19

2.1.5 L’approche basées sur les trames 20

2.1.6 L’approche basées sur les points d’intérêt 20

2.2 Architecture des modèles de la détection de violences 22

2.2.1 Architecture d’encodage spatio-temporel 23

2.2.2 Architecture du codeur spatial 26

3 Solutions envisagées et contributions 28 3.1 Base de données 28

3.1.1 Collecte de données 28

3.1.2 Nos jeu de données 28

3.2 Nos classes (étiquettes) 29

3.3 Modèles 29

3.3.1 Les modèles à cadre unique 29

3.3.2 Les modèles à cadre multiple 31

3.3.3 Darknet-19 32

3.3.4 Paramètres du modèle 34

3.3.5 Optimisation des modèles 36

3.3.6 Évaluation de nos modèles 37

4 Résultats et analyses 38 4.1 Résultats 38

4.1.1 Outils et environnement de travail 39

4.1.2 Expérimentation du modèle à cadre unique, Darknet19+3FC 40 4.1.3 Expérimentation du modèle à cadre multiple, Darknet19+CNN+LSTM 41 4.2 Résultat attendu 45

4.3 Architecture de la solution 45

Trang 11

5 CONCLUSION et PERSPECTIVES 47

5.1 CONCLUSION GÉNÉRALES 475.2 PERSPECTIVES 48

Trang 12

INTRODUCTION GÉNÉRALE

La surveillance vidéo par réseau de capteurs dans les zones urbaines implique degrandes quantités de petits nœuds capables de la détection vidéo Une approchepossible repose sur un nœud central puissant capable de mettre en œuvre dessolutions DL en traitant des flux vidéo collectés à partir des nœuds du réseau.Cette approche centralisée présente un inconvénient majeur lié à la bande passanterequise compte tenu du streaming (diffusion) vidéo haute résolution Une meilleuresolution implique un traitement distribué au niveau de chaque nœud Le problèmeprincipal dans ce cas est la faible puissance de calcul disponible pour la mise enœuvre de l’algorithme DL

Les travaux antérieurs sur la détection de la violence utilisent des fonctionnalitéstraditionnelles telles que BoVW, STIP et MoSIFT, et les classent par SVM [9].Ding et Al extraire les caractéristiques spatiales et temporelles à l’aide des couches

de convolution 3D et les classer selon les couches entièrement connectées (comme lemontre la Figure.1)1 [10] Cependant, les deux méthodes proposées ne supportentpas bien la longueur variable des vidéos Et le temps de calcul de la convolution3D augmente rapidement en raison de la profondeur de l’axe temporel

Figure 1 – Violence detection by 3D convolutional networks in ref [10]

1 https features-constructionf ig1221620711

Trang 13

://www.researchgate.net/figure/Our-3D-ConvNet-architecture-for-spatio-temporal-Structure du mémoire

Chapitre 1 : dans ce chapitre, nous présentons, de manière générale, l’organismed’accueil de ce stage ainsi que le projet "Abnormalie detection" autour duquel est

né ce sujet du stage, la problématique et les objectifs de notre travail

Chapitre 2: le chapitre 2 contient l’étude bibliographique (état de l’art) nant la détection de la violence, les différentes méthodes et architectures d’appren-tissage profond utilisées pour cette problématique

concer-Chapitre 3: ce chapitre concerne les solutions envisagées à l’issu des différentesméthodes d’apprentissage profond existantes dans la littérature Nous faisons usage

de la combinaison des deux méthodes CNN avec RNN en particulier du LSTM

Chapitre 4: le chapitre 4 présente différents résultats des expérimentations etapproches utilisées sur les vidéos

Trang 14

Les principaux service d’externalisation de logiciel à IFI Solution sont :

— Développement d’applications mobiles

— Développement d’applications Web frontales

— Développement d’applications Web back-end (serveur)

— Développement de logiciels embarqués

— Tests de logiciels (tests automatisés, tests manuels)

Figure 2 – Le logo de IFI SOLUTION

2 https ://www.ifisolution.com/

Trang 15

1.1.1 Contexte du projet

Ce sujet de stage est né d’une problématique autour de la sécurité dans un smartcity (une ville intelligente), l’automatisation des systèmes de sécurité à l’aide descaméras de surveillance, aujourd’hui, qui ne cesse d’augmenter en quantité et qua-lité autour de nous dans nos vie quotidienne dans des lieux public comme privé,dans nos service comme nos domicile La sécurité des citoyens dans les environ-nements urbains modernes est un aspect important de la qualité de la vie Pro-mouvoir la capacité, l’importance de la vidéosurveillance basée sur les villes in-telligentes L’exploitation des sources de données fournissant une quantité énormed’informations précieuses le plus tôt possible afin de prendre des décisions et agir

en conséquence Inspectées, identifié les évènements inattendu beaucoup plut tôt,d’extraire des actions humaines à partir de vidéos enregistrées ou éventuellement

en temps réel, de reconnaˆıtre des modèles et d’apprendre les comportements tuels, puis de détecter s’il en existe des anormaux L’approche de la ville intelligenteest considérée comme une solution prometteuse aux problèmes liés à l’urbanisa-tion accrue Vues les performances de certaines méthodes de deep learning et de

habi-la vision par ordinateur de comprendre, caractériser le mouvement et des portements humain sur certaines données vidéo, il était question de les appliquersur nos données Le but du projet est d’utiliser des informations provenant descaméras de surveillance pour l’optimisation de la sécurité des personnes dans lespérimètre du systèmes de sécurité urbain, de détecter des évènements anormaux

com-1.1.2 Problématique

La problématique de notre travail fait mention de la reconnaissance des actionshumaines telles que : violence et non violence Ces actions expliquent entre autresles activités effectuées par au moins deux personnes dans une scène (voir Figure

33)

Figure 3 – Exemple de Violences

3 https ://vision.seecs.edu.pk/vision-based-violence-detection-system/

Trang 16

1.1.3 Objectifs du stage

Les objectifs de ce stage étaient de faire :

— une études préalable du domaine de la détection d’anomalie des ments humain via une caméra de surveillance,

comporte-— proposer une solution spécifique du domaine de la détection d’anomalie,donc la détection de violence,

— mettre en œuvre cette solution permettant d’extraire les actions humaines

et de détecter les comportements anormaux à partir d’une caméra en lisant les certaine technique de l’apprentissage profond et de la vision parordinateur

Trang 17

Différente approches de la détection de violence ont été proposés, à savoir :

— L’approche à l’aide de fonctionnalités de bas niveau ;

— L’approches du descripteur audio-visuel ;

— L’approche heuristique du comportement ;

— L’approche basées sur fonctionnalités audio

— L’approche basées sur les trames

— L’approche basées sur les points d’intérêt

Nous présentons quelque explications de ces approches de la détection de lences de la vidéo surveillance dans les sections suivante

vio-2.1.1 L’approche à l’aide de fonctionnalités de bas niveau

L’organigramme général de l’approche de la détection de la violence par tionnalités de bas niveau est composé de cinq phases à savoir :

fonc-— prétraitement vidéo,

— segmentation de région de mouvement,

— extraction de caractéristiques de bas niveau,

— traitement de caractéristiques et classification

Trang 18

Figure 4 – Organigramme général de l’approche proposée.

Cinq phases sont impliquées : le prétraitement vidéo, la segmentation de la région

de mouvement, l’extraction d’entités, le traitement et la prédiction d’entités

2.1.2 L’approches à l’aide du descripteur audio-visuel

Cette section décrit la représentation audio-visuelle jointe proposer pour la tection des événements et plus précisément de scènes violentes Le but étant d’ex-ploiter la forte corrélation entre l’information audio et l’information visuelle afin

dé-de découvrir dé-des motifs audio-visuels capables d’idé-dentifier les scènes violentes

La représentation des motifs audio-visuels est censée donner de meilleurs résultatsqu’une simple fusion (précoce ou tardive) des deux modalités audio et visuelle quiignore leurs corrélations La méthode proposée est composée de trois étapes :

1 Dans un premier temps, les descripteurs locaux audio et visuels sont extraits

à partir de la vidéo ;

2 Ensuite, les motifs bimodaux (ou encore les mots bimodaux) sont trouvés

et le dictionnaire bimodal est construit ;

3 Enfin, la représentation sous la forme de sacs-de-mots bimodaux est construitepar l’intermédiaire de ces mots

Le processus général de la méthode est illustré dans la figure 5

Trang 19

Figure 5 – Le processus général pour la génération de sacs-de-mots audio-visuels.

2.1.3 L’approche heuristique du comportement

Gao et al les descripteurs de flux violents proposés pour détecter la violence

dans les vidéos de foule Plus récemment, Mohammadi et al [19] ont proposés

une nouvelle approche basée sur une approche heuristique du comportement pourclassifier les vidéos violentes et non violentes Au-delà de la discrimination fondéesur des formes violentes et non violentes, les auteurs dans [20] ont proposés d’uti-liser le suivi pour modéliser le mouvement normal de personnes et détecter unedéviation de ce mouvement normal comme une anomalie En raison de la difficultéd’obtenir des pistes fiables, plusieurs approches évitent de suivre et apprennent lesmodèles de mouvement globaux à l’aide de méthodes basées sur l’histogramme,

la modélisation de sujets [16], les modèles de mouvement, les modèles de forcessociales, les mélanges de modèles de textures dynamiques

La structure générale est illustré dans la figure 6

Trang 20

Figure 6 – Détection des événements anormaux dans les séquences vidéo.

Tout d’abord, nous avons une extraction d’une description de mouvement aumoyen d’un flux optique dense (l’advection de particules peut également être uti-lisée) Deuxièmement, en suivant l’équation de dérivée substantielle, nous calculons

la force locale et la force de convection entre chaque paire consécutive de trames.Ensuite, nous avons suivi le paradigme standard du sac de mots pour chaque forceséparément, en échantillonnant P patchs et en les encodant dans K centres Enfin,nous concaténons les histogrammes pour former le descripteur final, défini comme

la force totale

Trang 21

2.1.4 L’approche basées sur fonctionnalités audio

Les premiers travaux sur le terrain comprennent [32], présenter dans la figure 8,

ó des scènes violentes dans des vidéos ont été reconnues en utilisant la détection

de flammes et de sang et en capturant le degré de mouvement, ainsi que les sonscaractéristiques des événements violents

Figure 7 – Processus de fusion multimodale

Un travail important a été réalisé sur l’exploitation des fonctionnalités audio etvidéo d’une vidéo afin de détecter et localiser la violence [26] Par exemple, dans,une méthode faiblement supervisée est utilisée pour combiner les classificateursauditifs et visuels de manière co-formative Bien que l’intégration de l’audio dansl’analyse soit souvent plus efficace, l’audio n’est pas souvent disponible dans lesvidéos de surveillance publique Ce problème a été résolut en développant unearchitecture de détection de la violence qui ne nécessite pas de fonctionnalitésaudio De plus, la violence est une catégorie assez large, englobant non seulement

la violence de personne à personne, mais aussi la violence de foule, la violencesportive, le feu, les coups de feu, la violence physique, etc Dans [31], la violencedes foules est détectée à l’aide du modèle allocation de Dirichlet latente (LDA)

et des machines à vecteurs de support (SVM) La détection de la violence par ladétection d’objets spécifiques liés à la violence tels que les armes à feu est également

un sujet de recherche actuel

Trang 22

2.1.5 L’approche basées sur les trames

Plusieurs techniques existantes utilisent des changements inter-images pour ladétection de la violence, afin de capturer des modèles de changement de mouve-ment rapide qui sont typiques d’une activité violente [24] ont proposés l’utilisationd’estimations d’accélération calculées à partir du spectre de puissance des tramesadjacentes comme indicateur de mouvement rapide entre trames successives [36]ont proposés un réseau neuronal profond pour la détection de la violence en senourrissant des différences de trame Il a été proposés d’utiliser des caractéristiquesd’objets blob, obtenues en soustrayant des trames adjacentes, comme descripteur

de caractéristiques Dans la figure ci-dessous nous avons une illustration de la baséssur les trames

Figure 8 – Archtecture basées sur les trames (changements inter-images)

2.1.6 L’approche basées sur les points d’intérêt

D’autres méthodes suivent des techniques telles que le suivi du mouvement et

la position des membres etc, pour identifier les points d’intérêt spatio-temporels

et extraire les caractéristiques de ces points Il s’agit notamment du détecteur decoin Harris [22], de la transformation des caractéristiques invariantes à l’échelle dumouvement (MoSIFT), illustrer dans la figure 9

Trang 23

Figure 9 – Une illustration des descripteurs de mouvement binaires locaux

Les descripteurs MoSIFT sont obtenus à partir de points saillants en deux ties : la première est un histogramme agrégé de gradients (HoG) qui décrit l’ap-parence spatiale La deuxième partie est un histogramme agrégé de flux optique(HoF) qui indique le mouvement du point caractéristique [38] ont utilisé uneversion modifiée du descripteur local motion-Weber (MoIWLD), suivie d’une re-présentation clairsemée comme descripteur de caractéristique

Trang 24

par-2.2 Architecture des modèles de la détection de violences

Pour classer de manière appropriée la violence dans les vidéos, un encodagevidéo robuste a été générer pour passer à travers un réseau de classificateurs entiè-rement connecté Cette représentation vidéo a été produit à travers un encodeurspatio-temporel Cela extrait des caractéristiques d’une vidéo qui correspondentaux détails spatiaux et temporels via un encodeur spatio-temporel (Section.2.2.1)

Le codage temporel est effectué dans les deux directions temporelles, permettantd’accéder aux informations futures de l’état actuel Une version simplifiée de l’en-codeur spatio-temporel qui code uniquement les entités spatiales via un encodeurspatial simplifié a été étudier (Section.2.2.2) Les architectures de ces deux enco-deurs sont décrites ci-dessous

Trang 25

2.2.1 Architecture d’encodage spatio-temporel

Figure 10 – L’encodeur spatio-temporel

L’encodeur spatio-temporel est composé de trois parties : un encodeur spatialréseau VGG13, un LSTM à convolution bidirectionnelle (BiConvLSTM), un en-codeur temporel et un classificateur Les trames sont redimensionnées à 224 ×

224 et la différence entre les trames adjacentes est utilisée comme entrée sur leréseau Le classificateur VGG et la dernière couche de regroupement maximalesont supprimés du réseau VGG13 (bleu et rouge) Les mappes de caractéristiques

de trame (Orange) sont de taille 14 × 14 × 512 Les caractéristiques de tramesont transmises au BiConvLSTM (vert) qui émet les codages spatio-temporels detrame (Cyan) Une opération de regroupement max par élément est effectuée surl’encodage spatio-temporel pour produire la représentation vidéo finale (Gold).Cette représentation vidéo est ensuite classée comme violente ou non violente via

un classificateur entièrement connecté (violet)

L’architecture de l’encodeur spatio-temporel est illustrée à la figure 10 Elle secompose d’un encodeur spatial qui extrait les caractéristiques spatiales pour chaqueimage de la vidéo, suivi d’un codeur temporel qui permet à ces cartes de caractéris-tiques spatiales de se «mélanger» temporellement pour produire un codage spatio-temporel à chaque pas de temps Tous ces encodages sont ensuite agrégés en uneseule représentation vidéo via une opération de regroupement max par élément.Cette représentation vidéo finale est vectorisée et transmise à un classificateurentièrement connecté

Encodage spatial : Dans ce travail, un modèle de réseau neuronal convolutif(CNN) VGG13 [35] est utilisé comme encodeur spatial La dernière couche de

Trang 26

pool max et toutes les couches entièrement connectées du réseau VGG13 sontsupprimées, ce qui donne des cartes de caractéristiques spatiales pour chaque image

de taille 14 × 14 × 512 Au lieu de passer directement des images vidéo, des imagesadjacentes ont été soustraites et utilisées comme entrée pour le encodeur spatial.Cela agit comme un modèle de flux pseudo-optique et suit [36, 34]

Codage temporel : un LSTM convolutionnel bidirectionnel (BiConvLSTM)est utilisé comme codeur temporel, dont les entrées sont les cartes de caractéris-tiques du codeur spatial Le BiConvLSTM est construit de telle sorte que la sortie

de chaque cellule soit également 14 × 14 × 512 Le fonctionnement maximal parélément est appliqué à ces sorties comme illustré sur la figure 10, résultant ainsi enune représentation vidéo finale de taille 14 × 14 × 512 Une cellule BiConvLSTMest essentiellement une cellule ConvLSTM avec deux états de cellule Les fonc-tionnalités de ConvLSTM et BiConvLSTM sont présentés dans les sous-sectionssuivantes

— ConvLSTM : une couche ConvLSTM apprend les caractéristiques

spatio-temporelles globales à long terme d’une vidéo sans réduire la taille spatialedes représentations intermédiaires Ce codage a lieu pendant le processusrécurrent du LSTM Dans un réseau LSTM standard, l’entrée est vectorisée

et codée à travers des couches entièrement connectées, dont la sortie estune représentation temporelle apprise Du fait de ces couches entièrementconnectées, les informations spatiales sont perdues Par conséquent, si l’onsouhaite conserver ces informations spatiales, l’utilisation d’une opérationconvolutionnelle au lieu d’une opération entièrement connectée peut êtresouhaitée Le ConvLSTM fait exactement cela Il remplace les couches en-tièrement connectées du LSTM par des couches convolutives Le ConvLSTMest utilisé de telle sorte que les opérations de convolution et de récurrencedans les transitions entrée-à-état et état-à-état puissent utiliser pleinementles informations de corrélation spatio-temporelles La formulation de la cel-lule ConvLSTM est présentée ci-dessous :

Trang 27

D’ó «*» désigne l’opérateur de convolution, « » désigne le produit de

Hadamard, «σ » est la fonction sigmo¨ıde et W x∗ , W h sont des noyaux deconvolution 2D correspondant respectivement à l’état d’entrée et caché Les

états cachés (H0, H1, H t−1 ) et les cellules (C1, C2, C t) sont mis à jour en

fonction de l’entrée (X1, X2, X t ) qui le traversent, les activations f t et o t

gate à chaque étape de la séquence temporelle b i , b f , b o et b csont les termes

de biais correspondants

— BiConvLSTM : Le BiConvLSTM est une amélioration de ConvLSTM

dans lesquels deux ensembles d’états cachés et de cellule sont conservéspour chaque cellule LSTM : un pour une séquence avant et l’autre pourune séquence arrière dans le temps BiConvLSTM peut ainsi accéder aucontexte à longue portée dans les deux sens de la séquence temporelle del’entrée et ainsi potentiellement acquérir une meilleure compréhension de lavidéo entière La figure 11 illustre la fonctionnalité d’une cellule BiConvL-STM Il est composé d’une cellule ConvLSTM avec deux ensembles d’états

masqués et cellulaires Le premier ensemble (h f , c f) est pour la passe avant

et le second ensemble (h b , c b) est pour la passe arrière Pour chaque séquencetemporelle, les états cachés correspondants des deux ensembles sont empilés

et passés à travers une couche de convolution pour obtenir une tion cachée finale pour ce pas de temps Cette représentation masquée estensuite transmise à la couche suivante du module BiConvLSTM en entrée

Ngày đăng: 06/09/2020, 18:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN