1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn human action and detect abnormal behavor from camera hành vi con người và phát hiện hành vi không bình thường từ camera

53 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Human action and detect abnormal behavior from camera
Tác giả Coulilaby Adama
Người hướng dẫn Dr. Phuc Trong Nguyen
Trường học Université National de Vietnam à Hanoi
Chuyên ngành Informatique
Thể loại Luận văn
Năm xuất bản 2020
Thành phố Hanoi
Định dạng
Số trang 53
Dung lượng 1,81 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Suite a une étude bibliographique approfondir cu domaine, en réponse lobjectif re- chercher, nous optons pour la détection de violence dans une vidéo de surveillance.. Le modéle mise en

Trang 1

UNIVERSITE NATIONAL DŨ VIVTNAM HANOL INSTITUT FRANCOPHONE INTERNATIONAL

COULIBALY Adama

Humana tion and detect abnormal

ehavor from camera

Hành vi con người và phát hiện hành vi

không bình thường từ camera

Spécialité : Systéme Intelligent ct multimédia

Code : Programme pilote

MEMOIRE DE FIN DYETUDES DE MASTER EN, INFORMATIQUE

Trang 2

ATTESTATION SUR L’HONNEUR

Vatteste sur Vhonneur que ce mémoire a été réalisé par moi-méme et que les

données et les résultats qui y sont présentés sont exacts et n'ont jamais été pu-

bliés ailleurs, La source des informations citées dans ce mémoire a été bien précisée

LOI CAM DOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ

trình nào khác Các thông tin trích dần trong Luận văn đã được chỉ rõ nguồn gổ

Signature de Uétudiant

COULIBALY Adama

Trang 3

eré A m’apporter les ontils méthodologiques indispensables A la condnite de cette

recherche Leurs exigence m’ont grandement: stimulé

Un grand merci également & toute équipe de 1l'l SOLUTION trop nombreux pour les citer, qui out participé de prét onune de loin i ln céalisution ct validation

de ce projet Ce travail n'aurail pu dire uevompli suns leur effort ot leur eeulribution passionnées

Je vondrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi qne

tons les personnels pédagogiqnes et administratifs de l'Institut Francophone Tnter-

national, Université National de Vietnam a Ilanoi, Je leur euis reconnaissant de tout cceur pour avoir assuré et amélioré la qualité de notre formation En particu lier, je tieng à exprimer ma profonde gratitude 8 mes parents, 4 ma famille pour lout leurs efforts & mon éducation, am santé ct dieu dante chose que je ue pout toute les Guuméré, qui tu 0u porrniL d”6ro là wujourd’hui, J'aimerais aussi expeimier

ma gratitude A M NGUYTIN Quang ponr son encadrement et ces conseils lors dn module Travaux Versonnel Lncadré durent le Master 1 Sans oublier mes amis qui ont toujours été 14 pour moi Votre soutien inconditionnel et vos encouragements ont été dune grande aide Jo vous remereic

Trang 4

Table des figures

Violence detection by 8D convolutional networks m ref [I] 10

[3 xemple de Violences| tain 4 3 01A6 si WÍŒU& we SAM @ 13

5 raphe de lap’ ions du modéle à cadre unique] 40

[2 raphe de Ta perte du modele à cadre unique] 2 - 40

23 Graphe dc la Drécision du modèlc à cadre mmuÌHpR] 41

raphe de la perte du modele & cadre multiple] 4L

42

43

[2B _ Détection de violence đang lạ vid6o02]} - Ad

B0 Larchitecture de Ta solution] đỗ

Trang 5

Résumé

La sécurité des citoyena dans lea environnements urhains moderes est 1m aspect, important de la qualité de Ta vie Ta mise en cenvre d'une approche de la vidéo surveillance basée sur les villes intelligentes dépend en grande partie de la capacité

de collecte et de traitement de grandes quantités de données urbaines en direct L'analysc des données provenant de flux vidéo de surveillance & bande passante devée fourniy pur des réseaux de captours distribuéy de grunde taille est particu- liavement: difficile Le snjet de ce stage s'inacrit: dans Te contexte de Ta détection automatique du comportement violent 4, partir de séquences vidéos de surveillance, qui est une des préoccupations majeures dans le domaine de Ja vision par orcina- teur Les domaines application pour les systémes de vision sont nombreux On peut citer notamment Ie vidéo surveillance, la recherehe ct I'indexation autome- tique de vidéos ou caeore Passislanee aux personnes dydus et Iragiles, Celie ache reste tres problématique par le fait des grandes variations duns la maitre de réu- liser les comportements, l’'apparence de Ta personne et, les variarions des conditions d'acquisition

Le travail réalisé s’inacrit, dans Te cadre du projet: Rahavior Abnormal Detection (Detection de comportement anormal) et fait usage des méthodes de deep lear- ning de ls computer vision sur des vidéus issues des caméras de surveillance La

premiére (ache & faire &ait d'écudier le domaine de la détection d'anomalie dans

une vidéo de surveillance, de mettre en évidence Tes différences cas possible, ces

relations, a sollicité dans fe monde réel La seconde tache était de propaser une solution au probléme en spécifiant un eas d’application bien définir et qui soit un besoin réel dans notre quotidien

Suite a une étude bibliographique approfondir cu domaine, en réponse lobjectif re- chercher, nous optons pour la détection de violence dans une vidéo de surveillance

Pour ce faire, nous avous [ait usnge de le combinuison de réseuux de ucuroncs

convolution (CNN), pour Paspect spatio-temporel afin d'extraire les caractéris-

tiques pertinentes ainsi que du réseau de neurones récurrente (RINX) reconnu pour

le traitement séquentiel des données, le but d’améliorer les résultats obtenus

Le modéle mise en place prend suite 4 notre specification de domaine, prend en entrée des vidéos pour les modclés CNN, e’est & dire unc séquenee d'images cx-

traire du la vidéo, Is sont capables de luire une prédiction avce un bon taux de

précisiun et de recounaiLre les comportements violent effectuées par des persunne

dans une vidéo

Les actions constitnant notre base de vidéos sont de deux eatégories (Violence et, Non-viclence), avec lesquelles nous avons fait différentes expérimentations avec la validation sur l'ensemble de nos deux actions et 4 l'issu des entrainements nous

Mong obtcnous de bon résulluts, mmiy ave cerlaines confusion dans certaincs uc-

(ions

Trang 6

Mata clés : réseanx đe rieurones eanvolnrionnel ; réseanx de nenranes récurremte; Papprentissage en profondenr; vision par ordinatenr; détection de comportement anormale; détection de la violence ; Villes intelligentes

Trang 7

Abstract

Citizen security in modern urban environments is an important aspect of the qua lily of life The implementation of a video surveillance approach based om stauct vilies largely depends on the capacity to collect and proves large quantities of

live urban data Analysis of data from high bandwidth surveillance video streams

provided by large distributed sensor networks is particnlarly diffienlt The anbject

of this intemship is in the context of antomatie detention of violent, behavier from surveillance video sequences, which is one of the major concerns in the field of computer vision The fields of applicution for visiou systems ure mumerous These include video surveillunee, aulomutic search and indexing, video or vhe elderly und frail assistance This task remains very problematic because of the great variations

in the way behaviors achieving, the person appearance of and the variations in the acquisition conditions

The work cartied out is part of the Bahsvior Abnormal Detection project and makes use of deep learning methods, computer vision methods on videos from sur

veillance cameras The first task to do was to study the anomaly detection field in

waurveillauce video, to highlight the dillerences euscs possible, Unese relationships, ily demand in the real world The second tsk was 4o propose a solution bo Une problem hy specifying a well defined application case which is a real need in our daily life

Following a thorough bibliographie study of the field, in response to the objective sought, we opt for the violence detection in a surveillance video About it, we used the vombinution of convolutional neural networks (CNN), for the spatio-temporal wspeet in order Lo extract the relevant chaructcristies, as well us the recurrent neu- ral network (RINN) reeognized for the sequential dara processing, the purpose of improving the results abrained The model implemented follows on domain speci- fication, takes as input videos for CNN models, ie a sequence af images extracted from the video ‘I'hey are able to make a prediction with a good rate of accuracy and to recognize violent behavior carried out by people in a viclea ‘I'he actions constiluting our video base are uf two categories (Violence aud No-violence), with which we have made different: experiments with validarion on all of our two actions and at the end of the training we have obtained good results , but with certain confusion in certain actions

Keywords : Convolutional neural networks; recurrent neural networks; deep Icarning ; computer vision ; detection of abnormal behavior ; detection of violence; Stnorb citicg

Trang 8

LDA : Latent Dirichlet: Allocation ;

SVM : Support Vector Machine:

Trang 9

Table des matières

Trang 11

INTRODUCTION GENERALE

La surveillance vidéo par réseau de capteurs dans les zones urbaines implique de

grandes quantités de petits naeuds capables de la détection vidéo Une approche

possible repose sur un neeud central puissant capable de mettre en oeuvre des solutions DL en traitant des flux vidéo collectés 4 partir des noeuds du réseau Cette approche centralisée présente un inconvénient majeur lié A la bande passante requise compte tenu du streaming (diffusion) vidéo haute résolution, Une meilleure solution implique un traitement distribué au niveau de chaque neeud Le probleme principal dans ce cas est la faible puissance de caleul disponible pour la mise en œuvre de Ƒalgorithme DI

Les travaux antérieurs sur la détection de la violence utilisent des fonctionnalités

traditionnelles telles que BoVW, STIP et MoSIFT, et les classent par SVM [}

Ding et Al extraire les caractéristiques spatiales et temporelles a l'aide des couches

de convolution 3D et les classer selon les couches entitrement connectées (comme le

montre la Figure{I)[] [10] Cependant, les deux méthodes proposées ne supportent

pas bien la longueur variable des vidéos Et le temps de calcul de la convolution 3D augmente rapidement en raison de la profondeur de l’axe temporel

Trang 12

Structure du mémoire

Chapitre 1: dans ce chapitre, nons présentons, de manidre générale, Ï'arganisme d'accueil de ce stage ainsi que le projet 'Abnormalie detection’ autour duquel est

né ce sujet du stage, la problématique et les objectiis de notre travail

Chapitre 2: Ie chapitre 2 conticut l'étude bibliographique (élat de Vurt} concer- nant la détection de la violence, les différentes mérhodes et architectnres d'appren- tissage profond ailisées panr cette problématiqne

Chapitre 3 : ce chapitre concerne les solutions envisagées 4 Pissu des différentes méthodes d'apprentissage profond cxistantcs dans le littérature Nous faisons usage

de la combimaison des deux inéthodes CNN avce RNN cu purtieulicr du LSTM

Chapitre 4 : le chapitre 4 présente différents résnttats des expérimentations et approches utilisées sur les vidéos

11

Trang 13

Chapitre 1

1 Présentation du projet

1.1 Structure d’accueil

Ce stage s'est déroulé au sein de l'établissement IFI SolutionF] c'est une entre-

prise de développement informatique situer 4 Hanoi au Vietnam, qui fournit des

professionnels d'externalisation de logiciels dans plusieurs domaines tel

Avec plus de 15 ans d’expérience et un engagement élevé dans Ja qualité, IFT

Solution intervient dans différents pays, notamment en France, en Italie, au Japon,

en Suisse et en Allemagne

Les principaux service d’externalisation de logiciel 4 IFI Solution sont :

Développement d’applications mobiles

Développement d’applications Web frontales

Développement d’applications Web back-end (serveur)

Développement de logiciels embarqu

Tests de logiciels (tests automatisé

Trang 14

1.1.1 Contexte du projet

Ce sujet de stage est né d’une problématique autour de la sécurité dans un smart city (une ville intelligente), 'automatisation des systémes de sécurité & aide des caméras de surveillance, aujourd’hui, qui ne cesse d’augmenter en quantité et qua- lité autour de nous dans nos vie quotidienne dans des lieux public comme privé,

dans nos ser comme nos domi La sécurité des citoyens dans les environ-

nements urbains modernes est un aspect important de la qualité de la vie Pro-

mouvoir la capacité, limportance de la vidéosurveillance basée sur les villes in-

telligentes L’exploitation des sources de données fournissant une quantité énorme informations précieuses le plus tot possible afin de prendre des décisions et agir

en conséquence, Inspectées, identifié les évenements inattendu beaucoup plut tot, đfextraire des actions humaines A partir de vidéos enregistrées ou éventuellement

en temps réel, de reconnaitre des modéles et d’apprendre les comportements habi-

tuels, puis de détecter s'il en existe des anormanx L’approche de la ville intelligente

est considérée comme une solution prometteuse aux problémes liés a l'urbanisa-

tion accrue Vues les performances de certaines méthodes de deep learning et de

la vision par ordinateur de comprendre, caractériser le mouvement et des com- portements humain sur certaines données vidéo, il était question de les appliquer sur nos données Le but du projet est d’utiliser des informations provenant des caméras de surveillance pour Voptimisation de la sécurité des personnes dans les

périmétre du systémes de sécurité urbain, de détecter des évenements anormaux

Trang 15

1.1.3 Objectifs du stage

Les ohjectifs de ce stage étaient dle faire :

— une études préalable du domaine de 1a détection d’anomalie des comporte- ments bumein via une camére de surveillance,

proposcr une sulution spécifique du dommine de la déeetion denemulic, doue la détectiou de violence,

— mettre en ceuvre cette solution permettant d'extraire les actions humaines

et de clétecter les comportements anormanx & partir d’ume caméra en uti- lisent les certaine technique de l'apprentissage profond et de la vision par ordinateur

14

Trang 16

Chapitre 2

2.1 Détection de violence :

La détection d’anomalies est Pun des problémes les plus difficiles et les plus

anciens de la vision par ordinateur [2T] Hồi [T8] Pour les applications de vidéo

urveillance, plusieurs tentatives de détection de la violence ou de l'agression [TZ

{19} sont présentées dans des vidéos Datta et al ont proposés de détecter la violence

humaine en exploitant le mouvement et l’orientation des membres Kooij et al [I7]

ont utilisé des données vidéo et audio pour détecter les actions agressives dans les

vidéos de surveillance

Différente approches de la détection de violence ont été proposés, & savoir :

L'approche a Vaide de fonetionnalités de bas niveau:

Liapproches du descripteur audio-visuel ;

L’approche heuristique du comportement ;

L'approche basées sur fonctionnalités audio

segmentation de région de mouvement

extraction de caractéristiques de bas niveau,

traitement de caractéristiques et classification

prédiction

Comme mentionné dans la référence [I5], les images consécutives sont trés redon-

dantes, il n'est done pas nécessaire d’extraire les images image par image Pendant

la phase de prétraitement vidéo, les images sont extraires d’une longue séquence vidéo en utilisant une stratégie d’échantillonnage temporel clairsemée, qui est ap- pelée cadre de segment temporel [[5] L’organigramme général de l'approche est

Trang 17

EIGURE 4 — Organigramme général de l’approche proposée

‘ing phases sont impliquées : le prétraitement vidéo, la segmentation de la région

de mouvement, l’extraction d'entités, le traitement et la prédiction d'entités

2.1.2 L’approches 4 l'aide du descripteur audio-visuel

Cette s

tection des événements et plus précisément đe seènes violentes Le but étant d`ex- ploiter la forte corrélation entre l'information audio et l'information visuelle afin

de découvrir des motifs audio-visuels capables d’identifier les

La représentation des motifs audio-visuels est censée donner de meilleurs résultats

qu'une simple fusion (précoce ou tardive) des deux modalités audio et visuelle qui

ignore leurs corrélations La méthode proposée est composée de trois étapes :

2 Ensuite, les motifs bimodaux (ou encore les mots bimodaux) sont trouvé:

et le dictionnaire bimodal est construit ;

Trang 18

Extraction Pant Pạn2 Plann descnpteur Audio

2.1.3 L’approche heuristique du comportement

Gao et al les descripteurs de flux violents proposés pour détecter la violence

dans les vidéos de foule Plus récemment, Mohammadi et al [[9J] ont proposés

une nouvelle approche basée sur une approche heuristique du comportement pour

classifier les vidéos violentes et non violentes Au-dela de la discrimination fondée sur des formes violentes et non violentes, les auteurs dans ont proposés d’uti-

liser le suivi pour modéliser le mouvement normal de personnes et détecter une

déviation de ce mouvement normal comme une anomalie En raison de la difficulté

dobtenir des pistes fiables, plusieurs approches évitent de suivre et apprennent les

modéles de mouvement globanx a l'aide de méthodes basées sur I’histogramme,

la modélisation de sujets [1G], les modéles de mouvement, les modéles de forces

sociales, les mélanges de modéles de textures dynamiques

Trang 19

Motion description Substantial derivative Bag-of- words Frame ~ DLecalForce FE ‘Compute Sample P patches Econdein Keonters

Opicfow U (orParicleAdvection) Convective Force

la force locale et la force de convection entre chaque paire consécutive de trames Ensuite, nous avons suivi le paradigme standard du sac de mots pour chaque force séparément, en échantillonnant P patchs et en les encodant dans K centres Enfin, nous concaténons les histogrammes pour former le descripteur final, défini comme

la force totale,

18

Trang 20

2.1.4 LẺapproche basées sur fonctionnalités audio

Les premiers travaux sur le terrain comprennent présenter dans la figure

oit des scénes violentes dans des vidéos ont été reconnues en utilisant la détection

de flammes et de sang ct en capturant le degré de mouvement, ainsi que les sons

caractéristiques des événements violents

FIGURE 7 ~ Processus de fusion multimodale

Un travail important a été réalisé sur exploitation des fonctionnalités audio et

vidéo d'une vidéo afin de détecter et localiser la violence [26] Par exemple, dans,

une méthode faiblement supervi t_utilisée pour combiner les classificateurs

auditifs et visuels de maniére co-formative Bien que l'intégration de l'audio dans Tanalyse soit souvent plus efficace, l'audio n’est pas souvent disponible dans les vidéos de surveillance publique Ce probleme a été résolut en développant une architecture de détection de la violence qui ne nécessite pas de fonctionnalités audio De plus, la violence est une catégorie assez large, englobant non seulement

la violence de personne personne, mais aussi la violence de foule, la violence sportive, le fen, les coups de feu, la violence physique, ete Dans [31], la violence

des foules est détectée & l'aide du modéle allocation de Dirichlet latente (LDA)

et des machines 4 vecteurs de support (SVM) La détection de la violence par la détection d’objets spécifiques liés a la violence tels que les armes a feu est également

un sujet de recherche actuel

Trang 21

2.1.5 LẺapproche basées sur les trames

Plusieurs techniques existantes ntilisent des changements inter-images pour la

détection de la violence, afin de capturer des modéles de changement de mouve- ment rapide qui sont typiques d’une activité violente [24] ont proposés l'utilisation

d'estimations d’accélération calculées partir du spectre de puissance des trames

adjacentes comme indicateur de mouvement rapide entre trames successive:

ont proposés un réseau neuronal profond pour la détection de la violence en se

nourrissant des différences de trame Il a été proposés d'utiliser des caractéristiques

d'objets blob, obtenues en soustrayant des trames adjacentes, comme descripteur

de caractéristiques Dans la figure ci-dessous nous avons une illustration de la basés sur les trames

Figure 8 — Archtecture basées sur les trames (changements inter-images)

2.1.6 L’approche basées sur les points d’intérét

D'autres méthodes suivent des techniques telles que le suivi du mouvement et

la position des membres etc, pour identifier les points d'intérét spatio-temporels

et extraire les caractéristiques de ces points Il s’agit notamment du détecteur de coin Harris [22], de la transformation des caractéristiques invariantes 4 l’échelle du

mouvement (MoSIFT), illustrer dans la figure [J]

20

Trang 22

version modifiée du descripteur local motion-Weber (MoIWLD), suivie d'une re-

présentation clairsemée comme descripteur de caractéristique

Trang 23

2.2 Architecture des modèles de la détection de violences

Pour elasser de manière appropriée la violenee dans les vidếos, tm eneodage vidéo robuste ä été gềnérer pour passer à travers un réseau de classificateurs entiề-

rement connecté Cette représentation vidéo a été produit à travers un encodeur

spatio-temporel Cela extrait des caractéristiques d’une vidéo qui correspondent

aux détails spatianx et temporels via un encodeur spatio-temporel (Section:

Le codage temporel est effectué dans les deux directions temporelles, permettant aceéder aux informations futures de l'état actuel Une version simplifiée de I'en- codeur spatio-temporel qui code uniquement les entités spatiales via un encodeur

spatial simplifié a été étudier (Section 22.2) Les architectures de ces deux enco-

deurs sont décrites ci-dessous

22

Trang 24

2.2.1 Architecture d’encodage spatio-temporel

Petters

FIGURE 10 ~ L’encodeur spatio-temporel

L’encodeur spatio-temporel est composé de trois parties : un encodeur spatial

réseau VGG13, un LSTM A convolution bidirectionnelle (BiConvLSTM), un en- codeur temporel et un classificateur Les trames sont redimensionnées A 224 x

4 et la différence entre les trames adjacentes est utilisée comme entrée sur le réseau Le classificateur VGG et la derniére couche de regroupement maximale

sont supprimés du réseau VGG13 (bleu et rouge) Les mappes de caractéristiques

de trame (Orange) sont de taille 14 x 14 x 512 Les caractéristiques de trame

sont transmises au BiConvLSTM (vert) qui émet les codages spatio-temporels de trame (Cyan) Une opération de regroupement max par élément est effectuée sur Tencodage spatio-temporel pour produire la représentation vidéo finale (Gold) Cette représentation vidéo est ensuite classée comme violente ou non violente via

un classificateur entiérement connecté (violet)

L'architecture de lencodeur spatio-temporel est illustrée & la figure [IO] Elle

compose d'un encodeur spatial qui extrait les caractéristiques spatiales pour chaque

image de la vidéo, suivi d'un codeur tempore! qui permet a ces cartes de caractéris- tiques spatiales de se «mélanger» temporellement pour produire un codage spatio- temporel 4 chaque pas de temps Tous ces encodages sont ensuite agrégés en une seule représentation vidéo via une opération de regroupement max par élément

Cette représentation vidéo finale est vectorisée et transmise 4 un classificateur

entiérement connecté,

Encodage spatial : Dans ce travail, un modéle de réseau neuronal convolutif

) VGG13 est utilisé comme encodeur spatial La derniére couche de

Trang 25

pool max et toutes les couches entiérement connectées du réseau VGG13 sont

supprimées, ce qui donne des cartes de caractéristiques spatiales pour chaque image

de taille 14 x 14 x 512 Au lieu de passer directement des images vidéo, des images

adjacentes ont été soustraites et utilisées comme entrée pour le encodeur spatial,

Cela agit comme un modéle de flux pseudo-optique et suit [36| BY]

Codage temporel : un LSTM convolutionnel bidirectionnel (BiConvLSTM)

est utilisé comme codeur temporel, dont les entrées sont les cartes de caractéris- tiques du codeur spatial Le BiConvLSTM est construit de telle sorte que la sortie

de chaque cellule soit également 14 x 14 x 512 Le fonetionnement maximal par

élément est appliqué A ces sorties comme illustré sur la figure[I0} résultant ainsi en une représentation vidéo finale de taille 14 x 14 x 512 Une cellule BiConvLSTM

est essentiellement une cellule ConvLSTM avec deux états de cellule Les fone- tionnalités de ConvLSTM et BiConvLSTM sont présentés dans les sous-sections

suivantes

ConvLSTM : une couche ConvLSTM apprend les caractéristiques spatio-

temporelles globales 4 long terme d'une vidéo sans réduire a taille spatiale

des représentations intermédiaires Ce codage a lieu pendant le processus

récurrent du LSTM Dans un réseau LSTM standard, l’entrée est vectorisée

et codée & travers des couches entièrement connectées, dont la sortie est

une représentation temporelle apprise Du fait de ces couches entiérement

connectées, les informations spatiales sont perdues Par conséquent, si l'on souhaite conserver ces informations spatiales, l'utilisation d'une opération convolutionnelle au lieu d'une opération entitrement connectée peut étre souhaitée Le ConvLSTM fait exactement cela Il remplace les couches en-

it connectées du LSTM par des couches convolutives Le ConvLSTM

é de telle sorte que les opérations de convolution et de récurrence

dans les transitions entrée-d-état et état-d-état puissent utiliser pleinement

les informations de corrélation spatio-temporelles La formulation de la cel- lule ConvLSTM est présentée c

Ch = fi Ces + idanh(W2, + Ấ, + Wie * Hị— + be)

Hy = % © tanh(Ci)

2

Trang 26

D’oit «*» désigne Vopérateur de eonvolution, «@©» đésigne le produit de

Hadamard, «o » est la fonction sigmoide et W,,,Wj, sont des noyaux de

convolution 2D correspondant respectivement A l'état d’entrée et caché Les états cachés (Ho, Hi, Hi-1) et les cellules (C;, Cy, C;) sont mis A jour en fonction de Ventrée (X,, X2,.-X1) qui le traversent, les activations fi et 0, gate A chaque étape de la séquence temporelle b;, by, bo et be sont les termes

vidéo entiére La figure [I] illustre la fonctionnalité d'une cellule BiConvL- STM, Il est composé d'une cellule ConvLSTM avec deux ensembles d'états

masqués et cellulaires, Le premier ensemble (hy, cy) est pour la passe avant

et le second ensemble (/ip, ch) est pour la passe arriére Pour chaque séquence

temporelle, les états cachés correspondants des deux ensembles sont empilés

et passés a travers une couche de convolution pour obtenir ume représenta-

tion cachée finale pour ce pas de temps Cette représentation masquée est

ensuite transmise 4 la couche suivante du module BiConvLSTM en entrée

Ngày đăng: 31/05/2025, 13:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w