Suite a une étude bibliographique approfondir cu domaine, en réponse lobjectif re- chercher, nous optons pour la détection de violence dans une vidéo de surveillance.. Le modéle mise en
Trang 1UNIVERSITE NATIONAL DŨ VIVTNAM HANOL INSTITUT FRANCOPHONE INTERNATIONAL
COULIBALY Adama
Humana tion and detect abnormal
ehavor from camera
Hành vi con người và phát hiện hành vi
không bình thường từ camera
Spécialité : Systéme Intelligent ct multimédia
Code : Programme pilote
MEMOIRE DE FIN DYETUDES DE MASTER EN, INFORMATIQUE
Trang 2ATTESTATION SUR L’HONNEUR
Vatteste sur Vhonneur que ce mémoire a été réalisé par moi-méme et que les
données et les résultats qui y sont présentés sont exacts et n'ont jamais été pu-
bliés ailleurs, La source des informations citées dans ce mémoire a été bien précisée
LOI CAM DOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
trình nào khác Các thông tin trích dần trong Luận văn đã được chỉ rõ nguồn gổ
Signature de Uétudiant
COULIBALY Adama
Trang 3eré A m’apporter les ontils méthodologiques indispensables A la condnite de cette
recherche Leurs exigence m’ont grandement: stimulé
Un grand merci également & toute équipe de 1l'l SOLUTION trop nombreux pour les citer, qui out participé de prét onune de loin i ln céalisution ct validation
de ce projet Ce travail n'aurail pu dire uevompli suns leur effort ot leur eeulribution passionnées
Je vondrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi qne
tons les personnels pédagogiqnes et administratifs de l'Institut Francophone Tnter-
national, Université National de Vietnam a Ilanoi, Je leur euis reconnaissant de tout cceur pour avoir assuré et amélioré la qualité de notre formation En particu lier, je tieng à exprimer ma profonde gratitude 8 mes parents, 4 ma famille pour lout leurs efforts & mon éducation, am santé ct dieu dante chose que je ue pout toute les Guuméré, qui tu 0u porrniL d”6ro là wujourd’hui, J'aimerais aussi expeimier
ma gratitude A M NGUYTIN Quang ponr son encadrement et ces conseils lors dn module Travaux Versonnel Lncadré durent le Master 1 Sans oublier mes amis qui ont toujours été 14 pour moi Votre soutien inconditionnel et vos encouragements ont été dune grande aide Jo vous remereic
Trang 4
Table des figures
Violence detection by 8D convolutional networks m ref [I] 10
[3 xemple de Violences| tain 4 3 01A6 si WÍŒU& we SAM @ 13
5 raphe de lap’ ions du modéle à cadre unique] 40
[2 raphe de Ta perte du modele à cadre unique] 2 - 40
23 Graphe dc la Drécision du modèlc à cadre mmuÌHpR] 41
raphe de la perte du modele & cadre multiple] 4L
42
43
[2B _ Détection de violence đang lạ vid6o02]} - Ad
B0 Larchitecture de Ta solution] đỗ
Trang 5Résumé
La sécurité des citoyena dans lea environnements urhains moderes est 1m aspect, important de la qualité de Ta vie Ta mise en cenvre d'une approche de la vidéo surveillance basée sur les villes intelligentes dépend en grande partie de la capacité
de collecte et de traitement de grandes quantités de données urbaines en direct L'analysc des données provenant de flux vidéo de surveillance & bande passante devée fourniy pur des réseaux de captours distribuéy de grunde taille est particu- liavement: difficile Le snjet de ce stage s'inacrit: dans Te contexte de Ta détection automatique du comportement violent 4, partir de séquences vidéos de surveillance, qui est une des préoccupations majeures dans le domaine de Ja vision par orcina- teur Les domaines application pour les systémes de vision sont nombreux On peut citer notamment Ie vidéo surveillance, la recherehe ct I'indexation autome- tique de vidéos ou caeore Passislanee aux personnes dydus et Iragiles, Celie ache reste tres problématique par le fait des grandes variations duns la maitre de réu- liser les comportements, l’'apparence de Ta personne et, les variarions des conditions d'acquisition
Le travail réalisé s’inacrit, dans Te cadre du projet: Rahavior Abnormal Detection (Detection de comportement anormal) et fait usage des méthodes de deep lear- ning de ls computer vision sur des vidéus issues des caméras de surveillance La
premiére (ache & faire &ait d'écudier le domaine de la détection d'anomalie dans
une vidéo de surveillance, de mettre en évidence Tes différences cas possible, ces
relations, a sollicité dans fe monde réel La seconde tache était de propaser une solution au probléme en spécifiant un eas d’application bien définir et qui soit un besoin réel dans notre quotidien
Suite a une étude bibliographique approfondir cu domaine, en réponse lobjectif re- chercher, nous optons pour la détection de violence dans une vidéo de surveillance
Pour ce faire, nous avous [ait usnge de le combinuison de réseuux de ucuroncs
convolution (CNN), pour Paspect spatio-temporel afin d'extraire les caractéris-
tiques pertinentes ainsi que du réseau de neurones récurrente (RINX) reconnu pour
le traitement séquentiel des données, le but d’améliorer les résultats obtenus
Le modéle mise en place prend suite 4 notre specification de domaine, prend en entrée des vidéos pour les modclés CNN, e’est & dire unc séquenee d'images cx-
traire du la vidéo, Is sont capables de luire une prédiction avce un bon taux de
précisiun et de recounaiLre les comportements violent effectuées par des persunne
dans une vidéo
Les actions constitnant notre base de vidéos sont de deux eatégories (Violence et, Non-viclence), avec lesquelles nous avons fait différentes expérimentations avec la validation sur l'ensemble de nos deux actions et 4 l'issu des entrainements nous
Mong obtcnous de bon résulluts, mmiy ave cerlaines confusion dans certaincs uc-
(ions
Trang 6Mata clés : réseanx đe rieurones eanvolnrionnel ; réseanx de nenranes récurremte; Papprentissage en profondenr; vision par ordinatenr; détection de comportement anormale; détection de la violence ; Villes intelligentes
Trang 7Abstract
Citizen security in modern urban environments is an important aspect of the qua lily of life The implementation of a video surveillance approach based om stauct vilies largely depends on the capacity to collect and proves large quantities of
live urban data Analysis of data from high bandwidth surveillance video streams
provided by large distributed sensor networks is particnlarly diffienlt The anbject
of this intemship is in the context of antomatie detention of violent, behavier from surveillance video sequences, which is one of the major concerns in the field of computer vision The fields of applicution for visiou systems ure mumerous These include video surveillunee, aulomutic search and indexing, video or vhe elderly und frail assistance This task remains very problematic because of the great variations
in the way behaviors achieving, the person appearance of and the variations in the acquisition conditions
The work cartied out is part of the Bahsvior Abnormal Detection project and makes use of deep learning methods, computer vision methods on videos from sur
veillance cameras The first task to do was to study the anomaly detection field in
waurveillauce video, to highlight the dillerences euscs possible, Unese relationships, ily demand in the real world The second tsk was 4o propose a solution bo Une problem hy specifying a well defined application case which is a real need in our daily life
Following a thorough bibliographie study of the field, in response to the objective sought, we opt for the violence detection in a surveillance video About it, we used the vombinution of convolutional neural networks (CNN), for the spatio-temporal wspeet in order Lo extract the relevant chaructcristies, as well us the recurrent neu- ral network (RINN) reeognized for the sequential dara processing, the purpose of improving the results abrained The model implemented follows on domain speci- fication, takes as input videos for CNN models, ie a sequence af images extracted from the video ‘I'hey are able to make a prediction with a good rate of accuracy and to recognize violent behavior carried out by people in a viclea ‘I'he actions constiluting our video base are uf two categories (Violence aud No-violence), with which we have made different: experiments with validarion on all of our two actions and at the end of the training we have obtained good results , but with certain confusion in certain actions
Keywords : Convolutional neural networks; recurrent neural networks; deep Icarning ; computer vision ; detection of abnormal behavior ; detection of violence; Stnorb citicg
Trang 8LDA : Latent Dirichlet: Allocation ;
SVM : Support Vector Machine:
Trang 9
Table des matières
Trang 11INTRODUCTION GENERALE
La surveillance vidéo par réseau de capteurs dans les zones urbaines implique de
grandes quantités de petits naeuds capables de la détection vidéo Une approche
possible repose sur un neeud central puissant capable de mettre en oeuvre des solutions DL en traitant des flux vidéo collectés 4 partir des noeuds du réseau Cette approche centralisée présente un inconvénient majeur lié A la bande passante requise compte tenu du streaming (diffusion) vidéo haute résolution, Une meilleure solution implique un traitement distribué au niveau de chaque neeud Le probleme principal dans ce cas est la faible puissance de caleul disponible pour la mise en œuvre de Ƒalgorithme DI
Les travaux antérieurs sur la détection de la violence utilisent des fonctionnalités
traditionnelles telles que BoVW, STIP et MoSIFT, et les classent par SVM [}
Ding et Al extraire les caractéristiques spatiales et temporelles a l'aide des couches
de convolution 3D et les classer selon les couches entitrement connectées (comme le
montre la Figure{I)[] [10] Cependant, les deux méthodes proposées ne supportent
pas bien la longueur variable des vidéos Et le temps de calcul de la convolution 3D augmente rapidement en raison de la profondeur de l’axe temporel
Trang 12Structure du mémoire
Chapitre 1: dans ce chapitre, nons présentons, de manidre générale, Ï'arganisme d'accueil de ce stage ainsi que le projet 'Abnormalie detection’ autour duquel est
né ce sujet du stage, la problématique et les objectiis de notre travail
Chapitre 2: Ie chapitre 2 conticut l'étude bibliographique (élat de Vurt} concer- nant la détection de la violence, les différentes mérhodes et architectnres d'appren- tissage profond ailisées panr cette problématiqne
Chapitre 3 : ce chapitre concerne les solutions envisagées 4 Pissu des différentes méthodes d'apprentissage profond cxistantcs dans le littérature Nous faisons usage
de la combimaison des deux inéthodes CNN avce RNN cu purtieulicr du LSTM
Chapitre 4 : le chapitre 4 présente différents résnttats des expérimentations et approches utilisées sur les vidéos
11
Trang 13Chapitre 1
1 Présentation du projet
1.1 Structure d’accueil
Ce stage s'est déroulé au sein de l'établissement IFI SolutionF] c'est une entre-
prise de développement informatique situer 4 Hanoi au Vietnam, qui fournit des
professionnels d'externalisation de logiciels dans plusieurs domaines tel
Avec plus de 15 ans d’expérience et un engagement élevé dans Ja qualité, IFT
Solution intervient dans différents pays, notamment en France, en Italie, au Japon,
en Suisse et en Allemagne
Les principaux service d’externalisation de logiciel 4 IFI Solution sont :
Développement d’applications mobiles
Développement d’applications Web frontales
Développement d’applications Web back-end (serveur)
Développement de logiciels embarqu
Tests de logiciels (tests automatisé
Trang 141.1.1 Contexte du projet
Ce sujet de stage est né d’une problématique autour de la sécurité dans un smart city (une ville intelligente), 'automatisation des systémes de sécurité & aide des caméras de surveillance, aujourd’hui, qui ne cesse d’augmenter en quantité et qua- lité autour de nous dans nos vie quotidienne dans des lieux public comme privé,
dans nos ser comme nos domi La sécurité des citoyens dans les environ-
nements urbains modernes est un aspect important de la qualité de la vie Pro-
mouvoir la capacité, limportance de la vidéosurveillance basée sur les villes in-
telligentes L’exploitation des sources de données fournissant une quantité énorme informations précieuses le plus tot possible afin de prendre des décisions et agir
en conséquence, Inspectées, identifié les évenements inattendu beaucoup plut tot, đfextraire des actions humaines A partir de vidéos enregistrées ou éventuellement
en temps réel, de reconnaitre des modéles et d’apprendre les comportements habi-
tuels, puis de détecter s'il en existe des anormanx L’approche de la ville intelligente
est considérée comme une solution prometteuse aux problémes liés a l'urbanisa-
tion accrue Vues les performances de certaines méthodes de deep learning et de
la vision par ordinateur de comprendre, caractériser le mouvement et des com- portements humain sur certaines données vidéo, il était question de les appliquer sur nos données Le but du projet est d’utiliser des informations provenant des caméras de surveillance pour Voptimisation de la sécurité des personnes dans les
périmétre du systémes de sécurité urbain, de détecter des évenements anormaux
Trang 151.1.3 Objectifs du stage
Les ohjectifs de ce stage étaient dle faire :
— une études préalable du domaine de 1a détection d’anomalie des comporte- ments bumein via une camére de surveillance,
proposcr une sulution spécifique du dommine de la déeetion denemulic, doue la détectiou de violence,
— mettre en ceuvre cette solution permettant d'extraire les actions humaines
et de clétecter les comportements anormanx & partir d’ume caméra en uti- lisent les certaine technique de l'apprentissage profond et de la vision par ordinateur
14
Trang 16Chapitre 2
2.1 Détection de violence :
La détection d’anomalies est Pun des problémes les plus difficiles et les plus
anciens de la vision par ordinateur [2T] Hồi [T8] Pour les applications de vidéo
urveillance, plusieurs tentatives de détection de la violence ou de l'agression [TZ
{19} sont présentées dans des vidéos Datta et al ont proposés de détecter la violence
humaine en exploitant le mouvement et l’orientation des membres Kooij et al [I7]
ont utilisé des données vidéo et audio pour détecter les actions agressives dans les
vidéos de surveillance
Différente approches de la détection de violence ont été proposés, & savoir :
L'approche a Vaide de fonetionnalités de bas niveau:
Liapproches du descripteur audio-visuel ;
L’approche heuristique du comportement ;
L'approche basées sur fonctionnalités audio
segmentation de région de mouvement
extraction de caractéristiques de bas niveau,
traitement de caractéristiques et classification
prédiction
Comme mentionné dans la référence [I5], les images consécutives sont trés redon-
dantes, il n'est done pas nécessaire d’extraire les images image par image Pendant
la phase de prétraitement vidéo, les images sont extraires d’une longue séquence vidéo en utilisant une stratégie d’échantillonnage temporel clairsemée, qui est ap- pelée cadre de segment temporel [[5] L’organigramme général de l'approche est
Trang 17
EIGURE 4 — Organigramme général de l’approche proposée
‘ing phases sont impliquées : le prétraitement vidéo, la segmentation de la région
de mouvement, l’extraction d'entités, le traitement et la prédiction d'entités
2.1.2 L’approches 4 l'aide du descripteur audio-visuel
Cette s
tection des événements et plus précisément đe seènes violentes Le but étant d`ex- ploiter la forte corrélation entre l'information audio et l'information visuelle afin
de découvrir des motifs audio-visuels capables d’identifier les
La représentation des motifs audio-visuels est censée donner de meilleurs résultats
qu'une simple fusion (précoce ou tardive) des deux modalités audio et visuelle qui
ignore leurs corrélations La méthode proposée est composée de trois étapes :
2 Ensuite, les motifs bimodaux (ou encore les mots bimodaux) sont trouvé:
et le dictionnaire bimodal est construit ;
Trang 18Extraction Pant Pạn2 Plann descnpteur Audio
2.1.3 L’approche heuristique du comportement
Gao et al les descripteurs de flux violents proposés pour détecter la violence
dans les vidéos de foule Plus récemment, Mohammadi et al [[9J] ont proposés
une nouvelle approche basée sur une approche heuristique du comportement pour
classifier les vidéos violentes et non violentes Au-dela de la discrimination fondée sur des formes violentes et non violentes, les auteurs dans ont proposés d’uti-
liser le suivi pour modéliser le mouvement normal de personnes et détecter une
déviation de ce mouvement normal comme une anomalie En raison de la difficulté
dobtenir des pistes fiables, plusieurs approches évitent de suivre et apprennent les
modéles de mouvement globanx a l'aide de méthodes basées sur I’histogramme,
la modélisation de sujets [1G], les modéles de mouvement, les modéles de forces
sociales, les mélanges de modéles de textures dynamiques
Trang 19Motion description Substantial derivative Bag-of- words Frame ~ DLecalForce FE ‘Compute Sample P patches Econdein Keonters
Opicfow U (orParicleAdvection) Convective Force
la force locale et la force de convection entre chaque paire consécutive de trames Ensuite, nous avons suivi le paradigme standard du sac de mots pour chaque force séparément, en échantillonnant P patchs et en les encodant dans K centres Enfin, nous concaténons les histogrammes pour former le descripteur final, défini comme
la force totale,
18
Trang 202.1.4 LẺapproche basées sur fonctionnalités audio
Les premiers travaux sur le terrain comprennent présenter dans la figure
oit des scénes violentes dans des vidéos ont été reconnues en utilisant la détection
de flammes et de sang ct en capturant le degré de mouvement, ainsi que les sons
caractéristiques des événements violents
FIGURE 7 ~ Processus de fusion multimodale
Un travail important a été réalisé sur exploitation des fonctionnalités audio et
vidéo d'une vidéo afin de détecter et localiser la violence [26] Par exemple, dans,
une méthode faiblement supervi t_utilisée pour combiner les classificateurs
auditifs et visuels de maniére co-formative Bien que l'intégration de l'audio dans Tanalyse soit souvent plus efficace, l'audio n’est pas souvent disponible dans les vidéos de surveillance publique Ce probleme a été résolut en développant une architecture de détection de la violence qui ne nécessite pas de fonctionnalités audio De plus, la violence est une catégorie assez large, englobant non seulement
la violence de personne personne, mais aussi la violence de foule, la violence sportive, le fen, les coups de feu, la violence physique, ete Dans [31], la violence
des foules est détectée & l'aide du modéle allocation de Dirichlet latente (LDA)
et des machines 4 vecteurs de support (SVM) La détection de la violence par la détection d’objets spécifiques liés a la violence tels que les armes a feu est également
un sujet de recherche actuel
Trang 212.1.5 LẺapproche basées sur les trames
Plusieurs techniques existantes ntilisent des changements inter-images pour la
détection de la violence, afin de capturer des modéles de changement de mouve- ment rapide qui sont typiques d’une activité violente [24] ont proposés l'utilisation
d'estimations d’accélération calculées partir du spectre de puissance des trames
adjacentes comme indicateur de mouvement rapide entre trames successive:
ont proposés un réseau neuronal profond pour la détection de la violence en se
nourrissant des différences de trame Il a été proposés d'utiliser des caractéristiques
d'objets blob, obtenues en soustrayant des trames adjacentes, comme descripteur
de caractéristiques Dans la figure ci-dessous nous avons une illustration de la basés sur les trames
Figure 8 — Archtecture basées sur les trames (changements inter-images)
2.1.6 L’approche basées sur les points d’intérét
D'autres méthodes suivent des techniques telles que le suivi du mouvement et
la position des membres etc, pour identifier les points d'intérét spatio-temporels
et extraire les caractéristiques de ces points Il s’agit notamment du détecteur de coin Harris [22], de la transformation des caractéristiques invariantes 4 l’échelle du
mouvement (MoSIFT), illustrer dans la figure [J]
20
Trang 22version modifiée du descripteur local motion-Weber (MoIWLD), suivie d'une re-
présentation clairsemée comme descripteur de caractéristique
Trang 23
2.2 Architecture des modèles de la détection de violences
Pour elasser de manière appropriée la violenee dans les vidếos, tm eneodage vidéo robuste ä été gềnérer pour passer à travers un réseau de classificateurs entiề-
rement connecté Cette représentation vidéo a été produit à travers un encodeur
spatio-temporel Cela extrait des caractéristiques d’une vidéo qui correspondent
aux détails spatianx et temporels via un encodeur spatio-temporel (Section:
Le codage temporel est effectué dans les deux directions temporelles, permettant aceéder aux informations futures de l'état actuel Une version simplifiée de I'en- codeur spatio-temporel qui code uniquement les entités spatiales via un encodeur
spatial simplifié a été étudier (Section 22.2) Les architectures de ces deux enco-
deurs sont décrites ci-dessous
22
Trang 242.2.1 Architecture d’encodage spatio-temporel
Petters
FIGURE 10 ~ L’encodeur spatio-temporel
L’encodeur spatio-temporel est composé de trois parties : un encodeur spatial
réseau VGG13, un LSTM A convolution bidirectionnelle (BiConvLSTM), un en- codeur temporel et un classificateur Les trames sont redimensionnées A 224 x
4 et la différence entre les trames adjacentes est utilisée comme entrée sur le réseau Le classificateur VGG et la derniére couche de regroupement maximale
sont supprimés du réseau VGG13 (bleu et rouge) Les mappes de caractéristiques
de trame (Orange) sont de taille 14 x 14 x 512 Les caractéristiques de trame
sont transmises au BiConvLSTM (vert) qui émet les codages spatio-temporels de trame (Cyan) Une opération de regroupement max par élément est effectuée sur Tencodage spatio-temporel pour produire la représentation vidéo finale (Gold) Cette représentation vidéo est ensuite classée comme violente ou non violente via
un classificateur entiérement connecté (violet)
L'architecture de lencodeur spatio-temporel est illustrée & la figure [IO] Elle
compose d'un encodeur spatial qui extrait les caractéristiques spatiales pour chaque
image de la vidéo, suivi d'un codeur tempore! qui permet a ces cartes de caractéris- tiques spatiales de se «mélanger» temporellement pour produire un codage spatio- temporel 4 chaque pas de temps Tous ces encodages sont ensuite agrégés en une seule représentation vidéo via une opération de regroupement max par élément
Cette représentation vidéo finale est vectorisée et transmise 4 un classificateur
entiérement connecté,
Encodage spatial : Dans ce travail, un modéle de réseau neuronal convolutif
) VGG13 est utilisé comme encodeur spatial La derniére couche de
Trang 25pool max et toutes les couches entiérement connectées du réseau VGG13 sont
supprimées, ce qui donne des cartes de caractéristiques spatiales pour chaque image
de taille 14 x 14 x 512 Au lieu de passer directement des images vidéo, des images
adjacentes ont été soustraites et utilisées comme entrée pour le encodeur spatial,
Cela agit comme un modéle de flux pseudo-optique et suit [36| BY]
Codage temporel : un LSTM convolutionnel bidirectionnel (BiConvLSTM)
est utilisé comme codeur temporel, dont les entrées sont les cartes de caractéris- tiques du codeur spatial Le BiConvLSTM est construit de telle sorte que la sortie
de chaque cellule soit également 14 x 14 x 512 Le fonetionnement maximal par
élément est appliqué A ces sorties comme illustré sur la figure[I0} résultant ainsi en une représentation vidéo finale de taille 14 x 14 x 512 Une cellule BiConvLSTM
est essentiellement une cellule ConvLSTM avec deux états de cellule Les fone- tionnalités de ConvLSTM et BiConvLSTM sont présentés dans les sous-sections
suivantes
ConvLSTM : une couche ConvLSTM apprend les caractéristiques spatio-
temporelles globales 4 long terme d'une vidéo sans réduire a taille spatiale
des représentations intermédiaires Ce codage a lieu pendant le processus
récurrent du LSTM Dans un réseau LSTM standard, l’entrée est vectorisée
et codée & travers des couches entièrement connectées, dont la sortie est
une représentation temporelle apprise Du fait de ces couches entiérement
connectées, les informations spatiales sont perdues Par conséquent, si l'on souhaite conserver ces informations spatiales, l'utilisation d'une opération convolutionnelle au lieu d'une opération entitrement connectée peut étre souhaitée Le ConvLSTM fait exactement cela Il remplace les couches en-
it connectées du LSTM par des couches convolutives Le ConvLSTM
é de telle sorte que les opérations de convolution et de récurrence
dans les transitions entrée-d-état et état-d-état puissent utiliser pleinement
les informations de corrélation spatio-temporelles La formulation de la cel- lule ConvLSTM est présentée c
Ch = fi Ces + idanh(W2, + Ấ, + Wie * Hị— + be)
Hy = % © tanh(Ci)
2
Trang 26D’oit «*» désigne Vopérateur de eonvolution, «@©» đésigne le produit de
Hadamard, «o » est la fonction sigmoide et W,,,Wj, sont des noyaux de
convolution 2D correspondant respectivement A l'état d’entrée et caché Les états cachés (Ho, Hi, Hi-1) et les cellules (C;, Cy, C;) sont mis A jour en fonction de Ventrée (X,, X2,.-X1) qui le traversent, les activations fi et 0, gate A chaque étape de la séquence temporelle b;, by, bo et be sont les termes
vidéo entiére La figure [I] illustre la fonctionnalité d'une cellule BiConvL- STM, Il est composé d'une cellule ConvLSTM avec deux ensembles d'états
masqués et cellulaires, Le premier ensemble (hy, cy) est pour la passe avant
et le second ensemble (/ip, ch) est pour la passe arriére Pour chaque séquence
temporelle, les états cachés correspondants des deux ensembles sont empilés
et passés a travers une couche de convolution pour obtenir ume représenta-
tion cachée finale pour ce pas de temps Cette représentation masquée est
ensuite transmise 4 la couche suivante du module BiConvLSTM en entrée