Ceci nous a mené à traiterd’abord ce problème d’un autre point de vue, de la décision et contrôle en faisant appelaux approches du domaine différents "théorie de contrôle" qui cherche gé
Trang 1Yasser HAMIDULLAH
Contribution au développement d’une
intelligence de conduite pour le train autonome
Đĩng gĩp phát triển thơng minh nhân tạo
cho lái tàu tự động
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
HANỌ - 2019
Trang 2UNIVERSITÉ NATIONALE DU VIETNAM, HANỌ
INSTITUT FRANCOPHONE INTERNATIONAL
Yasser HAMIDULLAH
Contribution au développement d’une
intelligence de conduite pour le train autonome
Đĩng gĩp phát triển thơng minh nhân tạo
cho lái tàu tự động
Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
Sous la direction de :
M Sébastien LEFEBVRE ( Chef de projet - IRT Railenium)
HANỌ - 2019
Trang 3et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs Lasource des informations citées dans ce mémoire a été bien précisée.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêutrong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ côngtrình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc
Signature de l’étudiant
Yasser HAMIDULLAH
Trang 4La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes
à qui je voudrais témoigner toute ma gratitude.
J’aimerais tout d’abord remercier mon encadreur pédagogique de stage Dr Damien Trenteseaux du Laboratoire d’Automatique, de Mécanique et d’Informatique Industrielles
et Humaines(LAMIH) à l’Université Polytechnique Hauts-de-France La porte du bureau
du professeur Trenteseaux était toujours ouverte chaque fois que je rencontrais un blème ou si j’avais une question sur mes recherches Il a toujours permis que ce document soit mon propre travail, mais il m’a guidé dans la bonne direction chaque fois qu’il pen- sait que j’en avais besoin.
pro-Je tiens également à remercier M Sebastien LEFEBVRE et toute l’équipe de l’IRT lenium qui ont participé à la réalisation et validation de ce projet Ce travail n’aurait pu être accompli sans leur effort et leur contribution passionnées.
Rai-Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam à Hanoi Je leur suis reconnaissant de tout cœur pour avoir assuré et amélioré la qualité de notre formation.
Enfin, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille et à Mme Võ Thu Trang pour m’avoir apporté un soutien indéfectible et des encouragements constants tout au long de mes années de Master Sans oublier mes amis qui ont toujours été là pour moi Votre soutien inconditionnel et vos encouragements ont été d’une grande aide Je vous remercie.
Yasser HAMIDULLAH
Trang 6Ce projet en collaboration avec l’IRT Railenium & LAMIH vise principalement àrésoudre le problème de conduite autonome dont la première tentative de résolutionétait à base des données En effet, ces données ne sont pas encore disponibles, alorsles tâches préliminaires à faire étaient la récolte et génération des données nécessairesdont le formattage de ces dernières fait parti des objectifs secondaires de ce projet.Malgré ça, nous avons proposé et implémenté une approche utilisant une structureperceptron multi-couche avec cross-entropy (MLP-CE) entrainée avec des données deconduite du simulateur qui n’a pas abouti à un bon résultat Ceci nous a mené à traiterd’abord ce problème d’un autre point de vue, de la décision et contrôle en faisant appelaux approches du domaine différents "théorie de contrôle" qui cherche généralement
le contrôle optimal d’un système ; et de "l’apprentissage par renforcement" qui est basésur la théorie d’optimalité de Bellman
D’une part le PID avec lequel on a eu un résultat plus stable cependant sa versatilitén’est pas très assurée et d’autre part le RL Qlearning avec une discrétisation de l’espaced’état qui a montré sa capabilité de s’adapter et le comportement préventif ; malgrécela cette technique souffre d’un sérieux problème au niveau de stockage qui pourraralentir l’algorithme Face à ce problème nous avons proposé une solution typique avec
un réseau de neurone de type Deep Q-Network qui échappera le problème de stockagemais qui peut être inutile si l’espace est continu
Notre contribution principale dans ce projet est la modélisation de ce problème enprocessus de décision markovien qui nous a permis d’utiliser les techniques dérivéestelles que le Qlearning, et le Deep Q-learning La contribution technique est carac-térisée par l’utilisation du MLP-CE et l’adaptation du contrôleur PID aux contraintesspécifiques de notre simulateur
Les prochaines étapes dans ce projet seront la validation de nos résultats avec desdonnées réelles ou des simulateurs à haute fidélité ou encore avec des simulateurs àniveau d’abstraction moyenne qui est adéquat pour le système de transport Enfin,des scènes et cas plus complexes seront aux limites des modèles mathématiques, phy-siques et dynamiques nécessiteront une recherche parallèle dans l’éthique En faisantcorrespondre le comportement du nouveau système à l’éthique, nous faciliterons sonacceptation auprès de la société
Mots clés : Train autonome, système autonome, intelligence artificielle, théorie de
contrôle, apprentissage automatique, apprentissage par renforcement, processus dedécision markovien
Trang 7ving the problem of autonomous driving whose first attempt at resolution was based
on the data In fact, these data are not yet available, so the preliminary tasks to be donewere the collection and generation of the necessary data, the formatting of which ispart of the secondary objectives of this project In spite of that, we proposed and im-plemented an approach using a multi-layer perceptron with cross-entropy (MLP-CE)trained with generated data from simulator that did not lead to a good result This hasled us to deal with this problem from another point of view, from decision and control,using the different approaches from "control theory" which generally seeks the optimalcontrol of a system ; and "reinforcement learning" which is based on Bellman’s theory
of optimality
On the one hand the PID controller, with which we had a more stable result whoseversatility is not very assured On the other hand RL Qlearning with a discretization ofthe state space of the MDP problem that showed its ability to adapt and gives a preven-tative behavior ; despite this, this technique suffers from a serious storage problem thatmay slow down the algorithm Faced with this problem we have proposed a solutionwith neural network (DQN) that will escape the storage problem but may be useless ifthe space is continuous
Our main contribution in this project is the modeling of this problem as Markovdecision process problem which allowed us to use derived techniques such as Qlear-ning, and Deep Q-learning The technical contribution is characterized by the use ofthe MLP-CE and the adaptation of the PID controller to the specific constraints of oursimulator
The next steps in this project will be the validation of our results with real data orhigh-fidelity simulators or with a medium-level abstraction simulator that is adequatefor the transport system Finally, more complex scenes and cases will be at the limits ofmathematical, physical and dynamic models will require a parallel search in ethics Bymatching the behavior of the new system to ethics, we will make it easier for society toaccept it
Keywords : Autonomous train, machine learning, reinforcement learning,
autono-mous system, artificial intelligence, control theory, Markov decision process
Trang 8Table des matières
1.1 Présentation de l’établissement d’accueil 3
1.1.1 IRT Railenium 3
1.1.2 LAMIH 3
1.2 Contexte et problématique 5
1.2.1 Le projet Train Autonome 5
1.2.1.1 Objectifs 5
1.2.1.2 Problématiques 5
2 Etat de l’art 8 2.1 Train Autonome 8
2.2 Optimisation de trajectoire 9
2.2.1 Méthodes analytiques 9
2.2.2 Algorithmes numériques 10
2.2.3 Algorithmes évolutionnaires 10
2.3 Contrôle de vitesse de train 11
2.3.1 Contrôleur PID 11
2.3.2 Méthodes de contrôle intelligents 12
2.3.3 Méthodes de contrôle adaptatives 12
2.4 Conlusion 13
3 Solutions proposées et contributions 14 3.1 Architecture générale des solutions 14
3.2 Approche 1 : Qlearning 16
3.2.1 Les concepts utilisés 16
3.2.1.1 Processus de décision markovien (MDP) 16
3.2.1.2 Processus de récompense markovien (MRP) 17
Trang 93.2.1.3 MDP en espace continu normalisée (discrétisation) 17
3.2.1.4 Qlearning, Deep Qlearning, Q-Networks Deep Q-Networks 18 3.2.2 L’algorithme proposé 19
3.2.2.1 Qlearning 19
3.2.2.2 Deep Q-Network (Qlearning avec réseau de neurone ap-proximateur) 20
3.3 Approche 2 : PID (Proportionnel Intégral Dérivé) 20
3.3.1 Les concepts utilisés 21
3.3.1.1 Réglage proportionnel (P) 21
3.3.1.2 Réglage intégral (I) 21
3.3.1.3 Réglage dérivé 21
3.3.1.4 Les méthodes de réglage de PID 21
A Algorithme Twiddle 21
B La descente du gradient stochastique avec back-propagation 22
C Réglage manuelle 22
3.3.2 L’algorithme proposé 22
A Implémentation 23
3.4 Approche 3 : Percéptron multicouche avec Cross-Entropy 23
3.4.1 Les concepts utilisés 23
3.4.1.1 Perceptron, Perceptron multicouches 24
3.4.1.2 Cross-Entropy 24
3.4.1.3 Données utilisées 24
3.4.2 L’algorithme proposé 24
3.4.3 La structure du MLP 24
3.4.3.1 La méthode d’entraînement 25
4 Résultats et analyses 26 Résultats et analyses 26 4.1 La phase d’entraînement 26
4.1.1 Le suivi du profil 26
4.1.2 Le suivi du retard en temps 27
4.1.3 Le suivi de la récompense (pour DQN/Qlearning) 27
4.2 Résultats 27
4.2.1 Règles basiques 29
4.2.2 Qlearning 29
4.2.3 MLP avec cross-entropy 30
4.2.4 PID 31
4.3 Discussions 32
5 Conclusion et Perspectives 35 5.1 Conclusion générale 35
5.2 Perspectives 36
Trang 10TABLE DES MATIÈRES
A.1 Implémentation du Qlearning 40A.2 Implémentation de la structure du DQN 41A.3 PID A.4
MLP
Trang 111.1 Logo Railenium 3
1.2 Logo LAMIH 3
1.3 L’entrée et sortie prévues 6
1.4 la génération du plan de vitesse 6
3.1 Architecture de la solution 15
3.2 La règle basique 16
3.3 Etape de discrétisation 18
3.4 Algorithme proposé avec qlearning 19
3.5 Conduite à base de réseau de neurones du modèle DQN 20
3.6 Conduite avec le régulateur PID 23
4.1 Vitesse durant la phase d’apprentissage dans le simulateur 27
4.2 La variation de la récompense durant l’apprentissage 28
4.3 Le suivi du temps de retard dans le simulateur 28
4.4 Règles basiques 29
4.5 Qlearning 30
4.6 MLP avec Cross-Entropy 31
4.7 PID 31
Trang 12Liste des tableaux
4.1 Paramètres Qlearning 29
4.2 Paramètres MLP-CE 30
4.3 Paramètres PID 31
4.4 Tableau comparatif 34
Trang 13DQN Deep Q-Network
IRT Institut de Recherche Technologique
MDP Markov Decision Process
PID Proportional Derivate Integral
Trang 14L’automatisation des trains se traduit par des bénéfices concrets pour les voyageurs
et les clients du fret dont : une plus grande capacité (faire rouler plus de trains, c’estpouvoir transporter plus de personnes et de marchandises), plus de fluidité et de ré-gularité (grâce à une circulation harmonisée et à une vitesse optimisée, permettant demieux faire face aux imprévus) et une ambition écologique (grâce à une diminution de
la consommation d’énergie)
Après le premier déploiement réussi de l’Australie en 2018, on se rend compte qu’iln’y avaient pas qu’eux seuls avait ce projet en projection A part la France, on peut listerquelques pays qui travaillent pour la mise sur les rails leur premier trains autonomesd’ici quelques années, il s’agit de l’Allemagne, la Suisse, l’Angleterre, le Pays-Bas et l’Au-triche3
Dans le cadre de projet train autonome s’inscrit notre projet de recherche Il faut
1 https with-this-sector/
://analyticsindiamag.com/cars-planes-but-no-autonomous-trains-what-is-the-matter-2 https circuleront-en-2023
://www.sncf.com/fr/innovation-developpement/innovation-recherche/trains-autonomes-3 https ://mediarail.wordpress.com/2018/09/23/le-train-autonome-ou-en-est-on-reellement/
Trang 15mentionner que ce train aura deux prototypes, un train voyageur et un train fret dans
le lequel notre travail était intégré Parmi les blocs technologiques nécessaire dans ceprojet, celui qui permettra la prise de décision autonome du futur train autonome, lecomposant qui lie les informations des différentes sources de capteurs et les états pourles utiliser comme source d’entrée du conducteur autonome Plusieurs aspects sonttraités dans cette partie de projet, à savoir l’aspect conduite proprement dite, l’aspectsécurité à bord, sécurité de l’environnement Dans ce rapport nous allons détailler nosapproches pour la conduite intelligente du train Au début nous souhaitions traiterces aspects en utilisant une seule approche pour tous les aspects mais notre résultatintermédiaire a démontré que la meilleure solution est de commencer par traiter ceproblème en petit sous problèmes à traiter séparément Nous avons pu nous concen-trer sur la conduite proprement dite pour laquelle il existe dans la littérature plusieurstechniques qui traitent les mêmes problématiques En plus, nous avons proposé diffé-rentes contributions, des versions adaptées à notre projet avec la comparaison sur cesdifférentes méthodes proposées
Ce manuscrit sera organisé comme suit : premièrement nous allons présenter l’état
de l’art de ce domaine, dans un deuxième temps nous nous concentrions sur les tions théoriques que nous avons retenues, suivi de l’implémentation avec résultats etanalyses et dans la dernière partie les perspectives et la conclusion
Trang 16solu-CHAPITRE 1 INTRODUCTION GÉNÉRALE
FIGURE1.1 – Logo Railenium
FIGURE1.2 – Logo LAMIH
1.1 Présentation de l’établissement d’accueil
Ce stage s’est déroulé dans deux environnements différents, principalement au sein
de l’IRT Railenium (industriel) 3 à 4 jours par semaine, et au LAMIH (académique) 1 à
2 jours par semaine
1.1.1 IRT Railenium
Railenium, L’Institut de Recherche Technologique de la filière ferroviaire, met en
œuvre des projets d’innovation en créant des partenariats entre industriels et
acadé-miques Il coordonne la réalisation de projets d’innovation répondant aux enjeux de
filière en lien avec les pouvoirs publics
Railenium a pour mission d’accompagner le développement de la filière ferroviaire
face à deux défis de taille que constituent l’accélération du report modal et la
concur-rence des pays émergents L’IRT s’attache en effet à développer, valider et tester des
technologies et solutions innovantes qui doivent répondre à quatre enjeux prioritaires
de la filière : l’augmentation de la capacité de transport à iso-infrastructure,
l’accrois-sement de la fiabilité en service, la réduction et la maỵtrise des cỏts, réduction du
temps de mise sur le marché En réponse à ces enjeux, Railenium a mis en place 3
programmes stratégiques repris dans le contrat stratégique de filière : Centre d’essai
Ferroviaire, Train autonome et Modélisation et prévision ferroviaire4
1.1.2 LAMIH
Le LAMIH UMR CNRS 8201 (Laboratoire d’Automatique, de Mécanique et
d’Infor-matique Industrielles et Humaines) est une unité mixte de recherche entre
l’Univer-sité Polytechnique des Hauts-de-France (UPHF) et le Centre National de la Recherche
4 https ://railenium.eu
Trang 17Scientifique (CNRS) Sa nouvelle structure est issue de la fusion au 1er janvier 2015avec le laboratoire TEMPO EA 4542 Carnot ARTS Le LAMIH est organisé en 4 départe-ments disciplinaires bien identifiés : Automatique, Mécanique, Informatique, Science
de l’Homme et du Vivant (SHV) Au sein de chaque département existent des thèmes
de recherche (2 ou au maximum 3) qui peuvent évoluer au cours du temps et des férentes roadmaps à venir Il a un rattachement principal à l’INS2I ó il relève des sec-tions 06 pour le département Informatique et 07 pour le département Automatique
dif-Il a deux rattachements secondaires, à l’INSIS sections 09 et 10 pour le départementMécanique et à l’INSB section 26 pour SHV5
5 https ://www.uphf.fr/LAMIH
Trang 18CHAPITRE 1 INTRODUCTION GÉNÉRALE
1.2 Contexte et problématique
1.2.1 Le projet Train Autonome
Le programme « Train Autonome » de l’IRT Railenium vise une innovation de ture en apportant notamment les outils et briques technologiques nécessaires au dé-veloppement du train autonome et répond ainsi aux enjeux clés de la filière L’augmen-tation de la capacité de transport : la conduite autonome sera mieux maỵtrisée qu’enmanuel et permettra d’augmenter l’occupation des infrastructures ; à plus long terme,
rup-la conjugaison de rup-la conduite autonome avec rup-la mise en œuvre de « cantons mobiles »
ou encore de couplage virtuel des trains permettra un bond en avant dans tation de la capacité de transport ; L’accroissement de la fiabilité : par l’amélioration de
l’augmen-la ponctualité et de l’augmen-la sécurité globale du système (conduite, signalisation/ commande, exploitation) grâce à des systèmes d’aide à la conduite dans un premiertemps, puis des systèmes de télé-conduite en lien avec le poste de supervision et enfingrâce aux systèmes de conduite autonome ; La réduction des cỏts d’investissement,d’exploitation et de maintenance : la signalisation sera plus légère avec moins d’équi-pements à la voie L’exploitation des trains sera plus souple avec des conducteurs au solcapables de télé-conduire plusieurs trains à la fois ou avec des trains complètementautonomes Avec l’augmentation de la capacité de transport, c’est le cỏt de l’infra-structure rapporté au passager transporté qui pourra être considérablement réduit Defaçon transverse, la réponse à ces enjeux permettra d’améliorer l’attractivité du ferro-viaire avec notamment plus de ponctualité, de flexibilité en heures de pointe ou encored’expérience voyageur6
contrơle-1.2.1.1 Objectifs
Les travaux effectués dans ce stage ont pour objectifs, de faire un premier mark des solutions pour la conduite autonome Il est aussi prévu qu’après nos études,nous serons capables de définir les formats d’entrée de notre solution En résumé, lesobjectifs peuvent être regroupés en 2 catégories :
bench-— Proposer et implémenter des méthodes de conduite autonome
— Comparer ses techniques et proposer des améliorations et perspectives tant d’avoir des résultats plus optimaux
permet-1.2.1.2 Problématiques
Sachant que pour conduire, le conducteur doit prendre en compte de l’état de vironnement et du train, venant de plusieurs sources d’informations qui seront ensuitereformulés en contraintes (sécurité à bord du train, sécurité de l’environnement(lespiétons, les animaux, etc)) et la conduite proprement dite (basée sur la mission et leplan définit du voyage)
l’en-6 https ://railenium.eu/fr/train-autonome/
Trang 19D’autres lots de ce projet travaillent sur les parties qui traitent les données pourpouvoir être données en entrée pour notre solution (de conduite).
FIGURE1.3 – L’entrée et sortie prévues
Les problématiques suivant sont posés afin de bien se conformer à nos objectifsinitiaux :
— Comment faire pour générer le plan ?
— Comment assurer la sécurité à bord du train et de l’environnement ?
— Comment allons-nous donner des commandes en sortie tout en prenant comptedes ces 3 contraintes ?
FIGURE1.4 – la génération du plan de vitesse
A ce stade du projet, le format des données d’entrée de notre solution n’a pas encore étédéfini, alors on a considéré pour l’instant que le plan de vitesse était sous forme d’uneindication sur la consigne de vitesse durant chaque point dans le temps du voyage.Pendant ce temps,la génération du plan de vitesseest encore une autre problématique
Trang 20CHAPITRE 1 INTRODUCTION GÉNÉRALE
qui sera traitée indirectement mais qui fait parti des éléments classiques nécessairespour la conduite Donc on n’a pas proposé une solution précise pour le traiter mais
à travers les techniques de l’Etat de l’art qu’on présente dans le chapitre suivant onénumère les différentes solutions existantes pour ce problème
Trang 21Etat de l’art
2.1 Train Autonome
Bien que la plupart des projets mondiaux sur le train autonome soient actuellement
en phase d’initialisation, en 2018, l’Australie a réussi à terminer, le premier voyage d’untrain autonome Les locomotives ont parcouru plus de 280km, seules sur une ligne
à voie unique dans une region desertique là ó on estime une très petite probabilitéd’obstacle
Les Pays-bas par ProRail et Rotterdam Rail Feeding (RRF) a annoncé leur souhait
de créer une ligne réservée au trafic fret pour le test de fonctionnement automatisé destrains
L’Allemagne via son Deutsche Bahn, en 2018, a transformé une section de plusieurskilomètres en un terrain d’essai pour le train autonome qu’ils envisagent de mettre enplace d’ici 2023
La Suisse a fait un test du train autonome en 2017 et prévoit l’exploitation de
développe-La France par la SNCF qui prévoit de mettre en marche d’ici 2023 des trains geurs et frets autonome
voya-Enfin l’Angleterre par Thameslink qui a fait son premier pas en faisant un test deconduite par ordinateur du train avec présence humaine à bord, car pour eux ils onttoujours besoin des conducteurs Du moins pour l’instant le but est de fluidifier le tra-fic1
1 https ://mediarail.wordpress.com/2018/09/23/le-train-autonome-ou-en-est-on-reellement/
Trang 22CHAPITRE 2 ETAT DE L’ART
2.2 Optimisation de trajectoire
Pour un trajet donné, les limites sont fixées au départ du train dans un plan de tesse N’ayant que les limites extrêmes définies, le conducteur alors est libre de le res-pecter à sa façon Cette liberté peut cỏter très cher, notamment en termes de consom-mation énergétique, de confort passagers, de capacité de la ligne, D’ó la nécessitéd’avoir un plan de vitesse recommandé La recherche d’une solution optimale revient
vi-à un problème d’optimisation, en formulant des contraintes telles que : la ponctualité,
la limite de vitesse,
En tant que parties complémentaires du système ATO, le contrơleur de vitesse commandé et le contrơleur de vitesse de train répondent de manière coopérative auxexigences de fonctionnement en matière d’automatisation et d’efficacité L’optimisa-tion recommandée du profil de vitesse (ou de la trajectoire du train) est généralementformulée comme un problème de contrơle optimal [1]
re-2.2.1 Méthodes analytiques
L’une des principales méthodologies de solution pour l’optimisation du profil devitesse est l’algorithme analytique, qui repose généralement sur la théorie du contrơleoptimal et résolu par le principe du maximum de Pontryagin ((Howlett et Pudney,
1995 ; Khmelnitsky, 2000 ; Liu et Golovitcher, 2003)) Ce type de solution permet nir la solution théoriquement optimale, mais nécessite des propriétés rigides des mo-dèles mathématiques formulés
d’obte-Par conséquent, les algorithmes analytiques existants ne considèrent généralementque deux objectifs, à savoir la consommation d’énergie et la ponctualité des trains,dans un environnement simplifié du processus de modélisation Par exemple, pour at-teindre la consommation de carburant minimale dans un temps de trajet donné, How-lett et Pudney (1995) et Howlett (2000) ont formulé un modèle de contrơle de traindiscret sur une pente relativement plate
Considérant une situation pratique avec des gradients variables et des limites devitesse arbitraires, Khmelnitsky (2000) a conçu un algorithme pratiquement efficacebasé sur le principe maximum pour trouver le profil de vitesse optimal minimisant laconsommation d’énergie
De plus, Su et al (2013) ont proposé d’optimiser la consommation d’énergie globale
en prenant en compte les profils de vitesse d’un train sur chaque segment C’est uneapproche de programmation à deux niveaux Dans le premier niveau, un algorithmeefficace avec une vitesse de calcul rapide est développé sur la base du principe de Pon-tryagin maximum Dans le deuxième niveau, la répartition du temps de parcours totalest optimisée pour le profil de vitesse économe en énergie sur l’ensemble du parcours
Trang 232.2.2 Algorithmes numériques
Les algorithmes numériques, impliquant la programmation dynamique (DP) (Ko
et al., 2004), la programmation quadratique séquentielle (Miyatake et Matsuda, 2009)
et la méthode du multiplicateur de Lagrange (Rodrigo et al., 2013), ont relativementmoins d’exigences pour l’objectif fonction et peut faire un compromis entre perfor-mances d’optimisation et temps de calcul
Comme les méthodes selon le principe de Pontryagin maximum rencontrent vent des difficultés pour rendre compte des modèles dynamiques complexes des trains,des limites de vitesse variables et des gradients, etc., Ko et al (2004) ont reformulé leprocessus de circulation des trains en un processus de décision en plusieurs étapes
sou-et appliqué la programmation dynamique (DP) à la recherche directe de la stratégie
de contrôle optimale Le profil de vitesse optimal peut être obtenu dans des délais decalcul pratiquement acceptables, même lorsque la méthode est appliquée à des condi-tions de fonctionnement complexes et réelles
Compte tenu des contraintes opérationnelles complexes et des contraintes de gnalisation, Wang et Goverde (2016) ont formulé le problème d’optimisation de la tra-jectoire d’un train dans un modèle de contrôle optimal à plusieurs phases résolu parune méthode pseudospectrale En particulier, cette approche permet de calculer lestrajectoires optimales des trains dans les situations de retard et de non retard afin deminimiser le temps de retard des trains et leur consommation d’énergie [1]
si-2.2.3 Algorithmes évolutionnaires
Par rapport aux deux types précédents de méthodes, les algorithmes naires, par exemple, l’algorithme génétique (GA) (Bocharnikov et al., 2010 ; Chang etSim, 1997 ; Wong et Ho, 2004), l’optimisation des colonies de fourmis (ACO) (Ke et al , 2009), la recherche tabou (TS) (Liu et al., 2015) et l’algorithme de recuit simulé (SA)(Kim et Chien, 2011) ont moins d’exigences pour les modèles d’optimisation des profils
évolution-de vitesse évolution-des trains
Néanmoins, la plupart de ces algorithmes ne peuvent garantir l’optimalité et laconvergence des solutions Chang et Sim (1997) ont appliqué l’AG pour déterminer
le point de freinage accéléré sur la côte en évaluant conjointement la consommationd’énergie, la ponctualité et le confort de conduite Wong et Ho (2004) ont montré quel’AG pouvait obtenir un nombre moyen d’itérations plus faible et une solution plus fineavec plusieurs points de commutation par rapport à la méthode classique de Nelder etMead Ke et al (2009) ont formulé un modèle d’optimisation combinatoire avec descontraintes de système de signalisation à bloc fixe afin de minimiser le temps de calcul
et la consommation d’énergie
Un système Max-min ant (MMAS) de ACO a été mis au point pour rechercher leprofil de vitesse de train optimal, qui s’avère plus efficace que le GA Lu et al (2013) ontappliqué trois algorithmes, à savoir GA, DP et ACO, pour faire la comparaison, les résul-tats ont indiqué que chaque algorithme présente des avantages pour certains aspects
Trang 24CHAPITRE 2 ETAT DE L’ART
spécifiques (écart, performances, temps de calcul) et pour avoir une solution efficace
il faut en utiliser plusieurs [1]
2.3 Contrôle de vitesse de train
Après avoir généré le profil de vitesse recommandé optimal, la procédure suivanteconsiste à mettre au point une méthode efficace pour contrôler les mouvements dutrain en fonction des différents modèles de trains (trains métropolitains, trains à grandevitesse, etc.) et des conditions de circulation (par exemple, tunnels, courbes, pentesprononcées), afin que le train puisse suivre le profil de vitesse avec précision et circuler
en toute sécurité et en douceur Dans un système ferroviaire typique, le contrôle de lavitesse d’un train est généralement effectué par l’une des deux approches suivantes :
— Dans la plupart des lignes de chemin de fer principales, des TGV et des lignes
de métro relevant des GoA1 ou GoA0, les trains sont principalement contrôléspar les conducteurs Un système de conseil aux conducteurs (DAS) intégré ausystème de contrôle des trains peut donc fournir aux conducteurs des conseils
de conduite supplémentaires maintenir le train à la vitesse recommandée
— Dans les lignes de métro urbaines avec des niveaux d’automatisation élevés (GoA2,GoA3 ou GoA4), la fonction de contrôle de la vitesse des trains est réalisée par unordinateur de bord doté d’algorithmes de contrôle de la vitesse prédéfinis
2.3.1 Contrôleur PID
La méthode de contrôle de la vitesse des trains la plus largement utilisée par ATOest le contrôleur PID qui calcule en permanence la valeur d’erreur entre la vitesse dutrain mesurée v et la vitesse recommandée v’ et ajuste la commande de contrôle pourminimiser l’erreur de suivi de la vitesse dans le temps
Bien que les contrôleurs basés sur PID puissent atteindre des performances de suivirelativement bonnes dans une grande variété d’implémentations industrielles, les in-génieurs se concentrent particulièrement sur deux aspects de la conception de contrô-leurs basés sur PID dans des applications pratiques pour les systèmes ATO
D’une part, déterminer les meilleurs coefficients PID est une tâche ardue et la part des méthodes existantes reposent sur des expériences manuelles et des jugementsprofessionnels effectués à de nombreuses reprises sur le terrain
plu-D’autre part, les contrôleurs basés sur les PID ont toujours un confort de conduitemédiocre en raison des commutations fréquentes des commandes de contrôle des PID,qui peuvent également augmenter la consommation d’énergie pour les opérations fer-roviaires
Par conséquent, les ingénieurs doivent en pratique formuler des contraintes plémentaires pour le contrôleur PID afin d’améliorer conjointement les performances
sup-de plusieurs objectifs (précision sup-de suivi, ponctualité, confort, efficacité énergétique)[1]
Trang 252.3.2 Méthodes de contrôle intelligents
Comme nous l’avons mentionné ci-dessus, le processus de conduite des trains doitprendre en compte plusieurs objectifs, à savoir la consommation d’énergie, la ponctua-lité et le confort de conduite Comme un seul contrôleur PID est difficile à atteindre demanière synchrone, de nombreux chercheurs ont commencé à utiliser certaines mé-thodes de contrôle intelligents (par exemple, le contrôle flou, les systèmes experts)pour transformer les connaissances et les expériences de conduite en une série derègles de domaine afin d’améliorer la conduite, confort des passagers et réduire laconsommation d’énergie Dong et al (2013) ont conçu deux approches floues, à sa-voir un contrôleur de logique floue directe et un contrôleur de logique floue implicite,
et les deux méthodes sont sans modèle
En outre, certaines autres études utilisent des méthodes de représentation des naissances (système expert, exploration de données, etc.) pour simuler des stratégies
con-de conduite expérimentées afin con-de réaliser un contrôle automatique con-de la vitesse con-destrains Yin et al (2014, 2016a, b) ont proposé d’utiliser des algorithmes d’apprentissageautomatique pour apprendre les expériences de conduite à partir de données bruteshistoriques au moyen de la représentation des connaissances (Chandrasegaran et al.,2013)
Sur la base de certaines règles empiriques du domaine, Yin et ses collaborateurs(2016b) ont d’abord appliqué un algorithme de régression, à savoir CART (classification
et arbre de régression) et des méthodes d’apprentissage d’ensemble (à savoir, Bagging
et LSBoost) afin de représenter les précieuses connaissances spécialisées à partir desdonnées historiques de conduite de train
Deux algorithmes d’exploitation de train intelligent (ITO) basés respectivement sur
un système expert et l’apprentissage par renforcement ont également été proposés(Yin et al., 2014, 2016a) Ces deux algorithmes ITO, qui combinent les avantages desméthodes de conduite manuelle et de contrôle automatique de la vitesse, se sont révé-lés efficaces pour améliorer les performances des opérations de métro [1]
2.3.3 Méthodes de contrôle adaptatives
Il est très intéressant de noter que les méthodes de contrôle de la vitesse décritesci-dessus, basées sur des expériences de connaissances Les trains sont généralementtraités comme un modèle de train à point unique dans les études ci-dessus Néan-moins, la réalisation du contrôle de la vitesse des trains est beaucoup plus difficile enraison de la complexité des opérations et des caractéristiques de la dynamique destrains
Par conséquent, le contrôle de la vitesse des trains est particulièrement considérécomme l’un des principaux problèmes d’amélioration du degré d’automatisation dessystèmes ferroviaires Voici quelques études utilisant les méthodes de contrôle adapta-tives afin de gérer la complexité et l’incertitude des modèles d’exploitation des trains.Considérant les forces d’interaction entre les véhicules connectés d’un train, le modèle
Trang 26CHAPITRE 2 ETAT DE L’ART
d’exploitation de train multipoint à grande vitesse (MP-HST) qui traite un HST commeune cascade de masses connectées par des coupleurs flexibles a été proposé pour lapremière fois par Yang et Sun (1999) [1]
2.4 Conlusion
Plusieurs approches sont disponibles pour l’optimisation de trajectoire et du suivi
de vitesse, beaucoup d’autres sur l’aspect sécuritaire mais qui ne nous concernent paspour l’instant
Trang 27Solutions proposées et contributions
Dans ce chapitre nous allons présenter dans une vue globale nos solutions sées dans3.1 Ces solutions ont été sélectionnées des différentes catégories des tech-niques de l’état de l’art, à savoir :
propo-1 Utilisation des algorithmes d’intelligence / d’apprentissage sans les données :
Qlearning (avec MDP simple et/ou avec discrétisation d’espace), DQN (avec Convolution 1D).
2 Utilisation des techniques d’apprentissage automatique sur des données de duite enregistrées :
con-Perceptron multicouches avec Cross-Entropy.
3 Utilisation des algorithmes de contrôle :
PID, MPC
Notre contribution a deux aspects suivants :
1 théorique : sur la formalisation de ce problème en problème de décision
marko-vien et l’utilisation de Qlearning
2 pratique : l’utilisation de MLP-CE et adaptation de PID à nos propres contraintes.
Nous détaillerons par la suite les différentes solutions réténues avec leur tion dans l’annexeAlgorithmes
implémenta-3.1 Architecture générale des solutions
Pour tester nos algorithmes, un simulateur nous est disponible, et libre à nous del’adapter à notre besoin pour avoir des bons résultats Dans la figure3.1, nous présen-tons la structure globale de notre système dans lequel il y a les 4 composants dont lesimulateur qui prend en compte les commandes venant des algorithmes de conduite
du train, puis donne le nouvel état de la mission, du train et de son environnement
Trang 28CHAPITRE 3 SOLUTIONS PROPOSÉES ET CONTRIBUTIONS
FIGURE3.1 – Architecture de la solution
Le simulateur de train qui était à notre disposition pour les expérimentations avaitdéjà un algorithme à base des règles qui permet à l’agent train de circuler Par contre, cen’était pas encore ajusté pour faire des missions selon un plan comme nous le voulons.Nous avons effectué en premier lieu, un refactoring de l’algorithme existant dans
le simulateur, puis connecter le simulateur sur un port avec une interface détachée
du simulateur Ce dernier permet de faire des différentes manipulations sans avoir àretoucher le code propre au fonctionnement du simulateur
Dans la figure3.2, nous avons détaillé la nouvelle structure de l’algorithme par faut qui fait fonctionner le simulateur Les prochaines techniques présentées par lasuite auront la même structure Nous avons éffectué cette tâches initialement et les ré-sultats obtenus avec les règles basiques (if et elses) comme notre baseline, comme unrésultat par défaut qu’on cherche à améliorer dans nos expérimentations