Développement dun portail web pour le criblage virtuel sur la grille de calcul

Le docking in-silicoest la première étape dans le processus de criblage virtuel, il est considéré commel’une des approches les plus prometteuses afin accélérer et de réduire les c

Trang 1

Institut de la Francophonie pour l’Informatique

M´ emoire de fin d’´ etudes pour l’obtention du diplˆ ome

de Master II Informatique

Option : R´eseaux et Syst`emes Communicants

virtuel sur la grille de calcul

Promotion 17-RSC

R´ edig´ e par : Louacheni Farida

Sous l’encadrement de : Dr.Nguyen Hong Quang Dr.Doan Trung Tung Dr.Bui The Quang

20 novembre 2014

Trang 2

J’adresse mes plus vifs remerciements au Dr.Doan Tung Tung et Dr.QuangBui The de m’avoir encadré et prodigué maints conseils Je suis très reconnaissante

Trang 3

`

A l’heure actuelle, la grille de calcul est en train de devenir une force motrice jeure pour de nouvelles approches pour la collaboration de science à grande échelle.Plusieurs programmes nationaux et internationaux eScience ont favorisé la collabo-ration entre chercheurs de différents domaines scientifiques

ma-Dans le domaine biomédicale, plus précisement dans la recherche de nouveauxmédicaments pour les maladies infectieuses La grille de calcul a initié plusieursprojets à grande échelle dans les approches de criblage de médicaments in-silico

Le projet WISDOM a ´et´e parmi les premiers projets dans le domaine public qui

a fait usage de la grille tout en permettant le docking in-silico pour simuler teraction de médicaments potentiels avec des protéines cibles Le docking in-silicoest la première étape dans le processus de criblage virtuel, il est considéré commel’une des approches les plus prometteuses afin accélérer et de réduire les coûts dedéveloppement de nouveaux médicaments pour les maladies négligées

l’in-Bien que, de nombreuses applications ont été développées pour permettre lecriblage virtuel dont le but d’accélérer le processus de recherche des médicaments.Une barrière critique de ces programmes est leur complexité en terme d’utilisation

et de prévoir des procédures concises pour les utilisateurs réguliers

L’objectif de ce travail est de d´evelopper un portail web conviviale pour effectuer

le criblage virtuel, et de d´eployer un tr`es grand nombre de docking sur la grille

de calcul Pour atteindre ce but, la grille de calcul a été utilisé pour accélérer larecherche et la découverte de nouveaux médicaments in-silico et traitements pourles maladies infectieuses

Trang 4

AbstractGrid computing is currently developing into a major driving force for new ap-proaches towards collaborative large scale science Several national and interna-tional eScience programs have fostered collaboration between researchers from dif-ferent scientific domains.

In the biomedical field, more precisely in drug discovery for infectious diseases.Grid computing has initiated several projects on large scale in-silico drug screeningapproaches The project WISDOM was amongst the first projects in the public do-main that made use of grid enabled in-silico docking to simulate the interaction ofpotential drugs with target proteins In-silico docking is the first step in the virtualscreening process, which is one of the most promising approaches to speed-up and

to reduce the costs of the development of new drugs

Although, many applications have been developed to allow in-silico screening,but a critical barrier of these programs is the lack of a suitable, easy, simple way touse and to provide concise procedures for regular users

The main goal of this work is to develop a user-friendly web portal to performvirtual screening and to deploy a large number of docking on grid computing Toachieve this goal, the grid computing was used to accelerate research and discovery

of new drugs in-silico for infectious diseases

Trang 5

Table des mati` eres

1.1 Probl`ematique 1

1.2 Notre contribution 2

1.3 Plan du m´emoire 2

2 Etat de l’art´ 3 2.1 Conception de m´edicaments in-silico 3

2.2 Criblage virtuel ”Vitual Screening” 4

2.2.1 Introduction 4

2.2.2 D´ecouverte de nouveaux m´edicaments avec le criblage virtuel 6

2.2.3 Les diff´erentes strat´egies du criblage virtuel 6

2.2.4 Criblage virtuel `a haut d´ebit 7

2.2.5 Conclusion 7

2.3 Docking 9

2.3.2 Approches du docking 10

2.3.3 Principe du docking 11

2.3.4 Outils de Docking 12

2.3.5 Conclusion 13

2.4 AutoDock 14

2.4.1 Docking avec AutoDock 15

2.4.2 Conclusion 17

2.5 Grille de calcul 18

2.5.2 Grille de calcul 18

2.5.3 Organisation virtuelle 19

2.5.4 Architecture g´en´erale d’une grille de calcul 20

2.5.5 Composants de la grille 21

2.5.6 Fonctionnement de la grille 22

2.5.7 Avantages & D´efis de la grille 24

2.5.8 Conclusion 24

2.6 Portail GVSS 26

2.6.2 La plate-forme GAP 27

2.6.3 Architecture GVSS 28

2.6.4 Conclusion 29

2.7 Plate-formes utilis´es 30

2.7.1 WISDOM 30

2.7.2 DIRAC 33

Trang 6

3 Impl´ementation 37

3.1 Architecture du syst`eme propos´ee 37

3.2 Outils utilis´es 38

3.3 Conception du portail 41

3.4 D´eveloppement du portail du web 48

3.4.1 Les services web 48

4 Exp´erimentation & R´esultats 52 4.1 Conclusion 63

Trang 7

Table des figures

1 Processus de conception de m´edicaments in-silico [11] 4

2 Criblage Virtuel in-silico 5

3 Docking prot´eine-ligand 10

4 Etapes du Docking´ 11

5 Illustration de docking/scoring [6] 12

6 Comparaison des programmes de docking [16] 13

7 Proc´edures de docking avec AutoDock 15

8 La grille de calcul 19

9 Couches de la grille de calcul 21

10 Architecture de grille de calcul [10] 23

11 Portail GVSS 27

12 Architecture Service de criblage virtuel GAP (GVSS) [7] 29

13 Architecture WPE [9] 31

14 Intergiciel DIRAC 33

15 Architecture DIRAC [20] 35

16 Architecture du syst`eme propos´ee 38

17 Workflow soumission de job sur la grille avec Taverna 39

18 Diagramme de classe du portail web 42

19 Cas d’utilisation pour le Ligand 43

20 Cas d’utilisation pour la Prot´eine 44

21 Cas d’utilisation pour les param`etres de grille 45

22 Cas d’utilisation pour le docking 46

23 Cas d’utilisation pour l’administrateur du portail 47

24 Mod`ele MVC 48

25 Description des services web impl´ement´es 49

26 Workflow des services web du portail 51

27 Interface d’accueil du portail web 52

28 Interface de cr´eation d’un nouveau compte 53

29 Interface d’authentification 53

30 Interface de gestion des utilisateurs 54

31 Interface d’ajout d’un nouveau Ligand 54

32 Interface de liste des Ligands disponibles 55

33 Interface de gestion des prot´eines 55

34 Interface de modification d’une prot´eine 56

35 Interface d’ajout de fichier de param`etres de la grille 56

36 Interface d’ajout d’un nouveau projet de docking 57

37 V´erification d’ajout du nouveau projet 57

38 Soumission de job de docking 58

39 Téléchargement du résultat de docking 58

Trang 8

40 Fichier log de docking ”dlg” 59

41 Soumission du projet de docking ProjectZinc1OKE 59

42 Téléchargement du résultat de docking 60

43 Enregistrement du r´esultat du job sur la grille de calcul 60

44 Les fichiers dlg & glg du docking 60

45 Les fichiers log de docking et de la grille dlg & glg 61

46 Téléchargement du résultat des jobs 62

47 Les fichiers des jobs soumis en parall`ele 63

Trang 9

1 Introduction

Par le passé, un grand nombre de médicaments ont été découverts tout simplementgrâce à l’identification de principes actifs extraits de substances naturelles historiquementutilisées dans la médecine non-conventionnelle, ou même par hasard, ce qu’on nomme

”sérendipité” Mais plus le nombre de médicaments connus augmente et plus les lités de faire une telle découverte sont faibles Par la suite, les avancées dans le domaine

probabi-de la synthèse chimique ont conduit à une démarche de recherche systématique tant l’élaboration de nouveaux médicaments de plus grande efficacité La découverte denouveaux médicaments ”drug discovery” est un processus extrêmement long et fastidieux,

permet-12 à 15 ans peuvent s’écouler entre la découverte de la molécule et la mise à disposition

du médicament auprès des patients Les nouvelles méthodes permettant la découverte denouveaux médicaments se doivent donc d’innover afin de mettre en évidence des moléculesencore inconnues ayant un certain potentiel d’activité sur des cibles biologiques connues[Davis et al,2003] Les outils mis en place doivent être capables de guider les chimistesmédicinaux dans le choix des molécules à cribler et à synthétiser

Les stratégies de criblage virtuel, ou in-silico, sont donc depuis quelques années employées

en tant qu’alternative ou de fa¸con complémentaire Ces techniques sont en général assezfaciles à mettre en place, pour un coût bien moindre que les criblages expérimentaux Deplus, l’évolution technologique constante de ces dernières décennies a permis d’accélérerconsidérablement le temps de calcul nécessaire à la simulation de systèmes complexes ou

de bases de données de plusieurs milliers de molécules Le criblage virtuel est donc d’hui employé dans de nombreux projets, afin de sélectionner, au sein de vastes librairies

aujour-de molécules, un nombre restreint de composés à cribler expérimentalement

1.1 Probl` ematique

L’axe principal de ce travail se situe dans le domaine de bio-informatique Plus précisementdans la recherche et la découverte de nouveaux médicaments pour les maladies dangereusescomme : HIV, Ebola, fièvre de dengue, , par le biais de techniques informatiques Le défi

se situe au niveau de la conception de nouveaux médicaments, qui est un processus long ettrès onéreux, et au niveau du déployement d’un grand nombre de docking sur la grille decalcul Cependant, les outils existants sont en manque de moyen simple pour fournir desprocédures concises pour les utilisateurs réguliers (biologistes, chimistes, etc) afin d’ar-ranger les ressources pour mener un amarrage moléculaires massif Par conséquent, cesderniers rencontrent plusieurs difficultés et problèmes lors de l’utilisation de ces applica-tions, ce qui entraˆıne une grande perte de temps et d’argent afin d’accélérer la recherche

de nouveaux traitements pour les maladies n´eglig´ees

Trang 10

1.2 Notre contribution

Notre contribution repose sur le développement d’un portail web pour le criblage tuel en utilisant la grille de calcul pour faciliter la découverte et la recherche de nou-veaux médicaments pour les maladies graves et négligées Nous proposons une interfaceconviviale et facile à utiliser pour les utilisateurs non-expérimentés (chimistes, biologistes,médecins ) en informatique et en grille de calcul Afin de favoriser l’intéropérabilitéentre le portail web et les services de grille de calcul, nous proposons une architecture quipermettra une analyse et un traitement fiable des requêtes des utilisateurs finaux

vir-1.3 Plan du m´ emoire

Ce mémoire sera organisé en 4 parties présentant respectivement : l’état de l’art, implátion & conception, démonstration & résultats, conclusion & perspectives Dans la premièrepartie, un état de l’art est présenté qui passe en revue le criblage virtuel, le docking, suivie

ement-de l’outil AutoDock Ensuite nous abordons la technologie ement-de grille ement-de calcul, le portailGVSS et les plate-formes WISDOM qui est déployée dans la découverte de nouveauxmédicaments et DIRAC La deuxième partie du mémoire présente l’implémentation duportail, qui se focalisera sur l’architecture proposée, la conception et l’implémentation duportail L’avant dernière partie porte sur la démonstration du portail muni des résultatsobtenus À la fin, ce mémoire ce termine par une conclusion générale et quelques perspec-tives

Trang 11

2 Etat de l’art ´

Aujourd’hui, les projets scientifiques produisent et analysent une quantité d’informationsans précédent, ce qui nécessite une puissance de calcul jamais vue auparavant Les lea-ders dans ce défi de traitement de données sont les expériences du LHC au CERN, quiaccumulent des dizaines de pétaoctets de donnés chaque année Cependant, il se révèleque d’autres domaines scientifiques s’approchent aussi de ces limites Par conséquent lesutilisateurs devons exploiter les ressources disponibles à travers le monde de manière aisée

et facile Plusieurs travaux existent qui illustrent le développement et le déploiement desapplications sur l’infrastructure de la grille de calcul, et qui ont montré une utilisationefficace des ressources de cette dernière Les utilisateurs sont rarement experts en informa-tique et en grille de calcul Pour cette raison ils ont besoin d’un moyen qui facilite l’accèsaux ressources de la grille dont ils ont besoins d’un coté, et qui cache la complexité de l’in-frastructure sous-jacente de l’autre coté Dans cette partie, nous allons décrire en détail latechnique du criblage virtuel ainsi l’amarrage ”Docking”, le principe de la grille de calcul

et son rôle dans la découverte de nouveaux médicaments pour les maladies négilgées etdangereuses Puis, nous présentons le portail GVSS et la plate-forme WISDOM déployerpour accéder aux services de grille de calcul et DIRAC

– Site de liaison, zones de prot´eines actives qui interagissent physiquement avec

le ligand pour la formation d’un compos´e

2.1 Conception de m´ edicaments in-silico

La conception de médicaments assistée par ordinateur emploie la chimie computationnellepour la découverte, l’amélioration et l’étude de médicaments et molécules biologiquementactives En effet, l’outil informatique aide la conception de médicaments à des étapesspécifiques du processus :

• Dans l’identification des compos´es potentiellement th´erapeutiques, en utilisant lecriblage virtuel ”virtual screening”

• Dans le processus d’optimisation de l’affinité et de la sélectivité des molècules tentielles vers les têtes de série ”lead” ou appelés encore prototypes

po-• Dans le processus d’optimisation du lead de série par rapport aux propriétés macologiques recherchées tout en maintenant une bonne affinité de cette molécule

Trang 12

phar-Toutes ces étapes d’intervention de l’outil informatique sont présentées dans le schémarécapitulatif suivant.

Figure 1 – Processus de conception de m´edicaments in-silico [11]

2.2 Criblage virtuel ”Vitual Screening”

L’identification d’une cible pharmaceutique peut se faire par différentes méthodes Unefois la cible identifiée diagnostiquée, il faut tester un ensemble de molécules candidates surcette cible, selon un processus qualifié de screening On distingue deux types de criblage :

le criblage virtuel, qui est réalisé in-silico , tout en permettant la réalisation de manièrerapide et à moindre coût des prédictions de l’activité des molécules Et le criblage réel àhaut débit, quand à lui il permet de tester rapidement ”in-vitro” l’activité de composésbiologiques, et cela est limité par le nombre de composés à tester en un temps raisonnable

et par le coˆut des tests

et de s´electionner les plus susceptibles d’interagir avec une cible donn´ee [13]

Aujourd’hui, le criblage virtuel est largement utilisé pour identifier de nouvelles substancesbio-active et pour prédire la liaison d’une grande base de donnée de ligands à une cibleparticulière, dans le but d’identifier les composés les plus prometteurs Il s’agit d’uneméthode qui vise à identifier les petites molécules pour l’interaction avec les sites deprotéines cibles afin de faire des analyses et des traitements ultérieures Plus précisement,

le criblage virtuel est défini comme l’évaluation automatique de très grandes banques decomposés à l’aide de programmes informatiques, il se référe à une série in-silico, qui est une

Trang 13

technique effectuer à base d’ordinateur ou par l’intermédiaire des modèles mathématiques

et des simulations informatique, qui aide dans la d´ecouverte de nouveaux m´edicaments

et de déterminer de nouveaux composés les plus susceptibles pour se lier à une moléculecible d’une structure 3D connue [2]

Figure 2 – Criblage Virtuel in-silico(http: // serimedis inserm fr)Compte tenu de l’augmentation rapide du nombre de prot´eines, le criblage virtuel continue

`

a croitre comme une méthode efficace pour la découverte de nouveaux inhibiteurs et denouveaux médicaments Il est utilisé dans les premières phases du développement denouveaux médicaments Il a pour but de sélectionner au sein de chimiothèques varièes desensembles réduits de molécules dont le potentiel d’activité envers la cible thérapeutiquevisée est supérieur à celui des autres molécules [Enyedy Egan, 2008], c-à-d, les moléculesqui peuvent influencer l’activité de la protéine cible Dans ce cas, le criblage a pourobjectif l’identification des motifs structuraux essentiels dans la liaison ligand-récepteur,

et la discrimination des meilleurs composés au sein de chimiothèques orientées comprenantdes molécules appartenant à une même série

Le criblage virtuel est très utile et considéré comme un outil efficace pour accélérer ladécouverte de nouveaux traitements et la recherche des bibliothèques de petites moléculesafin d’identifier les structures qui sont les plus susceptibles de se lier à une cible demédicament, généralement un récepteur de protéine [14] Il dépend de la quantité d’in-formation disponibles sur la cible d’une maladie particulière Les techniques de criblagevirtuel sont devenues des outils indispensables dans la chimie médicinale qui offrent unmoyen d’améliorer la phase de découverte de médicaments Elles sont utilisées de manièrequotidienne aussi bien dans les laboratoires de recherche publics que dans les grands la-boratoires pharmaceutiques

Trang 14

2.2.2 D´ecouverte de nouveaux m´edicaments avec le criblage virtuel

Le criblage virtuel est la stratégie in-silico la plus utilisée pour l’identification de composés(”hits”) dans le cadre de la recherche de nouveaux médicaments Celui-ci fait désormaispartie intégrante de la plupart des programmes de recherche de composés bioactifs, queceux-ci se déroulent en milieu académique ou industriel, car il constitue un complément es-sentiel au criblage biologique haut-débit Le criblage virtuel permet l’exploration de grandechimiothèques ( > 106 molécules) à la recherche de composés actifs vis-à-vis d’une ciblethérapeutique donnée Ce processus vise à réduire de fa¸con significative la chimiothèque dedépart à une liste limitée de composés jugés les plus prometteurs Cette approche conduitsouvent à une nette amélioration de la ”concentration” de molécules actives pour la cible

”hit-rate”, tandis qu’une sélection aléatoire de molécules de la chimiothèque ne sauraitfournir un tel enrichissement Ainsi, le temps aussi bien que les coûts de l’identification

de nouveaux composés peuvent être réduits de fa¸con remarquable Plus précisément, lerecours au criblage in-silico, en préalable à un criblage biologique à plus petite échelle,permet d’ajuster au mieux le nombre de tests expérimentaux ”in-vitro” en fonction descontraintes budgétaires et temporelles Quand les conditions le permettent, le criblagebiologique peut être employé en parallèle au criblage virtuel, afin d’èvaluer l’efficacité de

ce dernier et de pouvoir améliorer les paramètres des programmes informatiques utilisés

La pertinence de la molécule employée est la première condition pour le succèes d’uncriblage virtuel, bien avant celle des algorithmes utilisés pour la recherche de touches ausein de la molécule En effet, seule une librairie de composés suffisamment diverse peutgarantir une exploration satisfaisante de l’espace chimique, maximisant ainsi les chances

de découvrir de nouveaux composés Par ailleurs, pour éviter de perdre du temps avec desmolécules possédant des caractéristiques incompatibles avec celles de composés d’intérêtpharmaceutique, le processus de criblage comporte généralement une étape préliminaire defiltrage Cette tâche, qui peut être prise en charge par des programmes spécialisés, consiste

`

a exclure les composés toxiques Ensuite, ne sont retenus que les composés obéissant à desdéfinitions empiriques simples du profil de molécule active

2.2.3 Les diff´erentes strat´egies du criblage virtuel

Suivant la nature de l’information expérimentale disponible, on distingue deux approchesdistinctes pour le criblage virtuel La première se base sur la structure de la cible, quiest connue sous le nom de ”structure-based virtual screening”, qui rapporte souvent auxalgorithmes de docking protéine-ligand Elle consiste à estimer la complémentarité struc-turale de chaque molécule criblée avec le site actif considéré En revanche, ces méthodessont généralement plus coûteuses en puissance de calcul et leur emploi requiert souventune expertise plus importante

Trang 15

La seconde, reposant sur la connaissance d’un nombre suffisant d’information nant une ou plusieurs molécules actives de référence, est appelée ”ligand-based virtualscreening” Cette approche est rapide et relativement simple à mettre en oeuvre, maisson majeur inconvénient est l’interdépendance envers les informations de référence uti-lisées pour construire le modèle de prédiction d’affinité Bien que ces deux approchessoient surtout utilisées de manière exclusive, leur combinaison lors du criblage permet demaximiser les chances de succès pour identifier de nouvelles touches ”hits” Dans le cadre

concer-de ce travail, nous utilisons l’approche ”structure-based”

2.2.4 Criblage virtuel `a haut d´ebit

La simulation de docking moléculaire est une procédé utile pour la prédiction des tiels interaction des complexes de petite molécule dans des sites de liaison de protéines, cesinformations sont indispensables dans la conception de médicaments basée sur la struc-ture (SBDD) ”Structure Based Drug Discovery” [4] Plusieurs programmes de docking,comme DOCK, GOLD, Autodock, Glide, LigandFit et FlexX, etc se sont montrés utilesdans le pipeline de la découverte in-silico de médicaments La méthode de base derrière

poten-la simupoten-lation de docking moléculaire est de générer toutes les conformations possiblesd’une molécule de docking et évaluer entre eux l’orientation la plus favorable en tant quemode de liaison de la molécule à l’aide d’une fonction de scoring Une recherche exhaus-tive sur toutes les conformations correctes d’un composé est un processus qui consommebeaucoup de temps Par conséquent, une simulation de docking efficace pour le criblage

`

a grande échelle à haut débit (HTS) consommera de grandes ressources informatiques

Il nécessite quelques Tera-flops par tâche pour effectuer le docking de milliers de posés pour une protéine cible Cependant, les outils existants manquent de moyen simplepour prévoir des procédures de fa¸con concise pour les utilisateurs régulier afin d’organi-ser les ressources pour mener un amarrage moléculaires massives La technologie de lagrille commence une nouvelle ère de criblage virtuel en raison de son efficacité ainsi queson rapport coût-efficacité Le coût des tests in-vitro traditionnelle est généralement très

Trang 16

une attention particulière à des cas concrets d’utilisation ainsi qu’au développementsfutur Le criblage virtuel fournit une solution complémentaire pour le criblage virtuel

`

a haut d´ebit ”HTS”, o`u il comprend des techniques de calcul novatrices L’avantage

du criblage virtuel ”in-silico” est donc de fournir une petite liste de molécules à testerexpérimentalement et ainsi réduire les coûts et gagner du temps On peut aussi explorerrapidement de nombreuses molécules pour se focaliser ensuite, au niveau expérimental, surles molécules les plus intéressantes Les difficultés intrinsèques aux techniques à haut débitainsi que celles rencontrées lors des étapes d’optimisation des molécules chimiques, ontencouragé le développement de nouvelles approches, telles que les techniques de criblagevirtuel par docking moléculaire

Trang 17

2.3 Docking

2.3.1 Introduction

La modélisation de la structure d’un complexe protéine-ligand est très importante pour

la compréhension des interactions de liaison entre un composé potentiel ”ligand” et sacible thérapeutique ”protéine”, et pour la conception de médicaments à base de structuremoderne

Le docking ou ”amarrage, arrimage” est une procédé très utile qui vise à prédire action potentiel de la structure d’un complexe moléculaire à partir des petites moléculesdans les sites de liaison de protéine afin d’accélérer la recherche et la découverte de nou-veaux médicaments in-silico (c-à-d à l’aide d’ordinateur), ”Le docking in-silico est ladétermination de la structure 3D des complexes protéiques à l’échelle atomique, qui per-met de mieux comprendre la fonction biologique de ces complexe [1]” Plus précisement,

l’inter-le docking consiste à trouver la meilleure position d’un ligand (petite molécule) dans lesite de liaison d’un récepteur (protéine) de fa¸con à optimiser les interactions avec unrécepteur, évaluer les interactions ligand-protéine de fa¸con à pouvoir discriminer entre lespositionnement observées expérimentalement et les autres De fa¸con générale, le docking

a pour but de simuler l’interaction entre les molécules in-silico, et les résultats obtenusservent à prédire la structure et les propriétés de nouveaux complexes [3]

Historiquement, les premiers outils de docking obéissaient au principe dit : ”lock-and-key”(principe clef-serrure), selon lequel le ligand qui représente la clef, est complémentaire auniveau géométrique du site actif du récepteur, qui représente la serrure [Yuriev et al.,2011] Les ligands sont des petites molécules destinées à inhiber l’activité d’une protéine,qui constitue le récepteur Il permet aussi, de prédire la structure intermoléculaire entredeux molécules en une structure tridimensionnelle 3D, les modes de liaison ou les confor-mations possibles d’un ligand à un récepteur, et de calculer l’énergie de liaison La tech-nique de docking prévoit également la résistance de la liaison, l’énergie du complexe, lestypes de signaux produits et estime l’affinité de liaison entre deux molécules Elle joue

un rôle très important dans l’aide à la décision, afin de déterminer quel ligand candidatinteragira le mieux avec un récepteur protéine cible [15]

Le docking protéine-ligand est utilisé pour vérifier la structure, la position et l’orientationd’une protéine quand elle interagit avec les petites molécules comme les ligands Son butest de prédire et de classer les structures résultant de l’association entre un ligand donné

et une prot´eine cible d’une structure 3D connue

Trang 18

Figure 3 – Docking prot´eine-ligand

Le docking ligand-protéine reste donc la méthode la plus souvent employée, car elle met une évaluation rapide de bases de milliers, voire de millions de molécules

per-En principe, un programme de docking doit être capable de générer les modes de liaisonattendus pour des ligands dont la position adoptée au sein du site actif est connue dans

un temps raisonnable Pour cela, il est n´ecessaire que l’algorithme de recherche mationnelle puisse explorer l’espace conformationnel le plus exhaustivement possible et

confor-de fa¸con efficace Classiquement, on juge la qualité du docking en mesurant le RMSD(Root Mean Square Deviation) sur les atomes entre la pose obtenue en docking, et la poseobservée expérimentalement si elle existe

2.3.2 Approches du docking

Les différentes approches du docking se distinguent au niveau de leurs conditions plication et de la nature des informations qu’elles peuvent fournir La pertinence duchoix d’un programme de docking donné repose en premier lieu sur l’adéquation entreces caractéristiques et celles du système étudié L’efficacité de l’algorithme choisi sera parailleurs un compromis entre la rapidité d’exécution et la précision des résultats

d’ap-Aussi en fonction du but recherché et du besoin de précision voulu, trois degrés sont

en général considérés : rigide (les molécules sont considérées comme rigides), semi-flexible(une molécule rigide et l’autre flexible), flexible (les deux flexibles) Le niveau semi-flexibleest souvent appliqué dans le cas protéine-ligand où une des deux molécules (le ligand) detaille moindre est considérée comme flexible et la protéine comme rigide de fa¸con à ne pastrop complexifier le système

Trang 19

Le processus de docking consiste à faire interagir une petite molécule organique avec lerécepteur, généralement de nature protéique La technique de docking comprend 4 étapesprincipales :

1 Pr´eparer les fichiers pour la prot´eine

2 Pr´eparer les fichiers pour le ligand

3 Pr´eparer les fichiers de param`etres pour la grille

4 Pr´eparer les fichiers de param`etres pour le docking

Le schéma ci-après montre clairement les étapes de docking

Figure 4 – ´Etapes du Docking

2.3.3 Principe du docking

Le docking moléculaire s’accomplit en deux étapes complémentaires La première est

le Docking, qui consiste à rechercher les conformations du ligand capables à établir desinteractions idéales avec le récepteur en utilisant des algorithmes de recherche : algorithmegénétique, la méthode de Monte Carlo (qui utilise des procédés aléatoires) La deuxièmedite le ”Scoring”, qui sont des méthodes mathématiques et des fonctions discriminant lesposes de docking correctes de celles incorrectes Ces méthodes sont utilisées pour estimer

la puissance d’interaction et l’affinité de liaison et qui permet d’évaluer les conformationspar un calcul rapide d’énergie d’interaction des ligands avec un récepteur pour ne retenirque la meilleure

Trang 20

La formule utilis´ee pour le scoring est la suivante :

4G= 4complexe - 4ligand - 4prot´eine

La figure ci-dessous schématise le principe du docking/scoring, où R symbolise une ture du récepteur Tandis que, A, B et C représentent les petites molécules

struc-Figure 5 – Illustration de docking/scoring [6]

Le docking peut être interprété de manière qualitative par observation de l’entité liganddans la cavité de la protéine, mais également de manière quantitative par traitement desdonnées provenant des fonctions de scoring

2.3.4 Outils de Docking

A l’heure actuelle, plus de 30 programmes de docking moléculaires (commerciaux ounon) sont disponibles [6] Les plus fréquemment cités sont respectivement : AutoDock[9], GOLD, FlexX, DOCK et ICM Ils permettent notamment un criblage rapide devastes librairies de composés Ces programmes reposent le plus souvent sur des algo-rithmes spécifiques (Algorithme génétique, Recuit Simulé ), leur protocole est composé

de 2 ´etapes essentielles Docking/Scoring

Pour accomplir la tâche de docking, les outils d’amarrage moléculaire vont générer unesérie de poses différentes de liaison au ligand et en utilisant une fonction de notation

”scoring” pour évaluer les affinités de liaison de ligand pour les poses générées afin dedéterminer le meilleur mode de liaison

Trang 21

Figure 6 – Comparaison des programmes de docking [16]

Comme la figure ci-dessus montre, le programme AutoDock est le plus cit´e et le plusutilis´e parmi les autres programmes de docking

2.3.5 Conclusion

Le processus de docking est l’un des premières étapes dans la conception de médicaments,

il consiste à faire interagir une petite molécule organique avec un récepteur, généralement

de nature protéique En conséquent, le plus grand avantage des méthodes de dockingprotéine-ligand est qu’ils peuvent proposer des hypothèses structurelles sur la fa¸con dontune petite molécule peut interagir avec sa cible macromolécule Des études ont montré quecertains algorithmes de docking sont plus fiables que d’autres pour reproduire le mode defixation expérimentale de ligand La contrepartie de ces techniques est généralement unehausse des temps de calcul et des ressources A l’inverse, un projet impliquant le criblagevirtuel de millions de produits ne pourra pas être accompli avec ce type d’algorithmemais plutôt des codes plus simples, dans lesquels les approximations engendrent un gain

de temps de calcul et d’argent Le nombre de programme de docking actuellement nibles est élevé et n’a cessé d’augmenter au cours des dernières décennies Les exemplessuivants présentent un aper¸cu des programmes les plus communs de docking protéine-ligand (LigandFit, FlexX, AutoDock) Dans ce travail nous avons utilisé le programmeAutoDock

dispo-Le docking est un type d’application facilement distribuable sur une grille De sorteque, de nombreuses ressources de calcul et de stockage ont été mises à disposition par

le projet EGEE (Enabling Grids for E-sciencE), qui est financé par la commission ropéenne et qui a pour but de construire sur les plus récentes avancées des technologies

eu-de grille et eu-de d´evelopper un service d’infrastructure de grille disponible 24h/24h

Trang 22

2.4 AutoDock

AutoDock [4] est un programme flexible, utiliser pour le docking protéine-ligand Il s’agitd’un ensemble de procédures, dont le but de prédire l’interaction de petites molécules,telles que des médicaments candidats ”ligand” ou des substrats à un récepteur dont lastructure 3D est connue AutoDock fonctionne essentiellement comme une procédure endeux étapes : le calcul de la carte d’interaction du site de liaison du récepteur qui estréalisé avec autogrid, et la position de ligand sur la carte d’interaction, qui est effectuéeavec autodock

Le programme AutoGrid est charg´e de calculer les cartes d’interaction des grilles afin

de maximiser l’étape d’évaluation des différentes configurations du ligand Pour cela unegrille entoure la protéine réceptrice et un atome sonde est placé à chaque intersection.L’énergie d’interaction de cet atome avec la protéine est calculée et attribuée à l’empla-cement de l’atome sonde sur la grille Une grille d’affinité est calculé pour chaque typed’atome du ligand Le temps de calcul de l’énergie en utilisant les grilles est proportionnel

au nombre d’atomes du ligand uniquement, il est ind´ependant du nombre d’atomes dur´ecepteur

Le programme AutoDock effectue la partie de recherche et d’évaluation des différentesconfigurations du ligand Il est possible d’utiliser plusieurs techniques pour obtenir lesconfigurations (par recuit simulé, algorithme génétique ou par algorithme génétique La-marckien) Pour la méthode Monte Carlo, à chaque pas un déplacement au hasard detous les degrés de liberté est effectué (translation, rotation, torsion) Les énergies de lanouvelle et de l’ancienne configuration sont comparées Si la nouvelle est plus basse elleest gardée, sinon elle est conservée ou rejetée

La version actuelle du programme est la version 4.2, qui fournit de nouvelles tionnalités importantes pour le docking comme la flexibilité des résidus de protéines etdes fonctions de score de haute qualité Afin de pouvoir réaliser le criblage virtuel avecAutoDock, un ensemble d’outils nécessaires doivent être mis en place :

fonc-• Java OpenJDK (openjdk-7-jdk)

• Python 2.7

• AutoDock4.2 (http: // autodock scripps edu)

• MGLTools (http: // mgltools scripps edu/)

• autodocksuite-4.2.5.1-i86Linux2.tar.gz

• AutoDockTools

• Les fichiers nécessaires téléchargeable depuis le site de base de donnée de protéine :www.pdb.com

Trang 23

2.4.1 Docking avec AutoDock

AutoDock a besoin de connaˆıtre les types, les charges et la liste de liaison de chaque atome,afin de pouvoir effectuer la procédure de docking Tout d’abord, il faut chercher dans labase de donnée PDB (Protein Data Bank) dans le site (http: // www pdb org,http:// www rcsb org), les fichiers pdb pour la protéine et le ligand

Figure 7 – Proc´edures de docking avec AutoDock

La procédure de docking avec AutoDock se décompose en plusieurs étapes :

1 Préparer le fichier d’entrée de protéine Dans cette étape un fichier PDBQT(ProteinData Bank, Partial Charge (Q), & Atom Type (T)) sera créé, qui contient les atomes

et les charges partielles

Trang 24

2 Préparer le fichier d’entrée de ligand Cette étape est très semblable à la préparation

du protéine Nous créons un fichier dont l’extension est PDBQT du ligand.Lapréparation s’effectue comme suit :

> input ligand.pdb

> output ligand.pdbqt

> 1.5.6/bin/pythonsh 1.5.6 /MGLToolsPckgs/AutoDockTools/Utilities24/

/usr/local/MGLTools-prepare ligand4.py -r ligand.pdb

3 Génération d’un fichier de paramètre de la grille Maintenant, nous devons définirl’espace en 3D, qu’AutoDock considèrera pour le docking Dans cette phase, nousallons créer les fichier d’entrées pour ”AutoGrid4”, qui permettra de créer lesdifférents fichiers de carte ”map file” et le fichier de données de la grille ”gpf”(gridparameter file)

> input ligand.pdbqt & protein.pdbqt

> output protein.gpf

> 1.5.6/bin/pythonsh 1.5.6/MGLToolsPckgs/AutoDockTools/Utilities24/

/usr/local/MGLTools-prepare gpf4.py -l ligand.pdbqt -r protein.pdbqt

4 Génération des fichiers de cartes et de données de la grille Dans l’étape précédente,nous avons créé le fichier de paramètres de la grille, et maintenant nous allons utiliser

”AutoGrid4” pour générer les différents fichiers de cartes et le fichier principal dedonnées de la grille

> input protein.pdbqt & protein.gpf

> autogrid4 -p protein.gpf

Après avoir lancé autogrid, plusieurs nouveaux fichiers avec l’extension map secréent, qui correspondent à chaque type d’atome de ligand et des fichiers auxiliaires.Ces fichiers sont importants dans le processus de docking

5 Génération du fichier de paramètre de docking Cette étape consiste à préparer lesfichiers de docking (dpf)

> input ligand.pdbqt & protein.pdbqt

> output ligand protein.dpf

> /usr/local/MGLTools-1.5.6/bin/pythonsh /usr/local/

MGLTools-1.5.6/MGLToolsPckgs/ AutoDockTools/

Utilities24/prepare dpf4.py -l ligand.pdbqt -r protein.pdbqt

Trang 25

On peut préparer les fichiers de paramètres pour la grille et pour le docking sans liser l’outil ADT, en utilisant un script shell (voir annexe) pour préparer ces fichiers.

uti-Le r´esultat de ce script sont respectivement les fichiers : dpf ”docking parameter file”

et gpf ”grid parameter file”

6 À ce stade, nous aurions créé tout un tas de différents fichiers Cette avant dernière

´

etape consiste à exécuter autodock avec la commande ci-après :

> input protein ligand.gpf

> output result.dlg protein ligand.gpf

> autodock4 -p protein ligand.dpf -l result.dlg

7 La dernière étape sera consacrée à l’analyse des résultats de docking Après avoirterminé avec succès la procédure de docking Le meilleur résultat pour le docking,sont les conformations qui possèdent une basse énergie AutoDock peut faire unepremière analyse des résultats en regroupant les solutions en classes (clusters) enfonction de leur proximité spatiale La mesure de la proximité entre deux solutionsest calculée par la racine de la moyenne des carrés des écarts (Root Mean SquareDeviation RMSD) de leurs coordonnées atomiques Si le RMSD entre molécules estinférieur à une distance seuil, ces deux solutions sont dans la même classe Le seuil dedistance est appelé ”tolérance de classe” et sa valeur par défaut, pour AutoDock,est de 0,5 Ce paramètre est transmis à AutoDock par le fichier de paramètrage

”dpf” avant le lancement du docking

2.4.2 Conclusion

Comme nous avons mentionné dans la partie de docking, l’amarrage avec AutoDock estune procédé qui comporte plusieurs étapes Ce qui nécessitera une préparation préalabledes fichiers pour le docking Le processus de docking est un sujet essentiel pour progrésserdans la compréhension des mécanismes d’interaction moléculaires et pour le développementd’outils prédictifs dans le domaine de la médecine Dans cette partie, nous avons présenté

la procédure du docking avec AutoDock4.2 en utilisant l’outil AutoDockTools, et nousavons appliqué les étapes de docking sur un exemple concret dans le but de comprendrecette technique qui va nous aider dans la prochaine phase de lancement des jobs sur lagrille de calcul pour faire le docking

Trang 26

2.5 Grille de calcul

2.5.1 Introduction

Les chercheurs travaillent sur la compréhension des changements climatiques, les étudesocéanographiques, la surveillance et la modélisation de la pollution environnementale, lascience des matériaux, l’étude des procédés de combustion, la conception de médicaments,

la simulation des molécules et le traitement de données dans le domaine de la physiquedes particules Ils ont été confrontés à plusieurs problèmes informatiques, où ils avaientbesoin de processeurs plus puissants, de plus grandes capacités de stockage des données,

de meilleurs moyens d’analyse et de visualisation Les récents progrès de la technologiedes réseaux très haut débit courtes et longues distances ont rendu possible la construc-tion de systèmes répartis de hautes performances, distribués à l’échelle planétaire dontcertains des constituants sont des grappes de PC ou des calculateurs parallèles Cepen-dant les applications scientifiques parallèles sont par nature gourmandes en ressources decalcul Il peut être intéressant de chercher à les exécuter dans le cas oú les ressources lo-cales, cluster de laboratoire, centre de calcul ne suffisent plus Néanmoins, les ordinateursd’une entreprise ne travaillent presque jamais à pleine charge Exploiter chaque seconde

de latence permet de dégager de la puissance de calcul, ainsi que des espaces de stockageconsidérables, le tout pour un coût souvent inférieur à celui d’un investissement pourl’acquisition d’un nouveau matériel Les technologies de grille de calcul ou ”Grid Compu-ting”, permettent de mettre en partage, de fa¸con sécurisée, les données et les programmes

de multiples ordinateurs, qu’ils soient de bureau, personnels ou super-calculateurs Cesressources sont mises en réseau et partagées grâce à des solutions logicielle dédiées [5].Elles peuvent ainsi générer, à un instant donné, un système virtuel doté d’une puissancegigantesque de calcul et une capacité de stockage en rapport pour mener à bien des pro-jets scientifiques ou techniques requérant une grande quantité de cycles de traitement oul’accès à de gros volumes de données

2.5.2 Grille de calcul

La grille de calcul ou ”grid computing” est une technologie en pleine expansion dont le butd’offrir à la communauté scientifique des ressources informatiques virtuellement illimitées.Dans sa version la plus ambitieuse, la grille est une infrastructure logicielle permettant

de fédérer un grand nombre de ressources de calcul, de bases de données et d’applicationsspécialisées distribuées à travers le monde Prabhu définit la grille de calcul comme : ”Unensemble de ressources de calcul distribué sur un réseau local ou étendu qui apparaˆıt à unutilisateur final ou une large application en tant que système informatique virtuel” [5]

La grille de calcul a pour but de réaliser le partage flexible et coordonner de ressourcesainsi que la résolution coopérative de problème au sein d’organisation virtuelles (VO)

`

A l’origine, la grille était con¸cue comme un grand nombre d’ordinateurs en réseau, oùles ressources de calcul et de stockage étaient partagées en fonction des besoins et à la

Trang 27

demande des utilisateurs La grille fournit les protocoles, les applications et les outils dedéveloppement pour réaliser ce partage dynamiquement et à grande échelle Ce partageest hautement contrôlé pour définir qui partage quoi, qui utilise quoi, et sous quellesconditions Un système de grille est obligatoirement hautement dynamique puisque lesfournisseurs et les utilisateurs de ressources varient en fonction du temps Elle permetainsi de construire une organisation virtuelle à partir de compétences et de ressourcescomplémentaires, réparties dans plusieurs institutions, mais qui seront visibles comme untout cohérent par les personnes partageant un objectif commun trop complexe pour êtreabordé par une seule équipe Les technologies de grille permettent le partage, l’échange, ladécouverte, la sélection et l’agrégation de larges ressources hétérogènes, géographiquementdistribués via Internet tels que des capteurs, des ordinateurs, des bases de données, desdispositifs de visualisation et des instruments scientifiques La grille de calcul est largementutilisé dans plusieurs domaines : chimie, bio-informatique, mathématique, biomédecine

Figure 8 – La grille de calcul

2.5.3 Organisation virtuelle

La grille de calcul prend en charge plusieurs organisations virtuelles, qui partagent desressources entre elles Une Organisation Virtuelle (VO), est un groupe de chercheursayant des intérêts scientifiques et des exigences scientifiques similaires, qui travaillent encollaboration avec autres membres et qui partagent des ressources (données, logiciel, pro-grammes, CPU, espace de stockage), indépendamment de leur emplacement géographique.Où chaque organisation virtuelle gère sa propre liste de membres, selon les besoins et lesobjectifs de la VO Les chercheurs doivent adhérer à une VO afin d’utiliser les ressourcesinformatiques de la grille fournie par EGI (https: // www egi eu)

Trang 28

EGI (European Grid Infrastructure) est une suite du projet EGEE, qui vise à pérenniserl’infrastructure de grille en l’ouvrant à toutes les disciplines scientifiques tout en intégrantles innovations sur le calcul distribué [24] EGI offre un support, des services et des outilspour permettre les membres de VO de profiter de leurs ressources EGI accueille actuelle-ment plus de 200 VO pour les communautés ayant des intérêts aussi divers que sciences de

la terre, m´edecine, bio-informatique, sciences informatiques et math´ematiques ou sciences

de la vie

2.5.4 Architecture g´en´erale d’une grille de calcul

L’architecture d’une grille de calcul est organis´ee en couches Bien que chaque projet ait

sa propre architecture, une architecture générale est importante pour expliquer certainsconcepts fondamentaux des grilles, présentés ci-dessous :

• La couche Fabrique (Fabric layer)

C’est la couche de plus bas niveau, elle est en relation directe avec le mat´eriel afin

de mettre à disposition les ressources partagées Les ressources fournies par cettecouche sont d’un point de vue physique des ressources telles que des processeurspour le calcul, des bases de données, des annuaires ou des ressources réseau

• La couche r´eseau (Network layer)

Elle implémente les principaux protocoles de communication et d’authentificationnécessaire aux transactions sur un réseau de type grille Les protocoles de communi-cation permettent l’échange des données à travers les ressources du niveau fabrique.Ces protocoles d’authentification s’appuient sur les services de communication pourfournir des mécanismes sécurisés de vérification de l’identité des utilisateurs et desressources

• La couche ressource (Resource layer)

Cette couche utilise les services des couches connectivité et fabrique pour collecterdes informations sur les caractéristiques des ressources, les surveiller et les contrôler

La couche ressource ne se préoccupe pas des ressources d’un point de vue global,elle ne s’intéresse pas à leur interaction, ceci incombe à la couche collective Elle nes’intéresse qu’aux caractéristiques essentielles des ressources et à la fa¸con dont elles

se comportent

• La couche collective (Collective layer)

Elle se charge des interactions entre les ressources Elle g`ere l’ordonnancement et

la co-allocation des ressources en cas de demande des utilisateurs faisant appel àplusieurs ressources simultanément C’est elle qui choisit sur quelle ressource decalcul faire exécuter un traitement en fonction des coûts estimés Elle s’occupe

´

egalement des services de réplication des données En outre, elle est en charge de lasurveillance des services et elle doit assumer la détection des pannes

Trang 29

• La couche application (Application layer)

C’est la couche la plus haute du mod`ele, elle correspond aux logiciels qui utilisent

la grille pour fournir aux utilisateurs ce dont ils ont besoin, qu’il s’agisse de calcul,

ou de donn´ees Les applications utilisent des services de chacune des couches del’architecture

Figure 9 – Couches de la grille de calcul

2.5.5 Composants de la grille

Les principaux composants de l’environnement informatique de la grille sont discutés endétail dans cette section Selon la conception de l’application de la grille et son utilisa-tion prévue, certains de ces composants mentionnés ci-dessous peuvent ou peuvent nepas être nécessaire, et dans certains cas, ils peuvent être combinés Les composants del’infrastructure de la grille de calcul sont :

• Le portail de la grille

Un portail de grille fournit l’interface pour le service demandeur (comme les teurs privé, public et utilisateur commercial), pour concevoir et accéder à un grandchoix de ressources, des services, des applications et des outils, en encapsulant de

sec-la complexité de la conception réelle de l’architecture de réseau sous-jacent à desutilisateurs finaux

• Service d’information

Le composant de service d’information fournit des informations sur les ressourcesdisponibles, leur capacités totale, leur disponibilité, l’utilisation actuelle et les infor-mations de tarification, Plus tard cette information est utilisée par le portail de

la grille et le planificateur des ressources pour trouver les ressources appropri´ee sur

la grille de calcul pour r´epondre `a la demande de l’utilisateur

Trang 30

• Courtier de ressources ”Resource Broker”

Le Courtier de ressources ou Resource Broker agit comme un intergiciel entre leservice demandeur (job soumis pour l’exécution) et un fournisseur de services (res-sources disponibles sur la grille) La tâche d’un courtier de ressources de la grille estd’identifier dynamiquement les ressources disponibles, pour sélectionner et allouerles ressources les plus appropriées pour un job donné

• Ordonnanceur de ressource

Une fois les ressources ont été identifiées, l’étape suivante consiste à planifier lestravaux en allouant les ressources disponibles L’ordonnanceur de ressource doit êtreutilisé, parce que certains jobs sont prioritaires par rapport aux autres et certainsjobs exigent une longue autonomie

• Utilisateur de grille

L’utilisateur de la grille est un consommateur de ressources de la grille de calcul Ilexiste de nombreuses catégories d’utilisateurs de grille à savoir Les scientifiques, lesmilitaires, les enseignants et les éducateurs, les entreprises, médecins Les catégoriesd’utilisateurs dépends essentiellement du type de problème qu’ils vont résoudre surl’infrastructure du grille

• Gestionnaire de ressource

Le gestionnaire de ressources de la grille estime les besoins en ressources, exécuteles jobs, contrôle leur état et retourne les sorties lorsque les jobs sont terminés Legestionnaire de ressources peut consulter le courtier de ressources sur l’affectationdes ressources et assigner les tâches aux ressources appropriées En outre, il doitauthentifier l’utilisateur et vérifier s’il est autorisé à accéder aux ressources avantd’attribuer le job

2.5.6 Fonctionnement de la grille

La grille de calcul fonctionne sur le principe de mise en commun des ressources, où ungrand nombre de ressources de calcul distribué sont connectées via le réseau à grandevitesse, et qui sont tous provisionnées en provenant des divers endroits géographiques et

`

a travers les frontières organisationnelle Le fonctionnement de la grille est assez simple.Chaque job créé est associé à un ”jobstep” et un ensemble de ”workunits” Ces unités detravail sont prêtes à être lancées sur les ressources de la grille, elles contiennent les infor-mations sur les données, les paramètres nécessaires ainsi que le programme à exécuter.Les agents installés sur chaque machine de la grille se connectent à un intervalle de tempsrégulier au serveur de grille pour prendre le job (principe du modèle ”pull”) Avant detélécharger les données, l’agent vérifie si elles ne sont pas déjà dans son cache, afin d’éviterdes transferts inutiles L’agent lance alors le programme scientifique A la terminaison duprogramme, l’agent archive les résultats et renvoie l’archive du résultat au serveur de grille

Trang 31

A chaque job terminé est donc associé à un ou plusieurs résultats L’utilisateur téléchargel’ensemble des résultats Les étapes clés pour le fonctionnement du réseau informatique etl’interaction entre les différents éléments du réseau sont présentés dans la figure ci-dessous :

Figure 10 – Architecture de grille de calcul [10]

Comme le montre la figure ci-dessus, le fonctionnement des diff´erents composants de lagrille sont :

• Les utilisateurs du r´eseau pr´esentent leurs jobs au Resource Broker de la grille

• Le courtier de ressources ”Resource Broker” de la grille procède à la découverte desressources et de la tarification des informations en utilisant le service de l’informa-tion

• Le gestionnaire de ressources de la grille ”Resource Manager”, authentifie et assure

le crédit nécessaire dans le compte de l’utilisateur afin de déployer les ressources de

la grille

• L’ordonnanceur de ressource (Resource Scheduler), ex´ecute alors le job sur les r´esultats

en mati`ere de ressources et de rendement appropri´e

• Le courtier rassemble les r´esultats et les passent `a l’utilisateur de la grille

Trang 32

2.5.7 Avantages & D´efis de la grille

Les avantages d’utiliser une telle architecture sont multiples et ind´eniables Nous pouvonsciter les exemples suivants :

• D´eploiement des ressources inutilis´ees

La grille est un concept au fort potentiel, dont l’id´ee est de faire en sorte que toute

la puissance de calcul des PCs inutilisés soit utilisée De nos jours, les ordinateursrestent souvent inutilisés pendant de longues périodes, leur processeur n’étant querarement utilisé à 100% Avec cette technologie, les moments d’inactivité de cen-taines ou de milliers d’ordinateurs et de serveurs peuvent être utilisés et vendus àquiconque ayant besoin d’une puissance de calculs massive

• Bas´e sur une architecture de type client/serveur

La grille de calcul repose sur une architecture bien précise et très sûre, en rence, c’est l’architecture client/serveur qui a été choisie Cette architecture a étéadapté en fonction des besoins spécifiques de la technologie de grille de calcul

l’occur-• Meilleure rentabilisation du mat´eriel

Il est évident qu’il y a une sous utilisation des machines, et la grille présente lasolution idéale, d’un point de vue économique pour les entreprises et d’un point devue pratique pour les utilisateurs, pour rentabiliser les ressources

Les défis de la recherche rencontrés par les technologies de grilles de calcul actuellessont répertoriés comme :

• Dynamicité : Les ressources dans la grille sont gérées et contrôlées par plus d’uneorganisation, en raison de ce que les ressources peuvent rejoindre ou sous forme desortie de grille à tout moment, ce qui peut conduire à plus de charge sur la grille

• Administration : La technologie de grille est essentiellement un groupe de sources mises en commun qui n´ecessitent une administration de syst`eme lourdepour la bonne coordination

res-• Puissance : La grille offre de nombreux services informatiques, qui consommentbeaucoup d’´energie ´electrique Donc, alimentation sans interruption est primordiale

Trang 33

séduisant puisqu’il s’agit d’utiliser la puissance de calcul et les espaces de stockage utilisés des ordinateurs d’un immense parc informatique La technologie de grille de cal-cul a prouvé qu’elle est la meilleure technologie pour travailler sur divers domaines : lecommerce, les entreprises, formations, la science, la recherche et le développement Lavirtualisation élimine les limitations géographiques et économiques des ressources Elleaide les grands projets à accomplir en peu de temps Cette nouvelle technologie élimine ladépendance de projet sur un serveur principal ou super calculateur Pourtant, la techno-logie de grille a besoin de se concentrer sur les questions de sécurité et de confidentialité

in-`

a travers les connexions Internet

Trang 34

de médicaments En outre, ces activités facilite également plus d’applications biomédicalese-Science en Asie.

2.6.1 Introduction

Depuis le premier défi de données mondial de la grippe aviaire 2005, l’Academia SinicaGrille Centre de Calcul (ASGCC), au sein de la collaboration EGEE, a été consacrée àl’élaboration et le raffinage de criblage virtuel pour les maladies négligées et émergentestelles que la grippe aviaire, la fièvre dengue, etc La simulation de docking moléculaireest un processus qui prend du temps pour une recherche exhaustive de toutes les confor-mations possibles d’un composé Toutefois, le processus massif in-silico bénéfice du hautdébit de la technologie de la grille de calcul Fournissant une puissance de calcul intensif

et une gestion efficace des données, l’e-infrastructure (EUAsia VO) pour la découvertein-silico de médicaments pour les maladies épidémique en Asie

GAP (Grid Application Platform) et GVSS (Grid enabled Virtual Screening Services) ont

´

eté développés avec le moteur de docking d’AutoDock 3.0.5 GAP est un environnement

de d´eveloppement d’applications de haut niveau pour la cr´eation de services d’application

de la grille [7] GVSS est une interface graphique utilisateur de type Java, qui a été con¸cuepour la conduite de docking moléculaire à grande échelle plus facilement sur l’environne-ment de grille de gLite [7] Les utilisateurs finaux utilisent GVSS sont autorisés à spécifier

la cible et la bibliothèque de composés, mis en place des paramètres de docking, surveillerles jobs de docking et les ressources informatiques, visualiser et affiner les résultats de do-cking, et enfin de télécharger les résultats finaux Il existe d’autres enjeux à encourager lesactivités biomédicales et intégrer plus davantage de ressources dynamiques pour soutenir

la simulation de criblage virtuel `a grande ´echelle en Asie Par exemple, les scientifiques

´

etudient la nouvelle structure cible, par cons´equent, il/elle doit savoir comment mod´eliser

la cible et la préparer en utilisant AutoDockTools On aurait aussi besoin d’une interfaceutilisateur conviviale pour rejoindre et accéder à la collaboration, pour soumettre les jobs

de docking, suivre leur progr`es, visualiser le docking et enfin analyser les r´esultats

Trang 35

Les utilisateurs préparent les fichiers de criblage virtuel dans l’interface utilisateurgraphique GVSS, puis sélectionnent les ressources de la grille de calcul pour soumettredes jobs Ces jobs informatiques sont gérés par GAP/DIANE pour distribuer les agents

de grille de calcul à la grille [18] Les résultats de calcul sont gérés par AMGA , qui est

un catalogue de méta-données pour stocker des éléments de stockage [16]

Figure 11 – Portail GVSS(http: // gvss2 twgrid org/)Pour faire le docking moléculaire à grande échelle qui fonctionne sur l’environnement de lagrille, ASGC a développé l’application GVSS (Grid enabled Virtual Screening Services)qui intégre l’intergiciel gLite DIANE2/GANGA et AMGA d’EGEE Toutes les tâchesinformatiques sont gérés par GAP/DIANE afin de distribuer les Workers de la grille decalcul Les résultats de calcul sont gérés par AMGA, catalogue de métadonnées pourstocker des éléments de stockage GVSS utilise Autodock également en tant que moteurd’amarrage Le GVSS a été créé par l’intégration de plusieurs frameworks con¸cus pourdes applications de grille de calcul

2.6.2 La plate-forme GAP

GAP (Grid Application platform) est un environnement de d´eveloppement d’applications

de haut niveau pour la création des services d’application production/qualité de grille parl’approche MVC (Model-View-Controller) [7] Il divise l’espace de développement d’appli-cation de la grille en trois grandes étapes : le portage d’application ”gridification”, concep-tion de workflow de job complexe et interface utilisateur personnalisé Correspondant àces trois stades de développement, le système GAP est composé de trois sous-frameworks,respectivement : le framework de base, le framework d’application, et le framework deprésentation

Trang 36

• Le framework de base fournit une couche d’abstraction à l’interface de nemnt distribué sous-jacente des ressources informatiques Il cache les complexitéstechniques de la gestion des utilisateurs et des jobs de calcul en isolant les détails demise en oeuvre en vertu d’un ensemble d’API Java bien défini Avec la conceptionorientée objet, le framework de base a été étendue pour intégrer une interface degestion de job de haut niveau appelé DIANE

l’environ-• Le framework d’application introduit une approche basée sur l’action pour le ement de flux de travail ”workflow” avancé et des applications complexes pourles problèmes scientifiques réels En utilisant les API de framework de base, lesdéveloppeurs d’applications sur cette couche peuvent se concentrer sur la conception

développ-de workflow sans se préoccuper des détails et/ou des modifications de ment informatique sur lequel les jobs informatiques seront exécutés

l’environne-• Contrairement aux framework de base et d’application, le framework de pr´esentation

de GAP est librement défini, alors une liberté de choix pour les applications ter leur technologie d’interface préférée basé sur Java (par exemple, portail Web,interface graphique, etc)

Trang 37

Figure 12 – Architecture Service de criblage virtuel GAP (GVSS) [7]

2.6.4 Conclusion

GVSS est développé pour prédire comment les petites molécules interagissent avec lerécepteur Il réduit considérablement le coût en utilisant la demande dynamique des res-sources de la grille de calcul Le portail GVSS facilite la découverte de médicaments enpermettant aux utilisateurs un accès simultané et instantané aux ressources de la grille,tout en masquant la complexité de l’environnement de la grille aux utilisateurs finaux

Trang 38

2.7 Plate-formes utilis´ es

WISDOM (Wide In Silico Docking On Malaria) est une initiative qui a été lancé en

2005 pour utiliser les nouvelles technologies de l’information et d´epolyer des applications

de docking de grande échelle, afin de chercher et de découvrir des médicaments contre

le plaudisme et d’autres maladies dites négligées Le but de WISDOM est de prouver lapertinence de l’utilisation de la grille de calcul dans la recherche de médicaments et de trai-tement pour les maladies dangereuses [8] Il travaille en étroite collaboration avec EGEE,

et il fait usage de l’infrastructure EGEE pour exécuter un grand nombre de données.WISDOM est considéré comme une première étape pour mettre en place une recherche

de médicaments in-silico sur une infrastructure de grille La plate-forme WPE (WISDOMProduction Environment), développé par LPC (Laboratoire Clermont Ferrand-France), a

´

eté utilisé avec succès pour le projet WISDOM dans la découverte de nouveaux inhibiteurscontre le Malaria Cette plate-forme fournit une couche entre les utilisateurs et l’environ-nement de la grille de calcul afin de dissimuler sa complexité Avec cette plate-forme lesutilisateurs peuvent facilement utiliser les ressources de la grille pour effectuer leur calcul

2.7.1.a D´efinition WISDOM

WISDOM est un intergiciel con¸cue comme un environnement de gestion de l’expérience Ilgère les données, les jobs, et partage la charge de travail sur toutes les ressources intégrées,

même si elles adaptent différentes normes technologiques Il est tout a fait possible deconstruire des services web qui interagissent avec le système WISDOM est considérécomme un ensemble de services génériques agissant comme un niveau d’abstraction pourles ressources et offrant une gestion générique des données et des jobs de sorte que lesservices d’applications peuvent utiliser l’un des services sous-jacents d’une manière trèstransparente [11] L’initiative WISDOM comprend trois objectifs, l’objectif biologique,qui consiste à proposer de nouveaux inhibiteurs pour une famille de protéine produitepar plasmodium, l’objectif biomédical, qui repose sur le déployement d’une application dedocking in-silico sur une infrastructure de grille de calcul, et l’objectif de grille, qui s’ap-puie sur le déploiement d’une application très demandeuse en temps de calcul et générantune grande quantité de données pour tester l’infrastructure de grille et ses services Lesutilisateurs ne sont pas en interaction directe avec les ressources de la grille, et ils ne sontpas censés de savoir comment cela fonctionne, car ils sont juste en interaction avec lesservices de haut niveau, tout comme avec un autre service web

Trang 39

• Le gestionnaire des tˆaches ”Task Manager” interagit avec le client et accueille les

tâches créées par le client

• Le gestionnaire de jobs ”Job Manager” soumet des jobs aux ´el´ements de calcul (CE),

du sorte que les tâches gérées par le gestionnaire des tâches seront executées

• Le syst`eme d’information WIS ”WISDOM Information System” utilise AMGA

”ARDA Metadata Grid Application”, pour stocker toutes les m´etadonn´ees requisespour le gestionnaire de job

• Le gestionnaire de donn´ees ”Data Manager”, g`ere les fichiers sur la grille de calcul

Figure 13 – Architecture WPE [9]

Tout d’abord, le module de gestionnaire de job ”Job Manager” re¸coit les demandes etsoumet les jobs pilotes ”pilot agents” sur la grille de calcul, afin de r´ealiser des tˆaches dans

le gestionnaire des tâches ”Task Manager” L’exécution de gestionnaire de job nécessite

un certificat qui correspond à l’organisation virtuelle où les jobs seront soumis Ensuite,les tâches sont enregistrées et gérées par les gestionnaire des tâches Un agent interagitavec le gestionnaire de tâche pour récupérer une tâche et l’exécute sur la grille de calcul.Après, le module WIS ”WISDOM Information System” enregistre les états des agents etcontrôle l’information des agents de pilotes sur la grille Et le gestionnaire de données gèreles fichiers sur la grille en mode batch

Định dạng
Số trang	79
Dung lượng	5,69 MB