Le docking in-silicoest la premi`ere ´etape dans le processus de criblage virtuel, il est consid´er´e commel’une des approches les plus prometteuses afin acc´el´erer et de r´eduire les c
Trang 1Institut de la Francophonie pour l’Informatique
M´ emoire de fin d’´ etudes pour l’obtention du diplˆ ome
de Master II Informatique
Option : R´eseaux et Syst`emes Communicants
virtuel sur la grille de calcul
Promotion 17-RSC
R´ edig´ e par : Louacheni Farida
Sous l’encadrement de : Dr.Nguyen Hong Quang Dr.Doan Trung Tung Dr.Bui The Quang
20 novembre 2014
Trang 2J’adresse mes plus vifs remerciements au Dr.Doan Tung Tung et Dr.QuangBui The de m’avoir encadr´e et prodigu´e maints conseils Je suis tr`es reconnaissante
Trang 3`
A l’heure actuelle, la grille de calcul est en train de devenir une force motrice jeure pour de nouvelles approches pour la collaboration de science `a grande ´echelle.Plusieurs programmes nationaux et internationaux eScience ont favoris´e la collabo-ration entre chercheurs de diff´erents domaines scientifiques
ma-Dans le domaine biom´edicale, plus pr´ecisement dans la recherche de nouveauxm´edicaments pour les maladies infectieuses La grille de calcul a initi´e plusieursprojets `a grande ´echelle dans les approches de criblage de m´edicaments in-silico
Le projet WISDOM a ´et´e parmi les premiers projets dans le domaine public qui
a fait usage de la grille tout en permettant le docking in-silico pour simuler teraction de m´edicaments potentiels avec des prot´eines cibles Le docking in-silicoest la premi`ere ´etape dans le processus de criblage virtuel, il est consid´er´e commel’une des approches les plus prometteuses afin acc´el´erer et de r´eduire les coˆuts ded´eveloppement de nouveaux m´edicaments pour les maladies n´eglig´ees
l’in-Bien que, de nombreuses applications ont ´et´e d´evelopp´ees pour permettre lecriblage virtuel dont le but d’acc´el´erer le processus de recherche des m´edicaments.Une barri`ere critique de ces programmes est leur complexit´e en terme d’utilisation
et de pr´evoir des proc´edures concises pour les utilisateurs r´eguliers
L’objectif de ce travail est de d´evelopper un portail web conviviale pour effectuer
le criblage virtuel, et de d´eployer un tr`es grand nombre de docking sur la grille
de calcul Pour atteindre ce but, la grille de calcul a ´et´e utilis´e pour acc´el´erer larecherche et la d´ecouverte de nouveaux m´edicaments in-silico et traitements pourles maladies infectieuses
Trang 4AbstractGrid computing is currently developing into a major driving force for new ap-proaches towards collaborative large scale science Several national and interna-tional eScience programs have fostered collaboration between researchers from dif-ferent scientific domains.
In the biomedical field, more precisely in drug discovery for infectious diseases.Grid computing has initiated several projects on large scale in-silico drug screeningapproaches The project WISDOM was amongst the first projects in the public do-main that made use of grid enabled in-silico docking to simulate the interaction ofpotential drugs with target proteins In-silico docking is the first step in the virtualscreening process, which is one of the most promising approaches to speed-up and
to reduce the costs of the development of new drugs
Although, many applications have been developed to allow in-silico screening,but a critical barrier of these programs is the lack of a suitable, easy, simple way touse and to provide concise procedures for regular users
The main goal of this work is to develop a user-friendly web portal to performvirtual screening and to deploy a large number of docking on grid computing Toachieve this goal, the grid computing was used to accelerate research and discovery
of new drugs in-silico for infectious diseases
Trang 5Table des mati` eres
1.1 Probl`ematique 1
1.2 Notre contribution 2
1.3 Plan du m´emoire 2
2 Etat de l’art´ 3 2.1 Conception de m´edicaments in-silico 3
2.2 Criblage virtuel ”Vitual Screening” 4
2.2.1 Introduction 4
2.2.2 D´ecouverte de nouveaux m´edicaments avec le criblage virtuel 6
2.2.3 Les diff´erentes strat´egies du criblage virtuel 6
2.2.4 Criblage virtuel `a haut d´ebit 7
2.2.5 Conclusion 7
2.3 Docking 9
2.3.1 Introduction 9
2.3.2 Approches du docking 10
2.3.3 Principe du docking 11
2.3.4 Outils de Docking 12
2.3.5 Conclusion 13
2.4 AutoDock 14
2.4.1 Docking avec AutoDock 15
2.4.2 Conclusion 17
2.5 Grille de calcul 18
2.5.1 Introduction 18
2.5.2 Grille de calcul 18
2.5.3 Organisation virtuelle 19
2.5.4 Architecture g´en´erale d’une grille de calcul 20
2.5.5 Composants de la grille 21
2.5.6 Fonctionnement de la grille 22
2.5.7 Avantages & D´efis de la grille 24
2.5.8 Conclusion 24
2.6 Portail GVSS 26
2.6.1 Introduction 26
2.6.2 La plate-forme GAP 27
2.6.3 Architecture GVSS 28
2.6.4 Conclusion 29
2.7 Plate-formes utilis´es 30
2.7.1 WISDOM 30
2.7.2 DIRAC 33
Trang 63 Impl´ementation 37
3.1 Architecture du syst`eme propos´ee 37
3.2 Outils utilis´es 38
3.3 Conception du portail 41
3.4 D´eveloppement du portail du web 48
3.4.1 Les services web 48
4 Exp´erimentation & R´esultats 52 4.1 Conclusion 63
Trang 7Table des figures
1 Processus de conception de m´edicaments in-silico [11] 4
2 Criblage Virtuel in-silico 5
3 Docking prot´eine-ligand 10
4 Etapes du Docking´ 11
5 Illustration de docking/scoring [6] 12
6 Comparaison des programmes de docking [16] 13
7 Proc´edures de docking avec AutoDock 15
8 La grille de calcul 19
9 Couches de la grille de calcul 21
10 Architecture de grille de calcul [10] 23
11 Portail GVSS 27
12 Architecture Service de criblage virtuel GAP (GVSS) [7] 29
13 Architecture WPE [9] 31
14 Intergiciel DIRAC 33
15 Architecture DIRAC [20] 35
16 Architecture du syst`eme propos´ee 38
17 Workflow soumission de job sur la grille avec Taverna 39
18 Diagramme de classe du portail web 42
19 Cas d’utilisation pour le Ligand 43
20 Cas d’utilisation pour la Prot´eine 44
21 Cas d’utilisation pour les param`etres de grille 45
22 Cas d’utilisation pour le docking 46
23 Cas d’utilisation pour l’administrateur du portail 47
24 Mod`ele MVC 48
25 Description des services web impl´ement´es 49
26 Workflow des services web du portail 51
27 Interface d’accueil du portail web 52
28 Interface de cr´eation d’un nouveau compte 53
29 Interface d’authentification 53
30 Interface de gestion des utilisateurs 54
31 Interface d’ajout d’un nouveau Ligand 54
32 Interface de liste des Ligands disponibles 55
33 Interface de gestion des prot´eines 55
34 Interface de modification d’une prot´eine 56
35 Interface d’ajout de fichier de param`etres de la grille 56
36 Interface d’ajout d’un nouveau projet de docking 57
37 V´erification d’ajout du nouveau projet 57
38 Soumission de job de docking 58
39 T´el´echargement du r´esultat de docking 58
Trang 840 Fichier log de docking ”dlg” 59
41 Soumission du projet de docking ProjectZinc1OKE 59
42 T´el´echargement du r´esultat de docking 60
43 Enregistrement du r´esultat du job sur la grille de calcul 60
44 Les fichiers dlg & glg du docking 60
45 Les fichiers log de docking et de la grille dlg & glg 61
46 T´el´echargement du r´esultat des jobs 62
47 Les fichiers des jobs soumis en parall`ele 63
Trang 91 Introduction
Par le pass´e, un grand nombre de m´edicaments ont ´et´e d´ecouverts tout simplementgrˆace `a l’identification de principes actifs extraits de substances naturelles historiquementutilis´ees dans la m´edecine non-conventionnelle, ou mˆeme par hasard, ce qu’on nomme
”s´erendipit´e” Mais plus le nombre de m´edicaments connus augmente et plus les lit´es de faire une telle d´ecouverte sont faibles Par la suite, les avanc´ees dans le domaine
probabi-de la synth`ese chimique ont conduit `a une d´emarche de recherche syst´ematique tant l’´elaboration de nouveaux m´edicaments de plus grande efficacit´e La d´ecouverte denouveaux m´edicaments ”drug discovery” est un processus extrˆemement long et fastidieux,
permet-12 `a 15 ans peuvent s’´ecouler entre la d´ecouverte de la mol´ecule et la mise `a disposition
du m´edicament aupr`es des patients Les nouvelles m´ethodes permettant la d´ecouverte denouveaux m´edicaments se doivent donc d’innover afin de mettre en ´evidence des mol´eculesencore inconnues ayant un certain potentiel d’activit´e sur des cibles biologiques connues[Davis et al,2003] Les outils mis en place doivent ˆetre capables de guider les chimistesm´edicinaux dans le choix des mol´ecules `a cribler et `a synth´etiser
Les strat´egies de criblage virtuel, ou in-silico, sont donc depuis quelques ann´ees employ´ees
en tant qu’alternative ou de fa¸con compl´ementaire Ces techniques sont en g´en´eral assezfaciles `a mettre en place, pour un coˆut bien moindre que les criblages exp´erimentaux Deplus, l’´evolution technologique constante de ces derni`eres d´ecennies a permis d’acc´el´ererconsid´erablement le temps de calcul n´ecessaire `a la simulation de syst`emes complexes ou
de bases de donn´ees de plusieurs milliers de mol´ecules Le criblage virtuel est donc d’hui employ´e dans de nombreux projets, afin de s´electionner, au sein de vastes librairies
aujour-de mol´ecules, un nombre restreint de compos´es `a cribler exp´erimentalement
1.1 Probl` ematique
L’axe principal de ce travail se situe dans le domaine de bio-informatique Plus pr´ecisementdans la recherche et la d´ecouverte de nouveaux m´edicaments pour les maladies dangereusescomme : HIV, Ebola, fi`evre de dengue, , par le biais de techniques informatiques Le d´efi
se situe au niveau de la conception de nouveaux m´edicaments, qui est un processus long ettr`es on´ereux, et au niveau du d´eployement d’un grand nombre de docking sur la grille decalcul Cependant, les outils existants sont en manque de moyen simple pour fournir desproc´edures concises pour les utilisateurs r´eguliers (biologistes, chimistes, etc) afin d’ar-ranger les ressources pour mener un amarrage mol´eculaires massif Par cons´equent, cesderniers rencontrent plusieurs difficult´es et probl`emes lors de l’utilisation de ces applica-tions, ce qui entraˆıne une grande perte de temps et d’argent afin d’acc´el´erer la recherche
de nouveaux traitements pour les maladies n´eglig´ees
Trang 101.2 Notre contribution
Notre contribution repose sur le d´eveloppement d’un portail web pour le criblage tuel en utilisant la grille de calcul pour faciliter la d´ecouverte et la recherche de nou-veaux m´edicaments pour les maladies graves et n´eglig´ees Nous proposons une interfaceconviviale et facile `a utiliser pour les utilisateurs non-exp´eriment´es (chimistes, biologistes,m´edecins ) en informatique et en grille de calcul Afin de favoriser l’int´erop´erabilit´eentre le portail web et les services de grille de calcul, nous proposons une architecture quipermettra une analyse et un traitement fiable des requˆetes des utilisateurs finaux
vir-1.3 Plan du m´ emoire
Ce m´emoire sera organis´e en 4 parties pr´esentant respectivement : l’´etat de l’art, impl´ation & conception, d´emonstration & r´esultats, conclusion & perspectives Dans la premi`erepartie, un ´etat de l’art est pr´esent´e qui passe en revue le criblage virtuel, le docking, suivie
ement-de l’outil AutoDock Ensuite nous abordons la technologie ement-de grille ement-de calcul, le portailGVSS et les plate-formes WISDOM qui est d´eploy´ee dans la d´ecouverte de nouveauxm´edicaments et DIRAC La deuxi`eme partie du m´emoire pr´esente l’impl´ementation duportail, qui se focalisera sur l’architecture propos´ee, la conception et l’impl´ementation duportail L’avant derni`ere partie porte sur la d´emonstration du portail muni des r´esultatsobtenus `A la fin, ce m´emoire ce termine par une conclusion g´en´erale et quelques perspec-tives
Trang 112 Etat de l’art ´
Aujourd’hui, les projets scientifiques produisent et analysent une quantit´e d’informationsans pr´ec´edent, ce qui n´ecessite une puissance de calcul jamais vue auparavant Les lea-ders dans ce d´efi de traitement de donn´ees sont les exp´eriences du LHC au CERN, quiaccumulent des dizaines de p´etaoctets de donn´es chaque ann´ee Cependant, il se r´ev`eleque d’autres domaines scientifiques s’approchent aussi de ces limites Par cons´equent lesutilisateurs devons exploiter les ressources disponibles `a travers le monde de mani`ere ais´ee
et facile Plusieurs travaux existent qui illustrent le d´eveloppement et le d´eploiement desapplications sur l’infrastructure de la grille de calcul, et qui ont montr´e une utilisationefficace des ressources de cette derni`ere Les utilisateurs sont rarement experts en informa-tique et en grille de calcul Pour cette raison ils ont besoin d’un moyen qui facilite l’acc`esaux ressources de la grille dont ils ont besoins d’un cot´e, et qui cache la complexit´e de l’in-frastructure sous-jacente de l’autre cot´e Dans cette partie, nous allons d´ecrire en d´etail latechnique du criblage virtuel ainsi l’amarrage ”Docking”, le principe de la grille de calcul
et son rˆole dans la d´ecouverte de nouveaux m´edicaments pour les maladies n´egilg´ees etdangereuses Puis, nous pr´esentons le portail GVSS et la plate-forme WISDOM d´eployerpour acc´eder aux services de grille de calcul et DIRAC
– Site de liaison, zones de prot´eines actives qui interagissent physiquement avec
le ligand pour la formation d’un compos´e
2.1 Conception de m´ edicaments in-silico
La conception de m´edicaments assist´ee par ordinateur emploie la chimie computationnellepour la d´ecouverte, l’am´elioration et l’´etude de m´edicaments et mol´ecules biologiquementactives En effet, l’outil informatique aide la conception de m´edicaments `a des ´etapessp´ecifiques du processus :
• Dans l’identification des compos´es potentiellement th´erapeutiques, en utilisant lecriblage virtuel ”virtual screening”
• Dans le processus d’optimisation de l’affinit´e et de la s´electivit´e des mol`ecules tentielles vers les tˆetes de s´erie ”lead” ou appel´es encore prototypes
po-• Dans le processus d’optimisation du lead de s´erie par rapport aux propri´et´es macologiques recherch´ees tout en maintenant une bonne affinit´e de cette mol´ecule
Trang 12phar-Toutes ces ´etapes d’intervention de l’outil informatique sont pr´esent´ees dans le sch´emar´ecapitulatif suivant.
Figure 1 – Processus de conception de m´edicaments in-silico [11]
2.2 Criblage virtuel ”Vitual Screening”
L’identification d’une cible pharmaceutique peut se faire par diff´erentes m´ethodes Unefois la cible identifi´ee diagnostiqu´ee, il faut tester un ensemble de mol´ecules candidates surcette cible, selon un processus qualifi´e de screening On distingue deux types de criblage :
le criblage virtuel, qui est r´ealis´e in-silico , tout en permettant la r´ealisation de mani`ererapide et `a moindre coˆut des pr´edictions de l’activit´e des mol´ecules Et le criblage r´eel `ahaut d´ebit, quand `a lui il permet de tester rapidement ”in-vitro” l’activit´e de compos´esbiologiques, et cela est limit´e par le nombre de compos´es `a tester en un temps raisonnable
et par le coˆut des tests
et de s´electionner les plus susceptibles d’interagir avec une cible donn´ee [13]
Aujourd’hui, le criblage virtuel est largement utilis´e pour identifier de nouvelles substancesbio-active et pour pr´edire la liaison d’une grande base de donn´ee de ligands `a une cibleparticuli`ere, dans le but d’identifier les compos´es les plus prometteurs Il s’agit d’unem´ethode qui vise `a identifier les petites mol´ecules pour l’interaction avec les sites deprot´eines cibles afin de faire des analyses et des traitements ult´erieures Plus pr´ecisement,
le criblage virtuel est d´efini comme l’´evaluation automatique de tr`es grandes banques decompos´es `a l’aide de programmes informatiques, il se r´ef´ere `a une s´erie in-silico, qui est une
Trang 13technique effectuer `a base d’ordinateur ou par l’interm´ediaire des mod`eles math´ematiques
et des simulations informatique, qui aide dans la d´ecouverte de nouveaux m´edicaments
et de d´eterminer de nouveaux compos´es les plus susceptibles pour se lier `a une mol´eculecible d’une structure 3D connue [2]
Figure 2 – Criblage Virtuel in-silico(http: // serimedis inserm fr)Compte tenu de l’augmentation rapide du nombre de prot´eines, le criblage virtuel continue
`
a croitre comme une m´ethode efficace pour la d´ecouverte de nouveaux inhibiteurs et denouveaux m´edicaments Il est utilis´e dans les premi`eres phases du d´eveloppement denouveaux m´edicaments Il a pour but de s´electionner au sein de chimioth`eques vari`ees desensembles r´eduits de mol´ecules dont le potentiel d’activit´e envers la cible th´erapeutiquevis´ee est sup´erieur `a celui des autres mol´ecules [Enyedy Egan, 2008], c-`a-d, les mol´eculesqui peuvent influencer l’activit´e de la prot´eine cible Dans ce cas, le criblage a pourobjectif l’identification des motifs structuraux essentiels dans la liaison ligand-r´ecepteur,
et la discrimination des meilleurs compos´es au sein de chimioth`eques orient´ees comprenantdes mol´ecules appartenant `a une mˆeme s´erie
Le criblage virtuel est tr`es utile et consid´er´e comme un outil efficace pour acc´el´erer lad´ecouverte de nouveaux traitements et la recherche des biblioth`eques de petites mol´eculesafin d’identifier les structures qui sont les plus susceptibles de se lier `a une cible dem´edicament, g´en´eralement un r´ecepteur de prot´eine [14] Il d´epend de la quantit´e d’in-formation disponibles sur la cible d’une maladie particuli`ere Les techniques de criblagevirtuel sont devenues des outils indispensables dans la chimie m´edicinale qui offrent unmoyen d’am´eliorer la phase de d´ecouverte de m´edicaments Elles sont utilis´ees de mani`erequotidienne aussi bien dans les laboratoires de recherche publics que dans les grands la-boratoires pharmaceutiques
Trang 142.2.2 D´ecouverte de nouveaux m´edicaments avec le criblage virtuel
Le criblage virtuel est la strat´egie in-silico la plus utilis´ee pour l’identification de compos´es(”hits”) dans le cadre de la recherche de nouveaux m´edicaments Celui-ci fait d´esormaispartie int´egrante de la plupart des programmes de recherche de compos´es bioactifs, queceux-ci se d´eroulent en milieu acad´emique ou industriel, car il constitue un compl´ement es-sentiel au criblage biologique haut-d´ebit Le criblage virtuel permet l’exploration de grandechimioth`eques ( > 106 mol´ecules) `a la recherche de compos´es actifs vis-`a-vis d’une cibleth´erapeutique donn´ee Ce processus vise `a r´eduire de fa¸con significative la chimioth`eque ded´epart `a une liste limit´ee de compos´es jug´es les plus prometteurs Cette approche conduitsouvent `a une nette am´elioration de la ”concentration” de mol´ecules actives pour la cible
”hit-rate”, tandis qu’une s´election al´eatoire de mol´ecules de la chimioth`eque ne sauraitfournir un tel enrichissement Ainsi, le temps aussi bien que les coˆuts de l’identification
de nouveaux compos´es peuvent ˆetre r´eduits de fa¸con remarquable Plus pr´ecis´ement, lerecours au criblage in-silico, en pr´ealable `a un criblage biologique `a plus petite ´echelle,permet d’ajuster au mieux le nombre de tests exp´erimentaux ”in-vitro” en fonction descontraintes budg´etaires et temporelles Quand les conditions le permettent, le criblagebiologique peut ˆetre employ´e en parall`ele au criblage virtuel, afin d’`evaluer l’efficacit´e de
ce dernier et de pouvoir am´eliorer les param`etres des programmes informatiques utilis´es
La pertinence de la mol´ecule employ´ee est la premi`ere condition pour le succ`ees d’uncriblage virtuel, bien avant celle des algorithmes utilis´es pour la recherche de touches ausein de la mol´ecule En effet, seule une librairie de compos´es suffisamment diverse peutgarantir une exploration satisfaisante de l’espace chimique, maximisant ainsi les chances
de d´ecouvrir de nouveaux compos´es Par ailleurs, pour ´eviter de perdre du temps avec desmol´ecules poss´edant des caract´eristiques incompatibles avec celles de compos´es d’int´erˆetpharmaceutique, le processus de criblage comporte g´en´eralement une ´etape pr´eliminaire defiltrage Cette tˆache, qui peut ˆetre prise en charge par des programmes sp´ecialis´es, consiste
`
a exclure les compos´es toxiques Ensuite, ne sont retenus que les compos´es ob´eissant `a desd´efinitions empiriques simples du profil de mol´ecule active
2.2.3 Les diff´erentes strat´egies du criblage virtuel
Suivant la nature de l’information exp´erimentale disponible, on distingue deux approchesdistinctes pour le criblage virtuel La premi`ere se base sur la structure de la cible, quiest connue sous le nom de ”structure-based virtual screening”, qui rapporte souvent auxalgorithmes de docking prot´eine-ligand Elle consiste `a estimer la compl´ementarit´e struc-turale de chaque mol´ecule cribl´ee avec le site actif consid´er´e En revanche, ces m´ethodessont g´en´eralement plus coˆuteuses en puissance de calcul et leur emploi requiert souventune expertise plus importante
Trang 15La seconde, reposant sur la connaissance d’un nombre suffisant d’information nant une ou plusieurs mol´ecules actives de r´ef´erence, est appel´ee ”ligand-based virtualscreening” Cette approche est rapide et relativement simple `a mettre en oeuvre, maisson majeur inconv´enient est l’interd´ependance envers les informations de r´ef´erence uti-lis´ees pour construire le mod`ele de pr´ediction d’affinit´e Bien que ces deux approchessoient surtout utilis´ees de mani`ere exclusive, leur combinaison lors du criblage permet demaximiser les chances de succ`es pour identifier de nouvelles touches ”hits” Dans le cadre
concer-de ce travail, nous utilisons l’approche ”structure-based”
2.2.4 Criblage virtuel `a haut d´ebit
La simulation de docking mol´eculaire est une proc´ed´e utile pour la pr´ediction des tiels interaction des complexes de petite mol´ecule dans des sites de liaison de prot´eines, cesinformations sont indispensables dans la conception de m´edicaments bas´ee sur la struc-ture (SBDD) ”Structure Based Drug Discovery” [4] Plusieurs programmes de docking,comme DOCK, GOLD, Autodock, Glide, LigandFit et FlexX, etc se sont montr´es utilesdans le pipeline de la d´ecouverte in-silico de m´edicaments La m´ethode de base derri`ere
poten-la simupoten-lation de docking mol´eculaire est de g´en´erer toutes les conformations possiblesd’une mol´ecule de docking et ´evaluer entre eux l’orientation la plus favorable en tant quemode de liaison de la mol´ecule `a l’aide d’une fonction de scoring Une recherche exhaus-tive sur toutes les conformations correctes d’un compos´e est un processus qui consommebeaucoup de temps Par cons´equent, une simulation de docking efficace pour le criblage
`
a grande ´echelle `a haut d´ebit (HTS) consommera de grandes ressources informatiques
Il n´ecessite quelques Tera-flops par tˆache pour effectuer le docking de milliers de pos´es pour une prot´eine cible Cependant, les outils existants manquent de moyen simplepour pr´evoir des proc´edures de fa¸con concise pour les utilisateurs r´egulier afin d’organi-ser les ressources pour mener un amarrage mol´eculaires massives La technologie de lagrille commence une nouvelle `ere de criblage virtuel en raison de son efficacit´e ainsi queson rapport coˆut-efficacit´e Le coˆut des tests in-vitro traditionnelle est g´en´eralement tr`es
Trang 16une attention particuli`ere `a des cas concrets d’utilisation ainsi qu’au d´eveloppementsfutur Le criblage virtuel fournit une solution compl´ementaire pour le criblage virtuel
`
a haut d´ebit ”HTS”, o`u il comprend des techniques de calcul novatrices L’avantage
du criblage virtuel ”in-silico” est donc de fournir une petite liste de mol´ecules `a testerexp´erimentalement et ainsi r´eduire les coˆuts et gagner du temps On peut aussi explorerrapidement de nombreuses mol´ecules pour se focaliser ensuite, au niveau exp´erimental, surles mol´ecules les plus int´eressantes Les difficult´es intrins`eques aux techniques `a haut d´ebitainsi que celles rencontr´ees lors des ´etapes d’optimisation des mol´ecules chimiques, ontencourag´e le d´eveloppement de nouvelles approches, telles que les techniques de criblagevirtuel par docking mol´eculaire
Trang 172.3 Docking
2.3.1 Introduction
La mod´elisation de la structure d’un complexe prot´eine-ligand est tr`es importante pour
la compr´ehension des interactions de liaison entre un compos´e potentiel ”ligand” et sacible th´erapeutique ”prot´eine”, et pour la conception de m´edicaments `a base de structuremoderne
Le docking ou ”amarrage, arrimage” est une proc´ed´e tr`es utile qui vise `a pr´edire action potentiel de la structure d’un complexe mol´eculaire `a partir des petites mol´eculesdans les sites de liaison de prot´eine afin d’acc´el´erer la recherche et la d´ecouverte de nou-veaux m´edicaments in-silico (c-`a-d `a l’aide d’ordinateur), ”Le docking in-silico est lad´etermination de la structure 3D des complexes prot´eiques `a l’´echelle atomique, qui per-met de mieux comprendre la fonction biologique de ces complexe [1]” Plus pr´ecisement,
l’inter-le docking consiste `a trouver la meilleure position d’un ligand (petite mol´ecule) dans lesite de liaison d’un r´ecepteur (prot´eine) de fa¸con `a optimiser les interactions avec unr´ecepteur, ´evaluer les interactions ligand-prot´eine de fa¸con `a pouvoir discriminer entre lespositionnement observ´ees exp´erimentalement et les autres De fa¸con g´en´erale, le docking
a pour but de simuler l’interaction entre les mol´ecules in-silico, et les r´esultats obtenusservent `a pr´edire la structure et les propri´et´es de nouveaux complexes [3]
Historiquement, les premiers outils de docking ob´eissaient au principe dit : ”lock-and-key”(principe clef-serrure), selon lequel le ligand qui repr´esente la clef, est compl´ementaire auniveau g´eom´etrique du site actif du r´ecepteur, qui repr´esente la serrure [Yuriev et al.,2011] Les ligands sont des petites mol´ecules destin´ees `a inhiber l’activit´e d’une prot´eine,qui constitue le r´ecepteur Il permet aussi, de pr´edire la structure intermol´eculaire entredeux mol´ecules en une structure tridimensionnelle 3D, les modes de liaison ou les confor-mations possibles d’un ligand `a un r´ecepteur, et de calculer l’´energie de liaison La tech-nique de docking pr´evoit ´egalement la r´esistance de la liaison, l’´energie du complexe, lestypes de signaux produits et estime l’affinit´e de liaison entre deux mol´ecules Elle joue
un rˆole tr`es important dans l’aide `a la d´ecision, afin de d´eterminer quel ligand candidatinteragira le mieux avec un r´ecepteur prot´eine cible [15]
Le docking prot´eine-ligand est utilis´e pour v´erifier la structure, la position et l’orientationd’une prot´eine quand elle interagit avec les petites mol´ecules comme les ligands Son butest de pr´edire et de classer les structures r´esultant de l’association entre un ligand donn´e
et une prot´eine cible d’une structure 3D connue
Trang 18Figure 3 – Docking prot´eine-ligand
Le docking ligand-prot´eine reste donc la m´ethode la plus souvent employ´ee, car elle met une ´evaluation rapide de bases de milliers, voire de millions de mol´ecules
per-En principe, un programme de docking doit ˆetre capable de g´en´erer les modes de liaisonattendus pour des ligands dont la position adopt´ee au sein du site actif est connue dans
un temps raisonnable Pour cela, il est n´ecessaire que l’algorithme de recherche mationnelle puisse explorer l’espace conformationnel le plus exhaustivement possible et
confor-de fa¸con efficace Classiquement, on juge la qualit´e du docking en mesurant le RMSD(Root Mean Square Deviation) sur les atomes entre la pose obtenue en docking, et la poseobserv´ee exp´erimentalement si elle existe
2.3.2 Approches du docking
Les diff´erentes approches du docking se distinguent au niveau de leurs conditions plication et de la nature des informations qu’elles peuvent fournir La pertinence duchoix d’un programme de docking donn´e repose en premier lieu sur l’ad´equation entreces caract´eristiques et celles du syst`eme ´etudi´e L’efficacit´e de l’algorithme choisi sera parailleurs un compromis entre la rapidit´e d’ex´ecution et la pr´ecision des r´esultats
d’ap-Aussi en fonction du but recherch´e et du besoin de pr´ecision voulu, trois degr´es sont
en g´en´eral consid´er´es : rigide (les mol´ecules sont consid´er´ees comme rigides), semi-flexible(une mol´ecule rigide et l’autre flexible), flexible (les deux flexibles) Le niveau semi-flexibleest souvent appliqu´e dans le cas prot´eine-ligand o`u une des deux mol´ecules (le ligand) detaille moindre est consid´er´ee comme flexible et la prot´eine comme rigide de fa¸con `a ne pastrop complexifier le syst`eme
Trang 19Le processus de docking consiste `a faire interagir une petite mol´ecule organique avec ler´ecepteur, g´en´eralement de nature prot´eique La technique de docking comprend 4 ´etapesprincipales :
1 Pr´eparer les fichiers pour la prot´eine
2 Pr´eparer les fichiers pour le ligand
3 Pr´eparer les fichiers de param`etres pour la grille
4 Pr´eparer les fichiers de param`etres pour le docking
Le sch´ema ci-apr`es montre clairement les ´etapes de docking
Figure 4 – ´Etapes du Docking
2.3.3 Principe du docking
Le docking mol´eculaire s’accomplit en deux ´etapes compl´ementaires La premi`ere est
le Docking, qui consiste `a rechercher les conformations du ligand capables `a ´etablir desinteractions id´eales avec le r´ecepteur en utilisant des algorithmes de recherche : algorithmeg´en´etique, la m´ethode de Monte Carlo (qui utilise des proc´ed´es al´eatoires) La deuxi`emedite le ”Scoring”, qui sont des m´ethodes math´ematiques et des fonctions discriminant lesposes de docking correctes de celles incorrectes Ces m´ethodes sont utilis´ees pour estimer
la puissance d’interaction et l’affinit´e de liaison et qui permet d’´evaluer les conformationspar un calcul rapide d’´energie d’interaction des ligands avec un r´ecepteur pour ne retenirque la meilleure
Trang 20La formule utilis´ee pour le scoring est la suivante :
4G= 4complexe - 4ligand - 4prot´eine
La figure ci-dessous sch´ematise le principe du docking/scoring, o`u R symbolise une ture du r´ecepteur Tandis que, A, B et C repr´esentent les petites mol´ecules
struc-Figure 5 – Illustration de docking/scoring [6]
Le docking peut ˆetre interpr´et´e de mani`ere qualitative par observation de l’entit´e liganddans la cavit´e de la prot´eine, mais ´egalement de mani`ere quantitative par traitement desdonn´ees provenant des fonctions de scoring
2.3.4 Outils de Docking
A l’heure actuelle, plus de 30 programmes de docking mol´eculaires (commerciaux ounon) sont disponibles [6] Les plus fr´equemment cit´es sont respectivement : AutoDock[9], GOLD, FlexX, DOCK et ICM Ils permettent notamment un criblage rapide devastes librairies de compos´es Ces programmes reposent le plus souvent sur des algo-rithmes sp´ecifiques (Algorithme g´en´etique, Recuit Simul´e ), leur protocole est compos´e
de 2 ´etapes essentielles Docking/Scoring
Pour accomplir la tˆache de docking, les outils d’amarrage mol´eculaire vont g´en´erer unes´erie de poses diff´erentes de liaison au ligand et en utilisant une fonction de notation
”scoring” pour ´evaluer les affinit´es de liaison de ligand pour les poses g´en´er´ees afin ded´eterminer le meilleur mode de liaison
Trang 21Figure 6 – Comparaison des programmes de docking [16]
Comme la figure ci-dessus montre, le programme AutoDock est le plus cit´e et le plusutilis´e parmi les autres programmes de docking
2.3.5 Conclusion
Le processus de docking est l’un des premi`eres ´etapes dans la conception de m´edicaments,
il consiste `a faire interagir une petite mol´ecule organique avec un r´ecepteur, g´en´eralement
de nature prot´eique En cons´equent, le plus grand avantage des m´ethodes de dockingprot´eine-ligand est qu’ils peuvent proposer des hypoth`eses structurelles sur la fa¸con dontune petite mol´ecule peut interagir avec sa cible macromol´ecule Des ´etudes ont montr´e quecertains algorithmes de docking sont plus fiables que d’autres pour reproduire le mode defixation exp´erimentale de ligand La contrepartie de ces techniques est g´en´eralement unehausse des temps de calcul et des ressources A l’inverse, un projet impliquant le criblagevirtuel de millions de produits ne pourra pas ˆetre accompli avec ce type d’algorithmemais plutˆot des codes plus simples, dans lesquels les approximations engendrent un gain
de temps de calcul et d’argent Le nombre de programme de docking actuellement nibles est ´elev´e et n’a cess´e d’augmenter au cours des derni`eres d´ecennies Les exemplessuivants pr´esentent un aper¸cu des programmes les plus communs de docking prot´eine-ligand (LigandFit, FlexX, AutoDock) Dans ce travail nous avons utilis´e le programmeAutoDock
dispo-Le docking est un type d’application facilement distribuable sur une grille De sorteque, de nombreuses ressources de calcul et de stockage ont ´et´e mises `a disposition par
le projet EGEE (Enabling Grids for E-sciencE), qui est financ´e par la commission rop´eenne et qui a pour but de construire sur les plus r´ecentes avanc´ees des technologies
eu-de grille et eu-de d´evelopper un service d’infrastructure de grille disponible 24h/24h
Trang 222.4 AutoDock
AutoDock [4] est un programme flexible, utiliser pour le docking prot´eine-ligand Il s’agitd’un ensemble de proc´edures, dont le but de pr´edire l’interaction de petites mol´ecules,telles que des m´edicaments candidats ”ligand” ou des substrats `a un r´ecepteur dont lastructure 3D est connue AutoDock fonctionne essentiellement comme une proc´edure endeux ´etapes : le calcul de la carte d’interaction du site de liaison du r´ecepteur qui estr´ealis´e avec autogrid, et la position de ligand sur la carte d’interaction, qui est effectu´eeavec autodock
Le programme AutoGrid est charg´e de calculer les cartes d’interaction des grilles afin
de maximiser l’´etape d’´evaluation des diff´erentes configurations du ligand Pour cela unegrille entoure la prot´eine r´eceptrice et un atome sonde est plac´e `a chaque intersection.L’´energie d’interaction de cet atome avec la prot´eine est calcul´ee et attribu´ee `a l’empla-cement de l’atome sonde sur la grille Une grille d’affinit´e est calcul´e pour chaque typed’atome du ligand Le temps de calcul de l’´energie en utilisant les grilles est proportionnel
au nombre d’atomes du ligand uniquement, il est ind´ependant du nombre d’atomes dur´ecepteur
Le programme AutoDock effectue la partie de recherche et d’´evaluation des diff´erentesconfigurations du ligand Il est possible d’utiliser plusieurs techniques pour obtenir lesconfigurations (par recuit simul´e, algorithme g´en´etique ou par algorithme g´en´etique La-marckien) Pour la m´ethode Monte Carlo, `a chaque pas un d´eplacement au hasard detous les degr´es de libert´e est effectu´e (translation, rotation, torsion) Les ´energies de lanouvelle et de l’ancienne configuration sont compar´ees Si la nouvelle est plus basse elleest gard´ee, sinon elle est conserv´ee ou rejet´ee
La version actuelle du programme est la version 4.2, qui fournit de nouvelles tionnalit´es importantes pour le docking comme la flexibilit´e des r´esidus de prot´eines etdes fonctions de score de haute qualit´e Afin de pouvoir r´ealiser le criblage virtuel avecAutoDock, un ensemble d’outils n´ecessaires doivent ˆetre mis en place :
fonc-• Java OpenJDK (openjdk-7-jdk)
• Python 2.7
• AutoDock4.2 (http: // autodock scripps edu)
• MGLTools (http: // mgltools scripps edu/)
• autodocksuite-4.2.5.1-i86Linux2.tar.gz
• AutoDockTools
• Les fichiers n´ecessaires t´el´echargeable depuis le site de base de donn´ee de prot´eine :www.pdb.com
Trang 232.4.1 Docking avec AutoDock
AutoDock a besoin de connaˆıtre les types, les charges et la liste de liaison de chaque atome,afin de pouvoir effectuer la proc´edure de docking Tout d’abord, il faut chercher dans labase de donn´ee PDB (Protein Data Bank) dans le site (http: // www pdb org,http:// www rcsb org), les fichiers pdb pour la prot´eine et le ligand
Figure 7 – Proc´edures de docking avec AutoDock
La proc´edure de docking avec AutoDock se d´ecompose en plusieurs ´etapes :
1 Pr´eparer le fichier d’entr´ee de prot´eine Dans cette ´etape un fichier PDBQT(ProteinData Bank, Partial Charge (Q), & Atom Type (T)) sera cr´e´e, qui contient les atomes
et les charges partielles
Trang 242 Pr´eparer le fichier d’entr´ee de ligand Cette ´etape est tr`es semblable `a la pr´eparation
du prot´eine Nous cr´eons un fichier dont l’extension est PDBQT du ligand.Lapr´eparation s’effectue comme suit :
> input ligand.pdb
> output ligand.pdbqt
> 1.5.6/bin/pythonsh 1.5.6 /MGLToolsPckgs/AutoDockTools/Utilities24/
/usr/local/MGLTools-prepare ligand4.py -r ligand.pdb
3 G´en´eration d’un fichier de param`etre de la grille Maintenant, nous devons d´efinirl’espace en 3D, qu’AutoDock consid`erera pour le docking Dans cette phase, nousallons cr´eer les fichier d’entr´ees pour ”AutoGrid4”, qui permettra de cr´eer lesdiff´erents fichiers de carte ”map file” et le fichier de donn´ees de la grille ”gpf”(gridparameter file)
> input ligand.pdbqt & protein.pdbqt
> output protein.gpf
> 1.5.6/bin/pythonsh 1.5.6/MGLToolsPckgs/AutoDockTools/Utilities24/
/usr/local/MGLTools-prepare gpf4.py -l ligand.pdbqt -r protein.pdbqt
4 G´en´eration des fichiers de cartes et de donn´ees de la grille Dans l’´etape pr´ec´edente,nous avons cr´e´e le fichier de param`etres de la grille, et maintenant nous allons utiliser
”AutoGrid4” pour g´en´erer les diff´erents fichiers de cartes et le fichier principal dedonn´ees de la grille
> input protein.pdbqt & protein.gpf
> autogrid4 -p protein.gpf
Apr`es avoir lanc´e autogrid, plusieurs nouveaux fichiers avec l’extension map secr´eent, qui correspondent `a chaque type d’atome de ligand et des fichiers auxiliaires.Ces fichiers sont importants dans le processus de docking
5 G´en´eration du fichier de param`etre de docking Cette ´etape consiste `a pr´eparer lesfichiers de docking (dpf)
> input ligand.pdbqt & protein.pdbqt
> output ligand protein.dpf
> /usr/local/MGLTools-1.5.6/bin/pythonsh /usr/local/
MGLTools-1.5.6/MGLToolsPckgs/ AutoDockTools/
Utilities24/prepare dpf4.py -l ligand.pdbqt -r protein.pdbqt
Trang 25On peut pr´eparer les fichiers de param`etres pour la grille et pour le docking sans liser l’outil ADT, en utilisant un script shell (voir annexe) pour pr´eparer ces fichiers.
uti-Le r´esultat de ce script sont respectivement les fichiers : dpf ”docking parameter file”
et gpf ”grid parameter file”
6 `A ce stade, nous aurions cr´e´e tout un tas de diff´erents fichiers Cette avant derni`ere
´
etape consiste `a ex´ecuter autodock avec la commande ci-apr`es :
> input protein ligand.gpf
> output result.dlg protein ligand.gpf
> autodock4 -p protein ligand.dpf -l result.dlg
7 La derni`ere ´etape sera consacr´ee `a l’analyse des r´esultats de docking Apr`es avoirtermin´e avec succ`es la proc´edure de docking Le meilleur r´esultat pour le docking,sont les conformations qui poss`edent une basse ´energie AutoDock peut faire unepremi`ere analyse des r´esultats en regroupant les solutions en classes (clusters) enfonction de leur proximit´e spatiale La mesure de la proximit´e entre deux solutionsest calcul´ee par la racine de la moyenne des carr´es des ´ecarts (Root Mean SquareDeviation RMSD) de leurs coordonn´ees atomiques Si le RMSD entre mol´ecules estinf´erieur `a une distance seuil, ces deux solutions sont dans la mˆeme classe Le seuil dedistance est appel´e ”tol´erance de classe” et sa valeur par d´efaut, pour AutoDock,est de 0,5 Ce param`etre est transmis `a AutoDock par le fichier de param`etrage
”dpf” avant le lancement du docking
2.4.2 Conclusion
Comme nous avons mentionn´e dans la partie de docking, l’amarrage avec AutoDock estune proc´ed´e qui comporte plusieurs ´etapes Ce qui n´ecessitera une pr´eparation pr´ealabledes fichiers pour le docking Le processus de docking est un sujet essentiel pour progr´esserdans la compr´ehension des m´ecanismes d’interaction mol´eculaires et pour le d´eveloppementd’outils pr´edictifs dans le domaine de la m´edecine Dans cette partie, nous avons pr´esent´e
la proc´edure du docking avec AutoDock4.2 en utilisant l’outil AutoDockTools, et nousavons appliqu´e les ´etapes de docking sur un exemple concret dans le but de comprendrecette technique qui va nous aider dans la prochaine phase de lancement des jobs sur lagrille de calcul pour faire le docking
Trang 262.5 Grille de calcul
2.5.1 Introduction
Les chercheurs travaillent sur la compr´ehension des changements climatiques, les ´etudesoc´eanographiques, la surveillance et la mod´elisation de la pollution environnementale, lascience des mat´eriaux, l’´etude des proc´ed´es de combustion, la conception de m´edicaments,
la simulation des mol´ecules et le traitement de donn´ees dans le domaine de la physiquedes particules Ils ont ´et´e confront´es `a plusieurs probl`emes informatiques, o`u ils avaientbesoin de processeurs plus puissants, de plus grandes capacit´es de stockage des donn´ees,
de meilleurs moyens d’analyse et de visualisation Les r´ecents progr`es de la technologiedes r´eseaux tr`es haut d´ebit courtes et longues distances ont rendu possible la construc-tion de syst`emes r´epartis de hautes performances, distribu´es `a l’´echelle plan´etaire dontcertains des constituants sont des grappes de PC ou des calculateurs parall`eles Cepen-dant les applications scientifiques parall`eles sont par nature gourmandes en ressources decalcul Il peut ˆetre int´eressant de chercher `a les ex´ecuter dans le cas o´u les ressources lo-cales, cluster de laboratoire, centre de calcul ne suffisent plus N´eanmoins, les ordinateursd’une entreprise ne travaillent presque jamais `a pleine charge Exploiter chaque seconde
de latence permet de d´egager de la puissance de calcul, ainsi que des espaces de stockageconsid´erables, le tout pour un coˆut souvent inf´erieur `a celui d’un investissement pourl’acquisition d’un nouveau mat´eriel Les technologies de grille de calcul ou ”Grid Compu-ting”, permettent de mettre en partage, de fa¸con s´ecuris´ee, les donn´ees et les programmes
de multiples ordinateurs, qu’ils soient de bureau, personnels ou super-calculateurs Cesressources sont mises en r´eseau et partag´ees grˆace `a des solutions logicielle d´edi´ees [5].Elles peuvent ainsi g´en´erer, `a un instant donn´e, un syst`eme virtuel dot´e d’une puissancegigantesque de calcul et une capacit´e de stockage en rapport pour mener `a bien des pro-jets scientifiques ou techniques requ´erant une grande quantit´e de cycles de traitement oul’acc`es `a de gros volumes de donn´ees
2.5.2 Grille de calcul
La grille de calcul ou ”grid computing” est une technologie en pleine expansion dont le butd’offrir `a la communaut´e scientifique des ressources informatiques virtuellement illimit´ees.Dans sa version la plus ambitieuse, la grille est une infrastructure logicielle permettant
de f´ed´erer un grand nombre de ressources de calcul, de bases de donn´ees et d’applicationssp´ecialis´ees distribu´ees `a travers le monde Prabhu d´efinit la grille de calcul comme : ”Unensemble de ressources de calcul distribu´e sur un r´eseau local ou ´etendu qui apparaˆıt `a unutilisateur final ou une large application en tant que syst`eme informatique virtuel” [5]
La grille de calcul a pour but de r´ealiser le partage flexible et coordonner de ressourcesainsi que la r´esolution coop´erative de probl`eme au sein d’organisation virtuelles (VO)
`
A l’origine, la grille ´etait con¸cue comme un grand nombre d’ordinateurs en r´eseau, o`ules ressources de calcul et de stockage ´etaient partag´ees en fonction des besoins et `a la
Trang 27demande des utilisateurs La grille fournit les protocoles, les applications et les outils ded´eveloppement pour r´ealiser ce partage dynamiquement et `a grande ´echelle Ce partageest hautement contrˆol´e pour d´efinir qui partage quoi, qui utilise quoi, et sous quellesconditions Un syst`eme de grille est obligatoirement hautement dynamique puisque lesfournisseurs et les utilisateurs de ressources varient en fonction du temps Elle permetainsi de construire une organisation virtuelle `a partir de comp´etences et de ressourcescompl´ementaires, r´eparties dans plusieurs institutions, mais qui seront visibles comme untout coh´erent par les personnes partageant un objectif commun trop complexe pour ˆetreabord´e par une seule ´equipe Les technologies de grille permettent le partage, l’´echange, lad´ecouverte, la s´election et l’agr´egation de larges ressources h´et´erog`enes, g´eographiquementdistribu´es via Internet tels que des capteurs, des ordinateurs, des bases de donn´ees, desdispositifs de visualisation et des instruments scientifiques La grille de calcul est largementutilis´e dans plusieurs domaines : chimie, bio-informatique, math´ematique, biom´edecine
Figure 8 – La grille de calcul
2.5.3 Organisation virtuelle
La grille de calcul prend en charge plusieurs organisations virtuelles, qui partagent desressources entre elles Une Organisation Virtuelle (VO), est un groupe de chercheursayant des int´erˆets scientifiques et des exigences scientifiques similaires, qui travaillent encollaboration avec autres membres et qui partagent des ressources (donn´ees, logiciel, pro-grammes, CPU, espace de stockage), ind´ependamment de leur emplacement g´eographique.O`u chaque organisation virtuelle g`ere sa propre liste de membres, selon les besoins et lesobjectifs de la VO Les chercheurs doivent adh´erer `a une VO afin d’utiliser les ressourcesinformatiques de la grille fournie par EGI (https: // www egi eu)
Trang 28EGI (European Grid Infrastructure) est une suite du projet EGEE, qui vise `a p´erenniserl’infrastructure de grille en l’ouvrant `a toutes les disciplines scientifiques tout en int´egrantles innovations sur le calcul distribu´e [24] EGI offre un support, des services et des outilspour permettre les membres de VO de profiter de leurs ressources EGI accueille actuelle-ment plus de 200 VO pour les communaut´es ayant des int´erˆets aussi divers que sciences de
la terre, m´edecine, bio-informatique, sciences informatiques et math´ematiques ou sciences
de la vie
2.5.4 Architecture g´en´erale d’une grille de calcul
L’architecture d’une grille de calcul est organis´ee en couches Bien que chaque projet ait
sa propre architecture, une architecture g´en´erale est importante pour expliquer certainsconcepts fondamentaux des grilles, pr´esent´es ci-dessous :
• La couche Fabrique (Fabric layer)
C’est la couche de plus bas niveau, elle est en relation directe avec le mat´eriel afin
de mettre `a disposition les ressources partag´ees Les ressources fournies par cettecouche sont d’un point de vue physique des ressources telles que des processeurspour le calcul, des bases de donn´ees, des annuaires ou des ressources r´eseau
• La couche r´eseau (Network layer)
Elle impl´emente les principaux protocoles de communication et d’authentificationn´ecessaire aux transactions sur un r´eseau de type grille Les protocoles de communi-cation permettent l’´echange des donn´ees `a travers les ressources du niveau fabrique.Ces protocoles d’authentification s’appuient sur les services de communication pourfournir des m´ecanismes s´ecuris´es de v´erification de l’identit´e des utilisateurs et desressources
• La couche ressource (Resource layer)
Cette couche utilise les services des couches connectivit´e et fabrique pour collecterdes informations sur les caract´eristiques des ressources, les surveiller et les contrˆoler
La couche ressource ne se pr´eoccupe pas des ressources d’un point de vue global,elle ne s’int´eresse pas `a leur interaction, ceci incombe `a la couche collective Elle nes’int´eresse qu’aux caract´eristiques essentielles des ressources et `a la fa¸con dont elles
se comportent
• La couche collective (Collective layer)
Elle se charge des interactions entre les ressources Elle g`ere l’ordonnancement et
la co-allocation des ressources en cas de demande des utilisateurs faisant appel `aplusieurs ressources simultan´ement C’est elle qui choisit sur quelle ressource decalcul faire ex´ecuter un traitement en fonction des coˆuts estim´es Elle s’occupe
´
egalement des services de r´eplication des donn´ees En outre, elle est en charge de lasurveillance des services et elle doit assumer la d´etection des pannes
Trang 29• La couche application (Application layer)
C’est la couche la plus haute du mod`ele, elle correspond aux logiciels qui utilisent
la grille pour fournir aux utilisateurs ce dont ils ont besoin, qu’il s’agisse de calcul,
ou de donn´ees Les applications utilisent des services de chacune des couches del’architecture
Figure 9 – Couches de la grille de calcul
2.5.5 Composants de la grille
Les principaux composants de l’environnement informatique de la grille sont discut´es end´etail dans cette section Selon la conception de l’application de la grille et son utilisa-tion pr´evue, certains de ces composants mentionn´es ci-dessous peuvent ou peuvent nepas ˆetre n´ecessaire, et dans certains cas, ils peuvent ˆetre combin´es Les composants del’infrastructure de la grille de calcul sont :
• Le portail de la grille
Un portail de grille fournit l’interface pour le service demandeur (comme les teurs priv´e, public et utilisateur commercial), pour concevoir et acc´eder `a un grandchoix de ressources, des services, des applications et des outils, en encapsulant de
sec-la complexit´e de la conception r´eelle de l’architecture de r´eseau sous-jacent `a desutilisateurs finaux
• Service d’information
Le composant de service d’information fournit des informations sur les ressourcesdisponibles, leur capacit´es totale, leur disponibilit´e, l’utilisation actuelle et les infor-mations de tarification, Plus tard cette information est utilis´ee par le portail de
la grille et le planificateur des ressources pour trouver les ressources appropri´ee sur
la grille de calcul pour r´epondre `a la demande de l’utilisateur
Trang 30• Courtier de ressources ”Resource Broker”
Le Courtier de ressources ou Resource Broker agit comme un intergiciel entre leservice demandeur (job soumis pour l’ex´ecution) et un fournisseur de services (res-sources disponibles sur la grille) La tˆache d’un courtier de ressources de la grille estd’identifier dynamiquement les ressources disponibles, pour s´electionner et allouerles ressources les plus appropri´ees pour un job donn´e
• Ordonnanceur de ressource
Une fois les ressources ont ´et´e identifi´ees, l’´etape suivante consiste `a planifier lestravaux en allouant les ressources disponibles L’ordonnanceur de ressource doit ˆetreutilis´e, parce que certains jobs sont prioritaires par rapport aux autres et certainsjobs exigent une longue autonomie
• Utilisateur de grille
L’utilisateur de la grille est un consommateur de ressources de la grille de calcul Ilexiste de nombreuses cat´egories d’utilisateurs de grille `a savoir Les scientifiques, lesmilitaires, les enseignants et les ´educateurs, les entreprises, m´edecins Les cat´egoriesd’utilisateurs d´epends essentiellement du type de probl`eme qu’ils vont r´esoudre surl’infrastructure du grille
• Gestionnaire de ressource
Le gestionnaire de ressources de la grille estime les besoins en ressources, ex´ecuteles jobs, contrˆole leur ´etat et retourne les sorties lorsque les jobs sont termin´es Legestionnaire de ressources peut consulter le courtier de ressources sur l’affectationdes ressources et assigner les tˆaches aux ressources appropri´ees En outre, il doitauthentifier l’utilisateur et v´erifier s’il est autoris´e `a acc´eder aux ressources avantd’attribuer le job
2.5.6 Fonctionnement de la grille
La grille de calcul fonctionne sur le principe de mise en commun des ressources, o`u ungrand nombre de ressources de calcul distribu´e sont connect´ees via le r´eseau `a grandevitesse, et qui sont tous provisionn´ees en provenant des divers endroits g´eographiques et
`
a travers les fronti`eres organisationnelle Le fonctionnement de la grille est assez simple.Chaque job cr´e´e est associ´e `a un ”jobstep” et un ensemble de ”workunits” Ces unit´es detravail sont prˆetes `a ˆetre lanc´ees sur les ressources de la grille, elles contiennent les infor-mations sur les donn´ees, les param`etres n´ecessaires ainsi que le programme `a ex´ecuter.Les agents install´es sur chaque machine de la grille se connectent `a un intervalle de tempsr´egulier au serveur de grille pour prendre le job (principe du mod`ele ”pull”) Avant det´el´echarger les donn´ees, l’agent v´erifie si elles ne sont pas d´ej`a dans son cache, afin d’´eviterdes transferts inutiles L’agent lance alors le programme scientifique A la terminaison duprogramme, l’agent archive les r´esultats et renvoie l’archive du r´esultat au serveur de grille
Trang 31A chaque job termin´e est donc associ´e `a un ou plusieurs r´esultats L’utilisateur t´el´echargel’ensemble des r´esultats Les ´etapes cl´es pour le fonctionnement du r´eseau informatique etl’interaction entre les diff´erents ´el´ements du r´eseau sont pr´esent´es dans la figure ci-dessous :
Figure 10 – Architecture de grille de calcul [10]
Comme le montre la figure ci-dessus, le fonctionnement des diff´erents composants de lagrille sont :
• Les utilisateurs du r´eseau pr´esentent leurs jobs au Resource Broker de la grille
• Le courtier de ressources ”Resource Broker” de la grille proc`ede `a la d´ecouverte desressources et de la tarification des informations en utilisant le service de l’informa-tion
• Le gestionnaire de ressources de la grille ”Resource Manager”, authentifie et assure
le cr´edit n´ecessaire dans le compte de l’utilisateur afin de d´eployer les ressources de
la grille
• L’ordonnanceur de ressource (Resource Scheduler), ex´ecute alors le job sur les r´esultats
en mati`ere de ressources et de rendement appropri´e
• Le courtier rassemble les r´esultats et les passent `a l’utilisateur de la grille
Trang 322.5.7 Avantages & D´efis de la grille
Les avantages d’utiliser une telle architecture sont multiples et ind´eniables Nous pouvonsciter les exemples suivants :
• D´eploiement des ressources inutilis´ees
La grille est un concept au fort potentiel, dont l’id´ee est de faire en sorte que toute
la puissance de calcul des PCs inutilis´es soit utilis´ee De nos jours, les ordinateursrestent souvent inutilis´es pendant de longues p´eriodes, leur processeur n’´etant querarement utilis´e `a 100% Avec cette technologie, les moments d’inactivit´e de cen-taines ou de milliers d’ordinateurs et de serveurs peuvent ˆetre utilis´es et vendus `aquiconque ayant besoin d’une puissance de calculs massive
• Bas´e sur une architecture de type client/serveur
La grille de calcul repose sur une architecture bien pr´ecise et tr`es sˆure, en rence, c’est l’architecture client/serveur qui a ´et´e choisie Cette architecture a ´et´eadapt´e en fonction des besoins sp´ecifiques de la technologie de grille de calcul
l’occur-• Meilleure rentabilisation du mat´eriel
Il est ´evident qu’il y a une sous utilisation des machines, et la grille pr´esente lasolution id´eale, d’un point de vue ´economique pour les entreprises et d’un point devue pratique pour les utilisateurs, pour rentabiliser les ressources
Les d´efis de la recherche rencontr´es par les technologies de grilles de calcul actuellessont r´epertori´es comme :
• Dynamicit´e : Les ressources dans la grille sont g´er´ees et contrˆol´ees par plus d’uneorganisation, en raison de ce que les ressources peuvent rejoindre ou sous forme desortie de grille `a tout moment, ce qui peut conduire `a plus de charge sur la grille
• Administration : La technologie de grille est essentiellement un groupe de sources mises en commun qui n´ecessitent une administration de syst`eme lourdepour la bonne coordination
res-• Puissance : La grille offre de nombreux services informatiques, qui consommentbeaucoup d’´energie ´electrique Donc, alimentation sans interruption est primordiale
Trang 33s´eduisant puisqu’il s’agit d’utiliser la puissance de calcul et les espaces de stockage utilis´es des ordinateurs d’un immense parc informatique La technologie de grille de cal-cul a prouv´e qu’elle est la meilleure technologie pour travailler sur divers domaines : lecommerce, les entreprises, formations, la science, la recherche et le d´eveloppement Lavirtualisation ´elimine les limitations g´eographiques et ´economiques des ressources Elleaide les grands projets `a accomplir en peu de temps Cette nouvelle technologie ´elimine lad´ependance de projet sur un serveur principal ou super calculateur Pourtant, la techno-logie de grille a besoin de se concentrer sur les questions de s´ecurit´e et de confidentialit´e
in-`
a travers les connexions Internet
Trang 34de m´edicaments En outre, ces activit´es facilite ´egalement plus d’applications biom´edicalese-Science en Asie.
2.6.1 Introduction
Depuis le premier d´efi de donn´ees mondial de la grippe aviaire 2005, l’Academia SinicaGrille Centre de Calcul (ASGCC), au sein de la collaboration EGEE, a ´et´e consacr´ee `al’´elaboration et le raffinage de criblage virtuel pour les maladies n´eglig´ees et ´emergentestelles que la grippe aviaire, la fi`evre dengue, etc La simulation de docking mol´eculaireest un processus qui prend du temps pour une recherche exhaustive de toutes les confor-mations possibles d’un compos´e Toutefois, le processus massif in-silico b´en´efice du hautd´ebit de la technologie de la grille de calcul Fournissant une puissance de calcul intensif
et une gestion efficace des donn´ees, l’e-infrastructure (EUAsia VO) pour la d´ecouvertein-silico de m´edicaments pour les maladies ´epid´emique en Asie
GAP (Grid Application Platform) et GVSS (Grid enabled Virtual Screening Services) ont
´
et´e d´evelopp´es avec le moteur de docking d’AutoDock 3.0.5 GAP est un environnement
de d´eveloppement d’applications de haut niveau pour la cr´eation de services d’application
de la grille [7] GVSS est une interface graphique utilisateur de type Java, qui a ´et´e con¸cuepour la conduite de docking mol´eculaire `a grande ´echelle plus facilement sur l’environne-ment de grille de gLite [7] Les utilisateurs finaux utilisent GVSS sont autoris´es `a sp´ecifier
la cible et la biblioth`eque de compos´es, mis en place des param`etres de docking, surveillerles jobs de docking et les ressources informatiques, visualiser et affiner les r´esultats de do-cking, et enfin de t´el´echarger les r´esultats finaux Il existe d’autres enjeux `a encourager lesactivit´es biom´edicales et int´egrer plus davantage de ressources dynamiques pour soutenir
la simulation de criblage virtuel `a grande ´echelle en Asie Par exemple, les scientifiques
´
etudient la nouvelle structure cible, par cons´equent, il/elle doit savoir comment mod´eliser
la cible et la pr´eparer en utilisant AutoDockTools On aurait aussi besoin d’une interfaceutilisateur conviviale pour rejoindre et acc´eder `a la collaboration, pour soumettre les jobs
de docking, suivre leur progr`es, visualiser le docking et enfin analyser les r´esultats
Trang 35Les utilisateurs pr´eparent les fichiers de criblage virtuel dans l’interface utilisateurgraphique GVSS, puis s´electionnent les ressources de la grille de calcul pour soumettredes jobs Ces jobs informatiques sont g´er´es par GAP/DIANE pour distribuer les agents
de grille de calcul `a la grille [18] Les r´esultats de calcul sont g´er´es par AMGA , qui est
un catalogue de m´eta-donn´ees pour stocker des ´el´ements de stockage [16]
Figure 11 – Portail GVSS(http: // gvss2 twgrid org/)Pour faire le docking mol´eculaire `a grande ´echelle qui fonctionne sur l’environnement de lagrille, ASGC a d´evelopp´e l’application GVSS (Grid enabled Virtual Screening Services)qui int´egre l’intergiciel gLite DIANE2/GANGA et AMGA d’EGEE Toutes les tˆachesinformatiques sont g´er´es par GAP/DIANE afin de distribuer les Workers de la grille decalcul Les r´esultats de calcul sont g´er´es par AMGA, catalogue de m´etadonn´ees pourstocker des ´el´ements de stockage GVSS utilise Autodock ´egalement en tant que moteurd’amarrage Le GVSS a ´et´e cr´e´e par l’int´egration de plusieurs frameworks con¸cus pourdes applications de grille de calcul
2.6.2 La plate-forme GAP
GAP (Grid Application platform) est un environnement de d´eveloppement d’applications
de haut niveau pour la cr´eation des services d’application production/qualit´e de grille parl’approche MVC (Model-View-Controller) [7] Il divise l’espace de d´eveloppement d’appli-cation de la grille en trois grandes ´etapes : le portage d’application ”gridification”, concep-tion de workflow de job complexe et interface utilisateur personnalis´e Correspondant `aces trois stades de d´eveloppement, le syst`eme GAP est compos´e de trois sous-frameworks,respectivement : le framework de base, le framework d’application, et le framework depr´esentation
Trang 36• Le framework de base fournit une couche d’abstraction `a l’interface de nemnt distribu´e sous-jacente des ressources informatiques Il cache les complexit´estechniques de la gestion des utilisateurs et des jobs de calcul en isolant les d´etails demise en oeuvre en vertu d’un ensemble d’API Java bien d´efini Avec la conceptionorient´ee objet, le framework de base a ´et´e ´etendue pour int´egrer une interface degestion de job de haut niveau appel´e DIANE
l’environ-• Le framework d’application introduit une approche bas´ee sur l’action pour le ement de flux de travail ”workflow” avanc´e et des applications complexes pourles probl`emes scientifiques r´eels En utilisant les API de framework de base, lesd´eveloppeurs d’applications sur cette couche peuvent se concentrer sur la conception
d´evelopp-de workflow sans se pr´eoccuper des d´etails et/ou des modifications de ment informatique sur lequel les jobs informatiques seront ex´ecut´es
l’environne-• Contrairement aux framework de base et d’application, le framework de pr´esentation
de GAP est librement d´efini, alors une libert´e de choix pour les applications ter leur technologie d’interface pr´ef´er´ee bas´e sur Java (par exemple, portail Web,interface graphique, etc)
Trang 37Figure 12 – Architecture Service de criblage virtuel GAP (GVSS) [7]
2.6.4 Conclusion
GVSS est d´evelopp´e pour pr´edire comment les petites mol´ecules interagissent avec ler´ecepteur Il r´eduit consid´erablement le coˆut en utilisant la demande dynamique des res-sources de la grille de calcul Le portail GVSS facilite la d´ecouverte de m´edicaments enpermettant aux utilisateurs un acc`es simultan´e et instantan´e aux ressources de la grille,tout en masquant la complexit´e de l’environnement de la grille aux utilisateurs finaux
Trang 382.7 Plate-formes utilis´ es
WISDOM (Wide In Silico Docking On Malaria) est une initiative qui a ´et´e lanc´e en
2005 pour utiliser les nouvelles technologies de l’information et d´epolyer des applications
de docking de grande ´echelle, afin de chercher et de d´ecouvrir des m´edicaments contre
le plaudisme et d’autres maladies dites n´eglig´ees Le but de WISDOM est de prouver lapertinence de l’utilisation de la grille de calcul dans la recherche de m´edicaments et de trai-tement pour les maladies dangereuses [8] Il travaille en ´etroite collaboration avec EGEE,
et il fait usage de l’infrastructure EGEE pour ex´ecuter un grand nombre de donn´ees.WISDOM est consid´er´e comme une premi`ere ´etape pour mettre en place une recherche
de m´edicaments in-silico sur une infrastructure de grille La plate-forme WPE (WISDOMProduction Environment), d´evelopp´e par LPC (Laboratoire Clermont Ferrand-France), a
´
et´e utilis´e avec succ`es pour le projet WISDOM dans la d´ecouverte de nouveaux inhibiteurscontre le Malaria Cette plate-forme fournit une couche entre les utilisateurs et l’environ-nement de la grille de calcul afin de dissimuler sa complexit´e Avec cette plate-forme lesutilisateurs peuvent facilement utiliser les ressources de la grille pour effectuer leur calcul
2.7.1.a D´efinition WISDOM
WISDOM est un intergiciel con¸cue comme un environnement de gestion de l’exp´erience Ilg`ere les donn´ees, les jobs, et partage la charge de travail sur toutes les ressources int´egr´ees,
mˆeme si elles adaptent diff´erentes normes technologiques Il est tout a fait possible deconstruire des services web qui interagissent avec le syst`eme WISDOM est consid´er´ecomme un ensemble de services g´en´eriques agissant comme un niveau d’abstraction pourles ressources et offrant une gestion g´en´erique des donn´ees et des jobs de sorte que lesservices d’applications peuvent utiliser l’un des services sous-jacents d’une mani`ere tr`estransparente [11] L’initiative WISDOM comprend trois objectifs, l’objectif biologique,qui consiste `a proposer de nouveaux inhibiteurs pour une famille de prot´eine produitepar plasmodium, l’objectif biom´edical, qui repose sur le d´eployement d’une application dedocking in-silico sur une infrastructure de grille de calcul, et l’objectif de grille, qui s’ap-puie sur le d´eploiement d’une application tr`es demandeuse en temps de calcul et g´en´erantune grande quantit´e de donn´ees pour tester l’infrastructure de grille et ses services Lesutilisateurs ne sont pas en interaction directe avec les ressources de la grille, et ils ne sontpas cens´es de savoir comment cela fonctionne, car ils sont juste en interaction avec lesservices de haut niveau, tout comme avec un autre service web
Trang 39• Le gestionnaire des tˆaches ”Task Manager” interagit avec le client et accueille les
tˆaches cr´e´ees par le client
• Le gestionnaire de jobs ”Job Manager” soumet des jobs aux ´el´ements de calcul (CE),
du sorte que les tˆaches g´er´ees par le gestionnaire des tˆaches seront execut´ees
• Le syst`eme d’information WIS ”WISDOM Information System” utilise AMGA
”ARDA Metadata Grid Application”, pour stocker toutes les m´etadonn´ees requisespour le gestionnaire de job
• Le gestionnaire de donn´ees ”Data Manager”, g`ere les fichiers sur la grille de calcul
Figure 13 – Architecture WPE [9]
Tout d’abord, le module de gestionnaire de job ”Job Manager” re¸coit les demandes etsoumet les jobs pilotes ”pilot agents” sur la grille de calcul, afin de r´ealiser des tˆaches dans
le gestionnaire des tˆaches ”Task Manager” L’ex´ecution de gestionnaire de job n´ecessite
un certificat qui correspond `a l’organisation virtuelle o`u les jobs seront soumis Ensuite,les tˆaches sont enregistr´ees et g´er´ees par les gestionnaire des tˆaches Un agent interagitavec le gestionnaire de tˆache pour r´ecup´erer une tˆache et l’ex´ecute sur la grille de calcul.Apr`es, le module WIS ”WISDOM Information System” enregistre les ´etats des agents etcontrˆole l’information des agents de pilotes sur la grille Et le gestionnaire de donn´ees g`ereles fichiers sur la grille en mode batch