Le docking in-silico est la premiere etape dans le processus de criblage virtuel, il est consider comme l’une des approches les plus prometteuses a n accelerer et de reduire les co^uts d
Trang 1Institut de la Francophonie pour l’Informatique
Memoire de n d’etudes pour l’obtention du dipl^ome de
Master II InformatiqueOption : Reseaux et Systemes Communicants
Developpement d’un portail web pour le criblage virtuel sur
la grille de calcul
Promotion 17-RSC
Redig par : Louacheni Farida
Sous l’encadrement de : Dr.Nguyen Hong Quang Dr.Doan Trung Tung Dr.Bui The Quang
20 novembre 2014
Trang 2Ce travail de stage de n d’etudes a et e ectu au sein du Laboratoire MSI a l’Institut de la Francophonie pour l’Informatique, sous la direction du Docteur Nguyen Hong Quang, auquel je tiens a exprimer ma profonde gratitude, et ma vive reconnaissance pour m’avoir con e ce sujet.
J’adresse mes plus vifs remerciements au Dr.Doan Tung Tung et Dr.Quang Bui The de m’avoir encadr et prodigue maints conseils Je suis tres reconnaissante a tous les enseignants de l’IFI pour la qualite de l’enseignement qu’ils nous ont o erts.
Ma reconnaissance in nie a mes tres chers parents qui m’ont enseign la persever-ance dans mes etudes, qui m’ont toujours et d’un grand secours par leur soutient et leur encouragement, ainsi mes adorables soeurs et mon tres cher frere et mon ami Yacine-Malek.
En n, un immense merci a mes amis qui m’ont toujours soutenue.
Trang 3A l’heure actuelle, la grille de calcul est en train de devenir une force motrice ma-jeure pour de nouvelles approches pour la collaboration de science a grande echelle Plusieurs programmes nationaux et internationaux eScience ont favorise
la collabo-ration entre chercheurs de di erents domaines scienti ques.
Dans le domaine biomedicale, plus precisement dans la recherche de nouveaux medicaments pour les maladies infectieuses La grille de calcul a initie plusieurs projets a grande echelle dans les approches de criblage de medicaments in-silico.
Le projet WISDOM a et parmi les premiers projets dans le domaine public qui a fait usage de la grille tout en permettant le docking in-silico pour simuler l’in-teraction de medicaments potentiels avec des proteines cibles Le docking in-silico est la premiere etape dans le processus de criblage virtuel, il est consider comme l’une des approches les plus prometteuses a n accelerer et de reduire les co^uts de developpement de nouveaux medicaments pour les maladies negligees.
Bien que, de nombreuses applications ont et developpees pour permettre le criblage virtuel dont le but d’accelerer le processus de recherche des medicaments Une barriere critique de ces programmes est leur complexit en terme d’utilisation et
de prevoir des procedures concises pour les utilisateurs reguliers.
L’objectif de ce travail est de developper un portail web conviviale pour e ectuer le criblage virtuel, et de deployer un tres grand nombre de docking sur la grille de calcul Pour atteindre ce but, la grille de calcul a et utilise pour accelerer
la recherche et la decouverte de nouveaux medicaments in-silico et traitements pour les maladies infectieuses.
Trang 4Abstract Grid computing is currently developing into a major driving force for new ap- proaches towards collaborative large scale science Several national and interna-tional eScience programs have fostered collaboration between researchers from dif-ferent scienti c domains.
In the biomedical eld, more precisely in drug discovery for infectious diseases Grid computing has initiated several projects on large scale in-silico drug screening approaches The project WISDOM was amongst the rst projects in the public do-main that made use of grid enabled in-silico docking to simulate the interaction of potential drugs with target proteins In-silico docking is the rst step
in the virtual screening process, which is one of the most promising approaches
to speed-up and to reduce the costs of the development of new drugs.
Although, many applications have been developed to allow in-silico screening, but a critical barrier of these programs is the lack of a suitable, easy, simple way to use and to provide concise procedures for regular users.
The main goal of this work is to develop a user-friendly web portal to perform virtual screening and to deploy a large number of docking on grid computing To achieve this goal, the grid computing was used to accelerate research and discovery of new drugs in-silico for infectious diseases.
Trang 5Table des matieres
1 Introduction1.1 Problematique
1.2 Notre contribution
1.3 Plan du memoire
2 Etat de l’art2.1 Conception de medicaments in-silico
2.2 Criblage virtuel "Vitual Screening"
2.2.12.2.22.2.32.2.42.2.52.3 Docking
2.3.12.3.22.3.32.3.42.3.52.4 AutoDock
2.4.12.4.22.5 Grille de calcul
2.5.12.5.22.5.32.5.42.5.52.5.62.5.72.5.82.6 Portail GVSS
2.6.12.6.22.6.32.6.42.7 Plate-formes utilises
2.7.12.7.2
Trang 63.1 Architecture du systeme proposee .
3.2 Outils utilises
3.3 Conception du portail
3.4 Developpement du portail du web
3.4.1 Les services web
4 Experimentation & Resultats 4.1 Conclusion
5 Conclusion & perspective
Trang 7Table des gures
1 Processus de conception de medicaments in-silico [11] 4
2 Criblage Virtuel in-silico 5
3 Docking proteine-ligand
4 Etapes du Docking
5 Illustration de docking/scoring [6]
6 Comparaison des programmes de docking [16]
7 Procedures de docking avec AutoDock
8 La grille de calcul 19
9 Couches de la grille de calcul 21
10 Architecture de grille de calcul [10] 23
11 Portail GVSS 27
12 Architecture Service de criblage virtuel GAP (GVSS) [7] 29
13 Architecture WPE [9] 31
14 Intergiciel DIRAC 33
15 Architecture DIRAC [20] 35
16 Architecture du systeme proposee 38
17 Work ow soumission de job sur la grille avec Taverna 39
18 Diagramme de classe du portail web 42
19 Cas d’utilisation pour le Ligand 43
20 Cas d’utilisation pour la Proteine 44
21 Cas d’utilisation pour les parametres de grille
22 Cas d’utilisation pour le docking
23 Cas d’utilisation pour l’administrateur du portail
24 Modele MVC
25 Description des services web implementes 49
26 Work ow des services web du portail 51
27 Interface d’accueil du portail web 52
28 Interface de creation d’un nouveau compte 53
29 Interface d’authenti cation 53
30 Interface de gestion des utilisateurs 54
31 Interface d’ajout d’un nouveau Ligand
32 Interface de liste des Ligands disponibles
33 Interface de gestion des proteines
34 Interface de modi cation d’une proteine
35 Interface d’ajout de chier de parametres de la grille
36 Interface d’ajout d’un nouveau projet de docking
37 Veri cation d’ajout du nouveau projet
38 Soumission de job de docking
39 Telechargement du resultat de docking
Trang 841 Soumission du projet de docking ProjectZinc1OKE .
42 Telechargement du resultat de docking 60
43 Enregistrement du resultat du job sur la grille de calcul 60
44 Les chiers dlg & glg du docking 60
45 Les chiers log de docking et de la grille dlg & glg 61
46 Telechargement du resultat des jobs
47 Les chiers des jobs soumis en parallele
Trang 91 Introduction
Par le passe, un grand nombre de medicaments ont et decouverts tout simplement gr^ace a l’identi cation de principes actifs extraits de substances naturelles historiquement utilisees dans la medecine non-conventionnelle, ou m^eme par hasard, ce qu’on nomme
"serendipite" Mais plus le nombre de medicaments connus augmente et plus les lites de faire une telle decouverte sont faibles Par la suite, les avancees dans le domaine de
probabi-la synthese chimique ont conduit a une demarche de recherche systematique permet-tant l’elaboration de nouveaux medicaments de plus grande e cacit La decouverte de nouveaux medicaments "drug discovery" est un processus extr^emement long et fastidieux, 12 a 15 ans peuvent s’ecouler entre la decouverte de la molecule et la mise a disposition du medicament aupres des patients Les nouvelles methodes permettant la decouverte de nouveaux medicaments se doivent donc d’innover a n de mettre en evidence des molecules encore inconnues ayant un certain potentiel d’activite sur des cibles biologiques connues [Davis et al,2003] Les outils mis en place doivent ^etre capables de guider les chimistes medicinaux dans le choix des molecules a cribler et a synthetiser.
Les strategies de criblage virtuel, ou in-silico, sont donc depuis quelques annees employees
en tant qu’alternative ou de facon complementaire Ces techniques sont en general assez faciles a mettre en place, pour un co^ut bien moindre que les criblages experimentaux De plus, l’evolution technologique constante de ces dernieres decennies a permis d’accelerer considerablement le temps de calcul necessaire a la simulation de systemes complexes ou
de bases de donnees de plusieurs milliers de molecules Le criblage virtuel est donc d’hui employ dans de nombreux projets, a n de selectionner, au sein de vastes librairies de molecules, un nombre restreint de composes a cribler experimentalement.
aujour-1.1 Problematique
L’axe principal de ce travail se situe dans le domaine de bio-informatique Plus precisement dans la recherche et la decouverte de nouveaux medicaments pour les maladies dangereuses comme : HIV, Ebola, evre de dengue, , par le biais de techniques informatiques Le de se situe au niveau de la conception de nouveaux medicaments, qui est
un processus long et tres onereux, et au niveau du deployement d’un grand nombre de docking sur la grille de calcul Cependant, les outils existants sont en manque de moyen simple pour fournir des procedures concises pour les utilisateurs reguliers (biologistes, chimistes, etc) a n d’ar-ranger les ressources pour mener un amarrage moleculaires massif Par consequent, ces derniers rencontrent plusieurs di cultes et problemes lors de l’utilisation
de ces applica-tions, ce qui entra^ne une grande perte de temps et d’argent a n d’accelerer
la recherche de nouveaux traitements pour les maladies negligees.
Trang 101.2 Notre contribution
Notre contribution repose sur le developpement d’un portail web pour le criblage vir-tuel en utilisant la grille de calcul pour faciliter la decouverte et la recherche de nou-veaux medicaments pour les maladies graves et negligees Nous proposons une interface conviviale et facile a utiliser pour les utilisateurs non-experimentes (chimistes, biologistes, medecins ) en informatique et en grille de calcul A n de favoriser l’interoperabilit
entre le portail web et les services de grille de calcul, nous proposons une architecturequi permettra une analyse et un traitement able des requ^etes des utilisateurs naux
1.3 Plan du memoire
Ce memoire sera organise en 4 parties presentant respectivement : l’etat de l’art, ation & conception, demonstration & resultats, conclusion & perspectives Dans la premiere partie, un etat de l’art est present qui passe en revue le criblage virtuel, le docking, suivie de l’outil AutoDock Ensuite nous abordons la technologie de grille de calcul, le portail GVSS et les plate-formes WISDOM qui est deployee dans la decouverte de nouveaux medicaments et DIRAC La deuxieme partie du memoire presente l’implementation du portail, qui se focalisera sur l’architecture proposee, la conception et l’implementation du portail L’avant derniere partie porte sur la demonstration du portail muni des resultats
implement-obtenus A la n, ce memoire ce termine par une conclusion generale et quelques perspec-tives
Trang 112 Etat de l’art
Aujourd’hui, les projets scienti ques produisent et analysent une quantite d’information sans precedent, ce qui necessite une puissance de calcul jamais vue auparavant Les lea-ders dans ce de de traitement de donnees sont les experiences du LHC au CERN, qui accumulent des dizaines de petaoctets de donnes chaque annee Cependant, il se revele que d’autres domaines scienti ques s’approchent aussi de ces limites Par consequent les utilisateurs devons exploiter les ressources disponibles a travers le monde de maniere aisee
et facile Plusieurs travaux existent qui illustrent le developpement et le deploiement des applications sur l’infrastructure de la grille de calcul, et qui ont montre une utilisation e cace des ressources de cette derniere Les utilisateurs sont rarement experts en informa-tique et
en grille de calcul Pour cette raison ils ont besoin d’un moyen qui facilite l’acces aux ressources de la grille dont ils ont besoins d’un cote, et qui cache la complexit de l’in- frastructure sous-jacente de l’autre cote Dans cette partie, nous allons decrire en detail la technique du criblage virtuel ainsi l’amarrage "Docking", le principe de la grille de calcul et son r^ole dans la decouverte de nouveaux medicaments pour les maladies negilgees et dangereuses Puis, nous presentons le portail GVSS et la plate-forme WISDOM deployer pour acceder aux services de grille de calcul et DIRAC.
2.1 Conception de medicaments in-silico
La conception de medicaments assistee par ordinateur emploie la chimiecomputationnelle pour la decouverte, l’amelioration et l’etude de medicaments etmolecules biologiquement actives En e et, l’outil informatique aide la conception demedicaments a des etapes speci ques du processus :
• Dans l’identi cation des composes potentiellement therapeutiques, en utilisant
le criblage virtuel "virtual screening"
• Dans le processus d’optimisation de l’a nite et de la selectivit des molecules tentielles vers les t^etes de serie "lead" ou appeles encore prototypes
po-• Dans le processus d’optimisation du lead de serie par rapport aux proprietes macologiques recherchees tout en maintenant une bonne a nite de cette molecule
Trang 12phar-Toutes ces etapes d’intervention de l’outil informatique sont presentees dans leschema recapitulatif suivant.
Figure 1 { Processus de conception de medicaments in-silico [11]
2.2 Criblage virtuel "Vitual Screening"
L’identi cation d’une cible pharmaceutique peut se faire par di erentes methodes.Une fois la cible identi ee diagnostiquee, il faut tester un ensemble de moleculescandidates sur cette cible, selon un processus quali e de screening On distinguedeux types de criblage : le criblage virtuel, qui est realis in-silico , tout en permettant
la realisation de maniere rapide et a moindre co^ut des predictions de l’activite desmolecules Et le criblage reel a haut debit, quand a lui il permet de tester rapidement
"in-vitro" l’activite de composes biologiques, et cela est limite par le nombre decomposes a tester en un temps raisonnable et par le co^ut des tests
Aujourd’hui, le criblage virtuel est largement utilise pour identi er de nouvelles substances bio-active et pour predire la liaison d’une grande base de donnee de ligands a une cible particuliere, dans le but d’identi er les composes les plus prometteurs Il s’agit d’une methode qui vise a identi er les petites molecules pour l’interaction avec les sites de proteines cibles a n de faire des analyses et des traitements ulterieures Plus precisement, le criblage virtuel est de ni comme l’evaluation automatique de tres grandes banques de composes a l’aide de programmes informatiques, il se refere a une serie in-silico, qui est une
Trang 13technique e ectuer a base d’ordinateur ou par l’intermediaire des modelesmathematiques et des simulations informatique, qui aide dans la decouverte denouveaux medicaments et de determiner de nouveaux composes les plussusceptibles pour se lier a une molecule cible d’une structure 3D connue [2].
Figure 2 { Criblage Virtuel in-silico(http: // serimedis inserm fr )
Compte tenu de l’augmentation rapide du nombre de proteines, le criblage virtuelcontinue a croitre comme une methode e cace pour la decouverte de nouveauxinhibiteurs et de nouveaux medicaments Il est utilise dans les premieres phases dudeveloppement de nouveaux medicaments Il a pour but de selectionner au sein dechimiotheques variees des ensembles reduits de molecules dont le potentiel d’activiteenvers la cible therapeutique visee est superieur a celui des autres molecules [EnyedyEgan, 2008], c-a-d, les molecules qui peuvent in uencer l’activite de la proteine cible.Dans ce cas, le criblage a pour objectif l’identi cation des motifs structuraux essentielsdans la liaison ligand-recepteur, et la discrimination des meilleurs composes au sein dechimiotheques orientees comprenant des molecules appartenant a une m^eme serie
Le criblage virtuel est tres utile et consider comme un outil e cace pour accelerer ladecouverte de nouveaux traitements et la recherche des bibliotheques de petitesmolecules a n d’identi er les structures qui sont les plus susceptibles de se lier a unecible de medicament, generalement un recepteur de proteine [14] Il depend de laquantite d’in-formation disponibles sur la cible d’une maladie particuliere Les techniques
de criblage virtuel sont devenues des outils indispensables dans la chimie medicinale qui
o rent un moyen d’ameliorer la phase de decouverte de medicaments Elles sontutilisees de maniere quotidienne aussi bien dans les laboratoires de recherche publicsque dans les grands la-boratoires pharmaceutiques
Trang 142.2.2 Decouverte de nouveaux medicaments avec le criblage virtuel
Le criblage virtuel est la strategie in-silico la plus utilisee pour l’identi cation de composes ("hits") dans le cadre de la recherche de nouveaux medicaments Celui-ci fait desormais partie integrante de la plupart des programmes de recherche de composes bioactifs, que ceux-ci se deroulent en milieu academique ou industriel, car il constitue un complement es- sentiel au criblage biologique haut-debit Le criblage virtuel permet l’exploration de grande chimiotheques ( > 106 molecules) a la recherche de composes actifs vis-a-vis d’une cible therapeutique donnee Ce processus vise a reduire de facon signi cative la chimiotheque de depart a une liste limitee de composes juges les plus prometteurs Cette approche conduit souvent a une nette amelioration de la "concentration" de molecules actives pour la cible
"hit-rate", tandis qu’une selection aleatoire de molecules de la chimiotheque ne saurait fournir un tel enrichissement Ainsi, le temps aussi bien que les co^uts de l’identi cation de nouveaux composes peuvent ^etre reduits de facon remarquable Plus precisement, le recours au criblage in-silico, en prealable a un criblage biologique a plus petite echelle, permet d’ajuster au mieux le nombre de tests experimentaux "in-vitro" en fonction des contraintes budgetaires et temporelles Quand les conditions le permettent, le criblage biologique peut ^etre employ en parallele au criblage virtuel, a n d’evaluer l’e cacit de ce dernier et de pouvoir ameliorer les parametres des programmes informatiques utilises La pertinence de la molecule employee est la premiere condition pour le succees d’un criblage virtuel, bien avant celle des algorithmes utilises pour la recherche de touches au sein de la molecule En e et, seule une librairie de composes su samment diverse peut garantir une exploration satisfaisante de l’espace chimique, maximisant ainsi les chances de decouvrir de nouveaux composes Par ailleurs, pour eviter de perdre du temps avec des molecules possedant des caracteristiques incompatibles avec celles de composes d’inter^et pharmaceutique, le processus de criblage comporte generalement une etape preliminaire de ltrage Cette t^ache, qui peut ^etre prise en charge par des programmes specialises, consiste a exclure les composes toxiques Ensuite, ne sont retenus que les composes obeissant a des de nitions empiriques simples du pro l de molecule active.
2.2.3 Les di erentes strategies du criblage virtuel
Suivant la nature de l’information experimentale disponible, on distingue deuxapproches distinctes pour le criblage virtuel La premiere se base sur la structure de
la cible, qui est connue sous le nom de "structure-based virtual screening", quirapporte souvent aux algorithmes de docking proteine-ligand Elle consiste a estimer
la complementarit struc-turale de chaque molecule criblee avec le site actif consider
En revanche, ces methodes sont generalement plus co^uteuses en puissance decalcul et leur emploi requiert souvent une expertise plus importante
Trang 15La seconde, reposant sur la connaissance d’un nombre su sant d’information nant une ou plusieurs molecules actives de reference, est appelee "ligand-based virtualscreening" Cette approche est rapide et relativement simple a mettre en oeuvre, maisson majeur inconvenient est l’interdependance envers les informations de reference uti-lisees pour construire le modele de prediction d’a nite Bien que ces deux approchessoient surtout utilisees de maniere exclusive, leur combinaison lors du criblage permet
concer-de maximiser les chances concer-de succes pour iconcer-denti er concer-de nouvelles touches "hits" Dans lecadre de ce travail, nous utilisons l’approche "structure-based"
2.2.4 Criblage virtuel a haut debit
La simulation de docking moleculaire est une proced utile pour la prediction des poten-tiels interaction des complexes de petite molecule dans des sites de liaison de proteines, ces informations sont indispensables dans la conception de medicaments basee sur la struc-ture (SBDD) "Structure Based Drug Discovery" [4] Plusieurs programmes de docking, comme DOCK, GOLD, Autodock, Glide, LigandFit et FlexX, etc se sont montres utiles dans le pipeline de la decouverte in-silico de medicaments La methode de base derriere la simulation de docking moleculaire est de generer toutes les conformations possibles d’une molecule de docking et evaluer entre eux l’orientation la plus favorable en tant que mode de liaison de la molecule a l’aide d’une fonction de scoring Une recherche exhaus-tive sur toutes les conformations correctes d’un compose est un processus qui consomme beaucoup
de temps Par consequent, une simulation de docking e cace pour le criblage a grande echelle a haut debit (HTS) consommera de grandes ressources informatiques Il necessite quelques Tera- ops par t^ache pour e ectuer le docking de milliers de com-poses pour une proteine cible Cependant, les outils existants manquent de moyen simple pour prevoir des procedures de facon concise pour les utilisateurs regulier a n d’organi-ser les ressources pour mener un amarrage moleculaires massives La technologie de la grille commence une nouvelle ere de criblage virtuel en raison de son e cacit ainsi que son rapport co^ut-e cacit
Le co^ut des tests in-vitro traditionnelle est generalement tres elev lors du criblage a grande echelle est menee Le criblage virtuel fournit aux scienti-ques un outil e cace pour selectionner les potentiels composes pour les tests in-vitro En consequence, le criblage virtuel a haut debit pourrait bien economiser enorme somme d’argent comparant aux tests in-vitro classique.
2.2.5 Conclusion
Nous avons introduit le concept, les strategies de criblage virtuel Ce dernier est une approche informatique visant a predire des proprietes de librairies de molecules Avec l’essor considerable de donnees experimentales publiquement disponibles, cette discipline a enregistr des progres considerables quant au debit, la qualite et la diversit des predictions possibles Un inventaire des applications du criblage "in-silico" est donne , tout en gardant
Trang 16une attention particuliere a des cas concrets d’utilisation ainsi qu’au developpementsfutur Le criblage virtuel fournit une solution complementaire pour le criblage virtuel ahaut debit "HTS", ou il comprend des techniques de calcul novatrices L’avantage ducriblage virtuel "in-silico" est donc de fournir une petite liste de molecules a testerexperimentalement et ainsi reduire les co^uts et gagner du temps On peut aussiexplorer rapidement de nombreuses molecules pour se focaliser ensuite, au niveauexperimental, sur les molecules les plus interessantes Les di cultes intrinseques auxtechniques a haut debit ainsi que celles rencontrees lors des etapes d’optimisationdes molecules chimiques, ont encourag le developpement de nouvelles approches,telles que les techniques de criblage virtuel par docking moleculaire.
Trang 17l’inter-le docking consiste a trouver la meill’inter-leure position d’un ligand (petite mol’inter-lecul’inter-le) dans l’inter-lesite de liaison d’un recepteur (proteine) de facon a optimiser les interactions avec unrecepteur, evaluer les interactions ligand-proteine de facon a pouvoir discriminer entreles positionnement observees experimentalement et les autres De facon generale, ledocking a pour but de simuler l’interaction entre les molecules in-silico, et les resultatsobtenus servent a predire la structure et les proprietes de nouveaux complexes [3].Historiquement, les premiers outils de docking obeissaient au principe dit : "lock-and-key" (principe clef-serrure), selon lequel le ligand qui represente la clef, estcomplementaire au niveau geometrique du site actif du recepteur, qui represente laserrure [Yuriev et al., 2011] Les ligands sont des petites molecules destinees a inhiberl’activite d’une proteine, qui constitue le recepteur Il permet aussi, de predire la structureintermoleculaire entre deux molecules en une structure tridimensionnelle 3D, les modes
de liaison ou les confor-mations possibles d’un ligand a un recepteur, et de calculerl’energie de liaison La tech-nique de docking prevoit egalement la resistance de laliaison, l’energie du complexe, les types de signaux produits et estime l’a nite de liaisonentre deux molecules Elle joue un r^ole tres important dans l’aide a la decision, a n dedeterminer quel ligand candidat interagira le mieux avec un recepteur proteine cible [15]
Le docking proteine-ligand est utilise pour veri er la structure, la position etl’orientation d’une proteine quand elle interagit avec les petites molecules comme lesligands Son but est de predire et de classer les structures resultant de l’associationentre un ligand donne et une proteine cible d’une structure 3D connue
Trang 18Figure 3 { Docking proteine-ligand
Le docking ligand-proteine reste donc la methode la plus souvent employee, car elleper-met une evaluation rapide de bases de milliers, voire de millions de molecules
En principe, un programme de docking doit ^etre capable de generer les modes deliaison attendus pour des ligands dont la position adoptee au sein du site actif estconnue dans un temps raisonnable Pour cela, il est necessaire que l’algorithme derecherche confor-mationnelle puisse explorer l’espace conformationnel le plusexhaustivement possible et de facon e cace Classiquement, on juge la qualite dudocking en mesurant le RMSD (Root Mean Square Deviation) sur les atomes entre lapose obtenue en docking, et la pose observee experimentalement si elle existe
2.3.2 Approches du docking
Les di erentes approches du docking se distinguent au niveau de leurs conditions plication et de la nature des informations qu’elles peuvent fournir La pertinence du choixd’un programme de docking donne repose en premier lieu sur l’adequation entre cescaracteristiques et celles du systeme etudie L’e cacit de l’algorithme choisi sera parailleurs un compromis entre la rapidite d’execution et la precision des resultats
d’ap-Aussi en fonction du but recherch et du besoin de precision voulu, trois degres sont
en general consideres : rigide (les molecules sont considerees comme rigides), exible (une molecule rigide et l’autre exible), exible (les deux exibles) Le niveausemi- exible est souvent applique dans le cas proteine-ligand ou une des deuxmolecules (le ligand) de taille moindre est consideree comme exible et la proteinecomme rigide de facon a ne pas trop complexi er le systeme
Trang 19semi-Le processus de docking consiste a faire interagir une petite molecule organiqueavec le recepteur, generalement de nature proteique La technique de dockingcomprend 4 etapes principales :
1. Preparer les chiers pour la proteine
2. Preparer les chiers pour le ligand
3. Preparer les chiers de parametres pour la grille
4. Preparer les chiers de parametres pour le docking Le
schema ci-apres montre clairement les etapes de docking
Figure 4 { Etapes du Docking
2.3.3 Principe du docking
Le docking moleculaire s’accomplit en deux etapes complementaires La premiere est leDocking, qui consiste a rechercher les conformations du ligand capables a etablir desinteractions ideales avec le recepteur en utilisant des algorithmes de recherche :algorithme genetique, la methode de Monte Carlo (qui utilise des procedes aleatoires)
La deuxieme dite le "Scoring", qui sont des methodes mathematiques et des fonctionsdiscriminant les poses de docking correctes de celles incorrectes Ces methodes sontutilisees pour estimer la puissance d’interaction et l’a nite de liaison et qui permetd’evaluer les conformations par un calcul rapide d’energie d’interaction des ligands avec
un recepteur pour ne retenir que la meilleure
Trang 20La formule utilisee pour le scoring est la suivante :
4G= 4complexe - 4ligand - 4proteine
La gure ci-dessous schematise le principe du docking/scoring, ou R symbolise unestruc-ture du recepteur Tandis que, A, B et C representent les petites molecules
Figure 5 { Illustration de docking/scoring [6]
Le docking peut ^etre interpret de maniere qualitative par observation de l’entit liganddans la cavite de la proteine, mais egalement de maniere quantitative par traitementdes donnees provenant des fonctions de scoring
2.3.4 Outils de Docking
A l’heure actuelle, plus de 30 programmes de docking moleculaires (commerciaux ounon) sont disponibles [6] Les plus frequemment cites sont respectivement :AutoDock [9], GOLD, FlexX, DOCK et ICM Ils permettent notamment un criblagerapide de vastes librairies de composes Ces programmes reposent le plus souventsur des algo-rithmes speci ques (Algorithme genetique, Recuit Simule ), leurprotocole est compose de 2 etapes essentielles Docking/Scoring
Pour accomplir la t^ache de docking, les outils d’amarrage moleculaire vont genererune serie de poses di erentes de liaison au ligand et en utilisant une fonction denotation "scoring" pour evaluer les a nites de liaison de ligand pour les posesgenerees a n de determiner le meilleur mode de liaison
Trang 21Figure 6 { Comparaison des programmes de docking [16]
Comme la gure ci-dessus montre, le programme AutoDock est le plus cite et le plusutilise parmi les autres programmes de docking
2.3.5 Conclusion
Le processus de docking est l’un des premieres etapes dans la conception demedicaments, il consiste a faire interagir une petite molecule organique avec unrecepteur, generalement de nature proteique En consequent, le plus grand avantagedes methodes de docking proteine-ligand est qu’ils peuvent proposer des hypothesesstructurelles sur la facon dont une petite molecule peut interagir avec sa ciblemacromolecule Des etudes ont montre que certains algorithmes de docking sont plusables que d’autres pour reproduire le mode de xation experimentale de ligand Lacontrepartie de ces techniques est generalement une hausse des temps de calcul et desressources A l’inverse, un projet impliquant le criblage virtuel de millions de produits nepourra pas ^etre accompli avec ce type d’algorithme mais plut^ot des codes plussimples, dans lesquels les approximations engendrent un gain de temps de calcul etd’argent Le nombre de programme de docking actuellement dispo-nibles est elev et n’acess d’augmenter au cours des dernieres decennies Les exemples suivants presentent
un apercu des programmes les plus communs de docking proteine-ligand (LigandFit,FlexX, AutoDock) Dans ce travail nous avons utilise le programme AutoDock
Le docking est un type d’application facilement distribuable sur une grille De sorte que,
de nombreuses ressources de calcul et de stockage ont et mises a disposition par le projet EGEE (Enabling Grids for E-sciencE), qui est nance par la commission eu-ropeenne et qui a pour but de construire sur les plus recentes avancees des technologies de grille et de developper un service d’infrastructure de grille disponible 24h/24h.
Trang 222.4 AutoDock
AutoDock [4] est un programme exible, utiliser pour le docking proteine-ligand Ils’agit d’un ensemble de procedures, dont le but de predire l’interaction de petitesmolecules, telles que des medicaments candidats "ligand" ou des substrats a unrecepteur dont la structure 3D est connue AutoDock fonctionne essentiellementcomme une procedure en deux etapes : le calcul de la carte d’interaction du site deliaison du recepteur qui est realis avec autogrid, et la position de ligand sur la carted’interaction, qui est e ectuee avec autodock
Le programme AutoGrid est charge de calculer les cartes d’interaction des grilles
a n de maximiser l’etape d’evaluation des di erentes con gurations du ligand Pourcela une grille entoure la proteine receptrice et un atome sonde est place a chaqueintersection L’energie d’interaction de cet atome avec la proteine est calculee etattribuee a l’empla-cement de l’atome sonde sur la grille Une grille d’a nite estcalcule pour chaque type d’atome du ligand Le temps de calcul de l’energie enutilisant les grilles est proportionnel au nombre d’atomes du ligand uniquement, il estindependant du nombre d’atomes du recepteur
Le programme AutoDock e ectue la partie de recherche et d’evaluation des dierentes con gurations du ligand Il est possible d’utiliser plusieurs techniques pourobtenir les con gurations (par recuit simule, algorithme genetique ou par algorithmegenetique La-marckien) Pour la methode Monte Carlo, a chaque pas undeplacement au hasard de tous les degres de libert est e ectu (translation, rotation,torsion) Les energies de la nouvelle et de l’ancienne con guration sont comparees
Si la nouvelle est plus basse elle est gardee, sinon elle est conservee ou rejetee
La version actuelle du programme est la version 4.2, qui fournit de nouvelles tionnalites importantes pour le docking comme la exibilit des residus de proteines et desfonctions de score de haute qualite A n de pouvoir realiser le criblage virtuel avecAutoDock, un ensemble d’outils necessaires doivent ^etre mis en place :
fonc-• Java OpenJDK (openjdk-7-jdk)
• Python 2.7
• AutoDock4.2 (http: // autodock scripps edu )
• MGLTools (http: // mgltools scripps edu/ )
• autodocksuite-4.2.5.1-i86Linux2.tar.gz
• AutoDockTools
• Les chiers necessaires telechargeable depuis le site de base de donnee de proteine : www.pdb.com
Trang 232.4.1 Docking avec AutoDock
AutoDock a besoin de conna^tre les types, les charges et la liste de liaison de chaque atome, a n de pouvoir e ectuer la procedure de docking Tout d’abord, il faut chercher dans la base de donnee PDB (Protein Data Bank) dans le site ( http: // www pdb org,http:
/ www rcsb org ), les chierspdbpour la proteine et le ligand
Figure 7 { Procedures de docking avec AutoDock
La procedure de docking avec AutoDock se decompose en plusieurs etapes :
1. Preparer le chier d’entree de proteine Dans cette etape un chierPDBQT(Protein Data Bank, Partial Charge (Q), & Atom Type (T)) sera cre e, quicontient les atomes et les charges partielles
> input protein.pdb
> output protein.pdbqt
L’utilisateur possede 2 choix pour preparer son proteine, soit il utilise l’outil
"ADT", soit via la commande suivante :
> /usr/local/MGLTools-1.5.6/bin/pythonsh /usr/local/MGLTools-1.5.6
/MGLToolsPckgs/AutoDockTools/Utilities24/prepare receptor4.py -r protein.pdb
Trang 242. Preparer le chier d’entree de ligand Cette etape est tres semblable a lapreparation du proteine Nous creons un chier dont l’extension est PDBQT duligand.La preparation s’e ectue comme suit :
> input ligand.pdb
> output ligand.pdbqt
> /usr/local/MGLTools-1.5.6/bin/pythonsh /usr/local/MGLTools-1.5.6
/MGLToolsPckgs/AutoDockTools/Utilities24/
prepare ligand4.py -r ligand.pdb
3. Generation d’un chier de parametre de la grille Maintenant, nous devons de nirl’espace en 3D, qu’AutoDock considerera pour le docking Dans cette phase,nous allons creer les chier d’entrees pour "AutoGrid4", qui permettra de creerles di erents chiers de carte "map le" et le chier de donnees de la grille
"gpf"(grid parameter le)
> input ligand.pdbqt & protein.pdbqt
> output protein.gpf
> 1.5.6/bin/pythonsh
/usr/local/MGLTools-1.5.6/MGLToolsPckgs/AutoDockTools/Utilities24/
prepare gpf4.py -l ligand.pdbqt -r protein.pdbqt
4. Generation des chiers de cartes et de donnees de la grille Dans l’etapeprecedente, nous avons cre le chier de parametres de la grille, et maintenantnous allons utiliser "AutoGrid4" pour generer les di erents chiers de cartes et lechier principal de donnees de la grille
> input protein.pdbqt & protein.gpf
> autogrid4 -p protein.gpf
Apres avoir lance autogrid, plusieurs nouveaux chiers avec l’extension map secreent, qui correspondent a chaque type d’atome de ligand et des chiersauxiliaires Ces chiers sont importants dans le processus de docking
5. Generation du chier de parametre de docking Cette etape consiste a preparer les chiers de docking (dpf)
> input ligand.pdbqt & protein.pdbqt
> output ligand protein.dpf
> /usr/local/1.5.6/bin/pythonsh /usr/local/
MGLTools-1.5.6/MGLToolsPckgs/ AutoDockTools/ Utilities24/prepare dpf4.py
-l ligand.pdbqt -r protein.pdbqt
Trang 25On peut preparer les chiers de parametres pour la grille et pour le docking sansuti-liser l’outil ADT, en utilisant un script shell (voir annexe) pour preparer ceschiers Le resultat de ce script sont respectivement les chiers : dpf "dockingparameter le" et gpf "grid parameter le".
6 A ce stade, nous aurions cre tout un tas de di erents chiers Cette avantderniere etape consiste a executer autodock avec la commande ci-apres :
> input protein ligand.gpf
> output result.dlg protein ligand.gpf
> autodock4 -p protein ligand.dpf -l result.dlg
7 La derniere etape sera consacree a l’analyse des resultats de docking Apres avoirtermin avec succes la procedure de docking Le meilleur resultat pour le docking,sont les conformations qui possedent une basse energie AutoDock peut faire unepremiere analyse des resultats en regroupant les solutions en classes (clusters) enfonction de leur proximite spatiale La mesure de la proximite entre deux solutionsest calculee par la racine de la moyenne des carres des ecarts (Root Mean SquareDeviation RMSD) de leurs coordonnees atomiques Si le RMSD entre moleculesest inferieur a une distance seuil, ces deux solutions sont dans la m^eme classe
Le seuil de distance est appel "tolerance de classe" et sa valeur par defaut, pourAutoDock, est de 0,5 Ce parametre est transmis a AutoDock par le chier deparametrage "dpf" avant le lancement du docking
2.4.2 Conclusion
Comme nous avons mentionn dans la partie de docking, l’amarrage avec AutoDockest une proced qui comporte plusieurs etapes Ce qui necessitera une preparationprealable des chiers pour le docking Le processus de docking est un sujet essentielpour progresser dans la comprehension des mecanismes d’interaction moleculaires
et pour le developpement d’outils predictifs dans le domaine de la medecine Danscette partie, nous avons present la procedure du docking avec AutoDock4.2 enutilisant l’outil AutoDockTools, et nous avons applique les etapes de docking sur unexemple concret dans le but de comprendre cette technique qui va nous aider dans
la prochaine phase de lancement des jobs sur la grille de calcul pour faire le docking
Trang 262.5 Grille de calcul
2.5.1 Introduction
Les chercheurs travaillent sur la comprehension des changements climatiques, les etudes oceanographiques, la surveillance et la modelisation de la pollution environnementale, la science des materiaux, l’etude des procedes de combustion, la conception de medicaments,
la simulation des molecules et le traitement de donnees dans le domaine de la physique des particules Ils ont et confrontes a plusieurs problemes informatiques, ou ils avaient besoin de processeurs plus puissants, de plus grandes capacites de stockage des donnees, de meilleurs moyens d’analyse et de visualisation Les recents progres de la technologie des reseaux tres haut debit courtes et longues distances ont rendu possible la construc-tion de systemes repartis de hautes performances, distribues a l’echelle planetaire dont certains des constituants sont des grappes de PC ou des calculateurs paralleles Cepen-dant les applications scienti ques paralleles sont par nature gourmandes en ressources de calcul Il peut ^etre interessant de chercher a les executer dans le cas ou les ressources lo-cales, cluster de laboratoire, centre de calcul ne su sent plus Neanmoins, les ordinateurs d’une entreprise ne travaillent presque jamais a pleine charge Exploiter chaque seconde de latence permet de degager de la puissance de calcul, ainsi que des espaces de stockage considerables, le tout pour un co^ut souvent inferieur a celui d’un investissement pour l’acquisition d’un nouveau materiel Les technologies de grille de calcul ou "Grid Compu- ting", permettent de mettre en partage, de facon securisee, les donnees et les programmes
de multiples ordinateurs, qu’ils soient de bureau, personnels ou super-calculateurs Ces ressources sont mises en reseau et partagees gr^ace a des solutions logicielle dediees [5] Elles peuvent ainsi generer, a un instant donne, un systeme virtuel dote d’une puissance gigantesque de calcul et une capacite de stockage en rapport pour mener a bien des pro-jets scienti ques ou techniques requerant une grande quantite de cycles de traitement ou l’acces
a de gros volumes de donnees.
2.5.2 Grille de calcul
La grille de calcul ou "grid computing" est une technologie en pleine expansion dont le but d’o rir a la communaute scienti que des ressources informatiques virtuellement illimitees Dans sa version la plus ambitieuse, la grille est une infrastructure logicielle permettant de federer un grand nombre de ressources de calcul, de bases de donnees et d’applications specialisees distribuees a travers le monde Prabhu de nit la grille de calcul comme : "Un ensemble de ressources de calcul distribue sur un reseau local ou etendu qui appara^t a un utilisateur nal ou une large application en tant que systeme informatique virtuel" [5] La grille
de calcul a pour but de realiser le partage exible et coordonner de ressources
ainsi que la resolution cooperative de probleme au sein d’organisation virtuelles (VO)
A l’origine, la grille etait concue comme un grand nombre d’ordinateurs en reseau, ou lesressources de calcul et de stockage etaient partagees en fonction des besoins et a la
Trang 27demande des utilisateurs La grille fournit les protocoles, les applications et les outils de developpement pour realiser ce partage dynamiquement et a grande echelle Ce partage est hautement contr^ole pour de nir qui partage quoi, qui utilise quoi, et sous quelles conditions.
Un systeme de grille est obligatoirement hautement dynamique puisque les fournisseurs et les utilisateurs de ressources varient en fonction du temps Elle permet ainsi de construire une organisation virtuelle a partir de competences et de ressources complementaires, reparties dans plusieurs institutions, mais qui seront visibles comme un tout coherent par les personnes partageant un objectif commun trop complexe pour ^etre aborde par une seule equipe Les technologies de grille permettent le partage, l’echange, la decouverte, la selection et l’agregation de larges ressources heterogenes, geographiquement distribues via Internet tels que des capteurs, des ordinateurs, des bases de donnees, des dispositifs de visualisation et des instruments scienti ques La grille de calcul est largement utilise dans plusieurs domaines : chimie, bio-informatique, mathematique, biomedecine
Figure 8 { La grille de calcul
2.5.3 Organisation virtuelle
La grille de calcul prend en charge plusieurs organisations virtuelles, qui partagent des ressources entre elles Une Organisation Virtuelle (VO), est un groupe de chercheurs ayant des inter^ets scienti ques et des exigences scienti ques similaires, qui travaillent en collaboration avec autres membres et qui partagent des ressources (donnees, logiciel, pro- grammes, CPU, espace de stockage), independamment de leur emplacement geographique Ou chaque organisation virtuelle gere sa propre liste de membres, selon les besoins et les objectifs de la VO Les chercheurs doivent adherer a une VO a n d’utiliser les ressources informatiques de la grille fournie par EGI (https: // www egi eu ).
Trang 28EGI (European Grid Infrastructure) est une suite du projet EGEE, qui vise aperenniser l’infrastructure de grille en l’ouvrant a toutes les disciplines scienti questout en integrant les innovations sur le calcul distribue [24] EGI o re un support, desservices et des outils pour permettre les membres de VO de pro ter de leursressources EGI accueille actuelle-ment plus de 200 VO pour les communautesayant des inter^ets aussi divers que sciences de la terre, medecine, bio-informatique,sciences informatiques et mathematiques ou sciences de la vie.
2.5.4 Architecture generale d’une grille de calcul
L’architecture d’une grille de calcul est organisee en couches Bien que chaqueprojet ait sa propre architecture, une architecture generale est importante pourexpliquer certains concepts fondamentaux des grilles, presentes ci-dessous :
• La couche Fabrique (Fabric layer)
C’est la couche de plus bas niveau, elle est en relation directe avec le materiel a n
de mettre a disposition les ressources partagees Les ressources fournies par cettecouche sont d’un point de vue physique des ressources telles que des processeurspour le calcul, des bases de donnees, des annuaires ou des ressources reseau
• La couche reseau (Network layer)
Elle implemente les principaux protocoles de communication et d’authentication necessaire aux transactions sur un reseau de type grille Les protocoles
de communi-cation permettent l’echange des donnees a travers les ressources
du niveau fabrique Ces protocoles d’authenti cation s’appuient sur les services
de communication pour fournir des mecanismes securises de veri cation del’identit des utilisateurs et des ressources
• La couche ressource (Resource layer)
Cette couche utilise les services des couches connectivit et fabrique pourcollecter des informations sur les caracteristiques des ressources, les surveiller
et les contr^oler La couche ressource ne se preoccupe pas des ressourcesd’un point de vue global, elle ne s’interesse pas a leur interaction, ceci incombe
a la couche collective Elle ne s’interesse qu’aux caracteristiques essentiellesdes ressources et a la facon dont elles se comportent
• La couche collective (Collective layer)
Elle se charge des interactions entre les ressources Elle gere l’ordonnancement et
la co-allocation des ressources en cas de demande des utilisateurs faisant appel aplusieurs ressources simultanement C’est elle qui choisit sur quelle ressource decalcul faire executer un traitement en fonction des co^uts estimes Elle s’occupeegalement des services de replication des donnees En outre, elle est en charge
de la surveillance des services et elle doit assumer la detection des pannes
Trang 29• La couche application (Application layer)
C’est la couche la plus haute du modele, elle correspond aux logiciels quiutilisent la grille pour fournir aux utilisateurs ce dont ils ont besoin, qu’il s’agisse
de calcul, ou de donnees Les applications utilisent des services de chacunedes couches de l’architecture
Figure 9 { Couches de la grille de calcul
2.5.5 Composants de la grille
Les principaux composants de l’environnement informatique de la grille sont discutes
en detail dans cette section Selon la conception de l’application de la grille et sonutilisa-tion prevue, certains de ces composants mentionnes ci-dessous peuvent oupeuvent ne pas ^etre necessaire, et dans certains cas, ils peuvent ^etre combines.Les composants de l’infrastructure de la grille de calcul sont :
• Service d’information
Le composant de service d’information fournit des informations sur les ressourcesdisponibles, leur capacites totale, leur disponibilite, l’utilisation actuelle et les infor-mations de tari cation, Plus tard cette information est utilisee par le portail de lagrille et le plani cateur des ressources pour trouver les ressources appropriee sur
la grille de calcul pour repondre a la demande de l’utilisateur
Trang 30• Courtier de ressources "Resource Broker"
Le Courtier de ressources ou Resource Broker agit comme un intergiciel entre leservice demandeur (job soumis pour l’execution) et un fournisseur de services(res-sources disponibles sur la grille) La t^ache d’un courtier de ressources de lagrille est d’identi er dynamiquement les ressources disponibles, pour selectionner
et allouer les ressources les plus appropriees pour un job donne
• Ordonnanceur de ressource
Une fois les ressources ont et identi ees, l’etape suivante consiste a plani er lestravaux en allouant les ressources disponibles L’ordonnanceur de ressourcedoit ^etre utilise, parce que certains jobs sont prioritaires par rapport aux autres
et certains jobs exigent une longue autonomie
• Utilisateur de grille
L’utilisateur de la grille est un consommateur de ressources de la grille decalcul Il existe de nombreuses categories d’utilisateurs de grille a savoir Lesscienti ques, les militaires, les enseignants et les educateurs, les entreprises,medecins Les categories d’utilisateurs depends essentiellement du type deprobleme qu’ils vont resoudre sur l’infrastructure du grille
• Gestionnaire de ressource
Le gestionnaire de ressources de la grille estime les besoins en ressources,execute les jobs, contr^ole leur etat et retourne les sorties lorsque les jobs sonttermines Le gestionnaire de ressources peut consulter le courtier deressources sur l’a ectation des ressources et assigner les t^aches auxressources appropriees En outre, il doit authenti er l’utilisateur et veri er s’il estautorise a acceder aux ressources avant d’attribuer le job
2.5.6 Fonctionnement de la grille
La grille de calcul fonctionne sur le principe de mise en commun des ressources, ou un grand nombre de ressources de calcul distribue sont connectees via le reseau a grande vitesse, et qui sont tous provisionnees en provenant des divers endroits geographiques et a travers les frontieres organisationnelle Le fonctionnement de la grille est assez simple Chaque job cre est associe a un "jobstep" et un ensemble de "workunits" Ces unites de travail sont pr^etes a ^etre lancees sur les ressources de la grille, elles contiennent les infor- mations sur les donnees, les parametres necessaires ainsi que le programme a executer Les agents installes sur chaque machine de la grille se connectent a un intervalle de temps regulier au serveur de grille pour prendre le job (principe du modele "pull") Avant de telecharger les donnees, l’agent veri e si elles ne sont pas deja dans son cache, a n d’eviter des transferts inutiles L’agent lance alors le programme scienti que A la terminaison du programme, l’agent archive les resultats et renvoie l’archive du resultat au serveur de grille.
Trang 31A chaque job termin est donc associe a un ou plusieurs resultats L’utilisateur telecharge l’ensemble des resultats Les etapes cles pour le fonctionnement du reseau informatique et l’interaction entre les di erents elements du reseau sont presentes dans la gure ci-dessous :
Figure 10 { Architecture de grille de calcul [10]
Comme le montre la gure ci-dessus, le fonctionnement des di erents composants de
la grille sont :
• Les utilisateurs du reseau presentent leurs jobs au Resource Broker de la grille
• Le courtier de ressources "Resource Broker" de la grille procede a ladecouverte des ressources et de la tari cation des informations en utilisant leservice de l’informa-tion
• Le gestionnaire de ressources de la grille "Resource Manager", authenti e etassure le credit necessaire dans le compte de l’utilisateur a n de deployer lesressources de la grille
• L’ordonnanceur de ressource (Resource Scheduler), execute alors le job sur les resultats en matiere de ressources et de rendement approprie
• Le courtier rassemble les resultats et les passent a l’utilisateur de la grille
Trang 322.5.7 Avantages & De s de la grille
Les avantages d’utiliser une telle architecture sont multiples et indeniables Nous pouvons citer les exemples suivants :
• Deploiement des ressources inutilisees
La grille est un concept au fort potentiel, dont l’idee est de faire en sorte que toute
la puissance de calcul des PCs inutilises soit utilisee De nos jours, les ordinateursrestent souvent inutilises pendant de longues periodes, leur processeur n’etant querarement utilise a 100% Avec cette technologie, les moments d’inactivite de cen-taines ou de milliers d’ordinateurs et de serveurs peuvent ^etre utilises et vendus aquiconque ayant besoin d’une puissance de calculs massive
• Base sur une architecture de type client/serveur
La grille de calcul repose sur une architecture bien precise et tres s^ure, en rence, c’est l’architecture client/serveur qui a et choisie Cette architecture a etadapte en fonction des besoins speci ques de la technologie de grille de calcul
l’occur-• Meilleure rentabilisation du materiel
Il est evident qu’il y a une sous utilisation des machines, et la grille presente lasolution ideale, d’un point de vue economique pour les entreprises et d’un point
de vue pratique pour les utilisateurs, pour rentabiliser les ressources
Les de s de la recherche rencontres par les technologies de grilles de calcul actuelles sont repertories comme :
• Dynamicite : Les ressources dans la grille sont gerees et contr^olees par plus d’une organisation, en raison de ce que les ressources peuvent rejoindre ou sous forme de sortie de grille a tout moment, ce qui peut conduire a plus de charge sur la grille.
• Administration : La technologie de grille est essentiellement un groupe de sources mises en commun qui necessitent une administration de systemelourde pour la bonne coordination
res-• Puissance : La grille o re de nombreux services informatiques, qui consomment beaucoup d’energie electrique Donc, alimentation sans interruption est primordiale.2.5.8 Conclusion
Dans cette partie, nous avons vu que les besoins en puissance de calcul pour la recherche scienti que fondamentale depassent souvent les possibilites qu’o re la technologie actuelle La grille de calcul bouleverse la facon dont les chercheurs accedent a ces ressources, elle re-prend l’idee qu’une application lourde peut ^etre decoupee en petites t^aches isolees, con ees a des ordinateurs di erents a travers le reseau L’aspect economique est particulierement
Trang 33seduisant puisqu’il s’agit d’utiliser la puissance de calcul et les espaces de stockage utilises des ordinateurs d’un immense parc informatique La technologie de grille de cal-cul a prouve qu’elle est la meilleure technologie pour travailler sur divers domaines : lecommerce, les entreprises, formations, la science, la recherche et le developpement Lavirtualisation elimine les limitations geographiques et economiques des ressources Elleaide les grands projets a accomplir en peu de temps Cette nouvelle technologie elimine
in-la dependance de projet sur un serveur principal ou super calcuin-lateur Pourtant, in-latechno-logie de grille a besoin de se concentrer sur les questions de securit et de condentialit a travers les connexions Internet
Trang 342.6 Portail GVSS
Dans la decouverte de medicaments, la simulation de docking moleculaire est unemethode courante pour predire les potentiels interaction de petites molecules sur dessites de liaison de proteines Cependant, la recherche de tous les conformationsoptimales d’un compose pourrait ^etre un processus long et onereux GVSS est unservice pour le criblage virtuel proteines-ligands a graned echelle in-silico, il fournit
un systeme de production pour accelerer le processus de recherche de nouveauxmedicaments Ce service de docking in-silico pro te des services de la technologie
de grille de calcul, a n de ra ner la decouverte de medicaments En outre, cesactivites facilite egalement plus d’applications biomedicales e-Science en Asie
2.6.1 Introduction
Depuis le premier de de donnees mondial de la grippe aviaire 2005, l’Academia SinicaGrille Centre de Calcul (ASGCC), au sein de la collaboration EGEE, a et consacree al’elaboration et le ra nage de criblage virtuel pour les maladies negligees et emergentestelles que la grippe aviaire, la evre dengue, etc La simulation de docking moleculaire est
un processus qui prend du temps pour une recherche exhaustive de toutes les mations possibles d’un compose Toutefois, le processus massif in-silico bene ce duhaut debit de la technologie de la grille de calcul Fournissant une puissance de calculintensif et une gestion e cace des donnees, l’e-infrastructure (EUAsia VO) pour ladecouverte in-silico de medicaments pour les maladies epidemique en Asie
confor-GAP (Grid Application Platform) et GVSS (Grid enabled Virtual Screening Services) ont et developpes avec le moteur de docking d’AutoDock 3.0.5 GAP est un environnement de developpement d’applications de haut niveau pour la creation de services d’application de la grille [7] GVSS est une interface graphique utilisateur de type Java, qui a et concue pour la conduite de docking moleculaire a grande echelle plus facilement sur l’environne-ment de grille de gLite [7] Les utilisateurs naux utilisent GVSS sont autorises a speci er la cible et la bibliotheque de composes, mis en place des parametres de docking, surveiller les jobs de docking et les ressources informatiques, visualiser et a ner les resultats de do-cking, et en n
de telecharger les resultats naux Il existe d’autres enjeux a encourager les activites
biomedicales et integrer plus davantage de ressources dynamiques pour soutenir la
simulation de criblage virtuel a grande echelle en Asie Par exemple, les scienti ques
etudient la nouvelle structure cible, par consequent, il/elle doit savoir comment modeliser la cible et la preparer en utilisant AutoDockTools On aurait aussi besoin d’une interface
utilisateur conviviale pour rejoindre et acceder a la collaboration, pour soumettre les jobs de docking, suivre leur progres, visualiser le docking et en n analyser les resultats.
Trang 35Les utilisateurs preparent les chiers de criblage virtuel dans l’interface utilisateurgraphique GVSS, puis selectionnent les ressources de la grille de calcul pour soumettredes jobs Ces jobs informatiques sont geres par GAP/DIANE pour distribuer les agents
de grille de calcul a la grille [18] Les resultats de calcul sont geres par AMGA , qui est uncatalogue de meta-donnees pour stocker des elements de stockage [16]
Figure 11 { Portail GVSS(http: // gvss2 twgrid org/ )Pour faire le docking moleculaire a grande echelle qui fonctionne sur l’environnement
de la grille, ASGC a developp l’application GVSS (Grid enabled Virtual ScreeningServices) qui integre l’intergiciel gLite DIANE2/GANGA et AMGA d’EGEE Toutes lest^aches informatiques sont geres par GAP/DIANE a n de distribuer les Workers de lagrille de calcul Les resultats de calcul sont geres par AMGA, catalogue demetadonnees pour stocker des elements de stockage GVSS utilise Autodockegalement en tant que moteur d’amarrage Le GVSS a et cre par l’integration deplusieurs frameworks concus pour des applications de grille de calcul
2.6.2 La plate-forme GAP
GAP (Grid Application platform) est un environnement de developpement d’applications
de haut niveau pour la creation des services d’application production/qualite de grille parl’approche MVC (Model-View-Controller) [7] Il divise l’espace de developpement d’appli-cation de la grille en trois grandes etapes : le portage d’application "gridi cation", concep-tion de work ow de job complexe et interface utilisateur personnalis Correspondant aces trois stades de developpement, le systeme GAP est compose de trois sous-frameworks, respectivement : le framework de base, le framework d’application, et leframework de presentation
Trang 36• Le framework de base fournit une couche d’abstraction a l’interface de nemnt distribue sous-jacente des ressources informatiques Il cache lescomplexites techniques de la gestion des utilisateurs et des jobs de calcul enisolant les details de mise en oeuvre en vertu d’un ensemble d’API Java bien de ni.Avec la conception orientee objet, le framework de base a et etendue pour integrerune interface de gestion de job de haut niveau appel DIANE
l’environ-• Le framework d’application introduit une approche basee sur l’action pour le developp-ement de ux de travail "work ow" avance et des applications complexespour les problemes scienti ques reels En utilisant les API de framework de base, les developpeurs d’applications sur cette couche peuvent se concentrer sur la conception de work ow sans se preoccuper des details et/ou des modi cations del’environne-ment informatique sur lequel les jobs informatiques seront executes
• Contrairement aux framework de base et d’application, le framework depresentation de GAP est librement de ni, alors une libert de choix pour lesapplications d’adop-ter leur technologie d’interface preferee base sur Java (parexemple, portail Web, interface graphique, etc)
2.6.3 Architecture GVSS
Dans le service GVSS, AMGA est utilise pour gerer l’indexation et les resultats d’amar-rage repartis Base sur le work ow d’analyse de donnees, un ensemble de metadonn -es de la bibliotheque de composes, les proteines cibles, et les resultats d’amarrage sont soigneu- sement concus par des biologistes participants a la mise en oeuvre Pour mettre en place le service GVSS, le framework DIANE a et integr pour la gestion des jobs distribues La facon
de presenter et de gerer les jobs sur la grille est entierement contr^olee par ce frame-work.
Le developpement de cette interface permet de reduire l’e ort pour communiquer avec l’environnement de la grille Une application graphique en Java a et developp pour les utilisateurs naux a n d’utiliser les services de GVSS Le developpement de cette in-terface pro te des avantages des frameworks de base et d’application de GAP pour reduire l’e ort de communiquer avec l’environnement de grille de calcul.
Trang 37Figure 12 { Architecture Service de criblage virtuel GAP (GVSS) [7]
2.6.4 Conclusion
GVSS est developp pour predire comment les petites molecules interagissent avec lerecepteur Il reduit considerablement le co^ut en utilisant la demande dynamique desres-sources de la grille de calcul Le portail GVSS facilite la decouverte de medicaments
en permettant aux utilisateurs un acces simultane et instantane aux ressources de lagrille, tout en masquant la complexit de l’environnement de la grille aux utilisateurs naux
Trang 382.7 Plate-formes utilises
2.7.1 WISDOM
WISDOM (Wide In Silico Docking On Malaria) est une initiative qui a et lance en 2005 pour utiliser les nouvelles technologies de l’information et depolyer des applications de docking de grande echelle, a n de chercher et de decouvrir des medicaments contre le plaudisme et d’autres maladies dites negligees Le but de WISDOM est de prouver la pertinence de l’utilisation de la grille de calcul dans la recherche de medicaments et de trai-tement pour les maladies dangereuses [8] Il travaille en etroite collaboration avec EGEE, et il fait usage de l’infrastructure EGEE pour executer un grand nombre de donnees WISDOM est consider comme une premiere etape pour mettre en place une recherche de medicaments in-silico sur une infrastructure de grille La plate-forme WPE (WISDOM Production Environment), developp par LPC (Laboratoire Clermont Ferrand-France), a et utilise avec succes pour le projet WISDOM dans la decouverte de nouveaux inhibiteurs contre le Malaria Cette plate- forme fournit une couche entre les utilisateurs et l’environ-nement de la grille de calcul a n de dissimuler sa complexit Avec cette plate-forme les utilisateurs peuvent facilement utiliser les ressources de la grille pour e ectuer leur calcul.
2.7.1.a De nition WISDOM
WISDOM est un intergiciel concue comme un environnement de gestion de l’experience Il gere les donnees, les jobs, et partage la charge de travail sur toutes les ressources integrees, m^eme si elles adaptent di erentes normes technologiques Il est tout a fait possible de construire des services web qui interagissent avec le systeme WISDOM est consider comme un ensemble de services generiques agissant comme un niveau d’abstraction pour les ressources et o rant une gestion generique des donnees et des jobs
de sorte que les services d’applications peuvent utiliser l’un des services sous-jacents d’une maniere tres transparente [11] L’initiative WISDOM comprend trois objectifs, l’objectif biologique, qui consiste a proposer de nouveaux inhibiteurs pour une famille de proteine produite par plasmodium, l’objectif biomedical, qui repose sur le deployement d’une application de docking in-silico sur une infrastructure de grille de calcul, et l’objectif de grille, qui s’ap-puie sur le deploiement d’une application tres demandeuse en temps de calcul et generant une grande quantite de donnees pour tester l’infrastructure de grille et ses services Les utilisateurs ne sont pas en interaction directe avec les ressources de la grille, et ils ne sont pas censes de savoir comment cela fonctionne, car ils sont juste en interaction avec les services de haut niveau, tout comme avec un autre service web.
Trang 392.7.1.b Architecture WPE
L’environnement de production WISDOM (WPE) est consider comme un intergicielinstalle sur des ressources de calcul pour gerer des donnees et des jobs et pourpartager la charge sur l’ensemble des ressources integrees [24] Il est possible deconstruire des services web qui interagissent avec le systeme Les quatrecomposants principaux de WPE (WISDOM Production Environment) sont [9] :
• Le gestionnaire des t^aches "Task Manager" interagit avec le client et accueille les t^aches creees par le client
• Le gestionnaire de jobs "Job Manager" soumet des jobs aux elements de calcul (CE),
du sorte que les t^aches gerees par le gestionnaire des t^aches seront executees.
• Le systeme d’information WIS "WISDOM Information System" utilise AMGA
"ARDA Metadata Grid Application", pour stocker toutes les metadonneesrequises pour le gestionnaire de job
• Le gestionnaire de donnees "Data Manager", gere les chiers sur la grille de calcul
Figure 13 { Architecture WPE [9]
Tout d’abord, le module de gestionnaire de job "Job Manager" recoit les demandes etsoumet les jobs pilotes "pilot agents" sur la grille de calcul, a n de realiser des t^achesdans le gestionnaire des t^aches "Task Manager" L’execution de gestionnaire de jobnecessite un certi cat qui correspond a l’organisation virtuelle ou les jobs seront soumis.Ensuite, les t^aches sont enregistrees et gerees par les gestionnaire des t^aches Unagent interagit avec le gestionnaire de t^ache pour recuperer une t^ache et l’execute sur
la grille de calcul Apres, le module WIS "WISDOM Information System" enregistre lesetats des agents et contr^ole l’information des agents de pilotes sur la grille Et legestionnaire de donnees gere les chiers sur la grille en mode batch