1. Trang chủ
  2. » Luận Văn - Báo Cáo

Développement dun portail web pour le criblage virtuel sur la grille de calcul

79 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 5,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Le docking in-silicoest la premi`ere ´etape dans le processus de criblage virtuel, il est consid´er´e commel’une des approches les plus prometteuses afin acc´el´erer et de r´eduire les c

Trang 1

Institut de la Francophonie pour l’Informatique

M´ emoire de fin d’´ etudes pour l’obtention du diplˆ ome

de Master II Informatique

Option : R´eseaux et Syst`emes Communicants

virtuel sur la grille de calcul

Promotion 17-RSC

R´ edig´ e par : Louacheni Farida

Sous l’encadrement de : Dr.Nguyen Hong Quang Dr.Doan Trung Tung Dr.Bui The Quang

20 novembre 2014

Trang 2

J’adresse mes plus vifs remerciements au Dr.Doan Tung Tung et Dr.QuangBui The de m’avoir encadr´e et prodigu´e maints conseils Je suis tr`es reconnaissante

Trang 3

`

A l’heure actuelle, la grille de calcul est en train de devenir une force motrice jeure pour de nouvelles approches pour la collaboration de science `a grande ´echelle.Plusieurs programmes nationaux et internationaux eScience ont favoris´e la collabo-ration entre chercheurs de diff´erents domaines scientifiques

ma-Dans le domaine biom´edicale, plus pr´ecisement dans la recherche de nouveauxm´edicaments pour les maladies infectieuses La grille de calcul a initi´e plusieursprojets `a grande ´echelle dans les approches de criblage de m´edicaments in-silico

Le projet WISDOM a ´et´e parmi les premiers projets dans le domaine public qui

a fait usage de la grille tout en permettant le docking in-silico pour simuler teraction de m´edicaments potentiels avec des prot´eines cibles Le docking in-silicoest la premi`ere ´etape dans le processus de criblage virtuel, il est consid´er´e commel’une des approches les plus prometteuses afin acc´el´erer et de r´eduire les coˆuts ded´eveloppement de nouveaux m´edicaments pour les maladies n´eglig´ees

l’in-Bien que, de nombreuses applications ont ´et´e d´evelopp´ees pour permettre lecriblage virtuel dont le but d’acc´el´erer le processus de recherche des m´edicaments.Une barri`ere critique de ces programmes est leur complexit´e en terme d’utilisation

et de pr´evoir des proc´edures concises pour les utilisateurs r´eguliers

L’objectif de ce travail est de d´evelopper un portail web conviviale pour effectuer

le criblage virtuel, et de d´eployer un tr`es grand nombre de docking sur la grille

de calcul Pour atteindre ce but, la grille de calcul a ´et´e utilis´e pour acc´el´erer larecherche et la d´ecouverte de nouveaux m´edicaments in-silico et traitements pourles maladies infectieuses

Trang 4

AbstractGrid computing is currently developing into a major driving force for new ap-proaches towards collaborative large scale science Several national and interna-tional eScience programs have fostered collaboration between researchers from dif-ferent scientific domains.

In the biomedical field, more precisely in drug discovery for infectious diseases.Grid computing has initiated several projects on large scale in-silico drug screeningapproaches The project WISDOM was amongst the first projects in the public do-main that made use of grid enabled in-silico docking to simulate the interaction ofpotential drugs with target proteins In-silico docking is the first step in the virtualscreening process, which is one of the most promising approaches to speed-up and

to reduce the costs of the development of new drugs

Although, many applications have been developed to allow in-silico screening,but a critical barrier of these programs is the lack of a suitable, easy, simple way touse and to provide concise procedures for regular users

The main goal of this work is to develop a user-friendly web portal to performvirtual screening and to deploy a large number of docking on grid computing Toachieve this goal, the grid computing was used to accelerate research and discovery

of new drugs in-silico for infectious diseases

Trang 5

Table des mati` eres

1.1 Probl`ematique 1

1.2 Notre contribution 2

1.3 Plan du m´emoire 2

2 Etat de l’art´ 3 2.1 Conception de m´edicaments in-silico 3

2.2 Criblage virtuel ”Vitual Screening” 4

2.2.1 Introduction 4

2.2.2 D´ecouverte de nouveaux m´edicaments avec le criblage virtuel 6

2.2.3 Les diff´erentes strat´egies du criblage virtuel 6

2.2.4 Criblage virtuel `a haut d´ebit 7

2.2.5 Conclusion 7

2.3 Docking 9

2.3.1 Introduction 9

2.3.2 Approches du docking 10

2.3.3 Principe du docking 11

2.3.4 Outils de Docking 12

2.3.5 Conclusion 13

2.4 AutoDock 14

2.4.1 Docking avec AutoDock 15

2.4.2 Conclusion 17

2.5 Grille de calcul 18

2.5.1 Introduction 18

2.5.2 Grille de calcul 18

2.5.3 Organisation virtuelle 19

2.5.4 Architecture g´en´erale d’une grille de calcul 20

2.5.5 Composants de la grille 21

2.5.6 Fonctionnement de la grille 22

2.5.7 Avantages & D´efis de la grille 24

2.5.8 Conclusion 24

2.6 Portail GVSS 26

2.6.1 Introduction 26

2.6.2 La plate-forme GAP 27

2.6.3 Architecture GVSS 28

2.6.4 Conclusion 29

2.7 Plate-formes utilis´es 30

2.7.1 WISDOM 30

2.7.2 DIRAC 33

Trang 6

3 Impl´ementation 37

3.1 Architecture du syst`eme propos´ee 37

3.2 Outils utilis´es 38

3.3 Conception du portail 41

3.4 D´eveloppement du portail du web 48

3.4.1 Les services web 48

4 Exp´erimentation & R´esultats 52 4.1 Conclusion 63

Trang 7

Table des figures

1 Processus de conception de m´edicaments in-silico [11] 4

2 Criblage Virtuel in-silico 5

3 Docking prot´eine-ligand 10

4 Etapes du Docking´ 11

5 Illustration de docking/scoring [6] 12

6 Comparaison des programmes de docking [16] 13

7 Proc´edures de docking avec AutoDock 15

8 La grille de calcul 19

9 Couches de la grille de calcul 21

10 Architecture de grille de calcul [10] 23

11 Portail GVSS 27

12 Architecture Service de criblage virtuel GAP (GVSS) [7] 29

13 Architecture WPE [9] 31

14 Intergiciel DIRAC 33

15 Architecture DIRAC [20] 35

16 Architecture du syst`eme propos´ee 38

17 Workflow soumission de job sur la grille avec Taverna 39

18 Diagramme de classe du portail web 42

19 Cas d’utilisation pour le Ligand 43

20 Cas d’utilisation pour la Prot´eine 44

21 Cas d’utilisation pour les param`etres de grille 45

22 Cas d’utilisation pour le docking 46

23 Cas d’utilisation pour l’administrateur du portail 47

24 Mod`ele MVC 48

25 Description des services web impl´ement´es 49

26 Workflow des services web du portail 51

27 Interface d’accueil du portail web 52

28 Interface de cr´eation d’un nouveau compte 53

29 Interface d’authentification 53

30 Interface de gestion des utilisateurs 54

31 Interface d’ajout d’un nouveau Ligand 54

32 Interface de liste des Ligands disponibles 55

33 Interface de gestion des prot´eines 55

34 Interface de modification d’une prot´eine 56

35 Interface d’ajout de fichier de param`etres de la grille 56

36 Interface d’ajout d’un nouveau projet de docking 57

37 V´erification d’ajout du nouveau projet 57

38 Soumission de job de docking 58

39 T´el´echargement du r´esultat de docking 58

Trang 8

40 Fichier log de docking ”dlg” 59

41 Soumission du projet de docking ProjectZinc1OKE 59

42 T´el´echargement du r´esultat de docking 60

43 Enregistrement du r´esultat du job sur la grille de calcul 60

44 Les fichiers dlg & glg du docking 60

45 Les fichiers log de docking et de la grille dlg & glg 61

46 T´el´echargement du r´esultat des jobs 62

47 Les fichiers des jobs soumis en parall`ele 63

Trang 9

1 Introduction

Par le pass´e, un grand nombre de m´edicaments ont ´et´e d´ecouverts tout simplementgrˆace `a l’identification de principes actifs extraits de substances naturelles historiquementutilis´ees dans la m´edecine non-conventionnelle, ou mˆeme par hasard, ce qu’on nomme

”s´erendipit´e” Mais plus le nombre de m´edicaments connus augmente et plus les lit´es de faire une telle d´ecouverte sont faibles Par la suite, les avanc´ees dans le domaine

probabi-de la synth`ese chimique ont conduit `a une d´emarche de recherche syst´ematique tant l’´elaboration de nouveaux m´edicaments de plus grande efficacit´e La d´ecouverte denouveaux m´edicaments ”drug discovery” est un processus extrˆemement long et fastidieux,

permet-12 `a 15 ans peuvent s’´ecouler entre la d´ecouverte de la mol´ecule et la mise `a disposition

du m´edicament aupr`es des patients Les nouvelles m´ethodes permettant la d´ecouverte denouveaux m´edicaments se doivent donc d’innover afin de mettre en ´evidence des mol´eculesencore inconnues ayant un certain potentiel d’activit´e sur des cibles biologiques connues[Davis et al,2003] Les outils mis en place doivent ˆetre capables de guider les chimistesm´edicinaux dans le choix des mol´ecules `a cribler et `a synth´etiser

Les strat´egies de criblage virtuel, ou in-silico, sont donc depuis quelques ann´ees employ´ees

en tant qu’alternative ou de fa¸con compl´ementaire Ces techniques sont en g´en´eral assezfaciles `a mettre en place, pour un coˆut bien moindre que les criblages exp´erimentaux Deplus, l’´evolution technologique constante de ces derni`eres d´ecennies a permis d’acc´el´ererconsid´erablement le temps de calcul n´ecessaire `a la simulation de syst`emes complexes ou

de bases de donn´ees de plusieurs milliers de mol´ecules Le criblage virtuel est donc d’hui employ´e dans de nombreux projets, afin de s´electionner, au sein de vastes librairies

aujour-de mol´ecules, un nombre restreint de compos´es `a cribler exp´erimentalement

1.1 Probl` ematique

L’axe principal de ce travail se situe dans le domaine de bio-informatique Plus pr´ecisementdans la recherche et la d´ecouverte de nouveaux m´edicaments pour les maladies dangereusescomme : HIV, Ebola, fi`evre de dengue, , par le biais de techniques informatiques Le d´efi

se situe au niveau de la conception de nouveaux m´edicaments, qui est un processus long ettr`es on´ereux, et au niveau du d´eployement d’un grand nombre de docking sur la grille decalcul Cependant, les outils existants sont en manque de moyen simple pour fournir desproc´edures concises pour les utilisateurs r´eguliers (biologistes, chimistes, etc) afin d’ar-ranger les ressources pour mener un amarrage mol´eculaires massif Par cons´equent, cesderniers rencontrent plusieurs difficult´es et probl`emes lors de l’utilisation de ces applica-tions, ce qui entraˆıne une grande perte de temps et d’argent afin d’acc´el´erer la recherche

de nouveaux traitements pour les maladies n´eglig´ees

Trang 10

1.2 Notre contribution

Notre contribution repose sur le d´eveloppement d’un portail web pour le criblage tuel en utilisant la grille de calcul pour faciliter la d´ecouverte et la recherche de nou-veaux m´edicaments pour les maladies graves et n´eglig´ees Nous proposons une interfaceconviviale et facile `a utiliser pour les utilisateurs non-exp´eriment´es (chimistes, biologistes,m´edecins ) en informatique et en grille de calcul Afin de favoriser l’int´erop´erabilit´eentre le portail web et les services de grille de calcul, nous proposons une architecture quipermettra une analyse et un traitement fiable des requˆetes des utilisateurs finaux

vir-1.3 Plan du m´ emoire

Ce m´emoire sera organis´e en 4 parties pr´esentant respectivement : l’´etat de l’art, impl´ation & conception, d´emonstration & r´esultats, conclusion & perspectives Dans la premi`erepartie, un ´etat de l’art est pr´esent´e qui passe en revue le criblage virtuel, le docking, suivie

ement-de l’outil AutoDock Ensuite nous abordons la technologie ement-de grille ement-de calcul, le portailGVSS et les plate-formes WISDOM qui est d´eploy´ee dans la d´ecouverte de nouveauxm´edicaments et DIRAC La deuxi`eme partie du m´emoire pr´esente l’impl´ementation duportail, qui se focalisera sur l’architecture propos´ee, la conception et l’impl´ementation duportail L’avant derni`ere partie porte sur la d´emonstration du portail muni des r´esultatsobtenus `A la fin, ce m´emoire ce termine par une conclusion g´en´erale et quelques perspec-tives

Trang 11

2 Etat de l’art ´

Aujourd’hui, les projets scientifiques produisent et analysent une quantit´e d’informationsans pr´ec´edent, ce qui n´ecessite une puissance de calcul jamais vue auparavant Les lea-ders dans ce d´efi de traitement de donn´ees sont les exp´eriences du LHC au CERN, quiaccumulent des dizaines de p´etaoctets de donn´es chaque ann´ee Cependant, il se r´ev`eleque d’autres domaines scientifiques s’approchent aussi de ces limites Par cons´equent lesutilisateurs devons exploiter les ressources disponibles `a travers le monde de mani`ere ais´ee

et facile Plusieurs travaux existent qui illustrent le d´eveloppement et le d´eploiement desapplications sur l’infrastructure de la grille de calcul, et qui ont montr´e une utilisationefficace des ressources de cette derni`ere Les utilisateurs sont rarement experts en informa-tique et en grille de calcul Pour cette raison ils ont besoin d’un moyen qui facilite l’acc`esaux ressources de la grille dont ils ont besoins d’un cot´e, et qui cache la complexit´e de l’in-frastructure sous-jacente de l’autre cot´e Dans cette partie, nous allons d´ecrire en d´etail latechnique du criblage virtuel ainsi l’amarrage ”Docking”, le principe de la grille de calcul

et son rˆole dans la d´ecouverte de nouveaux m´edicaments pour les maladies n´egilg´ees etdangereuses Puis, nous pr´esentons le portail GVSS et la plate-forme WISDOM d´eployerpour acc´eder aux services de grille de calcul et DIRAC

– Site de liaison, zones de prot´eines actives qui interagissent physiquement avec

le ligand pour la formation d’un compos´e

2.1 Conception de m´ edicaments in-silico

La conception de m´edicaments assist´ee par ordinateur emploie la chimie computationnellepour la d´ecouverte, l’am´elioration et l’´etude de m´edicaments et mol´ecules biologiquementactives En effet, l’outil informatique aide la conception de m´edicaments `a des ´etapessp´ecifiques du processus :

• Dans l’identification des compos´es potentiellement th´erapeutiques, en utilisant lecriblage virtuel ”virtual screening”

• Dans le processus d’optimisation de l’affinit´e et de la s´electivit´e des mol`ecules tentielles vers les tˆetes de s´erie ”lead” ou appel´es encore prototypes

po-• Dans le processus d’optimisation du lead de s´erie par rapport aux propri´et´es macologiques recherch´ees tout en maintenant une bonne affinit´e de cette mol´ecule

Trang 12

phar-Toutes ces ´etapes d’intervention de l’outil informatique sont pr´esent´ees dans le sch´emar´ecapitulatif suivant.

Figure 1 – Processus de conception de m´edicaments in-silico [11]

2.2 Criblage virtuel ”Vitual Screening”

L’identification d’une cible pharmaceutique peut se faire par diff´erentes m´ethodes Unefois la cible identifi´ee diagnostiqu´ee, il faut tester un ensemble de mol´ecules candidates surcette cible, selon un processus qualifi´e de screening On distingue deux types de criblage :

le criblage virtuel, qui est r´ealis´e in-silico , tout en permettant la r´ealisation de mani`ererapide et `a moindre coˆut des pr´edictions de l’activit´e des mol´ecules Et le criblage r´eel `ahaut d´ebit, quand `a lui il permet de tester rapidement ”in-vitro” l’activit´e de compos´esbiologiques, et cela est limit´e par le nombre de compos´es `a tester en un temps raisonnable

et par le coˆut des tests

et de s´electionner les plus susceptibles d’interagir avec une cible donn´ee [13]

Aujourd’hui, le criblage virtuel est largement utilis´e pour identifier de nouvelles substancesbio-active et pour pr´edire la liaison d’une grande base de donn´ee de ligands `a une cibleparticuli`ere, dans le but d’identifier les compos´es les plus prometteurs Il s’agit d’unem´ethode qui vise `a identifier les petites mol´ecules pour l’interaction avec les sites deprot´eines cibles afin de faire des analyses et des traitements ult´erieures Plus pr´ecisement,

le criblage virtuel est d´efini comme l’´evaluation automatique de tr`es grandes banques decompos´es `a l’aide de programmes informatiques, il se r´ef´ere `a une s´erie in-silico, qui est une

Trang 13

technique effectuer `a base d’ordinateur ou par l’interm´ediaire des mod`eles math´ematiques

et des simulations informatique, qui aide dans la d´ecouverte de nouveaux m´edicaments

et de d´eterminer de nouveaux compos´es les plus susceptibles pour se lier `a une mol´eculecible d’une structure 3D connue [2]

Figure 2 – Criblage Virtuel in-silico(http: // serimedis inserm fr)Compte tenu de l’augmentation rapide du nombre de prot´eines, le criblage virtuel continue

`

a croitre comme une m´ethode efficace pour la d´ecouverte de nouveaux inhibiteurs et denouveaux m´edicaments Il est utilis´e dans les premi`eres phases du d´eveloppement denouveaux m´edicaments Il a pour but de s´electionner au sein de chimioth`eques vari`ees desensembles r´eduits de mol´ecules dont le potentiel d’activit´e envers la cible th´erapeutiquevis´ee est sup´erieur `a celui des autres mol´ecules [Enyedy Egan, 2008], c-`a-d, les mol´eculesqui peuvent influencer l’activit´e de la prot´eine cible Dans ce cas, le criblage a pourobjectif l’identification des motifs structuraux essentiels dans la liaison ligand-r´ecepteur,

et la discrimination des meilleurs compos´es au sein de chimioth`eques orient´ees comprenantdes mol´ecules appartenant `a une mˆeme s´erie

Le criblage virtuel est tr`es utile et consid´er´e comme un outil efficace pour acc´el´erer lad´ecouverte de nouveaux traitements et la recherche des biblioth`eques de petites mol´eculesafin d’identifier les structures qui sont les plus susceptibles de se lier `a une cible dem´edicament, g´en´eralement un r´ecepteur de prot´eine [14] Il d´epend de la quantit´e d’in-formation disponibles sur la cible d’une maladie particuli`ere Les techniques de criblagevirtuel sont devenues des outils indispensables dans la chimie m´edicinale qui offrent unmoyen d’am´eliorer la phase de d´ecouverte de m´edicaments Elles sont utilis´ees de mani`erequotidienne aussi bien dans les laboratoires de recherche publics que dans les grands la-boratoires pharmaceutiques

Trang 14

2.2.2 D´ecouverte de nouveaux m´edicaments avec le criblage virtuel

Le criblage virtuel est la strat´egie in-silico la plus utilis´ee pour l’identification de compos´es(”hits”) dans le cadre de la recherche de nouveaux m´edicaments Celui-ci fait d´esormaispartie int´egrante de la plupart des programmes de recherche de compos´es bioactifs, queceux-ci se d´eroulent en milieu acad´emique ou industriel, car il constitue un compl´ement es-sentiel au criblage biologique haut-d´ebit Le criblage virtuel permet l’exploration de grandechimioth`eques ( > 106 mol´ecules) `a la recherche de compos´es actifs vis-`a-vis d’une cibleth´erapeutique donn´ee Ce processus vise `a r´eduire de fa¸con significative la chimioth`eque ded´epart `a une liste limit´ee de compos´es jug´es les plus prometteurs Cette approche conduitsouvent `a une nette am´elioration de la ”concentration” de mol´ecules actives pour la cible

”hit-rate”, tandis qu’une s´election al´eatoire de mol´ecules de la chimioth`eque ne sauraitfournir un tel enrichissement Ainsi, le temps aussi bien que les coˆuts de l’identification

de nouveaux compos´es peuvent ˆetre r´eduits de fa¸con remarquable Plus pr´ecis´ement, lerecours au criblage in-silico, en pr´ealable `a un criblage biologique `a plus petite ´echelle,permet d’ajuster au mieux le nombre de tests exp´erimentaux ”in-vitro” en fonction descontraintes budg´etaires et temporelles Quand les conditions le permettent, le criblagebiologique peut ˆetre employ´e en parall`ele au criblage virtuel, afin d’`evaluer l’efficacit´e de

ce dernier et de pouvoir am´eliorer les param`etres des programmes informatiques utilis´es

La pertinence de la mol´ecule employ´ee est la premi`ere condition pour le succ`ees d’uncriblage virtuel, bien avant celle des algorithmes utilis´es pour la recherche de touches ausein de la mol´ecule En effet, seule une librairie de compos´es suffisamment diverse peutgarantir une exploration satisfaisante de l’espace chimique, maximisant ainsi les chances

de d´ecouvrir de nouveaux compos´es Par ailleurs, pour ´eviter de perdre du temps avec desmol´ecules poss´edant des caract´eristiques incompatibles avec celles de compos´es d’int´erˆetpharmaceutique, le processus de criblage comporte g´en´eralement une ´etape pr´eliminaire defiltrage Cette tˆache, qui peut ˆetre prise en charge par des programmes sp´ecialis´es, consiste

`

a exclure les compos´es toxiques Ensuite, ne sont retenus que les compos´es ob´eissant `a desd´efinitions empiriques simples du profil de mol´ecule active

2.2.3 Les diff´erentes strat´egies du criblage virtuel

Suivant la nature de l’information exp´erimentale disponible, on distingue deux approchesdistinctes pour le criblage virtuel La premi`ere se base sur la structure de la cible, quiest connue sous le nom de ”structure-based virtual screening”, qui rapporte souvent auxalgorithmes de docking prot´eine-ligand Elle consiste `a estimer la compl´ementarit´e struc-turale de chaque mol´ecule cribl´ee avec le site actif consid´er´e En revanche, ces m´ethodessont g´en´eralement plus coˆuteuses en puissance de calcul et leur emploi requiert souventune expertise plus importante

Trang 15

La seconde, reposant sur la connaissance d’un nombre suffisant d’information nant une ou plusieurs mol´ecules actives de r´ef´erence, est appel´ee ”ligand-based virtualscreening” Cette approche est rapide et relativement simple `a mettre en oeuvre, maisson majeur inconv´enient est l’interd´ependance envers les informations de r´ef´erence uti-lis´ees pour construire le mod`ele de pr´ediction d’affinit´e Bien que ces deux approchessoient surtout utilis´ees de mani`ere exclusive, leur combinaison lors du criblage permet demaximiser les chances de succ`es pour identifier de nouvelles touches ”hits” Dans le cadre

concer-de ce travail, nous utilisons l’approche ”structure-based”

2.2.4 Criblage virtuel `a haut d´ebit

La simulation de docking mol´eculaire est une proc´ed´e utile pour la pr´ediction des tiels interaction des complexes de petite mol´ecule dans des sites de liaison de prot´eines, cesinformations sont indispensables dans la conception de m´edicaments bas´ee sur la struc-ture (SBDD) ”Structure Based Drug Discovery” [4] Plusieurs programmes de docking,comme DOCK, GOLD, Autodock, Glide, LigandFit et FlexX, etc se sont montr´es utilesdans le pipeline de la d´ecouverte in-silico de m´edicaments La m´ethode de base derri`ere

poten-la simupoten-lation de docking mol´eculaire est de g´en´erer toutes les conformations possiblesd’une mol´ecule de docking et ´evaluer entre eux l’orientation la plus favorable en tant quemode de liaison de la mol´ecule `a l’aide d’une fonction de scoring Une recherche exhaus-tive sur toutes les conformations correctes d’un compos´e est un processus qui consommebeaucoup de temps Par cons´equent, une simulation de docking efficace pour le criblage

`

a grande ´echelle `a haut d´ebit (HTS) consommera de grandes ressources informatiques

Il n´ecessite quelques Tera-flops par tˆache pour effectuer le docking de milliers de pos´es pour une prot´eine cible Cependant, les outils existants manquent de moyen simplepour pr´evoir des proc´edures de fa¸con concise pour les utilisateurs r´egulier afin d’organi-ser les ressources pour mener un amarrage mol´eculaires massives La technologie de lagrille commence une nouvelle `ere de criblage virtuel en raison de son efficacit´e ainsi queson rapport coˆut-efficacit´e Le coˆut des tests in-vitro traditionnelle est g´en´eralement tr`es

Trang 16

une attention particuli`ere `a des cas concrets d’utilisation ainsi qu’au d´eveloppementsfutur Le criblage virtuel fournit une solution compl´ementaire pour le criblage virtuel

`

a haut d´ebit ”HTS”, o`u il comprend des techniques de calcul novatrices L’avantage

du criblage virtuel ”in-silico” est donc de fournir une petite liste de mol´ecules `a testerexp´erimentalement et ainsi r´eduire les coˆuts et gagner du temps On peut aussi explorerrapidement de nombreuses mol´ecules pour se focaliser ensuite, au niveau exp´erimental, surles mol´ecules les plus int´eressantes Les difficult´es intrins`eques aux techniques `a haut d´ebitainsi que celles rencontr´ees lors des ´etapes d’optimisation des mol´ecules chimiques, ontencourag´e le d´eveloppement de nouvelles approches, telles que les techniques de criblagevirtuel par docking mol´eculaire

Trang 17

2.3 Docking

2.3.1 Introduction

La mod´elisation de la structure d’un complexe prot´eine-ligand est tr`es importante pour

la compr´ehension des interactions de liaison entre un compos´e potentiel ”ligand” et sacible th´erapeutique ”prot´eine”, et pour la conception de m´edicaments `a base de structuremoderne

Le docking ou ”amarrage, arrimage” est une proc´ed´e tr`es utile qui vise `a pr´edire action potentiel de la structure d’un complexe mol´eculaire `a partir des petites mol´eculesdans les sites de liaison de prot´eine afin d’acc´el´erer la recherche et la d´ecouverte de nou-veaux m´edicaments in-silico (c-`a-d `a l’aide d’ordinateur), ”Le docking in-silico est lad´etermination de la structure 3D des complexes prot´eiques `a l’´echelle atomique, qui per-met de mieux comprendre la fonction biologique de ces complexe [1]” Plus pr´ecisement,

l’inter-le docking consiste `a trouver la meilleure position d’un ligand (petite mol´ecule) dans lesite de liaison d’un r´ecepteur (prot´eine) de fa¸con `a optimiser les interactions avec unr´ecepteur, ´evaluer les interactions ligand-prot´eine de fa¸con `a pouvoir discriminer entre lespositionnement observ´ees exp´erimentalement et les autres De fa¸con g´en´erale, le docking

a pour but de simuler l’interaction entre les mol´ecules in-silico, et les r´esultats obtenusservent `a pr´edire la structure et les propri´et´es de nouveaux complexes [3]

Historiquement, les premiers outils de docking ob´eissaient au principe dit : ”lock-and-key”(principe clef-serrure), selon lequel le ligand qui repr´esente la clef, est compl´ementaire auniveau g´eom´etrique du site actif du r´ecepteur, qui repr´esente la serrure [Yuriev et al.,2011] Les ligands sont des petites mol´ecules destin´ees `a inhiber l’activit´e d’une prot´eine,qui constitue le r´ecepteur Il permet aussi, de pr´edire la structure intermol´eculaire entredeux mol´ecules en une structure tridimensionnelle 3D, les modes de liaison ou les confor-mations possibles d’un ligand `a un r´ecepteur, et de calculer l’´energie de liaison La tech-nique de docking pr´evoit ´egalement la r´esistance de la liaison, l’´energie du complexe, lestypes de signaux produits et estime l’affinit´e de liaison entre deux mol´ecules Elle joue

un rˆole tr`es important dans l’aide `a la d´ecision, afin de d´eterminer quel ligand candidatinteragira le mieux avec un r´ecepteur prot´eine cible [15]

Le docking prot´eine-ligand est utilis´e pour v´erifier la structure, la position et l’orientationd’une prot´eine quand elle interagit avec les petites mol´ecules comme les ligands Son butest de pr´edire et de classer les structures r´esultant de l’association entre un ligand donn´e

et une prot´eine cible d’une structure 3D connue

Trang 18

Figure 3 – Docking prot´eine-ligand

Le docking ligand-prot´eine reste donc la m´ethode la plus souvent employ´ee, car elle met une ´evaluation rapide de bases de milliers, voire de millions de mol´ecules

per-En principe, un programme de docking doit ˆetre capable de g´en´erer les modes de liaisonattendus pour des ligands dont la position adopt´ee au sein du site actif est connue dans

un temps raisonnable Pour cela, il est n´ecessaire que l’algorithme de recherche mationnelle puisse explorer l’espace conformationnel le plus exhaustivement possible et

confor-de fa¸con efficace Classiquement, on juge la qualit´e du docking en mesurant le RMSD(Root Mean Square Deviation) sur les atomes entre la pose obtenue en docking, et la poseobserv´ee exp´erimentalement si elle existe

2.3.2 Approches du docking

Les diff´erentes approches du docking se distinguent au niveau de leurs conditions plication et de la nature des informations qu’elles peuvent fournir La pertinence duchoix d’un programme de docking donn´e repose en premier lieu sur l’ad´equation entreces caract´eristiques et celles du syst`eme ´etudi´e L’efficacit´e de l’algorithme choisi sera parailleurs un compromis entre la rapidit´e d’ex´ecution et la pr´ecision des r´esultats

d’ap-Aussi en fonction du but recherch´e et du besoin de pr´ecision voulu, trois degr´es sont

en g´en´eral consid´er´es : rigide (les mol´ecules sont consid´er´ees comme rigides), semi-flexible(une mol´ecule rigide et l’autre flexible), flexible (les deux flexibles) Le niveau semi-flexibleest souvent appliqu´e dans le cas prot´eine-ligand o`u une des deux mol´ecules (le ligand) detaille moindre est consid´er´ee comme flexible et la prot´eine comme rigide de fa¸con `a ne pastrop complexifier le syst`eme

Trang 19

Le processus de docking consiste `a faire interagir une petite mol´ecule organique avec ler´ecepteur, g´en´eralement de nature prot´eique La technique de docking comprend 4 ´etapesprincipales :

1 Pr´eparer les fichiers pour la prot´eine

2 Pr´eparer les fichiers pour le ligand

3 Pr´eparer les fichiers de param`etres pour la grille

4 Pr´eparer les fichiers de param`etres pour le docking

Le sch´ema ci-apr`es montre clairement les ´etapes de docking

Figure 4 – ´Etapes du Docking

2.3.3 Principe du docking

Le docking mol´eculaire s’accomplit en deux ´etapes compl´ementaires La premi`ere est

le Docking, qui consiste `a rechercher les conformations du ligand capables `a ´etablir desinteractions id´eales avec le r´ecepteur en utilisant des algorithmes de recherche : algorithmeg´en´etique, la m´ethode de Monte Carlo (qui utilise des proc´ed´es al´eatoires) La deuxi`emedite le ”Scoring”, qui sont des m´ethodes math´ematiques et des fonctions discriminant lesposes de docking correctes de celles incorrectes Ces m´ethodes sont utilis´ees pour estimer

la puissance d’interaction et l’affinit´e de liaison et qui permet d’´evaluer les conformationspar un calcul rapide d’´energie d’interaction des ligands avec un r´ecepteur pour ne retenirque la meilleure

Trang 20

La formule utilis´ee pour le scoring est la suivante :

4G= 4complexe - 4ligand - 4prot´eine

La figure ci-dessous sch´ematise le principe du docking/scoring, o`u R symbolise une ture du r´ecepteur Tandis que, A, B et C repr´esentent les petites mol´ecules

struc-Figure 5 – Illustration de docking/scoring [6]

Le docking peut ˆetre interpr´et´e de mani`ere qualitative par observation de l’entit´e liganddans la cavit´e de la prot´eine, mais ´egalement de mani`ere quantitative par traitement desdonn´ees provenant des fonctions de scoring

2.3.4 Outils de Docking

A l’heure actuelle, plus de 30 programmes de docking mol´eculaires (commerciaux ounon) sont disponibles [6] Les plus fr´equemment cit´es sont respectivement : AutoDock[9], GOLD, FlexX, DOCK et ICM Ils permettent notamment un criblage rapide devastes librairies de compos´es Ces programmes reposent le plus souvent sur des algo-rithmes sp´ecifiques (Algorithme g´en´etique, Recuit Simul´e ), leur protocole est compos´e

de 2 ´etapes essentielles Docking/Scoring

Pour accomplir la tˆache de docking, les outils d’amarrage mol´eculaire vont g´en´erer unes´erie de poses diff´erentes de liaison au ligand et en utilisant une fonction de notation

”scoring” pour ´evaluer les affinit´es de liaison de ligand pour les poses g´en´er´ees afin ded´eterminer le meilleur mode de liaison

Trang 21

Figure 6 – Comparaison des programmes de docking [16]

Comme la figure ci-dessus montre, le programme AutoDock est le plus cit´e et le plusutilis´e parmi les autres programmes de docking

2.3.5 Conclusion

Le processus de docking est l’un des premi`eres ´etapes dans la conception de m´edicaments,

il consiste `a faire interagir une petite mol´ecule organique avec un r´ecepteur, g´en´eralement

de nature prot´eique En cons´equent, le plus grand avantage des m´ethodes de dockingprot´eine-ligand est qu’ils peuvent proposer des hypoth`eses structurelles sur la fa¸con dontune petite mol´ecule peut interagir avec sa cible macromol´ecule Des ´etudes ont montr´e quecertains algorithmes de docking sont plus fiables que d’autres pour reproduire le mode defixation exp´erimentale de ligand La contrepartie de ces techniques est g´en´eralement unehausse des temps de calcul et des ressources A l’inverse, un projet impliquant le criblagevirtuel de millions de produits ne pourra pas ˆetre accompli avec ce type d’algorithmemais plutˆot des codes plus simples, dans lesquels les approximations engendrent un gain

de temps de calcul et d’argent Le nombre de programme de docking actuellement nibles est ´elev´e et n’a cess´e d’augmenter au cours des derni`eres d´ecennies Les exemplessuivants pr´esentent un aper¸cu des programmes les plus communs de docking prot´eine-ligand (LigandFit, FlexX, AutoDock) Dans ce travail nous avons utilis´e le programmeAutoDock

dispo-Le docking est un type d’application facilement distribuable sur une grille De sorteque, de nombreuses ressources de calcul et de stockage ont ´et´e mises `a disposition par

le projet EGEE (Enabling Grids for E-sciencE), qui est financ´e par la commission rop´eenne et qui a pour but de construire sur les plus r´ecentes avanc´ees des technologies

eu-de grille et eu-de d´evelopper un service d’infrastructure de grille disponible 24h/24h

Trang 22

2.4 AutoDock

AutoDock [4] est un programme flexible, utiliser pour le docking prot´eine-ligand Il s’agitd’un ensemble de proc´edures, dont le but de pr´edire l’interaction de petites mol´ecules,telles que des m´edicaments candidats ”ligand” ou des substrats `a un r´ecepteur dont lastructure 3D est connue AutoDock fonctionne essentiellement comme une proc´edure endeux ´etapes : le calcul de la carte d’interaction du site de liaison du r´ecepteur qui estr´ealis´e avec autogrid, et la position de ligand sur la carte d’interaction, qui est effectu´eeavec autodock

Le programme AutoGrid est charg´e de calculer les cartes d’interaction des grilles afin

de maximiser l’´etape d’´evaluation des diff´erentes configurations du ligand Pour cela unegrille entoure la prot´eine r´eceptrice et un atome sonde est plac´e `a chaque intersection.L’´energie d’interaction de cet atome avec la prot´eine est calcul´ee et attribu´ee `a l’empla-cement de l’atome sonde sur la grille Une grille d’affinit´e est calcul´e pour chaque typed’atome du ligand Le temps de calcul de l’´energie en utilisant les grilles est proportionnel

au nombre d’atomes du ligand uniquement, il est ind´ependant du nombre d’atomes dur´ecepteur

Le programme AutoDock effectue la partie de recherche et d’´evaluation des diff´erentesconfigurations du ligand Il est possible d’utiliser plusieurs techniques pour obtenir lesconfigurations (par recuit simul´e, algorithme g´en´etique ou par algorithme g´en´etique La-marckien) Pour la m´ethode Monte Carlo, `a chaque pas un d´eplacement au hasard detous les degr´es de libert´e est effectu´e (translation, rotation, torsion) Les ´energies de lanouvelle et de l’ancienne configuration sont compar´ees Si la nouvelle est plus basse elleest gard´ee, sinon elle est conserv´ee ou rejet´ee

La version actuelle du programme est la version 4.2, qui fournit de nouvelles tionnalit´es importantes pour le docking comme la flexibilit´e des r´esidus de prot´eines etdes fonctions de score de haute qualit´e Afin de pouvoir r´ealiser le criblage virtuel avecAutoDock, un ensemble d’outils n´ecessaires doivent ˆetre mis en place :

fonc-• Java OpenJDK (openjdk-7-jdk)

• Python 2.7

• AutoDock4.2 (http: // autodock scripps edu)

• MGLTools (http: // mgltools scripps edu/)

• autodocksuite-4.2.5.1-i86Linux2.tar.gz

• AutoDockTools

• Les fichiers n´ecessaires t´el´echargeable depuis le site de base de donn´ee de prot´eine :www.pdb.com

Trang 23

2.4.1 Docking avec AutoDock

AutoDock a besoin de connaˆıtre les types, les charges et la liste de liaison de chaque atome,afin de pouvoir effectuer la proc´edure de docking Tout d’abord, il faut chercher dans labase de donn´ee PDB (Protein Data Bank) dans le site (http: // www pdb org,http:// www rcsb org), les fichiers pdb pour la prot´eine et le ligand

Figure 7 – Proc´edures de docking avec AutoDock

La proc´edure de docking avec AutoDock se d´ecompose en plusieurs ´etapes :

1 Pr´eparer le fichier d’entr´ee de prot´eine Dans cette ´etape un fichier PDBQT(ProteinData Bank, Partial Charge (Q), & Atom Type (T)) sera cr´e´e, qui contient les atomes

et les charges partielles

Trang 24

2 Pr´eparer le fichier d’entr´ee de ligand Cette ´etape est tr`es semblable `a la pr´eparation

du prot´eine Nous cr´eons un fichier dont l’extension est PDBQT du ligand.Lapr´eparation s’effectue comme suit :

> input ligand.pdb

> output ligand.pdbqt

> 1.5.6/bin/pythonsh 1.5.6 /MGLToolsPckgs/AutoDockTools/Utilities24/

/usr/local/MGLTools-prepare ligand4.py -r ligand.pdb

3 G´en´eration d’un fichier de param`etre de la grille Maintenant, nous devons d´efinirl’espace en 3D, qu’AutoDock consid`erera pour le docking Dans cette phase, nousallons cr´eer les fichier d’entr´ees pour ”AutoGrid4”, qui permettra de cr´eer lesdiff´erents fichiers de carte ”map file” et le fichier de donn´ees de la grille ”gpf”(gridparameter file)

> input ligand.pdbqt & protein.pdbqt

> output protein.gpf

> 1.5.6/bin/pythonsh 1.5.6/MGLToolsPckgs/AutoDockTools/Utilities24/

/usr/local/MGLTools-prepare gpf4.py -l ligand.pdbqt -r protein.pdbqt

4 G´en´eration des fichiers de cartes et de donn´ees de la grille Dans l’´etape pr´ec´edente,nous avons cr´e´e le fichier de param`etres de la grille, et maintenant nous allons utiliser

”AutoGrid4” pour g´en´erer les diff´erents fichiers de cartes et le fichier principal dedonn´ees de la grille

> input protein.pdbqt & protein.gpf

> autogrid4 -p protein.gpf

Apr`es avoir lanc´e autogrid, plusieurs nouveaux fichiers avec l’extension map secr´eent, qui correspondent `a chaque type d’atome de ligand et des fichiers auxiliaires.Ces fichiers sont importants dans le processus de docking

5 G´en´eration du fichier de param`etre de docking Cette ´etape consiste `a pr´eparer lesfichiers de docking (dpf)

> input ligand.pdbqt & protein.pdbqt

> output ligand protein.dpf

> /usr/local/MGLTools-1.5.6/bin/pythonsh /usr/local/

MGLTools-1.5.6/MGLToolsPckgs/ AutoDockTools/

Utilities24/prepare dpf4.py -l ligand.pdbqt -r protein.pdbqt

Trang 25

On peut pr´eparer les fichiers de param`etres pour la grille et pour le docking sans liser l’outil ADT, en utilisant un script shell (voir annexe) pour pr´eparer ces fichiers.

uti-Le r´esultat de ce script sont respectivement les fichiers : dpf ”docking parameter file”

et gpf ”grid parameter file”

6 `A ce stade, nous aurions cr´e´e tout un tas de diff´erents fichiers Cette avant derni`ere

´

etape consiste `a ex´ecuter autodock avec la commande ci-apr`es :

> input protein ligand.gpf

> output result.dlg protein ligand.gpf

> autodock4 -p protein ligand.dpf -l result.dlg

7 La derni`ere ´etape sera consacr´ee `a l’analyse des r´esultats de docking Apr`es avoirtermin´e avec succ`es la proc´edure de docking Le meilleur r´esultat pour le docking,sont les conformations qui poss`edent une basse ´energie AutoDock peut faire unepremi`ere analyse des r´esultats en regroupant les solutions en classes (clusters) enfonction de leur proximit´e spatiale La mesure de la proximit´e entre deux solutionsest calcul´ee par la racine de la moyenne des carr´es des ´ecarts (Root Mean SquareDeviation RMSD) de leurs coordonn´ees atomiques Si le RMSD entre mol´ecules estinf´erieur `a une distance seuil, ces deux solutions sont dans la mˆeme classe Le seuil dedistance est appel´e ”tol´erance de classe” et sa valeur par d´efaut, pour AutoDock,est de 0,5 Ce param`etre est transmis `a AutoDock par le fichier de param`etrage

”dpf” avant le lancement du docking

2.4.2 Conclusion

Comme nous avons mentionn´e dans la partie de docking, l’amarrage avec AutoDock estune proc´ed´e qui comporte plusieurs ´etapes Ce qui n´ecessitera une pr´eparation pr´ealabledes fichiers pour le docking Le processus de docking est un sujet essentiel pour progr´esserdans la compr´ehension des m´ecanismes d’interaction mol´eculaires et pour le d´eveloppementd’outils pr´edictifs dans le domaine de la m´edecine Dans cette partie, nous avons pr´esent´e

la proc´edure du docking avec AutoDock4.2 en utilisant l’outil AutoDockTools, et nousavons appliqu´e les ´etapes de docking sur un exemple concret dans le but de comprendrecette technique qui va nous aider dans la prochaine phase de lancement des jobs sur lagrille de calcul pour faire le docking

Trang 26

2.5 Grille de calcul

2.5.1 Introduction

Les chercheurs travaillent sur la compr´ehension des changements climatiques, les ´etudesoc´eanographiques, la surveillance et la mod´elisation de la pollution environnementale, lascience des mat´eriaux, l’´etude des proc´ed´es de combustion, la conception de m´edicaments,

la simulation des mol´ecules et le traitement de donn´ees dans le domaine de la physiquedes particules Ils ont ´et´e confront´es `a plusieurs probl`emes informatiques, o`u ils avaientbesoin de processeurs plus puissants, de plus grandes capacit´es de stockage des donn´ees,

de meilleurs moyens d’analyse et de visualisation Les r´ecents progr`es de la technologiedes r´eseaux tr`es haut d´ebit courtes et longues distances ont rendu possible la construc-tion de syst`emes r´epartis de hautes performances, distribu´es `a l’´echelle plan´etaire dontcertains des constituants sont des grappes de PC ou des calculateurs parall`eles Cepen-dant les applications scientifiques parall`eles sont par nature gourmandes en ressources decalcul Il peut ˆetre int´eressant de chercher `a les ex´ecuter dans le cas o´u les ressources lo-cales, cluster de laboratoire, centre de calcul ne suffisent plus N´eanmoins, les ordinateursd’une entreprise ne travaillent presque jamais `a pleine charge Exploiter chaque seconde

de latence permet de d´egager de la puissance de calcul, ainsi que des espaces de stockageconsid´erables, le tout pour un coˆut souvent inf´erieur `a celui d’un investissement pourl’acquisition d’un nouveau mat´eriel Les technologies de grille de calcul ou ”Grid Compu-ting”, permettent de mettre en partage, de fa¸con s´ecuris´ee, les donn´ees et les programmes

de multiples ordinateurs, qu’ils soient de bureau, personnels ou super-calculateurs Cesressources sont mises en r´eseau et partag´ees grˆace `a des solutions logicielle d´edi´ees [5].Elles peuvent ainsi g´en´erer, `a un instant donn´e, un syst`eme virtuel dot´e d’une puissancegigantesque de calcul et une capacit´e de stockage en rapport pour mener `a bien des pro-jets scientifiques ou techniques requ´erant une grande quantit´e de cycles de traitement oul’acc`es `a de gros volumes de donn´ees

2.5.2 Grille de calcul

La grille de calcul ou ”grid computing” est une technologie en pleine expansion dont le butd’offrir `a la communaut´e scientifique des ressources informatiques virtuellement illimit´ees.Dans sa version la plus ambitieuse, la grille est une infrastructure logicielle permettant

de f´ed´erer un grand nombre de ressources de calcul, de bases de donn´ees et d’applicationssp´ecialis´ees distribu´ees `a travers le monde Prabhu d´efinit la grille de calcul comme : ”Unensemble de ressources de calcul distribu´e sur un r´eseau local ou ´etendu qui apparaˆıt `a unutilisateur final ou une large application en tant que syst`eme informatique virtuel” [5]

La grille de calcul a pour but de r´ealiser le partage flexible et coordonner de ressourcesainsi que la r´esolution coop´erative de probl`eme au sein d’organisation virtuelles (VO)

`

A l’origine, la grille ´etait con¸cue comme un grand nombre d’ordinateurs en r´eseau, o`ules ressources de calcul et de stockage ´etaient partag´ees en fonction des besoins et `a la

Trang 27

demande des utilisateurs La grille fournit les protocoles, les applications et les outils ded´eveloppement pour r´ealiser ce partage dynamiquement et `a grande ´echelle Ce partageest hautement contrˆol´e pour d´efinir qui partage quoi, qui utilise quoi, et sous quellesconditions Un syst`eme de grille est obligatoirement hautement dynamique puisque lesfournisseurs et les utilisateurs de ressources varient en fonction du temps Elle permetainsi de construire une organisation virtuelle `a partir de comp´etences et de ressourcescompl´ementaires, r´eparties dans plusieurs institutions, mais qui seront visibles comme untout coh´erent par les personnes partageant un objectif commun trop complexe pour ˆetreabord´e par une seule ´equipe Les technologies de grille permettent le partage, l’´echange, lad´ecouverte, la s´election et l’agr´egation de larges ressources h´et´erog`enes, g´eographiquementdistribu´es via Internet tels que des capteurs, des ordinateurs, des bases de donn´ees, desdispositifs de visualisation et des instruments scientifiques La grille de calcul est largementutilis´e dans plusieurs domaines : chimie, bio-informatique, math´ematique, biom´edecine

Figure 8 – La grille de calcul

2.5.3 Organisation virtuelle

La grille de calcul prend en charge plusieurs organisations virtuelles, qui partagent desressources entre elles Une Organisation Virtuelle (VO), est un groupe de chercheursayant des int´erˆets scientifiques et des exigences scientifiques similaires, qui travaillent encollaboration avec autres membres et qui partagent des ressources (donn´ees, logiciel, pro-grammes, CPU, espace de stockage), ind´ependamment de leur emplacement g´eographique.O`u chaque organisation virtuelle g`ere sa propre liste de membres, selon les besoins et lesobjectifs de la VO Les chercheurs doivent adh´erer `a une VO afin d’utiliser les ressourcesinformatiques de la grille fournie par EGI (https: // www egi eu)

Trang 28

EGI (European Grid Infrastructure) est une suite du projet EGEE, qui vise `a p´erenniserl’infrastructure de grille en l’ouvrant `a toutes les disciplines scientifiques tout en int´egrantles innovations sur le calcul distribu´e [24] EGI offre un support, des services et des outilspour permettre les membres de VO de profiter de leurs ressources EGI accueille actuelle-ment plus de 200 VO pour les communaut´es ayant des int´erˆets aussi divers que sciences de

la terre, m´edecine, bio-informatique, sciences informatiques et math´ematiques ou sciences

de la vie

2.5.4 Architecture g´en´erale d’une grille de calcul

L’architecture d’une grille de calcul est organis´ee en couches Bien que chaque projet ait

sa propre architecture, une architecture g´en´erale est importante pour expliquer certainsconcepts fondamentaux des grilles, pr´esent´es ci-dessous :

• La couche Fabrique (Fabric layer)

C’est la couche de plus bas niveau, elle est en relation directe avec le mat´eriel afin

de mettre `a disposition les ressources partag´ees Les ressources fournies par cettecouche sont d’un point de vue physique des ressources telles que des processeurspour le calcul, des bases de donn´ees, des annuaires ou des ressources r´eseau

• La couche r´eseau (Network layer)

Elle impl´emente les principaux protocoles de communication et d’authentificationn´ecessaire aux transactions sur un r´eseau de type grille Les protocoles de communi-cation permettent l’´echange des donn´ees `a travers les ressources du niveau fabrique.Ces protocoles d’authentification s’appuient sur les services de communication pourfournir des m´ecanismes s´ecuris´es de v´erification de l’identit´e des utilisateurs et desressources

• La couche ressource (Resource layer)

Cette couche utilise les services des couches connectivit´e et fabrique pour collecterdes informations sur les caract´eristiques des ressources, les surveiller et les contrˆoler

La couche ressource ne se pr´eoccupe pas des ressources d’un point de vue global,elle ne s’int´eresse pas `a leur interaction, ceci incombe `a la couche collective Elle nes’int´eresse qu’aux caract´eristiques essentielles des ressources et `a la fa¸con dont elles

se comportent

• La couche collective (Collective layer)

Elle se charge des interactions entre les ressources Elle g`ere l’ordonnancement et

la co-allocation des ressources en cas de demande des utilisateurs faisant appel `aplusieurs ressources simultan´ement C’est elle qui choisit sur quelle ressource decalcul faire ex´ecuter un traitement en fonction des coˆuts estim´es Elle s’occupe

´

egalement des services de r´eplication des donn´ees En outre, elle est en charge de lasurveillance des services et elle doit assumer la d´etection des pannes

Trang 29

• La couche application (Application layer)

C’est la couche la plus haute du mod`ele, elle correspond aux logiciels qui utilisent

la grille pour fournir aux utilisateurs ce dont ils ont besoin, qu’il s’agisse de calcul,

ou de donn´ees Les applications utilisent des services de chacune des couches del’architecture

Figure 9 – Couches de la grille de calcul

2.5.5 Composants de la grille

Les principaux composants de l’environnement informatique de la grille sont discut´es end´etail dans cette section Selon la conception de l’application de la grille et son utilisa-tion pr´evue, certains de ces composants mentionn´es ci-dessous peuvent ou peuvent nepas ˆetre n´ecessaire, et dans certains cas, ils peuvent ˆetre combin´es Les composants del’infrastructure de la grille de calcul sont :

• Le portail de la grille

Un portail de grille fournit l’interface pour le service demandeur (comme les teurs priv´e, public et utilisateur commercial), pour concevoir et acc´eder `a un grandchoix de ressources, des services, des applications et des outils, en encapsulant de

sec-la complexit´e de la conception r´eelle de l’architecture de r´eseau sous-jacent `a desutilisateurs finaux

• Service d’information

Le composant de service d’information fournit des informations sur les ressourcesdisponibles, leur capacit´es totale, leur disponibilit´e, l’utilisation actuelle et les infor-mations de tarification, Plus tard cette information est utilis´ee par le portail de

la grille et le planificateur des ressources pour trouver les ressources appropri´ee sur

la grille de calcul pour r´epondre `a la demande de l’utilisateur

Trang 30

• Courtier de ressources ”Resource Broker”

Le Courtier de ressources ou Resource Broker agit comme un intergiciel entre leservice demandeur (job soumis pour l’ex´ecution) et un fournisseur de services (res-sources disponibles sur la grille) La tˆache d’un courtier de ressources de la grille estd’identifier dynamiquement les ressources disponibles, pour s´electionner et allouerles ressources les plus appropri´ees pour un job donn´e

• Ordonnanceur de ressource

Une fois les ressources ont ´et´e identifi´ees, l’´etape suivante consiste `a planifier lestravaux en allouant les ressources disponibles L’ordonnanceur de ressource doit ˆetreutilis´e, parce que certains jobs sont prioritaires par rapport aux autres et certainsjobs exigent une longue autonomie

• Utilisateur de grille

L’utilisateur de la grille est un consommateur de ressources de la grille de calcul Ilexiste de nombreuses cat´egories d’utilisateurs de grille `a savoir Les scientifiques, lesmilitaires, les enseignants et les ´educateurs, les entreprises, m´edecins Les cat´egoriesd’utilisateurs d´epends essentiellement du type de probl`eme qu’ils vont r´esoudre surl’infrastructure du grille

• Gestionnaire de ressource

Le gestionnaire de ressources de la grille estime les besoins en ressources, ex´ecuteles jobs, contrˆole leur ´etat et retourne les sorties lorsque les jobs sont termin´es Legestionnaire de ressources peut consulter le courtier de ressources sur l’affectationdes ressources et assigner les tˆaches aux ressources appropri´ees En outre, il doitauthentifier l’utilisateur et v´erifier s’il est autoris´e `a acc´eder aux ressources avantd’attribuer le job

2.5.6 Fonctionnement de la grille

La grille de calcul fonctionne sur le principe de mise en commun des ressources, o`u ungrand nombre de ressources de calcul distribu´e sont connect´ees via le r´eseau `a grandevitesse, et qui sont tous provisionn´ees en provenant des divers endroits g´eographiques et

`

a travers les fronti`eres organisationnelle Le fonctionnement de la grille est assez simple.Chaque job cr´e´e est associ´e `a un ”jobstep” et un ensemble de ”workunits” Ces unit´es detravail sont prˆetes `a ˆetre lanc´ees sur les ressources de la grille, elles contiennent les infor-mations sur les donn´ees, les param`etres n´ecessaires ainsi que le programme `a ex´ecuter.Les agents install´es sur chaque machine de la grille se connectent `a un intervalle de tempsr´egulier au serveur de grille pour prendre le job (principe du mod`ele ”pull”) Avant det´el´echarger les donn´ees, l’agent v´erifie si elles ne sont pas d´ej`a dans son cache, afin d’´eviterdes transferts inutiles L’agent lance alors le programme scientifique A la terminaison duprogramme, l’agent archive les r´esultats et renvoie l’archive du r´esultat au serveur de grille

Trang 31

A chaque job termin´e est donc associ´e `a un ou plusieurs r´esultats L’utilisateur t´el´echargel’ensemble des r´esultats Les ´etapes cl´es pour le fonctionnement du r´eseau informatique etl’interaction entre les diff´erents ´el´ements du r´eseau sont pr´esent´es dans la figure ci-dessous :

Figure 10 – Architecture de grille de calcul [10]

Comme le montre la figure ci-dessus, le fonctionnement des diff´erents composants de lagrille sont :

• Les utilisateurs du r´eseau pr´esentent leurs jobs au Resource Broker de la grille

• Le courtier de ressources ”Resource Broker” de la grille proc`ede `a la d´ecouverte desressources et de la tarification des informations en utilisant le service de l’informa-tion

• Le gestionnaire de ressources de la grille ”Resource Manager”, authentifie et assure

le cr´edit n´ecessaire dans le compte de l’utilisateur afin de d´eployer les ressources de

la grille

• L’ordonnanceur de ressource (Resource Scheduler), ex´ecute alors le job sur les r´esultats

en mati`ere de ressources et de rendement appropri´e

• Le courtier rassemble les r´esultats et les passent `a l’utilisateur de la grille

Trang 32

2.5.7 Avantages & D´efis de la grille

Les avantages d’utiliser une telle architecture sont multiples et ind´eniables Nous pouvonsciter les exemples suivants :

• D´eploiement des ressources inutilis´ees

La grille est un concept au fort potentiel, dont l’id´ee est de faire en sorte que toute

la puissance de calcul des PCs inutilis´es soit utilis´ee De nos jours, les ordinateursrestent souvent inutilis´es pendant de longues p´eriodes, leur processeur n’´etant querarement utilis´e `a 100% Avec cette technologie, les moments d’inactivit´e de cen-taines ou de milliers d’ordinateurs et de serveurs peuvent ˆetre utilis´es et vendus `aquiconque ayant besoin d’une puissance de calculs massive

• Bas´e sur une architecture de type client/serveur

La grille de calcul repose sur une architecture bien pr´ecise et tr`es sˆure, en rence, c’est l’architecture client/serveur qui a ´et´e choisie Cette architecture a ´et´eadapt´e en fonction des besoins sp´ecifiques de la technologie de grille de calcul

l’occur-• Meilleure rentabilisation du mat´eriel

Il est ´evident qu’il y a une sous utilisation des machines, et la grille pr´esente lasolution id´eale, d’un point de vue ´economique pour les entreprises et d’un point devue pratique pour les utilisateurs, pour rentabiliser les ressources

Les d´efis de la recherche rencontr´es par les technologies de grilles de calcul actuellessont r´epertori´es comme :

• Dynamicit´e : Les ressources dans la grille sont g´er´ees et contrˆol´ees par plus d’uneorganisation, en raison de ce que les ressources peuvent rejoindre ou sous forme desortie de grille `a tout moment, ce qui peut conduire `a plus de charge sur la grille

• Administration : La technologie de grille est essentiellement un groupe de sources mises en commun qui n´ecessitent une administration de syst`eme lourdepour la bonne coordination

res-• Puissance : La grille offre de nombreux services informatiques, qui consommentbeaucoup d’´energie ´electrique Donc, alimentation sans interruption est primordiale

Trang 33

s´eduisant puisqu’il s’agit d’utiliser la puissance de calcul et les espaces de stockage utilis´es des ordinateurs d’un immense parc informatique La technologie de grille de cal-cul a prouv´e qu’elle est la meilleure technologie pour travailler sur divers domaines : lecommerce, les entreprises, formations, la science, la recherche et le d´eveloppement Lavirtualisation ´elimine les limitations g´eographiques et ´economiques des ressources Elleaide les grands projets `a accomplir en peu de temps Cette nouvelle technologie ´elimine lad´ependance de projet sur un serveur principal ou super calculateur Pourtant, la techno-logie de grille a besoin de se concentrer sur les questions de s´ecurit´e et de confidentialit´e

in-`

a travers les connexions Internet

Trang 34

de m´edicaments En outre, ces activit´es facilite ´egalement plus d’applications biom´edicalese-Science en Asie.

2.6.1 Introduction

Depuis le premier d´efi de donn´ees mondial de la grippe aviaire 2005, l’Academia SinicaGrille Centre de Calcul (ASGCC), au sein de la collaboration EGEE, a ´et´e consacr´ee `al’´elaboration et le raffinage de criblage virtuel pour les maladies n´eglig´ees et ´emergentestelles que la grippe aviaire, la fi`evre dengue, etc La simulation de docking mol´eculaireest un processus qui prend du temps pour une recherche exhaustive de toutes les confor-mations possibles d’un compos´e Toutefois, le processus massif in-silico b´en´efice du hautd´ebit de la technologie de la grille de calcul Fournissant une puissance de calcul intensif

et une gestion efficace des donn´ees, l’e-infrastructure (EUAsia VO) pour la d´ecouvertein-silico de m´edicaments pour les maladies ´epid´emique en Asie

GAP (Grid Application Platform) et GVSS (Grid enabled Virtual Screening Services) ont

´

et´e d´evelopp´es avec le moteur de docking d’AutoDock 3.0.5 GAP est un environnement

de d´eveloppement d’applications de haut niveau pour la cr´eation de services d’application

de la grille [7] GVSS est une interface graphique utilisateur de type Java, qui a ´et´e con¸cuepour la conduite de docking mol´eculaire `a grande ´echelle plus facilement sur l’environne-ment de grille de gLite [7] Les utilisateurs finaux utilisent GVSS sont autoris´es `a sp´ecifier

la cible et la biblioth`eque de compos´es, mis en place des param`etres de docking, surveillerles jobs de docking et les ressources informatiques, visualiser et affiner les r´esultats de do-cking, et enfin de t´el´echarger les r´esultats finaux Il existe d’autres enjeux `a encourager lesactivit´es biom´edicales et int´egrer plus davantage de ressources dynamiques pour soutenir

la simulation de criblage virtuel `a grande ´echelle en Asie Par exemple, les scientifiques

´

etudient la nouvelle structure cible, par cons´equent, il/elle doit savoir comment mod´eliser

la cible et la pr´eparer en utilisant AutoDockTools On aurait aussi besoin d’une interfaceutilisateur conviviale pour rejoindre et acc´eder `a la collaboration, pour soumettre les jobs

de docking, suivre leur progr`es, visualiser le docking et enfin analyser les r´esultats

Trang 35

Les utilisateurs pr´eparent les fichiers de criblage virtuel dans l’interface utilisateurgraphique GVSS, puis s´electionnent les ressources de la grille de calcul pour soumettredes jobs Ces jobs informatiques sont g´er´es par GAP/DIANE pour distribuer les agents

de grille de calcul `a la grille [18] Les r´esultats de calcul sont g´er´es par AMGA , qui est

un catalogue de m´eta-donn´ees pour stocker des ´el´ements de stockage [16]

Figure 11 – Portail GVSS(http: // gvss2 twgrid org/)Pour faire le docking mol´eculaire `a grande ´echelle qui fonctionne sur l’environnement de lagrille, ASGC a d´evelopp´e l’application GVSS (Grid enabled Virtual Screening Services)qui int´egre l’intergiciel gLite DIANE2/GANGA et AMGA d’EGEE Toutes les tˆachesinformatiques sont g´er´es par GAP/DIANE afin de distribuer les Workers de la grille decalcul Les r´esultats de calcul sont g´er´es par AMGA, catalogue de m´etadonn´ees pourstocker des ´el´ements de stockage GVSS utilise Autodock ´egalement en tant que moteurd’amarrage Le GVSS a ´et´e cr´e´e par l’int´egration de plusieurs frameworks con¸cus pourdes applications de grille de calcul

2.6.2 La plate-forme GAP

GAP (Grid Application platform) est un environnement de d´eveloppement d’applications

de haut niveau pour la cr´eation des services d’application production/qualit´e de grille parl’approche MVC (Model-View-Controller) [7] Il divise l’espace de d´eveloppement d’appli-cation de la grille en trois grandes ´etapes : le portage d’application ”gridification”, concep-tion de workflow de job complexe et interface utilisateur personnalis´e Correspondant `aces trois stades de d´eveloppement, le syst`eme GAP est compos´e de trois sous-frameworks,respectivement : le framework de base, le framework d’application, et le framework depr´esentation

Trang 36

• Le framework de base fournit une couche d’abstraction `a l’interface de nemnt distribu´e sous-jacente des ressources informatiques Il cache les complexit´estechniques de la gestion des utilisateurs et des jobs de calcul en isolant les d´etails demise en oeuvre en vertu d’un ensemble d’API Java bien d´efini Avec la conceptionorient´ee objet, le framework de base a ´et´e ´etendue pour int´egrer une interface degestion de job de haut niveau appel´e DIANE

l’environ-• Le framework d’application introduit une approche bas´ee sur l’action pour le ement de flux de travail ”workflow” avanc´e et des applications complexes pourles probl`emes scientifiques r´eels En utilisant les API de framework de base, lesd´eveloppeurs d’applications sur cette couche peuvent se concentrer sur la conception

d´evelopp-de workflow sans se pr´eoccuper des d´etails et/ou des modifications de ment informatique sur lequel les jobs informatiques seront ex´ecut´es

l’environne-• Contrairement aux framework de base et d’application, le framework de pr´esentation

de GAP est librement d´efini, alors une libert´e de choix pour les applications ter leur technologie d’interface pr´ef´er´ee bas´e sur Java (par exemple, portail Web,interface graphique, etc)

Trang 37

Figure 12 – Architecture Service de criblage virtuel GAP (GVSS) [7]

2.6.4 Conclusion

GVSS est d´evelopp´e pour pr´edire comment les petites mol´ecules interagissent avec ler´ecepteur Il r´eduit consid´erablement le coˆut en utilisant la demande dynamique des res-sources de la grille de calcul Le portail GVSS facilite la d´ecouverte de m´edicaments enpermettant aux utilisateurs un acc`es simultan´e et instantan´e aux ressources de la grille,tout en masquant la complexit´e de l’environnement de la grille aux utilisateurs finaux

Trang 38

2.7 Plate-formes utilis´ es

WISDOM (Wide In Silico Docking On Malaria) est une initiative qui a ´et´e lanc´e en

2005 pour utiliser les nouvelles technologies de l’information et d´epolyer des applications

de docking de grande ´echelle, afin de chercher et de d´ecouvrir des m´edicaments contre

le plaudisme et d’autres maladies dites n´eglig´ees Le but de WISDOM est de prouver lapertinence de l’utilisation de la grille de calcul dans la recherche de m´edicaments et de trai-tement pour les maladies dangereuses [8] Il travaille en ´etroite collaboration avec EGEE,

et il fait usage de l’infrastructure EGEE pour ex´ecuter un grand nombre de donn´ees.WISDOM est consid´er´e comme une premi`ere ´etape pour mettre en place une recherche

de m´edicaments in-silico sur une infrastructure de grille La plate-forme WPE (WISDOMProduction Environment), d´evelopp´e par LPC (Laboratoire Clermont Ferrand-France), a

´

et´e utilis´e avec succ`es pour le projet WISDOM dans la d´ecouverte de nouveaux inhibiteurscontre le Malaria Cette plate-forme fournit une couche entre les utilisateurs et l’environ-nement de la grille de calcul afin de dissimuler sa complexit´e Avec cette plate-forme lesutilisateurs peuvent facilement utiliser les ressources de la grille pour effectuer leur calcul

2.7.1.a D´efinition WISDOM

WISDOM est un intergiciel con¸cue comme un environnement de gestion de l’exp´erience Ilg`ere les donn´ees, les jobs, et partage la charge de travail sur toutes les ressources int´egr´ees,

mˆeme si elles adaptent diff´erentes normes technologiques Il est tout a fait possible deconstruire des services web qui interagissent avec le syst`eme WISDOM est consid´er´ecomme un ensemble de services g´en´eriques agissant comme un niveau d’abstraction pourles ressources et offrant une gestion g´en´erique des donn´ees et des jobs de sorte que lesservices d’applications peuvent utiliser l’un des services sous-jacents d’une mani`ere tr`estransparente [11] L’initiative WISDOM comprend trois objectifs, l’objectif biologique,qui consiste `a proposer de nouveaux inhibiteurs pour une famille de prot´eine produitepar plasmodium, l’objectif biom´edical, qui repose sur le d´eployement d’une application dedocking in-silico sur une infrastructure de grille de calcul, et l’objectif de grille, qui s’ap-puie sur le d´eploiement d’une application tr`es demandeuse en temps de calcul et g´en´erantune grande quantit´e de donn´ees pour tester l’infrastructure de grille et ses services Lesutilisateurs ne sont pas en interaction directe avec les ressources de la grille, et ils ne sontpas cens´es de savoir comment cela fonctionne, car ils sont juste en interaction avec lesservices de haut niveau, tout comme avec un autre service web

Trang 39

• Le gestionnaire des tˆaches ”Task Manager” interagit avec le client et accueille les

tˆaches cr´e´ees par le client

• Le gestionnaire de jobs ”Job Manager” soumet des jobs aux ´el´ements de calcul (CE),

du sorte que les tˆaches g´er´ees par le gestionnaire des tˆaches seront execut´ees

• Le syst`eme d’information WIS ”WISDOM Information System” utilise AMGA

”ARDA Metadata Grid Application”, pour stocker toutes les m´etadonn´ees requisespour le gestionnaire de job

• Le gestionnaire de donn´ees ”Data Manager”, g`ere les fichiers sur la grille de calcul

Figure 13 – Architecture WPE [9]

Tout d’abord, le module de gestionnaire de job ”Job Manager” re¸coit les demandes etsoumet les jobs pilotes ”pilot agents” sur la grille de calcul, afin de r´ealiser des tˆaches dans

le gestionnaire des tˆaches ”Task Manager” L’ex´ecution de gestionnaire de job n´ecessite

un certificat qui correspond `a l’organisation virtuelle o`u les jobs seront soumis Ensuite,les tˆaches sont enregistr´ees et g´er´ees par les gestionnaire des tˆaches Un agent interagitavec le gestionnaire de tˆache pour r´ecup´erer une tˆache et l’ex´ecute sur la grille de calcul.Apr`es, le module WIS ”WISDOM Information System” enregistre les ´etats des agents etcontrˆole l’information des agents de pilotes sur la grille Et le gestionnaire de donn´ees g`ereles fichiers sur la grille en mode batch

Ngày đăng: 17/03/2021, 19:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w