1. Trang chủ
  2. » Ngoại Ngữ

Approche métagénomique pour le binning taxonomique du microbiome intestinal humain = khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường

48 132 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 1,88 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Une des communaut´es importantes est la com-munaut´e des microbes dans l’intestin humain, car ils ont donc une profonde influence surla physiologie humaine et la nutrition, autrement dit

Trang 1

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

DƯƠNG TIẾN HẬU

APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING TAXONOMIQUE DU MICROBIOME INTESTIAL

Trang 2

UNIVERSITE NATIONALE DU VIETNAM, HANOI

INSTITUT FRANCOPHONE INTERNATIONAL

DƯƠNG TIẾN HẬU

APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING TAXONOMIQUE DU MICROBIOME INTESTIAL

MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE

Sous la direction de : Dr Jean-Daniel Zucker, Dr Ho Bich Hai

HANOI – 2017

Trang 3

ATTESTATION SUR L’HONNEUR

J’atteste sur l’honneur que ce m´emoire a ´et´e r´ealis´e par moi-mˆeme et que les donn´ees et lesr´esultats qui y sont pr´esent´es sont exacts et n’ont jamais ´et´e publi´es ailleurs La source desinformations cit´ees dans ce m´emoire a ´et´e bien pr´ecis´ee

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trongbất kỳ công trình nào khác Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồngốc

Signature de l’´etudiant

Dương Tiến Hậu

Trang 4

Table des mati` eres

1.1 M´etag´enomique 3

1.2 Diversit´e taxonomique 4

1.3 Diversit´e fonctionnelle 6

1.4 M´etag´enomique comparative 7

1.5 Donn´ees de NGS 8

1.5.1 Les plateformes de s´equen¸cage 8

1.5.2 Des notions de base 8

1.5.3 Format de donn´ees 8

Chapitre 2 : Probl´ematique 11 2.1 Etat de l’art ´ 11

2.2 Enonc´´ e du probl`eme 12

Chapitre 3 : M´ethodes propos´ees 14 3.1 Prototype de pipeline 14

3.1.1 Tableau de donn´ees 15

3.1.2 Configuration 16

3.1.3 Outils 16

3.1.4 G´en´erateur de commande 16

3.2 La distance phylog´en´etique des s´equences d’ADN 17

3.2.1 La mesure de distance 18

3.2.2 S´election de mod`ele 19

3.3 Analyse de donn´ees METAHIT 20

Chapitre 4 : Exp´eriment 21 4.1 Pipelines de binning 21

4.1.1 Assemblage 21

4.1.2 Estimation d’abondance des s´equences (Counting) 22

4.1.3 Segmentation 26

4.1.4 Inter-clustering 26

4.2 Segmentation 29

4.2.1 Conception de l’objet de segment 29

4.2.2 S´election du mod`ele 30

4.3 Analyse de donn´ees METAHIT 32

4.3.1 Donn´ees : METAHIT 32

4.3.2 Assemblage 33

Trang 5

4.3.3 Calculation d’abondance (counting) 344.3.4 Segmentation 344.3.5 Inter-clustering 35

Trang 6

Table des figures

1 Trois questions principales de la m´etag´enomique [15] 4

2 Neuf r´egions hypervariables de 16S rRNA du Escherichia coli [16] 5

3 Un exemple de m´ethode d’analyse quantitative [26] Les s´equences sont group´es en basant sur le profil d’abondance 6

4 Explication des notions de base [12] 10

5 Binning Pipeline de MetaBAT [35] Binning taxonomique bas´e deux caract´eristiques : l’abondance de la s´equence et la composition de l’ADN 11

6 Le sch´ema global de binning taxonomique Rectangles bleus : developp´es par nous Rectangles jaunes : d´evelopp´es par l’´equipe de ICAN (dans l’avenir) 13

7 Prototype de pipeline Le g´en´erateur lit les configuration et les m´etadonn´ees pour g´en´erer et appeler les commandes 15

8 La distance entre deux segments est mesur´ee par la distance phylog´en´etique entre deux ensemble des anotations 18

9 Distance entre deux annotations est calcul´ee par ses distance sur l’arbre de phylog´en´etique Distance entre x et y est ´egale `a 3, [45] 19

10 Pipeline d’assemblage 21

11 Pipeline de counting 23

12 Pipeline de segmentation 27

13 Comment segmenter les s´equences Le mod`ele de segmentation essaie de trou-ver des points de coupures pour s´eparer des segments de deux types : partag´e et non partag´e 27

14 Le profil d’abondance est estim´e par l’abondance respective d’une s´equence dans chaque ´echantillon 27

15 Faire l’alignement d’une s´equence aux s´equences de chaque ´echantillon pour extraire d’abondance `a travers ´echantillons 28

16 Pearson correlation [44] 29

17 Les distances ne suivent pas la loi normale L’histogramme de distribution est “skew” 30

18 La plupart des s´equences sont bonnes (la qualit´e de 30 `a 39) 33

19 Nombre de contig par ´echantillons 34

20 Nombre de s´equence par ´echantillon 35

Liste des tableaux 1 Des technique de s´equen¸cage [31] 9

2 R´esum´e des pipelines de binning taxonomiques dans les travaux pr´ec´edents 12

3 La performance de deux versions de counting 26

Trang 7

4 R´esum´e deux ´etapes de pr´etraitement 33

5 R´esum´e sur le r´esultat de clustering 35

Trang 8

R´esum´e : On a estim´e que les microbes dans nos corps sont environ 100 trillions decellules, dix fois le nombre de cellules humaines et a sugg´er´e qu’ils codent 100 fois plus deg`enes uniques que notre propre g´enome [1] Une des communaut´es importantes est la com-munaut´e des microbes dans l’intestin humain, car ils ont donc une profonde influence sur

la physiologie humaine et la nutrition, autrement dit ils sont cruciaux pour la vie humaine.Comprendre la composition et fonction de cette communaut´e est importante pour am´eliorer

la sant´e humaine Des nouveaux progr`es de s´equen¸cage de haut d´ebit (NGS) permet d’´etudier

en profonde les microbes dans l’environnement complexe M´etag´enomique est un ensemble dem´ethode pour traiter et analyser ce nouveau type de donn´ees Au point de vue d’informatique,

la m´etag´enomique entraˆıne des probl`emes de computation, car les donn´ees de m´etag´enomesont normalement grandes et complexes Un projet (rMGS) du laboratoire (INSERM/ICAN)travaille sur des donn´ees de m´etagn´enome qui vise `a d’analyser la composition des microbesdans l’intestin humain Pour r´esoudre cette question, une nouvelle m´ethode de binning taxo-nomique a ´et´e propos´e par notre ´equipe Dans le cadre du projet, trois travaux sont : (1)proposer un prototype de pipeline pour analyser des probl`emes m´etag´enomiques, (2) pro-poser d’une mesure de similarit´e des segments d’ADN bas´e sur l’annotation phylog´en´etique(distance phylog´en´etique), (3) analyser la donn´ees r´eelle METAHIT [2] (124 ´echantillons parMetaHIT consortium, Commission europ´eenne 7th FP) en utilisant nos pipelines Ma contri-bution est donc repr´esent´ee en trois aspects : (1) Le prototype est utilis´e comme un standardpour tous les pipelines de notre ´equipe Il est facile `a lancer pour les experts du domaine(m´etag´enomique) et facile `a maintenir, `a modifier pour les informaticiens Les r´esultats sontcoh´erents, donc il est facile `a suivre et `a d´eboguer (2) La distance phylog´en´etique est utilis´eenon seulement dans le projet, mais encore elle est utile dans d’autres probl`emes par exemple

la s´election du mod`ele, la validation des clusters taxonomiques (esp`ece m´etag´enomique –rMGS) Elle contribue une autre fa¸con pour mesurer la similarit´e `a cˆot´e de la m´ethode clas-sique bas´e sur les nucl´eotides.(3) Les r´esultats de binning taxonomique sur la donn´ees r´eelleMETAHIT sert `a comparer avec les travaux pr´ec´edents en termes de performance de pipelineainsi que les informations biologiques

Mots cl´es : M´etag´enomique, composition microbienne, binning taxonomique, NGS

Trang 9

Le projet r´ealis´e ´etait tr`es int´eressant et tr`es enrichissant pour mon exp´erience nelle En effet, les microbes joue un rˆole primordial pour notre sant´e, pourtant nous avonsinsuffisament connaissance sur cette communaut´e car la plupart de celles ne peuvent pasmettre en culture dans les laboratoires Grˆace au d´eveloppement de technique de s´equen¸cage(NGS), nous pouvons maintenant ´etudier en profond cette communaut´e.

professio-Je vous expose dans ce rapport en premier lieu la contexte du projet dans le chapitre 1.Qu’est-ce que la m´etag´enomique ? quelles sont leur application ? quels sont leur d´efis ? J’ex-plique ensuite trois questions principales `a r´esoudre de m´etag´enomique Les types de donn´ees

et les techniques de s´equen¸cage sont aussi pr´esent´e dans ce chapitre

Dans le chapitre 2, je vais expliquer en d´etail le probl`eme `a r´esoudre dans mon stage Eneffet, ce stage est dans le contexe d’un grand projet de ICAN-INCERN, nous essayons de re-grouper des s´equences dans des clusters intitul´e rMGS, chaque cluster repr´esente une esp`ecem´etag´enomique En fonction de stagiaire, je dois impl´ementer des pipelines pour analyserautomatiquement des donn´ees m´etag´enomiques Des travaux pr´ec´edents et des techniquespopulaires sont abord´es et compar´e

Pour le chapitre 3, je vais aborder nos m´ethodes propos´ees, y compris : un prototype

de pipeline comme un standard de tous les pipelines, flux de travail de quatre pipelines dansnotre projet, une proposition une nouvelle mesure de distance entre des segments d’ADN,l’analyse une donn´ees r´eelle avec nos pipelines

Dans la dernier chapitre (chapitre 4), je fais une r´esum´e sur les r´esultat obtenu

Trang 10

Chapitre 1 : Contexte

1.1 M´ etag´ enomique

Les microbes pr´esentent dans presque tous les environnements de la Terre, jouent un rˆolecrucial dans les cycles biog´eochimiques et repr´esentent une grande partie de la diversit´e de lavie Ces microbes peuvent interagir avec son hˆote pour influencer la physiologie et contribuer `a

la sant´e, `a la croissance ou `a la forme physique On s’int´eresse aux communaut´es des microbesdans l’intestin humain, l’eau et le sol etc Exemple, l’analyse des communaut´es de microbe

a des applications en sant´e : la nutrition [3, 4, 6] et les maladies [7, 8, 9], en agriculture : lacorr´elation entre les microbes et les ph´enotypes du plant [10, 11, 13] L’analyse ces types del’environnement est compliqu´e comme les microbes vivent dans un environnement complexeo`u elles interagissent entre eux De plus, des techniques traditionnelles de s´equen¸cage sontcoˆuteuses, prennent de temps, sont incapables `a traiter une grande quantit´e de g´enome

La nouvelle g´en´eration de s´equen¸cage (NGS) qui a ´et´e mise en march´e au milieu des ann´ees

2000, est des plateformes de haut d´ebit de s´equen¸cage Le coˆut de s´equen¸cage fait tomber50,000-fois par rapport le coˆut de s´equen¸cage au d´ebut de projet de g´enome humain [14] Letemps de s´equen¸cage est aussi rapide, nous pouvons prendre une jour pour obtenir la g´enomecompl`ete de l’homme au lieu d’une d´ecennie comme avant Grˆace `a cette technologie, leschercheurs sont capables d’analyser une massive quantit´e de g´enome mat´eriel Cela permetd’explorer des nouvelles g´enomes et des microbes qui ne sont pas mises en culture Elle estune approche compl´ementaire pour l’identification des microbes La technique NGS causedes difficult´es :

— Les donn´ees sont grandes : environ 20- 30 millions reads (10 Gb) par ´echantillon

— Complexe : contient des s´equences d’ADN de hˆote, faible couverture rend des erreurs

de l’assemblage

— Les s´equences sont courtes : 75-300 paires de bases (bp) de Illumina (reads) par port plus de 500 bp de Sanger Plus les reads sont courtes, plus la complexit´e decomputation augmente

rap-Pourtant, l’int´egr´e de cette technique est grande Donc, on essaie de d´evelopper des autresm´ethodes pour r´esoudre ces d´efis La m´etag´enomique, apparu vers 2005, est un ensemble

de m´ethodes pour traiter les donn´ees de NGS Les analyses de m´etag´enomique essaie der´epondre trois questions biologiques, voyez le figure 1 :

— La diversit´e taxonomique (qui est l`a ?) : L’identification des esp`eces dans la naut´e, l’abondance des esp`eces

commu-— Diversit´e fonctionnelle (que font-ils) : Les fonctions de communaut´e en des ´echellesdiff´erentes : des g`enes, prot´eines, esp`eces, pathway etc

— Comparaison m´etag´enomique : (1) la combinaison entre les communaut´es selon la versit´e taxonomique et fonctionnelle, (2) l’interaction entre les organismes, l’interac-tion entre les organismes et leur hˆote, (3) l’analyse longitudinale, suivre un ´echantillon

Trang 11

di-Figure 1 – Trois questions principales de la m´etag´enomique [15]

dans des points de temps

Il y a des difficult´es en computation :

— On n’a pas suffisamment des g´enomes de r´ef´erence La base de donn´ees RefSeq del’NCBI inclut 66224 g´enomes aux niveaux diff´erents de compl´etude (chromosome,scaffold, contigs etc) La plupart des g´enomes de la RefSeq sont sous forme “draft”.C’est-`a-dire elles pr´esentent sous la forme d’un ensemble de fragments de s´equencesplutˆot qu’une seule s´equence repr´esentant le g´enome entier

— Ensuite, les donn´ees sont normalement grandes Ce d´efi peut ˆetre r´esolu par la putation en parall`ele et distribu´e

com-— Il existe des pipelines et outils pour l’analyse des donn´ees NGS Pourtant, la plupartdes pipelines visent `a r´esoudre un probl`eme concr`ete Les chercheurs doivent construiredes nouveaux pipelines pour les nouveaux probl`emes

1.2 Diversit´ e taxonomique

Une des principales fa¸cons de caract´eriser une communaut´e microbienne est la caract´erisation

de sa diversit´e taxonomique Cela vise `a d´eterminer : (1) quels sont les microbes dans unecommunaut´e, (2) ces microbes pr´esentent `a quelle abondance La diversit´e taxonomique sert

`

a ´etablir le profil d’une communaut´e et peut servir `a comparer la similarit´e entre deux ouplusieurs communaut´es Il y a deux mesures principales : α-diversit´e (α-diversity) est la bio-diversit´e dans un habitat ou un ´ecosyst`eme d´efini, β-diversit´e (β-diversity) est la comparaison

du profil taxonomique entre deux ´ecosyst`emes La diversit´e taxonomique est normalementquantifi´ee par : (1) l’analyse des g`enes marqueurs, (2) l’analyse quantitative (binning)

L’analyse des g`enes marqueurs est l’une des m´ethodes les plus simples et les plus cientes en termes de calcul pour estimer la diversit´e taxonomique d’une communaut´e Dans

Trang 12

effi-cette m´ethode, on s’int´eresse des r´egions hypervariables qui peuvent fournir des signaturessp´ecifiques de l’esp`ece.

Les marqueurs les plus utilis´es sont les g`enes rRNA qui ont tendance `a ˆetre une seule copie et

Figure 2 – Neuf r´egions hypervariables de 16S rRNA du Escherichia coli [16]

communs aux g´enomes microbiens Pour les bact´eries et archaeas, on prend les s´equences 16SrRNA qui contient la r´egion variable et conserv´ee De la mˆeme fa¸con, on choisit les s´equences18S pour l’eukaryote, ITS pour le fungi Dans l’´etape de s´equen¸cage, on essaie de dessiner desamorces (primers) pour extraire les s´equences rRNA cibl´ees Une OTU (Operational Taxo-nomic Units) est d´efinie comme un groupe de reads similaires, motiv´ee par l’esp´erance quecelles-ci correspondent `a peu pr`es une esp`ece Des m´ethodes les plus utilis´ees pour analyserles g`enes marqueurs :

— M´ethode bas´ee sur la base de donn´ees des r´ef´erences, on fait un alignement pairwiseentre la s´equence et la base des r´ef´erences Les bases de r´ef´erence populaires : Silva[17], Greengenes [18] et RDP [19]

— Distance-based ou de novo clustering Dans cette m´ethode, on regroupe les s´equences

en OTU bas´e sur la distance entre les s´equences Donc, le coˆut de calcul de cettem´ethode est quadratique avec le nombre de s´equences uniques [20] Le point fort denovo est son ind´ependance des bases de r´ef´erences pour la r´ealisation de l’´etape deregroupement Pour cette raison, l’approche de novo est plus pr´ef´er´ee que la m´ethode

Trang 13

La deuxi`eme m´ethode se base sur l’analyse quantitative qui vise `a “bin” toutes les s´equencesd’ADN en des g´enomes Chaque s´equence est classifi´ee soit (1) par la comparaison (blast)avec une base de r´ef´erence, (2) par la composition de l’ADN (k-mers, GC pourcent ), (3)par le profil d’abondance (voyez la figure 3) Les s´equences peuvent ´egalement ˆetre group´e enfonction de leur similarit´e de s´equence avec une base de donn´ees des s´equences annot´ees Elled´epend une base de r´ef´erence, donc cette m´ethode ne convient pas pour d´ecouvrir de nou-velles g´enomes Un des outils les plus utilis´es est MEGAN [23] qui utilise l’alignement pourcomparer les s´equences m´etag´enomiques `a une base de donn´ees de s´equences annot´es commeNCBI, Ensembl La m´ethode bas´ee sur la composition de l’ADN utilise des caract´eristiques des´equences (par exemple, une fr´equence de t´etram`ere) pour regrouper ou classer des s´equences

en groupes taxonomiques : KHMER [24], CompostBin [25] Cette m´ethode n’a pas besoin del’alignement `a une base de donn´ees de r´ef´erence, par cons´equent, elle peut traiter rapidementdes grandes m´etag´enomes La derni`ere m´ethode d´epend du profil d’abondance des s´equences.Des s´equences similaires en profil d’abondance sont group´ees dans un groupe C’est une bonnem´ethode pour d´ecouvrir de nouvelles g´enomes, pourtant sa computation est coˆuteuse, car ilfaut faire des alignements

Figure 3 – Un exemple de m´ethode d’analyse quantitative [26] Les s´equences sont group´es

en basant sur le profil d’abondance

1.3 Diversit´ e fonctionnelle

Les m´etag´enomes donnent un aper¸cu de la physiologie d’une communaut´e en clarifiantles fonctions cod´ees dans les g´enomes de la communaut´e La diversit´e fonctionnelle d’unecommunaut´e peut ˆetre profil´e en annotant des s´equences avec des fonctions biologiques Celaimplique l’identification des s´equences codantes de prot´eines et la comparaison de la s´equencecodant `a une base de donn´ees de g`enes, de prot´eines, de familles de prot´eines pour lesquellesdes informations fonctionnelles sont connues d´ej`a On obtient un profil qui d´ecrit le nombre de

Trang 14

types de fonctions et leur abondance dans la communaut´e L’analyse de la diversit´e

fonction-nelle implique deux ´etapes : pr´ediction des s´equences codantes et annotation fonctionnelle

La pr´ediction des g`enes d´etermine quelles s´equences contiennent des s´equences codantes Un

des moyens les plus simples pour d´eterminer les s´equences codantes consiste `a aligner les

s´equences `a une base de donn´ees de g`enes Cette m´ethode n’est pas favorable pour les

com-munaut´es avec des g´enomes qui ne sont pas repr´esent´es dans des bases de donn´ees, surtout si

nous voulons identifier des g`enes nouveaux ou tr`es divergents La m´ethode de novo est

large-ment utilis´ee Elle peut potentiellement identifier de nouveaux g`enes On utilise des mod`eles

qui sont bas´es sur des propri´et´es des g`enes microbiens (la longueur, codon, caract´eristique de

GC), sont utilis´es pour ´evaluer si une s´equence ou un contig contient un g`ene Des outils de

pr´ediction des g`enes incluent MetaGenMark [27], MetaGen [28]

Une fois que les s´equences codantes sont pr´edites, elles peuvent ˆetre soumises `a

l’annota-tion foncl’annota-tionnelle La fa¸con la plus connue est de classer les prot´eines pr´edites en familles

prot´eiques Comme les prot´eines d’une famille partagent un ancˆetre commun, on pense

qu’elles codent des fonctions biologiques similaires Si l’on d´etermine qu’une s´equence

ap-partient `a cette famille, on d´eduit que la s´equence code la fonction de la famille COGs,

EggNOGs et KEGG sont des bases de prot´eines populaires Des outils sont impl´ement´es

pour cette tˆache comme MG-RAST [29] , CAMERA [30]

1.4 M´ etag´ enomique comparative

Des analyses comparatives entre des m´etag´enomes peuvent fournir des informations suppl´ementairessur la fonction des communaut´es complexes de microbe et leur rˆole dans la sant´e de l’hˆote

Nous nous int´eressons `a trois aspects :

La simarit´e des communaut´es (inter-communaut´e) : La comparaison pair-wise ou

multiple de communaut´e peut ˆetre faite aux niveaux diff´erents : la composition de s´equence

(contenu de GC ou la taille du g´enome), la diversit´e taxonomique ou la diversit´e fonctionnel

Pour r´epondre cette question, nous devons utiliser les r´esultats de deux premi`eres questions

La corr´elation avec des m´etadonn´ees : Les activit´ees des microbes influencent les

ca-ract´eristiques de leur hˆote Les microbes dans la r´egion de rhizosph`ere influence fortement le

ph´enotype du plant [10] Les communaut´es de microbes du sol contribuent `a la changement

des caract´eristique chimique, physique et biomass du sol [11]

La dynamique : On veut ´etudier : (1) le changement de composition des microbes entre des

conditions diff´erentes [46], (2) l’interaction entre les microbes dans la communaut´e et

l’in-teraction entre des communaut´es [47] Trois techniques sont souvant utilis´ees pour ´evaluer

l’interaction : (1) basant sur l’abondance pour d´eduire la co-occurrence ou co-exclusion de

deux organismes, (2) mod`ele de r´egression o`u l’information des autres organismes permet de

pr´edire l’abondance de l’organisme (3) mod`ele Local similarity analysis (LSA) [48] permet

d’analyser l’abondance des microorganismes dans des s´eries chronologiques, cet m´ethode est

Trang 15

utile quand on veut d’´evaluer la dynamique de communaut´e.

1.5 Donn´ ees de NGS

Dans la m´etag´enomique, on travaille souvent sur deux types de donn´ees :

— Les g`enes de marqueur : 16S rRNA pour bact´eries et archaea, 18S rRNA pour ryote, ITS pour fungi

l’euka-— Les s´equences compl`etes d’ADN : toutes les s´equences ADN extrait dans un nement

environ-1.5.1 Les plateformes de s´equen¸cage

Premi`ere g´en´eration : La premi`ere g´en´eration de s´equen¸cage a ´et´e d´evelopp´e `a l’originepar Sanger en 1975 Cette m´ethode donne des reads de 800 bases en moyenne Elle est deslimitations : la petite quantit´e d’ADN qui pourraient ˆetre trait´ees par unit´e de temps, d´ebit,

le coˆut ´elev´e

Deuxi`eme g´en´eration : Chaque technique a son propre fa¸con pour extraire les s´equences,cependant elles partagent des principes communs : s´equen¸cage en parall`ele et courtes s´equences(75-300 bps avec Illumina, 400 avec IonTorrent PGM et 454 avec Pyrosequencing) En retour,ces techniques nous donnent une massif quantit´e des s´equences (200-500 megabases avec Py-rosequencing, 20-50 gigabase avec Illumina)

Troisi`eme g´en´eration : Les techniques comme Pacbio, Oxford Nanopore apparaissent desann´ees r´ecentes Le point fort de cette technique est la longueur des s´equences (10 -15 kilo-base)

R´esume des techniques de s´equen¸cage, voyez le tableau 1

1.5.2 Des notions de base

— Le terme “Paired-end” s’agit de deux extr´emit´es d’un segment d’ADN

— Read 1 : read de direction avant

— Read 2 : read de direction inverse

— Adapter : Un adaptateur est une courte mol´ecule d’ADN `a double strands qui estutilis´ee pour relier les extr´emit´es des segments d’ADN

— Insert size : Insert size est la longueur de l’ADN (ou de l’ARN) que vous souhaitezs´equencer et qui est “ins´er´e” entre les adaptateurs

1.5.3 Format de donn´ees

FASTA et FASTQ sont deux types populaire de donn´ees en m´etag´enomique Ces deuxformats sont document textuel, donc il est facile `a le traiter dans n’importe ´editeur de texte

ou langage de programmation Chaque nucl´eotide est repr´esent´e par un caract`ere Chaque

Trang 16

Table 1 – Des technique de s´equen¸cage [31]

Nombre dereads

Temps (h

ou jours)

Coˆut par

1 millionsbases

Teauxd’erreur(%)

Premi`ere g´en´eration

Nanopore

Technolo-gies/1 Gb

>5000 6 ∗ 104 48-72h <1 34

Trang 17

Figure 4 – Explication des notions de base [12]

s´equence se compose deux parties : identification et s´equence L’identification commence par

le caract`ere “>” pour FASTA et “@” pour FASTQ La s´equence est situ´ee dans la lignesuivante

Exemple une s´equence FASTA, voyez le listing 1 :

Listing 1 – Format de FASTA La premi`ere ligne (commence par “>”) est l’identification de

la s´equence, les restes sont des caract`eres repr´esentant les nucl´eotides

Le format FASTQ est similaire FASTA, pourtant, il ajoute une ligne de contrˆole la qualit´e de

la s´equence (repr´esent´e par des caract`eres ASCII) Le score de qualit´e repr´esente l’exactitudequand la machine lit un nucl´eotide, ce score a un ´ecart de 0-93 (ASCII de 33 `a 126), pour-tant les scores sont normalement moins de 40, donc des logiciels prennent 40 est la valeurmaximale

Exemple une s´equence FASTQ, voyez le listing 2 :

Listing 2 – Format de FASTQ La derni`ere linge est le score de qualit´e cod´ee par des caract`eresASCII

@SEQ ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

! ’ ’∗((((∗∗∗+))%%%++)(%%%%).1∗∗∗ −+∗ ’ ’))∗∗55CCF>>>>>>CCCCCCC65

Trang 18

Chapitre 2 : Probl´ ematique

La m´ethode bas´ee sur l’abondance est largement utilis´ee L’abondance est la fr´equence d’unes´equence dans un ´echantillon L’abondance d’une s´equence ´elever ou basse r´efl´echit l’abon-dance de l’esp`ece qui proc`ede cette s´equence Cette m´ethode se base sur une supposition :deux s´equences qui ont un profil similaire de l’abondance peuvent appartenir `a une mˆemeesp`ece Autrement dit, si deux s´equences apparaissent de mˆeme forme dans des ´echantillons,nous avons raison pour dire que ces s´equences peut-ˆetre appartiennent `a une mˆeme esp`ece

La m´ethode bas´ee sur l’abondance fonctionne g´en´eralement meilleur que k-mers, elle peutdistinguer les esp`eces dans le cas o`u la composition de k-mers est similaire, cependant elleconsomme plus de ressource (calcul, temps )

La m´ethode de k-mers est similaire le mod`ele sac de mot dans l’apprentissage automatique.Une s´equence est une chaˆıne de caract`eres Donc, il peut ˆetre consid´er´e comme un paragraphe

ou un document Nous allons calculer la fr´equence d’un groupe de k caract`eres apparaˆıt reil, dans le mod`ele de sac de mot, nous comptons la fr´equence des mots dans un document.Deux documents (s´equences) sont similaires si la distance entre eux est faible Si la distanceentre deux s´equences est inf´erieur `a un seuil, il va ˆetre group´e dans un cluster Des recherchesmontrent que 4-mers est suffisant pour discriminer les s´equences Cette m´ethode fonctionne,car deux esp`eces ont normalement deux compositions diff´erentes de ADN L’avantage de cettem´ethode est que elle a besoins moins de ressource (temps, RAM, calcul ), cependant elletravaille seulement efficace dans le cas o`u la composition ADN des esp`eces sont diff´erentes

Trang 19

Pa-Au contraire, si la composition de deux esp`eces sont similaires (deux esp`eces de mˆeme gernepar exemple), cette m´ethode ne peut pas les distinguer.

La plupart des pipelines actuels combinent deux caract´eristiques dans un mod`ele pour menter la pr´ecision de binning Voyez un pipeline de MetaBAT dans le figure 5 Le tableau

aug-2 montre des pipelines de binning taxonomique

Table 2 – R´esum´e des pipelines de binning taxonomiques dans les travaux pr´ec´edents

Pipeline Caract´eristiques Algorithme

GroopM [32] TNF et co-abondance * Clustering it´eratif

Affinity propagation clustering

* TNF : fr´equence de t´etra-nucl´eotidiques

2.2 Enonc´ ´ e du probl` eme

Une ´equipe du laboratoire ICAN propose une nouvelle m´ethode pour le binning mique Ses chercheurs veulent augmenter la pr´ecision de binning en r´esolvant des inconv´enientdes travaux actuels :

taxono-— La m´ethode de binning bas´e sur les g´enomes de r´ef´erence de Qin et al [1] cause despertes d’information de la diversit´e

— Neilsen et al [26] , Li et al [37] proposent une m´ethode bas´e sur l’abondance dess´equences Cette m´ethode conduit `a un nombre consid´erable de contigs/g`enes nonclass´es, y compris :

— Des r´egions partag´ees : le profil d’abondance n’est pas corr´elatif

— Des r´egions sp´ecifiques de strain : Aucun profil de co-abondance et/ou aucun profilg´enomique similaire

— Les travaux actuels perdent `a suivre la trace des strains de l”´echantillon avec desph´enotypes sp´ecifiques

Trang 20

Pour r´esoudre ces probl`emes, l’´equipe de l’ICAN propose une m´ethode qui se compose quatre

tˆaches principales : pr´eparasion de donn´ees, interclustering, intraclustering et combinaision

Le figure 6 montre la sch´ema de m´ethode propos´e par l’´equipe

La pr´eparation de donn´ees est divis´ee en trois pipelines Les restes sont trois pipelines Nous

Figure 6 – Le sch´ema global de binning taxonomique Rectangles bleus : developp´es parnous Rectangles jaunes : d´evelopp´es par l’´equipe de ICAN (dans l’avenir)

avons totalement six pipelines

Nous devons d’abord proposer un prototype pour utiliser dans tous les pipelines du projet.Ensuite, nous impl´ementons quatre parmi six pipelines En fin, nous allons tester les pipelinespour faire binning taxonomique avec une donn´ees r´eelle : METAHIT [2]

Donc, ce travail a trois objectifs :

1 Proposer une pipeline de prototype pour des probl`emes connus de m´etag´enomique.Cette pipeline doit ˆetre flexible et norme Nous allons appliquer ce prototype pourtoutes les pipelines m´etag´enomiques D´evelopper quatre pipelines bas´e sur la m´ethodepropos´ee pour le binning taxonomique Les pipelines doivent ˆetre capable de traiter

et analyser des grandes donn´ees Ils sont ind´ependants pour ˆetre utilis´es dans d’autres

Trang 21

Chapitre 3 : M´ ethodes propos´ ees

Nous commen¸cons par d´ecrire le prototype de pipeline dans la section 3.1 Nous allonsparler des composants, de la structure et du flux de travail Nous d´ecrivons aussi la fa¸cond’int´egration des composants L’impl´emente d´etaill´e des pipelines vont d´ecrire en section 4.1.Ensuite, nous proposons une m´ethode afin de mesurer la similarit´e entre des segments d’ADNdans la section 3.2 Nous allons d´ecrivons d’abord la formule, la fa¸con de calculer la distanceentre deux segments et la m´ethode de s´election les param`eres Le r´esultat de la s´election

du mod`ele va aborder en section 4.2 Enfin, nous d´ecrivons la donn´ees METAHIT et notrestrat´egie de test, section 3.3 Les r´esultats de test sont pr´esent´es en section 4.3

3.1 Prototype de pipeline

Contexte : Quand on travaille avec les donn´ees m´etag´enomiques, on doit typiquementpasser plusieurs ´etapes Chaque ´etape donc a besoin des donn´ees et param`etres sp´ecifiques.Les chercheurs (particuli`erement ce qui ne travaille pas dans le domaine d’informatique)rendent des probl`emes de : (1) int´egration des ´etapes, (2) gestion des param`etres, (3) gestiondes donn´ees entr´ees, sorties Un pipeline est un ensemble d’´etape connect´e dans une s´erieo`u la sortie d’une ´etape est l’entr´ee de la suivante Dans des projets complexes, nous devonstravailler `a la fois avec des pipelines diff´erents La sortie d’un pipeline devient l’entr´ee d’autrepipeline Si les pipelines ne suivent pas un standard, il sera difficile `a les int´egrer

Objectif : Proposer un prototype de pipeline qui vont utiliser comme un standard de tousles pipelines m´etag´enomiques Le prototype suit quatre principes :

— Facile `a utiliser : les utilisateurs sont des personnes dans des domaines diff´erents(m´edecins, biologistes etc) Ils vont travailler dans la couche la plus haute, ils veulentplutˆot les r´esultats, ils ne s’int´eressent pas les codes, les configurations compliqu´ees

Le pipeline final dois ˆetre claire et simple Les utilisateurs lancent seulement une oudeux commandes de shell pour ex´ecuter une tˆache complexe

— Contrˆole : les utilisateurs ont le droit de contrˆoler toues les param`etres et les processus

Il y a aussi les param`etres fournis par d´efaut

— Flexible : le prototype doit ˆetre adapt´e aux pipelines diff´erents pour r´esoudre desprobl`emes m´etag´enomiques

— Facile `a mainternir, `a modifier

Le prototype de pipeline (la figure 7) se compose trois composants principaux : configuration,d´efinition de donn´ees, g´en´erateur de commande Les donn´ees et les outils sont l’entr´ee depipeline La sortie est des commandes La gestion des r´epertoire sert `a g´erer les cheminsentr´ees et sorties de chaque ´etape du pipeline

Les pipelines finaux ont normalement des ´etapes, chaque ´etape demande un ou des outilsparticuliers La plupart des outils sont impl´ement´es par les autres auteurs, nous essayonsdonc de combiner les outils s´epar´es dans un pipeline complet pour r´esoudre un probl`eme

Trang 22

Figure 7 – Prototype de pipeline Le g´en´erateur lit les configuration et les m´etadonn´eespour g´en´erer et appeler les commandes

concr`ete Nous impl´ementons aussi quelques propres outils qui n’existent pas ou qui est tropcomplexe `a int´egrer

Pour lancer un pipeline, les utilisateurs doivent :

— D´ecrire les donn´ees : les ´echantillons, les noms du fichier correspondant

— D´ecrire les param`etres : chaque ´etape du pipeline a besoins d’une ensemble de ram`etre

pa-— Ex´ecuter ´etape par ´etape ou lancer un pipeline complet

3.1.1 Tableau de donn´ees

Dans des projets m´etag´enomiques, on doit analyser un grand nombre d’´echantillon Chaque

´echantillon inclut un ou des “run” Il faut trouver une fa¸con efficace pour g´erer ces m´etadonn´ees.Nous proposons d’utiliser un fichier json pour stocker les m´etadonn´ees, car ce type de fichierest structur´ee, l´eg`ere et facile `a d’extraire les informations Ce fichier contient :

— L’identification des ´echantillons

— L’identification de “run” *

— Le nom de fichier correspondant

* run : Une ´echantillon peut faire s´equen¸cage une ou plusieurs fois, chaque fois est un “run”

La structure du tableau de donn´ees est montr´e dans le listing 3

Listing 3 – La structure de la table de donn´ees{

” s a m p l e ID ” : {

” run ID ” : [ ” r e a d s 1 ” , ” r e a d s 2 ” ]

}

}

Exemple : On a une ´echantillon MH0009, l’identification de “run” est 081224, les noms

du fichiers sont MH0009 081224.1.fastq.gz pour reads 1 et MH0009 081224.2.fastq.gz pour

Trang 23

Listing 5 – Fichier de configuration Les param`etres sont stock´es dans un fichier json{

3.1.4 G´en´erateur de commande

Ce script est ´ecrit en Python Le g´en´erateur vise `a cr´eer des commandes corrects deshell bash selon des outils, param`etres et donn´ees disponibles Le g´en´erateur fait des ´etapessuivantes :

— Lire des m´etadonn´ees

— Lire des configurations

Trang 24

— G´en´erer des commandes selon des donn´ees et des param`etres.

— Ex´ecuter des commandes

— Stocker les r´esultats et les r´esum´es

3.2 La distance phylog´ en´ etique des s´ equences d’ADN

Contexte : Quand on travaille avec des donn´ees de m´etag´enome, on trouve que les crobes partagent typiquement des s´equences communes Dans l’´etape d’assemblage, nousessayons de reconstruire des longues s´equences `a partir des reads Ces s´equences contiennentdes morceaux partag´es entre deux ou des esp`eces Si on calcule l’abondance de ces s´equences,

mi-le niveau d’abondance n’est pas coh´erent, car l’abondance de segments partag´e est ment plus haut que le segment non partag´e Notre ´equipe impl´emente un mod`ele de s´eparerdeux types de segment bas´e sur le mod`ele de Poisson et le framework Bayes Ce mod`ele doitpasser une ´etape de lissage qui a besoin de deux param`etres : reg et win

normale-Mod`ele de segmentation :

— D´ecrire la distribution d’abondance avec un mod`ele de Poisson mixture

— Classer chaque base dans une ´etiquette en basant l’inf´erence bay´esienne sur la bution d’abondance

distri-— Lissage pour r´eduire le bruit : Lissage de r´egression lin´eaire

Apr`es la segmentation, des segments de mˆeme distribution sont class´es dans une classe Donc,nous attendons que les segments de mˆeme classe vont appartenir `a une mˆeme annotationtaxonomique

Objectif : Proposer une mesure de distance pour estimer la similarit´e des segments bas´e surl’anonotation taxonomique Nous l’appelons la distance phylog´en´etique, car elle se base sur

la distance entre des annotations sur l’arbre de phylog´en´etique

Usage : Nous utilisons cette mesure dans l’´etape de s´election du mod`ele Un sous-ensemble

de ´echantillon sont choisis de fa¸con al´eatoire Ces ´echantillons sont pass´ees dans plusieursmod`ele de segmentation o`u chacun prend un ensemble de param`etre (l’´ecart de param`etre sebase sur la longueur du reads : 50%, 100%, 150%, 200% etc)

Algorithme :

— Un fragment est align´e avec une base de donn´ees de r´ef´erence (NCBI nt) Les taxonssont extraits bas´e sur la qualit´e de l’alignement (la longueur, l’indentit´e) Chaquefragment aligne avec un ensemble de taxon

— Construction l’arbre phylog´en´etique entre des taxons (annotation) en utilisant unebase de taxonomique par exemble Entrez [49]

— La distance entre des annotations est calcul´e par la distance du plus proche ancˆetrecommun entre des annotation sur l’arbre phylog´en´etique

— La distance de deux fragments sont calcul´ee par la distance entre deux ensembles desannotations

Ngày đăng: 13/03/2019, 13:36

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Qin, J. et al. A human gut microbial gene catalogue established by metagenomic sequen- cing. Nature 464, 59–65 (2010) Sách, tạp chí
Tiêu đề: A human gut microbial gene catalogue established by metagenomic sequencing
Tác giả: J. Qin, et al
Nhà XB: Nature
Năm: 2010
[2] The MetaHIT Consortium &amp; Ehrlich, S. D. in Metagenomics of the Human Body (ed.Nelson, K. E.) 307–316 (Springer New York, 2011) Sách, tạp chí
Tiêu đề: Metagenomics of the Human Body
Tác giả: The MetaHIT Consortium, Ehrlich, S. D
Nhà XB: Springer New York
Năm: 2011
[3] David, L. A. et al. Diet rapidly and reproducibly alters the human gut microbiome. Nature 505, 559–563 (2013) Sách, tạp chí
Tiêu đề: Diet rapidly and reproducibly alters the human gut microbiome
Tác giả: David, L. A
Nhà XB: Nature
Năm: 2013
[6] Clement, K. Le microbiote intestinal : un nouvel acteur de la nutrition Cah. Nutr. Diete- tique 50, 6S22-6S29 (2015) Sách, tạp chí
Tiêu đề: Le microbiote intestinal : un nouvel acteur de la nutrition
Tác giả: K. Clement
Nhà XB: Cah. Nutr. Diete- tique
Năm: 2015
[7] Forslund, K. et al. Disentangling type 2 diabetes and metformin treatment signatures in the human gut microbiota. Nature 528, 262–266 (2015) Sách, tạp chí
Tiêu đề: Disentangling type 2 diabetes and metformin treatment signatures in the human gut microbiota
Tác giả: Forslund, K., et al
Nhà XB: Nature
Năm: 2015
[8] Wu, H., Tremaroli, V. &amp; B¨ ackhed, F. Linking Microbiota to Human Diseases : A Systems Biology Perspective. Trends Endocrinol. Metab. 26, 758–770 (2015) Sách, tạp chí
Tiêu đề: Linking Microbiota to Human Diseases : A Systems Biology Perspective
Tác giả: H. Wu, V. Tremaroli, F. Bäckhed
Nhà XB: Trends in Endocrinology & Metabolism
Năm: 2015
[9] Bajaj, J. S. Microbiome and complications of liver disease : Microbiome and complications of liver disease. Clin. Liver Dis. 5, 96–99 (2015) Sách, tạp chí
Tiêu đề: Microbiome and complications of liver disease
Tác giả: Bajaj, J. S
Nhà XB: Clin. Liver Dis.
Năm: 2015
[10] Berendsen, R. L., Pieterse, C. M. J. &amp; Bakker, P. A. H. M. The rhizosphere microbiome and plant health. Trends Plant Sci. 17, 478–486 (2012) Sách, tạp chí
Tiêu đề: The rhizosphere microbiome and plant health
Tác giả: Berendsen, R. L., Pieterse, C. M. J., Bakker, P. A. H. M
Nhà XB: Trends Plant Sci.
Năm: 2012
[11] Bakker, P. A. H. M., Berendsen, R. L., Doornbos, R. F., Wintermans, P. C. A. &amp; Pieterse, C. M. J. The rhizosphere revisited : root microbiomics. Front. Plant Sci. 4, (2013) Sách, tạp chí
Tiêu đề: The rhizosphere revisited : root microbiomics
Tác giả: Bakker, P. A. H. M., Berendsen, R. L., Doornbos, R. F., Wintermans, P. C. A., Pieterse, C. M. J
Nhà XB: Front. Plant Sci.
Năm: 2013
[12] Turner. Assessment of insert sizes and adapter content in fastq data from NexteraXT libraries. Front. Genet. (2014). doi :10.3389/fgene.2014.00005 Sách, tạp chí
Tiêu đề: Assessment of insert sizes and adapter content in fastq data from NexteraXT libraries
Tác giả: Turner
Nhà XB: Frontiers in Genetics
Năm: 2014
[13] Mendes, R., Garbeva, P. &amp; Raaijmakers, J. M. The rhizosphere microbiome : significance of plant beneficial, plant pathogenic, and human pathogenic microorganisms. FEMS Mi- crobiol. Rev. 37, 634–663 (2013) Sách, tạp chí
Tiêu đề: The rhizosphere microbiome : significance of plant beneficial, plant pathogenic, and human pathogenic microorganisms
Tác giả: Mendes, R., Garbeva, P., Raaijmakers, J. M
Nhà XB: FEMS Microbiology Reviews
Năm: 2013
[14] Goodwin, S., McPherson, J. D. &amp; McCombie, W. R. Coming of age : ten years of next- generation sequencing technologies. Nat. Rev. Genet. 17, 333–351 (2016) Sách, tạp chí
Tiêu đề: Coming of age : ten years of next- generation sequencing technologies
Tác giả: Goodwin, S., McPherson, J. D., McCombie, W. R
Nhà XB: Nat. Rev. Genet.
Năm: 2016
[17] Quast C et al. The SILVA ribosomal RNA gene database project : improved data proces- sing and web-based tools. Opens external link in new windowNucl. Acids Res. 41 (D1) : D590-D596 Sách, tạp chí
Tiêu đề: The SILVA ribosomal RNA gene database project : improved data processing and web-based tools
Tác giả: Quast C, et al
Nhà XB: Nucl. Acids Res.
Năm: 2013
[18] DeSantis, T. Z., P. Hugenholtz, N. Larsen, M. Rojas, E. L. Brodie, K. Keller, T. Huber, D. Dalevi, P. Hu, and G. L. Andersen. 2006. Greengenes, a Chimera-Checked 16S rRNA Gene Database and Workbench Compatible with ARB. Appl Environ Microbiol 72 :5069- 72 Sách, tạp chí
Tiêu đề: Greengenes, a Chimera-Checked 16S rRNA Gene Database and Workbench Compatible with ARB
Tác giả: T. Z. DeSantis, P. Hugenholtz, N. Larsen, M. Rojas, E. L. Brodie, K. Keller, T. Huber, D. Dalevi, P. Hu, G. L. Andersen
Nhà XB: Appl Environ Microbiol
Năm: 2006
[19] Cole, J. R., Q. Wang, J. A. Fish. Ribosomal Database Project : data and tools for high throughput rRNA analysis Nucl. Acids Res. 42(Database issue) :D633-D642 Sách, tạp chí
Tiêu đề: Ribosomal Database Project : data and tools for high throughput rRNA analysis
Tác giả: J. R. Cole, Q. Wang, J. A. Fish
Nhà XB: Nucl. Acids Res.
Năm: 2014
[20] Westcott, S. L. &amp; Schloss, P. D. De novo clustering methods outperform reference-based methods for assigning 16S rRNA gene sequences to operational taxonomic units. PeerJ 3, e1487 (2015) Sách, tạp chí
Tiêu đề: De novo clustering methods outperform reference-based methods for assigning 16S rRNA gene sequences to operational taxonomic units
Tác giả: S. L. Westcott, P. D. Schloss
Nhà XB: PeerJ
Năm: 2015
[21] Caporaso, J. G. et al. QIIME allows analysis of high-throughput community sequencing data. Nat. Methods 7, 335–336 (2010) Sách, tạp chí
Tiêu đề: QIIME allows analysis of high-throughput community sequencing data
Tác giả: Caporaso, J. G., et al
Nhà XB: Nat. Methods
Năm: 2010
[22] Schloss, P. D. et al. Introducing mothur : Open-Source, Platform-Independent, Community-Supported Software for Describing and Comparing Microbial Communities Sách, tạp chí
Tiêu đề: Introducing mothur : Open-Source, Platform-Independent, Community-Supported Software for Describing and Comparing Microbial Communities
Tác giả: P. D. Schloss, et al
[23] Huson, D. H., Mitra, S., Ruscheweyh, H.-J., Weber, N. &amp; Schuster, S. C. Integrative analysis of environmental sequences using MEGAN4. Genome Res. 21, 1552–1560 (2011) Sách, tạp chí
Tiêu đề: Integrative analysis of environmental sequences using MEGAN4
Tác giả: Huson, D. H., Mitra, S., Ruscheweyh, H.-J., Weber, N., Schuster, S. C
Nhà XB: Genome Research
Năm: 2011
[24] Crusoe, M. R. et al. The khmer software package : enabling efficient nucleotide sequence analysis. F1000Research (2015). doi :10.12688/f1000research.6924.1 Sách, tạp chí
Tiêu đề: The khmer software package : enabling efficient nucleotide sequence analysis
Tác giả: Crusoe, M. R., et al
Nhà XB: F1000Research
Năm: 2015

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm