assemblage et annotation de gÉnomes...

ASSEMBLAGE ET

ANNOTATION DE GÉNOMES

EUCARYOTES

7 SEPTEMBRE 2015

M2 BC2T | Benjamin Noel ([email protected])

WORKFLOW DES PROJETS DE SÉQUENÇAGE

Laboratory Information

Management System

NGS-RG

NGS-QC

*.fastq.gz raw

*.fastq.gz clean

computing facilities

Backup

Genome assembly

Gene prediction

ASSEMBLAGE ET ANNOTATION DE GÉNOMES

EUCARYOTES

1. Introduction à l’assemblage de génomes

2. Annoter un génome Eucaryote : théorie et réalité

3. L'annotation automatique au Genoscope

4. Projets de génomique Eucaryotes

INTRODUCTION À L’ASSEMBLAGE

Building a genome

Assembly QC

Continuity

Missamblies

Physical map

Genetic map

Type of library

Overlapping

reads

Single reads

Short fragments

Long fragments

BAC

Genome

complexity

Ploïdy

Zygoty

Repeats

Genome size

DNA abundance

and quality

Material unlimited

Very small

organisms

Monoclonal

population

High molecular

weight DNA

Nuclear DNA

contamination

Sequencing

technology

Sanger

454

Illumina

Ion Torrent

PacBio

Nanopore

Assembly

method

de bruijn Graph

(DGB)

Overlap-Layout-

Consensus

(OLC)

Scaffolding

Gapclosing


Complexité d’un génome

1. A quoi ressemble le génome:

« Le génome à une taille d’environ 500 Mb, est diploïde, à 99 % homozygote et

contient environ 40% de séquences répétées »

2. Définir les objectifs qualités de l’assemblage final:

Au moins 95% des gènes sont dans l’assemblage du génome

Au moins 90 % du génome est contenu dans l’assemblage

N50 contig > taille moyenne d’un gène

N50 scaffold > 1 Mb

Moins de 5% de bases indéterminées

3. Définition d’une stratégie de séquençage et d’assemblage

Accès ADN haut poids moléculaire ? => long reads, long fragments, optical maps

« easy » genome : Illumina sequencing seulement

« hard » genome : stratégie hybride

Quelles technologies de séquençage sont disponibles ? Quels sont leurs coûts ?

Quels compromis faire ?


Assemblage de génome

Définition: Obtenir les séquences qui sont le plus proches possibles de celles des

chromosomes.


Assemblage de génome : Répétitions

contig 1 contig 2

Repeat Repeat

AAAAAAAAAAAAAAAAAAAAAAA

AAAAAA AAAAAA AAAAAA

AAAAAA AAAAAA AAAAAA

AAAAAA AAAAAA

AAAAAA

AAAAAA

AAAAAA

AAAAAA

AAAAAA

AAAAAA

AAAAAA

AAAAAA

AAAAAA

Assemblage

contigs reads


Assemblage de génome : Hétérozygotie

Chromosome 1 allèle A

Chromosome 1 allèle B

Assemblage


Overlap Layout Consensus (OLC)

GCGTATAAGCTATACGCT

Genome Reads

TATACG GCGTATA

TATAAGCTATA

GCGTATA TATAAGCTATA

TATACG TACGCT

TATAAGCTATA

GCGTATA TATACG

TATACG TACGCT

Overlap Layout

Consensus

GCG TATA CGCT AGC

GCGTATA TATAAGCTATA

TATACG

TACGCT


De Bruijn Graph (DBG)

GCGTATAAGCTATACGCT

Genome 4-mers

CTAT ATAC TACG ACGC CGCT

GCGT CGTA GTAT

TATA

ATAA TAAG

AAGC

AGCT

GCTA

4-mers overlap graph Chaque k-mer est un nœud. 2 nœud sont connectés si les k-mers se chevauchent par k-1 mer

GCGT CGTA

GTAT TATA ATAA

TAAG AAGC

AGCT GCTA

ATAC CTAT

TACG ACGC

CGCT

GCGTATA TATAAGCTATA

TATACG

Reads

TACGCT


De Bruijn Graph (DBG)


OLC vs DBG

DBG

Taille de k-mer limite

Utile pour les reads < 200 bp

Casse les contigs dans les régions répétées et/ou hétérozygotes

Algorithme rapide mais gourmand en mémoire

OLC

Taille reads > 200 bp

Casse les contigs dans les régions répétées et/ou hétérozygotes

Algorithme lent mais faible consommateur en mémoire


EUCARYOTES





ANNOTER UN GÉNOME EUCARYOTE: THÉORIE

Annoter une séquence, c’est donner un sens biologique à celle-ci

Plusieurs niveaux d’annotation :

1. L’annotation syntaxique

Localisation des régions d’intérêts

2. L’annotation fonctionnelle

Attribution d’une fonction

3. L’annotation relationnelle

Mise en évidence de relation entre annotation

ANNOTER UN GÉNOME EUCARYOTE : THÉORIE

Les différents éléments que l’on peut annoter

Gènes Séquences répétées

Séquences de régulation

ARNs non-codant En tandem Promoteurs

ARN ribosomique rRNA Microsatellites Enhancers petits ARNs nucléaires snRNA Minisatellites Locus control regions (LCR)

petits ARNs nucléolaires snoRNA Satellites Isolateurs (Insulators) ARNs de transfert tRNA Silenceurs (Silencers)

micro ARNs « Transfrags »

miRNA Régions d’attachement à la matrice (matrix attachment

region, MAR) Gènes codant des

protéines Dispersées

Gènes fonctionnels Retrotransposons Pseudogènes Retroposons

Transposons


Annotation syntaxique Structure classique d'un gène

Deux façon d'annoter un gène :

par expertise humaine : manuelle

par un ou des programme(s) informatique(s) : automatique

CAAT TATA AUG T AAUAA

exon exon exon

intron intron

CDS 5’ UTR 3’ UTR


Annotation Manuelle Concerne un nombre restreint de gènes

Projet avec une large communauté d'annotateurs

http://vega.sanger.ac.uk/index.html

http://vega.sanger.ac.uk/index.html


Annotation Automatique Nécessite des ressources informatiques importantes

Plus rapide, moins fiable http://www.ensembl.org/info/about/species.html

http://www.ensembl.org/info/about/species.html


La réconciliation des informations est la différence majeure entre l'annotation

manuelle et l'annotation automatique.

ANNOTATION SYNTAXIQUE: DIFFICULTÉS

Structure classique d'un gène

Mais un gène classique, cela n'existe pas !

CAAT TATA AUG T AAUAA

exon exon exon

intron intron

CDS 5’ UTR 3’ UTR


Paradoxe de la valeur C (= taille du génome) La taille du génome d’une espèce Eucaryotes ne peut pas

être déduit de sa « complexité »

Gregory, T.R. (2010). Animal Genome Size Database. http://www.genomesize.com

Le criquet marcheur

Podisma pedestris

La mouche du vinaigre

Drosophila melanogaster

18,000 Mb

180 Mb


Taille du génome et nombre de gènes : chez les Procaryotes

E. coli

M. genitalium

Graur & Li. Fundamentals of Molecular Evolution (1999)


Taille du génome et nombre de gènes : chez les Eucaryotes

S. cerevisiae

N. crassa

T. melanosporum

T. brucei

L. major

P. falciparum

P. tetraurelia

C. intestinalis D. melanogaster

C. elegans

T. nigroviridis

H. sapiens M. musculus

A. thaliana

O. sativa

V. vinifera

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

0 500 1000 1500 2000 2500 3000 3500 4000

No

mb

re d

e g

en

es

Taille du génome (Mb)


Taille du génome et nombre de gènes : chez les Eucaryotes

2000

6000

10000

12500

900011200

5200

40000

11000

14000

20600

24000

27900

24000

2690028000

37500

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

E. c

uniculi

S. c

erev

isia

e

N. c

rass

a

D. d

isco

ideu

m

T. bru

cei

T. pse

udonan

a

P. f

alcip

arum

P. t

etrau

relia

C. i

nte

stin

alis

D. m

elan

ogaste

r

C. e

legans

X. t

ropic

alis

T. nig

rovi

dis

H. s

apie

ns

M. m

usculu

s

A. t

haliana

O. s

ativa

Nom

bre

de g

ènes


Structure exon/intron espèce dépendante

International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature (2001) 409: 745-964

Espèces Phylum % répétitions

génomiques

Taille moyenne

des introns (nt)

Distance

intergénique

moyenne (nt)

Nombre moyen

d'exons par gène

(% monoexoniques)

Paramecium tetraurelia Ciliés 6% 27 335 3,3 (20%)

Vitis vinifera Dicotyledons 14% 970 11970 6 (8%)

Tuber melanosporum Ascomycetes 61% 107 6917 3,9 (18%)

3 génomes annotés au Genoscope


Quelques caractéristiques du génome humain

Chr. 20 Chr. 21 Chr. 22

Taille du chromosome 63 Mb 48 Mb 51 Mb

Gènes codants connus 551 235 445

Gènes codants nouveaux 8 7 24

Pseudogènes 201 141 275

ARN non codant 189 69 105

Densité en gènes codants 8,9 g./Mb 5 g./Mb 9,1 g./Mb

http://www.ensembl.org/Homo_sapiens/

Densité en gènes variable selon les espèces et même

selon les chromosomes.

Distribution non homogène des gènes sur les

chromosomes

http://www.ensembl.org/Homo_sapiens/


268 kb

Gènes chevauchants


Epissage alternatif dans plus de 80% des gènes humains (Matlin et al., Nature Reviews 6

(5): 386–398)

Promoteurs alternatifs

Signaux polyadenylations alternatifs


Pseudogène

Duplication génique

Retro-transposition d'un ARNm

duplication

Forme active Forme inactive

transcription AAAA (ARNm)

Reverse - transcription

AAAA (cDNA)


Moins de 50% des séquences répétées du génome humain sont spécifiques aux primates.

Mais presque la totalité des séquences répétées de souris sont spécifiques aux rongeurs,

car elles sont plus actives et possèdent un taux de mutation plus élevé.

# of repeats total bp

primates 563 664160

rodents 466 487006

other mammals 347 243730

other vertebrates 52 53994

Drosophila 65 167423

Arabidopsis 98 275516

grasses 27 67789

RepeatMasker (Arian Smit & Phil Green)


Chez les Eucaryotes :

la taille d'un génome ne reflète pas le nombre de gènes

les régions intergéniques sont de composition et de taille variable selon les espèces

la structure des gènes varie selon les espèces, et parfois au sein d'une même espèce

Du point de vue de l'annotation automatique, la complexité d'un génome dépend de sa variabilité.

Plus un génome aura des structures géniques homogènes, plus l'annotation automatique sera

performante.

H. sapiens M. musculus D. melanogaster A. thaliana V. vinifera C. elegans P. tetraurelia

Taille (Mb) 3275 3420 169 136 485 103 72

Nombre de

gènes 21727 22732 13781 31281 26346 20224 39642

Nombre

moyen

exons/gene

25,7 17,1 5,2 5 6,3 8 3,3

Densité

moyenne en

gènes

(gènes/Mb)

6,6 6,6 81,5 230 54 196 551


EUCARYOTES





L'ANNOTATION AUTOMATIQUE AU GENOSCOPE

Le processus d’annotation

Recherche des structures exons-introns sur des séquences issues d'un assemblage

dans le but de définir un ensemble de modèles de gènes de référence.

Data Distribution

Genome browser

Submission

Data distribution

Masking

Known repeats,

low/simple/tandem

repeats

RepeatMasker/TRF

Repeats ab initio

detection

RepeatScout

Data Collection

Proteins mapping

Blat/Blast/GeneWise

RNA-seq (reads, contigs)

Star/Gmorse/oases/trinity

Ab initio genes predictions

SNAP

Integration

Gene models

prediction

using Gmove

Post Annotation Analysis

Functional Annotation

InterProScan, KEGG KO

Paralogous/Orthologous

Metabolic Pathway

KEGG


Le masquage des répétitions connues Les séquences répétées contenues dans les séquences génomiques (contigs, scaffolds,

chromosomes) sont masquées suivant plusieurs méthodes:

Tandem Repeat Finder (G. Benson, Tandem repeats finder: a program to analyze DNA

sequences, Nucleic Acids Research, 1999, vol. 27, No. 2, pp. 573-580.) permet de

masquer les répétitions en tandem sur des séquences génomiques sans a priori sur

les motifs à détecter.

RepeatMasker (A.F.A. Smit, R. Hubley & P. Green RepeatMasker at

http://repeatmasker.org/ ) permet de masquer des répétitions connues (simple, basse

complexité, organisme spécifique) sur des séquences génomiques. Il utilise Repbase

(http://www.girinst.org/repbase/index.html) pour rechercher les répétitions connues. Il

peut également utiliser une banque de séquence de répétition définit par l’utlisateur.

RepeatScout (Price et al. http://bix.ucsd.edu/repeatscout/) permet d’établir un

catalogue exhaustif des séquences répétées (connues et inconnues) présentes au

sein de l'organisme étudié. Attention, les familles de gènes peuvent être masquées.

L’objectif est de masquer le maximum de régions répétées non codantes


Data Distribution

Genome browser

Submission

Data distribution

Masking

Known repeats,

low/simple/tandem

repeats

RepeatMasker/TRF

Repeats ab initio

detection

RepeatScout

Data Collection

Proteins mapping

Blat/Blast/GeneWise




SNAP

Integration

Gene models

prediction

using Gmove





Metabolic Pathway

KEGG


Prédictions ab initio de modèles de gènes

Recherche de modèles de gènes à partir d'un ensemble de

paramètres statistiques définissant un gène.

Calibrage de ces paramètres à partir de :

soit de séquences connus de gènes de l'organisme

soit d'alignements de cDNAs de l'organisme

L'échantillon utilisé pour calibrer les outils doit être

représentatif du protéome.

SNAP (Ian Korf, BMC Bioinformatics 2004, 5:59)

Augustus (Stanke, et al., BMC Bioinformatics 2006, 7, 62)

Prédictions

Annotations

Prédictions

Alignements protéiques

Modèles de gènes

Paramétrages


L’alignement de séquences exprimées

Objectif

Mise en évidence de régions génomiques codantes par comparaisons de séquences

exprimées (transcrits, protéines) conservées.

Mise en œuvre

Alignement de séquences de cDNAs et/ou de protéines contre des séquences

génomiques, du génome d’intérêt, issues de l’assemblage. Les séquences exprimées et

les séquences génomiques n’appartiennent pas nécessairement à la même espèce.

Contraintes

Tailles des séquences

Volume des données

Temps de calculs

Sensibilité / Spécificité des alignements

Redondance des matches

Recherche des introns

Génomique

cDNAs Protéines


Annotation par comparaison de séquences

1) recherche d’un gène (mRNA) de la même espèce et

100% homologue, complet.

2) recherche d’un gène (mRNA) de la même espèce et

100% homologue, partiel.

3) recherche d’homologies avec des gènes (mRNA, protéines)

de la même espèce, ou d’espèces différentes

4) recherche de régions de conservation avec d’autres

génomes

Nucléotides

Acides aminés


Outils d’alignement

BLAT BLAST

-BLASTN ntdb ntquery -BLASTP aadb aaquery -BLASTX aadb ntquery -TBLASTN ntdb aaquery -TBLASTX ntdb ntquery BLAST.2

Idem BLAST mais introduit des “ GAPS ”

FASTA Smith-Waterman

Rapidité Sensibilité Spécificité


Exploitation du RNAseq pour l’annotation

Prédiction de

modèles de

gènes

Reads

Illumina

Mapping

Blat

est2genome

Modèles

Gmorse

Mapping

STAR

Assemblage

Oases | Trinity


Exploitation du RNAseq pour l’annotation :

Mapping

Le génome et les transcrits appartiennent au même

organisme alignements stringent

Le génome et les transcrits n’appartiennent pas au

même organisme (différentes souches, même

clade,…) alignement moins stringent

Découpage

Localisation des séquences de

cDNAs sur le génomique par un

alignement rapide (BLAT)

Définition des bornes exons/introns

sur le génomique par un alignement

(est2genome)

Filtre (longueur, score)

Genome Contigs

Modèles de gènes

(partiel ou complet)


Construction de modèles de transcrits à partir de données RNA-Seq

Objectif : annoter des génomes eucaryotes à partir de données de transcriptome issues de

séquençage haut-débit (Solexa/Illumina ou Solid)

Difficultés :

Prédire une structure de gène avec des tags d’une 100aine de bases

Aligner les tags qui tombent sur une jonction exon/exon


Gmorse : Gene modelling using RNAseq


Les protéines conservées

Alignements de séquences protéiques

(UniProtKB) sur l'assemblage dans le but

d'identifier des ORFs conservées entre

espèces.

La quantité d'alignements dépend du niveau

d'homologie entre les organismes présents

dans les banques et celui à annoter.

Découpage

Localisation des séquences de

protéines sur le génomique par un

alignement rapide (BLAT)

Définition des bornes exons/introns

sur le génomique par un alignement

(genewise)

Filtre (longueur, score)

Genome Protéines

Modèles de gènes

(partiel ou complet)


UniProtKB (release 2015_04)

UniProtKB (http://www.uniprot.org/ ) est composé de 2 sections:

SwissProt qui contient des protéines annotées manuellement et expertisées.

TrEMBL qui contient des protéines annotées automatiquement et non expertisées.

Sw

issP

rot

Kingdom sequences (%)

Archaea 19340 (4%)

Bacteria 332062 (61%)

Eukaryota 180260 (33%)

Viruses 16546 (3%)

Eucaryotes

TrE

MB

L

Kingdom sequences (%)

Archaea 913804 (2%)

Bacteria 29096694 (62%)

Eukaryota 13910429 (30%)

Viruses 2236332 (5%)

Other 557256 (<1%)

http://www.uniprot.org/


Data Distribution

Genome browser

Submission

Data distribution

Masking

Known repeats,

low/simple/tandem

repeats

RepeatMasker/TRF

Repeats ab initio

detection

RepeatScout

Data Collection

Proteins mapping

Blat/Blast/GeneWise




SNAP

Integration

Gene models

prediction

using Gmove





Metabolic Pathway

KEGG


Intégration des ressources


RNAseq alignments

Proteins alignments

Ab initio predictions

Putative exons and introns

Transcript candidates Predicted transcripts

ORFs finding

Select

candidate

transcript

Final transcript

Gmove: Gene Modelling using Various Evidence

Creation of an oriented graph

Extract paths from the graph


Intégration des ressources


Mesure de la qualité des annotations


Qualité d’une annotation automatique Application de filtres sur les modèles de gènes :

règles de filtrage basées sur la structure et le

score des gènes

détection de domaines protéiques et élimination

des protéines annotées présentant des domaines

de transposons

Evaluation de la qualité des annotations par

l'observation de plusieurs indices : recouvrement avec

les cDNAs de l'organisme, structure des modèles

(tailles des protéines, exons, introns, nombre moyen

d'exons/gène,…), expertise manuelle.

Utilisation d’annotations fiables d’espèces voisines.

On comparera ensuite les gènes orthologues et les

caractéristiques suivantes :

- la teneur en GC aux positions 2 et 3 des codons

- le nombre d’exons par gène

- la taille moyenne des CDS (coding sequence)

Plot de densité montrant la corrélation entre les

GC3 des codons des gènes orthologues du riz et

de la banane.

Example of comparison of exon numbers


Les ressources informatiques disponibles pour le calcul

Linux AMD et Intel x86 64 bits

normal: >1000 cores ; 8Go-16Go/core

xlarge : 2x 40 cores; 2To RAM

1x 48 cores ; 2To RAM

1x 48 cores ; 3To RAM

NAS Netapp ~ 1Po

CCRT : BULL >3000 cores and 3 nodes with

64 cores and 3To

+ Curie supercomputer (360

nœuds/32coeurs/128Go RAM))

Lustre 5Po (with 2Po on HDD)

SEQUENÇAGE ET BIOINFORMATIQUE

http://www.businessinsider.com/super-cheap-genome-sequencing-by-2020-2014-10?IR=T


EUCARYOTES





PROJETS DE GÉNOMIQUE EUCARYOTES

Tuber melanosporum

(truffle)

Chondrus crispus

(red alga)

Triticum sp

(wheat)

Theobroma cacao

(Cacao)

Oncorhynchus mykiss

(trout)

Brasssica napus

(seed rape)

Flickr/chaojikazu

Coffea

(coffee) Musa acuminata

(banana)

Pisum sativum

(pea)

Quercus robur

(oak) Rosa chinensis

(rosebush)

Vitis vinifera

(grape)

Et beaucoup d’autres organismes….

2012 Aug 9; 488: 213–217

LE GÉNOME DU BANANIER


‒ Source d'alimentation pour de plus de 400 millions de

personnes des pays du Sud

‒ Exportée massivement vers les pays développés

‒ La variété exportée est sensible à de nombreux parasites (il

s'agit d'un clone stérile : impossibilité de faire des croisements

pour sélectionner des plantes résistantes)

banane sauvage (fertile): non comestible car présence de graines


Génome 523 Mb, 11 chromosomes, 36 542 gènes

● L'annotation des gènes pourra permettre l'identification de facteurs de résistance aux

pathogènes ou de qualité des fruits.

● Le bananier est la première plante de sa classe botanique (les monocotylédones), à côté des

céréales, pour laquelle un séquençage abouti a été obtenu. Il constitue à ce titre une

référence pour étudier l’évolution des génomes.


Le bananier a connu trois épisodes de duplication complète du génome indépendantes de celles

constatées dans la lignée des graminées.

La plupart des gènes issus de ces évènements de duplication sont ensuite perdus, mais certains persistent et permettent l’émergence de nouvelles fonctions biologiques, comme certains facteurs de régulation (facteurs de transcription) qui sont particulièrement abondants chez le bananier et concourent à des processus importants dont la maturation des fruits.

WGD

céréales

WGD

LE GÉNOME DU COLZA

LE GÉNOME DU COLZA

• Première oléagineuse cultivée en Europe en termes de surface.

Explosion de sa culture à partir du 20e siècle

• Famille des Crucifères, comme la moutarde, le chou, le chou-fleur, le

brocoli, le chou chinois, le navet…

• Apparition il y a quelques milliers d’années (ère post-néolithique) : fruit

du croisement interspécifique favorisé par l’homme de façon

involontaire entre le chou et la navette.

• L’espèce s’est rapidement diversifiée en plusieurs types : colza à huile,

navet suédois, chou frisé, rutabaga…

Le séquençage de son génome constitue une ressource unique pour

l’amélioration variétale:

teneur et composition en huile

résistance à des pathogènes

tolérance au froid

rendement

efficacité d’utilisation des nitrates dans le sol

Le colza, une espèce récente à fort potentiel de

diversification et d’adaptation

Triangle de U

LE GÉNOME DU COLZA

Le colza: champion des duplications récurrentes des génomes par polyploïdie

Le colza a accumulé au cours de son évolution 72 génomes ancestraux, résultat de nombreux cycles de polyploïdisation,

faisant de son génome un des plus hautement dupliqués chez les plantes à fleurs (angiospermes). Ce phénomène récurrent,

suivi par des restructurations du génome, a conduit à l’accumulation d’un grand nombre de gènes: 101 040.

PROJET TARA OCEANS

Etude de la biodiversité des

micro-organismes marins

Les océans couvrent les 3/4 de la surface

de la Terre

Le plancton représente 80% des

organismes unicellulaires sur Terre

Dans 1L d’eau de mer :

Bloom planctonique

Nombre d’espèces Phylum

100 – 1000 Animaux

10 000 – 100 000 Protistes

1 – 10 millions Bactéries

10 – 100 millions Virus

PROJET TARA OCEANS

Matière Organique

Matière Minérale

O2

CO2

Eléments minéraux

LE PLANCTON 50% de l’O2 produit

70% du CO2 recyclé

Evaporation

Phytoplancton

Zooplancton

Petits Poissons

Grands Prédateurs

Bactéries

Décomposition

PROJET TARA OCEANS

Christian Sardet (CNRS, Villefranche-sur-Mer)

Catalogue

d’espèces du

plancton marin et

leurs interactions

Corrélation climat /

plancton

PROJET TARA OCEANS

Collaboration internationale impliquant une 20aine de laboratoires

IMAGERIE OCEANOGRAPHIE

INFORMATIQUE GENOMIQUE

PROJET TARA OCEANS

http://oceans.taraexpeditions.org/

PROJET TARA OCÉANS

Acquisition des données

Satellite et modèles : informations océanographiques

À bord : échantillonnage et stockage, imagerie, mesures en temps réel.

À terre : traitements, analyses et modélisation (biodiversité taxonomique, fonctionnelle)

PROJET TARA OCEANS

3 méthodes, plus de 27 000 prélèvements :

- Les filets : 7 modèles de 5 à 690µm, de la surface jusqu’à 1000 m de profondeur

- La pompe péristaltique : de 10 à 120m de profondeur, pompe l’eau qui est filtrée dans des tamis de plus en

plus petits.

- La rosette CTD : caractérise les masses d’eau : pression, température, azote, O2 fluorescence…

PROJET TARA OCEANS

Pompe péristaltique

Filets

La rosette

GPSS(Gravity Plankton

Sieving System)

PROJET TARA OCEANS

http://oceans.taraexpeditions.org/

PROJET TARA OCÉANS

Cultures

Biodiversité

Non cultivable

Cellules

Isolées

Communautés

de cellules

Séquençage

à haut débit

Traitements &

stockage

informatique

-> Liste des

espèces

-> Liste des

fonctions

Tara

Samples

Cultures

Single

Cell

Isolation

Whole

Genome

Amplification

DNA, RNA

extraction

Séquençage

Assemblage

Prédiction de gènes

Tags rRNA mRNA DNA

Stratégie

Annotation fonctionnelle

PROJET TARA OCÉANS

Analyse d’un assemblage de metagénomes

17/10/2016

DNA Contigs from TARA METAGENOME set 1

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0.2um 5-20um 20-180um 180-2000um >2000um

Virus Archeae Bacteria Eukaryota Ambiguous Not Assigned

R&D BIOINFORMATIQUE ET SÉQUENÇAGE

http://www.genoscope.cns.fr/rdbioseq

R&D Bioinformatic et Sequencing group

Production / Evaluation

Caroline Belser

Stefan Engelen

Frédérick Gavory

Aurélie Périn

Sabrina Davidas

Eidji Bord

Artem Kourlaiev

Assemblage

Carole Azema Dossat

Arnaud Couloux

Simone Duprat

Léo D’Agata

Sébastien Faye

Benjamin Istace

François-Xavier Babin

Annotation

Corinne Da Silva

Benjamin Noel

Marc Wessner

Marion Dubarry

Fabien Dutreux

Laboratoires de Séquençage du

Genoscope (LS, LBioMeG)

Laboratoire d’Analyse des

Génomes Eucaryotes (LAGE)

assemblage et annotation de gÉnomes...

Documents