assemblage et annotation de gÉnomes...
TRANSCRIPT
ASSEMBLAGE ET
ANNOTATION DE GÉNOMES
EUCARYOTES
7 SEPTEMBRE 2015
M2 BC2T | Benjamin Noel ([email protected])
WORKFLOW DES PROJETS DE SÉQUENÇAGE
Laboratory Information
Management System
NGS-RG
NGS-QC
*.fastq.gz raw
*.fastq.gz clean
computing facilities
Backup
Genome assembly
Gene prediction
ASSEMBLAGE ET ANNOTATION DE GÉNOMES
EUCARYOTES
1. Introduction à l’assemblage de génomes
2. Annoter un génome Eucaryote : théorie et réalité
3. L'annotation automatique au Genoscope
4. Projets de génomique Eucaryotes
INTRODUCTION À L’ASSEMBLAGE
Building a genome
Assembly QC
Continuity
Missamblies
Physical map
Genetic map
Type of library
Overlapping
reads
Single reads
Short fragments
Long fragments
BAC
Genome
complexity
Ploïdy
Zygoty
Repeats
Genome size
DNA abundance
and quality
Material unlimited
Very small
organisms
Monoclonal
population
High molecular
weight DNA
Nuclear DNA
contamination
Sequencing
technology
Sanger
454
Illumina
Ion Torrent
PacBio
Nanopore
Assembly
method
de bruijn Graph
(DGB)
Overlap-Layout-
Consensus
(OLC)
Scaffolding
Gapclosing
INTRODUCTION À L’ASSEMBLAGE
Complexité d’un génome
1. A quoi ressemble le génome:
« Le génome à une taille d’environ 500 Mb, est diploïde, à 99 % homozygote et
contient environ 40% de séquences répétées »
2. Définir les objectifs qualités de l’assemblage final:
Au moins 95% des gènes sont dans l’assemblage du génome
Au moins 90 % du génome est contenu dans l’assemblage
N50 contig > taille moyenne d’un gène
N50 scaffold > 1 Mb
Moins de 5% de bases indéterminées
3. Définition d’une stratégie de séquençage et d’assemblage
Accès ADN haut poids moléculaire ? => long reads, long fragments, optical maps
« easy » genome : Illumina sequencing seulement
« hard » genome : stratégie hybride
Quelles technologies de séquençage sont disponibles ? Quels sont leurs coûts ?
Quels compromis faire ?
INTRODUCTION À L’ASSEMBLAGE
Assemblage de génome
Définition: Obtenir les séquences qui sont le plus proches possibles de celles des
chromosomes.
INTRODUCTION À L’ASSEMBLAGE
Assemblage de génome : Répétitions
contig 1 contig 2
Repeat Repeat
AAAAAAAAAAAAAAAAAAAAAAA
AAAAAA AAAAAA AAAAAA
AAAAAA AAAAAA AAAAAA
AAAAAA AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
Assemblage
contigs reads
INTRODUCTION À L’ASSEMBLAGE
Assemblage de génome : Hétérozygotie
Chromosome 1 allèle A
Chromosome 1 allèle B
Assemblage
INTRODUCTION À L’ASSEMBLAGE
Overlap Layout Consensus (OLC)
GCGTATAAGCTATACGCT
Genome Reads
TATACG GCGTATA
TATAAGCTATA
GCGTATA TATAAGCTATA
TATACG TACGCT
TATAAGCTATA
GCGTATA TATACG
TATACG TACGCT
Overlap Layout
Consensus
GCG TATA CGCT AGC
GCGTATA TATAAGCTATA
TATACG
TACGCT
INTRODUCTION À L’ASSEMBLAGE
De Bruijn Graph (DBG)
GCGTATAAGCTATACGCT
Genome 4-mers
CTAT ATAC TACG ACGC CGCT
GCGT CGTA GTAT
TATA
ATAA TAAG
AAGC
AGCT
GCTA
4-mers overlap graph Chaque k-mer est un nœud. 2 nœud sont connectés si les k-mers se chevauchent par k-1 mer
GCGT CGTA
GTAT TATA ATAA
TAAG AAGC
AGCT GCTA
ATAC CTAT
TACG ACGC
CGCT
GCGTATA TATAAGCTATA
TATACG
Reads
TACGCT
INTRODUCTION À L’ASSEMBLAGE
De Bruijn Graph (DBG)
INTRODUCTION À L’ASSEMBLAGE
OLC vs DBG
DBG
Taille de k-mer limite
Utile pour les reads < 200 bp
Casse les contigs dans les régions répétées et/ou hétérozygotes
Algorithme rapide mais gourmand en mémoire
OLC
Taille reads > 200 bp
Casse les contigs dans les régions répétées et/ou hétérozygotes
Algorithme lent mais faible consommateur en mémoire
ASSEMBLAGE ET ANNOTATION DE GÉNOMES
EUCARYOTES
1. Introduction à l’assemblage de génomes
2. Annoter un génome Eucaryote : théorie et réalité
3. L'annotation automatique au Genoscope
4. Projets de génomique Eucaryotes
ANNOTER UN GÉNOME EUCARYOTE: THÉORIE
Annoter une séquence, c’est donner un sens biologique à celle-ci
Plusieurs niveaux d’annotation :
1. L’annotation syntaxique
Localisation des régions d’intérêts
2. L’annotation fonctionnelle
Attribution d’une fonction
3. L’annotation relationnelle
Mise en évidence de relation entre annotation
ANNOTER UN GÉNOME EUCARYOTE : THÉORIE
Les différents éléments que l’on peut annoter
Gènes Séquences répétées
Séquences de régulation
ARNs non-codant En tandem Promoteurs
ARN ribosomique rRNA Microsatellites Enhancers petits ARNs nucléaires snRNA Minisatellites Locus control regions (LCR)
petits ARNs nucléolaires snoRNA Satellites Isolateurs (Insulators) ARNs de transfert tRNA Silenceurs (Silencers)
micro ARNs « Transfrags »
miRNA Régions d’attachement à la matrice (matrix attachment
region, MAR) Gènes codant des
protéines Dispersées
Gènes fonctionnels Retrotransposons Pseudogènes Retroposons
Transposons
ANNOTER UN GÉNOME EUCARYOTE : THÉORIE
Annotation syntaxique Structure classique d'un gène
Deux façon d'annoter un gène :
par expertise humaine : manuelle
par un ou des programme(s) informatique(s) : automatique
CAAT TATA AUG T AAUAA
exon exon exon
intron intron
CDS 5’ UTR 3’ UTR
ANNOTER UN GÉNOME EUCARYOTE : THÉORIE
Annotation Manuelle Concerne un nombre restreint de gènes
Projet avec une large communauté d'annotateurs
http://vega.sanger.ac.uk/index.html
ANNOTER UN GÉNOME EUCARYOTE : THÉORIE
Annotation Automatique Nécessite des ressources informatiques importantes
Plus rapide, moins fiable http://www.ensembl.org/info/about/species.html
ANNOTER UN GÉNOME EUCARYOTE : THÉORIE
La réconciliation des informations est la différence majeure entre l'annotation
manuelle et l'annotation automatique.
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Structure classique d'un gène
Mais un gène classique, cela n'existe pas !
CAAT TATA AUG T AAUAA
exon exon exon
intron intron
CDS 5’ UTR 3’ UTR
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Paradoxe de la valeur C (= taille du génome) La taille du génome d’une espèce Eucaryotes ne peut pas
être déduit de sa « complexité »
Gregory, T.R. (2010). Animal Genome Size Database. http://www.genomesize.com
Le criquet marcheur
Podisma pedestris
La mouche du vinaigre
Drosophila melanogaster
18,000 Mb
180 Mb
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Taille du génome et nombre de gènes : chez les Procaryotes
E. coli
M. genitalium
Graur & Li. Fundamentals of Molecular Evolution (1999)
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Taille du génome et nombre de gènes : chez les Eucaryotes
S. cerevisiae
N. crassa
T. melanosporum
T. brucei
L. major
P. falciparum
P. tetraurelia
C. intestinalis D. melanogaster
C. elegans
T. nigroviridis
H. sapiens M. musculus
A. thaliana
O. sativa
V. vinifera
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
0 500 1000 1500 2000 2500 3000 3500 4000
No
mb
re d
e g
en
es
Taille du génome (Mb)
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Taille du génome et nombre de gènes : chez les Eucaryotes
2000
6000
10000
12500
900011200
5200
40000
11000
14000
20600
24000
27900
24000
2690028000
37500
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
E. c
uniculi
S. c
erev
isia
e
N. c
rass
a
D. d
isco
ideu
m
T. bru
cei
T. pse
udonan
a
P. f
alcip
arum
P. t
etrau
relia
C. i
nte
stin
alis
D. m
elan
ogaste
r
C. e
legans
X. t
ropic
alis
T. nig
rovi
dis
H. s
apie
ns
M. m
usculu
s
A. t
haliana
O. s
ativa
Nom
bre
de g
ènes
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Structure exon/intron espèce dépendante
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature (2001) 409: 745-964
Espèces Phylum % répétitions
génomiques
Taille moyenne
des introns (nt)
Distance
intergénique
moyenne (nt)
Nombre moyen
d'exons par gène
(% monoexoniques)
Paramecium tetraurelia Ciliés 6% 27 335 3,3 (20%)
Vitis vinifera Dicotyledons 14% 970 11970 6 (8%)
Tuber melanosporum Ascomycetes 61% 107 6917 3,9 (18%)
3 génomes annotés au Genoscope
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Quelques caractéristiques du génome humain
Chr. 20 Chr. 21 Chr. 22
Taille du chromosome 63 Mb 48 Mb 51 Mb
Gènes codants connus 551 235 445
Gènes codants nouveaux 8 7 24
Pseudogènes 201 141 275
ARN non codant 189 69 105
Densité en gènes codants 8,9 g./Mb 5 g./Mb 9,1 g./Mb
http://www.ensembl.org/Homo_sapiens/
Densité en gènes variable selon les espèces et même
selon les chromosomes.
Distribution non homogène des gènes sur les
chromosomes
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
268 kb
Gènes chevauchants
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Epissage alternatif dans plus de 80% des gènes humains (Matlin et al., Nature Reviews 6
(5): 386–398)
Promoteurs alternatifs
Signaux polyadenylations alternatifs
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Pseudogène
Duplication génique
Retro-transposition d'un ARNm
duplication
Forme active Forme inactive
transcription AAAA (ARNm)
Reverse - transcription
AAAA (cDNA)
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Moins de 50% des séquences répétées du génome humain sont spécifiques aux primates.
Mais presque la totalité des séquences répétées de souris sont spécifiques aux rongeurs,
car elles sont plus actives et possèdent un taux de mutation plus élevé.
# of repeats total bp
primates 563 664160
rodents 466 487006
other mammals 347 243730
other vertebrates 52 53994
Drosophila 65 167423
Arabidopsis 98 275516
grasses 27 67789
RepeatMasker (Arian Smit & Phil Green)
ANNOTATION SYNTAXIQUE: DIFFICULTÉS
Chez les Eucaryotes :
la taille d'un génome ne reflète pas le nombre de gènes
les régions intergéniques sont de composition et de taille variable selon les espèces
la structure des gènes varie selon les espèces, et parfois au sein d'une même espèce
Du point de vue de l'annotation automatique, la complexité d'un génome dépend de sa variabilité.
Plus un génome aura des structures géniques homogènes, plus l'annotation automatique sera
performante.
H. sapiens M. musculus D. melanogaster A. thaliana V. vinifera C. elegans P. tetraurelia
Taille (Mb) 3275 3420 169 136 485 103 72
Nombre de
gènes 21727 22732 13781 31281 26346 20224 39642
Nombre
moyen
exons/gene
25,7 17,1 5,2 5 6,3 8 3,3
Densité
moyenne en
gènes
(gènes/Mb)
6,6 6,6 81,5 230 54 196 551
ASSEMBLAGE ET ANNOTATION DE GÉNOMES
EUCARYOTES
1. Introduction à l’assemblage de génomes
2. Annoter un génome Eucaryote : théorie et réalité
3. L'annotation automatique au Genoscope
4. Projets de génomique Eucaryotes
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Le processus d’annotation
Recherche des structures exons-introns sur des séquences issues d'un assemblage
dans le but de définir un ensemble de modèles de gènes de référence.
Data Distribution
Genome browser
Submission
Data distribution
Masking
Known repeats,
low/simple/tandem
repeats
RepeatMasker/TRF
Repeats ab initio
detection
RepeatScout
Data Collection
Proteins mapping
Blat/Blast/GeneWise
RNA-seq (reads, contigs)
Star/Gmorse/oases/trinity
Ab initio genes predictions
SNAP
Integration
Gene models
prediction
using Gmove
Post Annotation Analysis
Functional Annotation
InterProScan, KEGG KO
Paralogous/Orthologous
Metabolic Pathway
KEGG
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Le masquage des répétitions connues Les séquences répétées contenues dans les séquences génomiques (contigs, scaffolds,
chromosomes) sont masquées suivant plusieurs méthodes:
Tandem Repeat Finder (G. Benson, Tandem repeats finder: a program to analyze DNA
sequences, Nucleic Acids Research, 1999, vol. 27, No. 2, pp. 573-580.) permet de
masquer les répétitions en tandem sur des séquences génomiques sans a priori sur
les motifs à détecter.
RepeatMasker (A.F.A. Smit, R. Hubley & P. Green RepeatMasker at
http://repeatmasker.org/ ) permet de masquer des répétitions connues (simple, basse
complexité, organisme spécifique) sur des séquences génomiques. Il utilise Repbase
(http://www.girinst.org/repbase/index.html) pour rechercher les répétitions connues. Il
peut également utiliser une banque de séquence de répétition définit par l’utlisateur.
RepeatScout (Price et al. http://bix.ucsd.edu/repeatscout/) permet d’établir un
catalogue exhaustif des séquences répétées (connues et inconnues) présentes au
sein de l'organisme étudié. Attention, les familles de gènes peuvent être masquées.
L’objectif est de masquer le maximum de régions répétées non codantes
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Data Distribution
Genome browser
Submission
Data distribution
Masking
Known repeats,
low/simple/tandem
repeats
RepeatMasker/TRF
Repeats ab initio
detection
RepeatScout
Data Collection
Proteins mapping
Blat/Blast/GeneWise
RNA-seq (reads, contigs)
Star/Gmorse/oases/trinity
Ab initio genes predictions
SNAP
Integration
Gene models
prediction
using Gmove
Post Annotation Analysis
Functional Annotation
InterProScan, KEGG KO
Paralogous/Orthologous
Metabolic Pathway
KEGG
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Prédictions ab initio de modèles de gènes
Recherche de modèles de gènes à partir d'un ensemble de
paramètres statistiques définissant un gène.
Calibrage de ces paramètres à partir de :
soit de séquences connus de gènes de l'organisme
soit d'alignements de cDNAs de l'organisme
L'échantillon utilisé pour calibrer les outils doit être
représentatif du protéome.
SNAP (Ian Korf, BMC Bioinformatics 2004, 5:59)
Augustus (Stanke, et al., BMC Bioinformatics 2006, 7, 62)
Prédictions
Annotations
Prédictions
Alignements protéiques
Modèles de gènes
Paramétrages
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
L’alignement de séquences exprimées
Objectif
Mise en évidence de régions génomiques codantes par comparaisons de séquences
exprimées (transcrits, protéines) conservées.
Mise en œuvre
Alignement de séquences de cDNAs et/ou de protéines contre des séquences
génomiques, du génome d’intérêt, issues de l’assemblage. Les séquences exprimées et
les séquences génomiques n’appartiennent pas nécessairement à la même espèce.
Contraintes
Tailles des séquences
Volume des données
Temps de calculs
Sensibilité / Spécificité des alignements
Redondance des matches
Recherche des introns
Génomique
cDNAs Protéines
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Annotation par comparaison de séquences
1) recherche d’un gène (mRNA) de la même espèce et
100% homologue, complet.
2) recherche d’un gène (mRNA) de la même espèce et
100% homologue, partiel.
3) recherche d’homologies avec des gènes (mRNA, protéines)
de la même espèce, ou d’espèces différentes
4) recherche de régions de conservation avec d’autres
génomes
Nucléotides
Acides aminés
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Outils d’alignement
BLAT BLAST
-BLASTN ntdb ntquery -BLASTP aadb aaquery -BLASTX aadb ntquery -TBLASTN ntdb aaquery -TBLASTX ntdb ntquery BLAST.2
Idem BLAST mais introduit des “ GAPS ”
FASTA Smith-Waterman
Rapidité Sensibilité Spécificité
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Exploitation du RNAseq pour l’annotation
Prédiction de
modèles de
gènes
Reads
Illumina
Mapping
Blat
est2genome
Modèles
Gmorse
Mapping
STAR
Assemblage
Oases | Trinity
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Exploitation du RNAseq pour l’annotation :
Mapping
Le génome et les transcrits appartiennent au même
organisme alignements stringent
Le génome et les transcrits n’appartiennent pas au
même organisme (différentes souches, même
clade,…) alignement moins stringent
Découpage
Localisation des séquences de
cDNAs sur le génomique par un
alignement rapide (BLAT)
Définition des bornes exons/introns
sur le génomique par un alignement
(est2genome)
Filtre (longueur, score)
Genome Contigs
Modèles de gènes
(partiel ou complet)
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Construction de modèles de transcrits à partir de données RNA-Seq
Objectif : annoter des génomes eucaryotes à partir de données de transcriptome issues de
séquençage haut-débit (Solexa/Illumina ou Solid)
Difficultés :
Prédire une structure de gène avec des tags d’une 100aine de bases
Aligner les tags qui tombent sur une jonction exon/exon
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Gmorse : Gene modelling using RNAseq
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Les protéines conservées
Alignements de séquences protéiques
(UniProtKB) sur l'assemblage dans le but
d'identifier des ORFs conservées entre
espèces.
La quantité d'alignements dépend du niveau
d'homologie entre les organismes présents
dans les banques et celui à annoter.
Découpage
Localisation des séquences de
protéines sur le génomique par un
alignement rapide (BLAT)
Définition des bornes exons/introns
sur le génomique par un alignement
(genewise)
Filtre (longueur, score)
Genome Protéines
Modèles de gènes
(partiel ou complet)
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
UniProtKB (release 2015_04)
UniProtKB (http://www.uniprot.org/ ) est composé de 2 sections:
SwissProt qui contient des protéines annotées manuellement et expertisées.
TrEMBL qui contient des protéines annotées automatiquement et non expertisées.
Sw
issP
rot
Kingdom sequences (%)
Archaea 19340 (4%)
Bacteria 332062 (61%)
Eukaryota 180260 (33%)
Viruses 16546 (3%)
Eucaryotes
TrE
MB
L
Kingdom sequences (%)
Archaea 913804 (2%)
Bacteria 29096694 (62%)
Eukaryota 13910429 (30%)
Viruses 2236332 (5%)
Other 557256 (<1%)
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Data Distribution
Genome browser
Submission
Data distribution
Masking
Known repeats,
low/simple/tandem
repeats
RepeatMasker/TRF
Repeats ab initio
detection
RepeatScout
Data Collection
Proteins mapping
Blat/Blast/GeneWise
RNA-seq (reads, contigs)
Star/Gmorse/oases/trinity
Ab initio genes predictions
SNAP
Integration
Gene models
prediction
using Gmove
Post Annotation Analysis
Functional Annotation
InterProScan, KEGG KO
Paralogous/Orthologous
Metabolic Pathway
KEGG
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Intégration des ressources
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
RNAseq alignments
Proteins alignments
Ab initio predictions
Putative exons and introns
Transcript candidates Predicted transcripts
ORFs finding
Select
candidate
transcript
Final transcript
Gmove: Gene Modelling using Various Evidence
Creation of an oriented graph
Extract paths from the graph
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Intégration des ressources
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Mesure de la qualité des annotations
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Qualité d’une annotation automatique Application de filtres sur les modèles de gènes :
règles de filtrage basées sur la structure et le
score des gènes
détection de domaines protéiques et élimination
des protéines annotées présentant des domaines
de transposons
Evaluation de la qualité des annotations par
l'observation de plusieurs indices : recouvrement avec
les cDNAs de l'organisme, structure des modèles
(tailles des protéines, exons, introns, nombre moyen
d'exons/gène,…), expertise manuelle.
Utilisation d’annotations fiables d’espèces voisines.
On comparera ensuite les gènes orthologues et les
caractéristiques suivantes :
- la teneur en GC aux positions 2 et 3 des codons
- le nombre d’exons par gène
- la taille moyenne des CDS (coding sequence)
Plot de densité montrant la corrélation entre les
GC3 des codons des gènes orthologues du riz et
de la banane.
Example of comparison of exon numbers
L'ANNOTATION AUTOMATIQUE AU GENOSCOPE
Les ressources informatiques disponibles pour le calcul
Linux AMD et Intel x86 64 bits
normal: >1000 cores ; 8Go-16Go/core
xlarge : 2x 40 cores; 2To RAM
1x 48 cores ; 2To RAM
1x 48 cores ; 3To RAM
NAS Netapp ~ 1Po
CCRT : BULL >3000 cores and 3 nodes with
64 cores and 3To
+ Curie supercomputer (360
nœuds/32coeurs/128Go RAM))
Lustre 5Po (with 2Po on HDD)
SEQUENÇAGE ET BIOINFORMATIQUE
http://www.businessinsider.com/super-cheap-genome-sequencing-by-2020-2014-10?IR=T
ASSEMBLAGE ET ANNOTATION DE GÉNOMES
EUCARYOTES
1. Introduction à l’assemblage de génomes
2. Annoter un génome Eucaryote : théorie et réalité
3. L'annotation automatique au Genoscope
4. Projets de génomique Eucaryotes
PROJETS DE GÉNOMIQUE EUCARYOTES
Tuber melanosporum
(truffle)
Chondrus crispus
(red alga)
Triticum sp
(wheat)
Theobroma cacao
(Cacao)
Oncorhynchus mykiss
(trout)
Brasssica napus
(seed rape)
Flickr/chaojikazu
Coffea
(coffee) Musa acuminata
(banana)
Pisum sativum
(pea)
Quercus robur
(oak) Rosa chinensis
(rosebush)
Vitis vinifera
(grape)
Et beaucoup d’autres organismes….
2012 Aug 9; 488: 213–217
LE GÉNOME DU BANANIER
LE GÉNOME DU BANANIER
‒ Source d'alimentation pour de plus de 400 millions de
personnes des pays du Sud
‒ Exportée massivement vers les pays développés
‒ La variété exportée est sensible à de nombreux parasites (il
s'agit d'un clone stérile : impossibilité de faire des croisements
pour sélectionner des plantes résistantes)
banane sauvage (fertile): non comestible car présence de graines
LE GÉNOME DU BANANIER
Génome 523 Mb, 11 chromosomes, 36 542 gènes
● L'annotation des gènes pourra permettre l'identification de facteurs de résistance aux
pathogènes ou de qualité des fruits.
● Le bananier est la première plante de sa classe botanique (les monocotylédones), à côté des
céréales, pour laquelle un séquençage abouti a été obtenu. Il constitue à ce titre une
référence pour étudier l’évolution des génomes.
LE GÉNOME DU BANANIER
Le bananier a connu trois épisodes de duplication complète du génome indépendantes de celles
constatées dans la lignée des graminées.
La plupart des gènes issus de ces évènements de duplication sont ensuite perdus, mais certains persistent et permettent l’émergence de nouvelles fonctions biologiques, comme certains facteurs de régulation (facteurs de transcription) qui sont particulièrement abondants chez le bananier et concourent à des processus importants dont la maturation des fruits.
WGD
céréales
WGD
LE GÉNOME DU COLZA
LE GÉNOME DU COLZA
• Première oléagineuse cultivée en Europe en termes de surface.
Explosion de sa culture à partir du 20e siècle
• Famille des Crucifères, comme la moutarde, le chou, le chou-fleur, le
brocoli, le chou chinois, le navet…
• Apparition il y a quelques milliers d’années (ère post-néolithique) : fruit
du croisement interspécifique favorisé par l’homme de façon
involontaire entre le chou et la navette.
• L’espèce s’est rapidement diversifiée en plusieurs types : colza à huile,
navet suédois, chou frisé, rutabaga…
Le séquençage de son génome constitue une ressource unique pour
l’amélioration variétale:
teneur et composition en huile
résistance à des pathogènes
tolérance au froid
rendement
efficacité d’utilisation des nitrates dans le sol
Le colza, une espèce récente à fort potentiel de
diversification et d’adaptation
Triangle de U
LE GÉNOME DU COLZA
Le colza: champion des duplications récurrentes des génomes par polyploïdie
Le colza a accumulé au cours de son évolution 72 génomes ancestraux, résultat de nombreux cycles de polyploïdisation,
faisant de son génome un des plus hautement dupliqués chez les plantes à fleurs (angiospermes). Ce phénomène récurrent,
suivi par des restructurations du génome, a conduit à l’accumulation d’un grand nombre de gènes: 101 040.
PROJET TARA OCEANS
Etude de la biodiversité des
micro-organismes marins
Les océans couvrent les 3/4 de la surface
de la Terre
Le plancton représente 80% des
organismes unicellulaires sur Terre
Dans 1L d’eau de mer :
Bloom planctonique
Nombre d’espèces Phylum
100 – 1000 Animaux
10 000 – 100 000 Protistes
1 – 10 millions Bactéries
10 – 100 millions Virus
PROJET TARA OCEANS
Matière Organique
Matière Minérale
O2
CO2
Eléments minéraux
LE PLANCTON 50% de l’O2 produit
70% du CO2 recyclé
Evaporation
Phytoplancton
Zooplancton
Petits Poissons
Grands Prédateurs
Bactéries
Décomposition
PROJET TARA OCEANS
Christian Sardet (CNRS, Villefranche-sur-Mer)
Catalogue
d’espèces du
plancton marin et
leurs interactions
Corrélation climat /
plancton
PROJET TARA OCEANS
Collaboration internationale impliquant une 20aine de laboratoires
IMAGERIE OCEANOGRAPHIE
INFORMATIQUE GENOMIQUE
PROJET TARA OCEANS
http://oceans.taraexpeditions.org/
PROJET TARA OCÉANS
Acquisition des données
Satellite et modèles : informations océanographiques
À bord : échantillonnage et stockage, imagerie, mesures en temps réel.
À terre : traitements, analyses et modélisation (biodiversité taxonomique, fonctionnelle)
PROJET TARA OCEANS
3 méthodes, plus de 27 000 prélèvements :
- Les filets : 7 modèles de 5 à 690µm, de la surface jusqu’à 1000 m de profondeur
- La pompe péristaltique : de 10 à 120m de profondeur, pompe l’eau qui est filtrée dans des tamis de plus en
plus petits.
- La rosette CTD : caractérise les masses d’eau : pression, température, azote, O2 fluorescence…
PROJET TARA OCEANS
Pompe péristaltique
Filets
La rosette
GPSS(Gravity Plankton
Sieving System)
PROJET TARA OCEANS
http://oceans.taraexpeditions.org/
PROJET TARA OCEANS
http://oceans.taraexpeditions.org/
PROJET TARA OCÉANS
Cultures
Biodiversité
Non cultivable
Cellules
Isolées
Communautés
de cellules
Séquençage
à haut débit
Traitements &
stockage
informatique
-> Liste des
espèces
-> Liste des
fonctions
Tara
Samples
Cultures
Single
Cell
Isolation
Whole
Genome
Amplification
DNA, RNA
extraction
Séquençage
Assemblage
Prédiction de gènes
Tags rRNA mRNA DNA
Stratégie
Annotation fonctionnelle
PROJET TARA OCÉANS
Analyse d’un assemblage de metagénomes
17/10/2016
DNA Contigs from TARA METAGENOME set 1
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0.2um 5-20um 20-180um 180-2000um >2000um
Virus Archeae Bacteria Eukaryota Ambiguous Not Assigned
R&D BIOINFORMATIQUE ET SÉQUENÇAGE
http://www.genoscope.cns.fr/rdbioseq
R&D Bioinformatic et Sequencing group
Production / Evaluation
Caroline Belser
Stefan Engelen
Frédérick Gavory
Aurélie Périn
Sabrina Davidas
Eidji Bord
Artem Kourlaiev
Assemblage
Carole Azema Dossat
Arnaud Couloux
Simone Duprat
Léo D’Agata
Sébastien Faye
Benjamin Istace
François-Xavier Babin
Annotation
Corinne Da Silva
Benjamin Noel
Marc Wessner
Marion Dubarry
Fabien Dutreux
Laboratoires de Séquençage du
Genoscope (LS, LBioMeG)
Laboratoire d’Analyse des
Génomes Eucaryotes (LAGE)