grand pa, grand ma, etc... momdad génome qu'est ce que la vie ? mêmes atomes, mêmes...
TRANSCRIPT
grand pa, grand ma, etc ...
mom dad
génome
Qu'est ce que la vie ?
Mêmes atomes, mêmes principes physico-chimiques
histoire
et
fonctions
Qu'est ce qu'un génome ?Génome: (1920 Hans Winkler, Hamburg) ensemble des déterminants héréditaires (gènes) propres à une espèce donnée.
1944: l'ADN est le support de l'hérédité
1953: les propriétés de la molécule d'ADN expliquent la dualité de son rôle:
- instructions fonctionnelles pour l'organisme: séquence des nucléotides
- reproduction (formation du semblable): appariement des nucléotides
Génome: ensemble de l'information héréditaire d'un organisme. Cette information est présente en totalité dans chacune des cellules de l'organisme. Lorsqu'une cellule se divise l'information est copiée et transmise aux deux cellules filles.
Génome: contient les instructions nécessaires au développement, au fonctionnement, au maintien de l'intégrité et à la reproduction des cellules et de l'organisme.
La dualité fonctionnelle de l'ADN est intrinsèque à sa structure
L'information génétique (le message) est fournie par la
succession des nucléotides le long des brins d'ADN
Double hélice
Fourche de réplication
Deux double hélices filles
adeninecytosine guaninethymine
NH2
O
sucre
N
N
C 1
23
4
5 6
sucre
NH2
N
N
N
NA 1
23
4
5 6
78
9
O
sucre
N
NH2
G
N
N
NH1
23
4
5 6
78
9
O
O
sucre
CH3
NH
N
T 1
23
4
5 6
C
C C
C
O
OH H
HH
CH2
P
O -
O
O
O
Base
HH 1’
2’3’
4’
5’
désoxyribonucléotides
La reproduction des organismes est assurée par l'appariement des nucléotides.
Les deux molécules filles sont identiques à la molécule mère et donc identiques entre elles
Complémentarité des nucléotides
Séquence des nucléotides
GénomiqueCombinaisons possibles = 4n
n = 50 > nbre particules de
l'univers
Le "dogme central" de la biologie moléculaire
19531953
ARN
Protéine
Réplication
Transcription
Traduction
ADNlanguage à 4 lettres: nucléotides
language à 20 lettres: acides aminés
LE CODE GENETIQUE (1966)
TTT phe F TCT ser S TAT tyr Y TGT cys CTTC phe F TCC ser S TAC tyr Y TGC cys CTTA leu L TCA ser S TAA ochre TGA opaleTTG leu L TCG ser S TAG amber TGG trp W
CTT leu L CCT pro P CAT his H CGT arg RCTCleu L CCC pro P CAC his H CGC arg RCTAleu L CCA pro P CAA gln Q CGA arg RCTGleu L CCG pro P CAG gln Q CGG arg R
ATTile I ACTthr T AAT asn N AGT ser S ATCile I ACCthr T AAC asn N AGC ser SATAile I ACAthr T AAA lys K AGA arg RATG met M ACGthr T AAG lys K AGG arg R
GTT val V GCT ala A GAT asp D GGTgly G GTCval V GCC ala A GAC asp D GGC gly GGTAval V GCA ala A GAA glu E GGA gly GGTGval V GCGala A GAG glu E GGG gly G
Gène
Fonction
"intermédiaire"
Fonction 1
Fonction 2
x xmutation
ADN
Déterminisme génétique (version élémentaire)
Taille des génomes et séquençage: bases de la génomique
Homo sapiens 2 900 000 000 23 000
Drosophila melanogaster 160 000 000 14 000
Caenorhabditis elegans 98 000 000 19 400
Saccharomyces cerevisiae 12 500 000 5 800
Escherichia coli 4 600 000 4 300
Taille du génome(nucléotides)
Nbre de gènes(protein-coding)
Vitis vinifera 487 000 000 30 400
Arabidopsis thaliana 115 000 000 28 000
Amoeba dubia ~ 670 000 000 000 ?
Psilotum nudum ~ 250 000 000 000 ?
Fritillaria assyriaca ~ 100 000 000 000 ?
Necturus lewisi ~100 000 000 000 ?
1 10 102 103 104 105 106 107 108 109
kilobases = kb mégabases = Mb gigabases = Gb
Echelle de taille des molécules d’ADN et des génomes
paires de bases
distance =1 paire de
bases
1010 1011
virusbactéries
champignonslevures plantes
animauxmammifères
homme
Les génomes sont (trop) grands
archaea
en général, les génomes sont trop grands pour le nombre de protéines qu'ils codent
les génomes d’espèces proches peuvent différer considérablement en taille
la complexité des génomes n'est pas en relation directe avec la complexité des organismes et le nombre de gènes
Le paradoxe de la valeur CC = complexité du génome = nombre total de nucléotides du génome haploïde (taille du génome)
1012
amibes
ADN purifié Fragmentation
1
Copies incomplètes partant d'un
point fixe
Sens de la copie -->
Fragment d'ADN à séquencer (matrice)2
Se
ns
de
la m
igra
tion
é
lect
rop
ho
rétiq
ue
3
Détection du signal de fluorescence à la sortie
du séquenceur
Séquence reconstituée
4
séquençage
Le séquençage des génomes
1 10 102 103 104 105 106 107 108 109
paires de bases1010 1011
virusbactéries
champignonslevures plantes
animaux
archaea
1012
amibes
5 assemblage
contig
contig 1 contig 2 contig 3 0
0.2
0.4
0.6
0.8
0 2 4 6 8 10 12Nombre de séquences (c = NL/G)
Nom
bre
de
cont
igs
(G
/L)
3X: exploratoire
6X: ébauche
12X: qualité "finale"
Type de séquence Caractéristiques Utilisation
Exploratoire Très nombreux contigs, petite taille Variations polymorphiques, biodiversitéEbauche (draft) Nombreux contigs, taille variable Premières analyses globalesFinale Peu de contigs, grands Analyse génomique fonctionnelle
Le séquençage des génomes (suite)
6 Finition (supercontigs)
Ossature de supercontigs (scaffolds)
8 Annotation: ensemble de procédures informatiques qui:1- prédisent (± efficacement) les limites des gènes, des éléments de contrôle et de tout autre élément du génome2- suggèrent les fonctions des gènes à partir des comparaisons avec ce qui est déjà connu
7 Finition (remplissage des trous et zones de basse qualitévérification des assemblages, examen des séquences répétées, … )
Séquence finie, complète et de haute qualité
Le séquençage des génomes (fin)
Les premiers génomes séquencés1995 Haemophilus influenzae 1.8 Mb
Mycoplasma genitalium 0.6 Mb
2004 Homo sapiens 2ème ébauche (99,9 % de l' euchromatine) 2008 Deux individus
Projet "1000 genomes" Consortium international 1000 individus à travers le monde
1998 Caenorhabditis elegans 98 Mb (Premier organisme multicellulaire)
2000 Arabidopsis thaliana 115 Mb (Première plante)
Drosophila melanogaster 160 Mb (ébauche)
Homo sapiens 2 900 MB Annonce internationale
1ère ébauche 90 % (150 000 trous)
1996 Mycoplasma pneumoniae 0.8 MbSynechocystis sp. 3.6 Mb
Methanococcus jannaschii 1.7 Mb (Première Archae)
Saccharomyces cerevisiae 12.3 Mb (Premier Eucaryote)
Bactéries
812 génomes complets et publiés
1766 génomes bactériens (en cours)
936 génomes eucaryotes (en cours)
90 génomes d'archaea (en cours)
130 métagénomes
http://www.genomesonline.org/
L'accélération des "projets génomes"
Banques de données publiques
Février 2008: 108 635 736 141 nucléotides 27 439 206 fichiers "génomes entiers"
bactéries
eucaryotes
archaea
Pourquoi séquencer les génomes ?
Biotechnologies fermentations et bioconversions (acetate, acetone, butanol, éthanol, hydrogène ….)
additifs alimentaires (alginate, succinate, glutamate … )production d'enzymes (cellulase, biocatalyse ….) et protéines
Environnement: cycles naturels (carbone, azote , conversion de la biomasse …)traitements (pesticides, fongicides, algicides, …)énergie, pétrole, détergentstraitements des eaux, détoxification des sols
Alimentation: produits laitiers, fromages, suppléments diététiques, fermentations alimentaires …
Agronomie: animaux, plantes, et leurs pathogènes, résistance …
Santé humaine: pathogènes, cancer, vaccins, infections nosocomiales, insectes vecteurs …
Connaissance: éducation, évolution, origine de la vie, arbre de la vie, compréhension des mécanismes fondamentaux de la vie, biodiversité …
Biologie et écologie marine: pêche, aquaculture, algues, plancton ….
Pharmacie: vitamines, antibiotiques, acides aminés, acide lactique ….
Saccharomyces cerevisiae (1996)Schizosaccharomyces pombe (2002)
Ascomycota
La génomique comparative (Eucaryotes)
Plasmodium falciparum (2002)Plasmodium yoeli yoeli (2002)Cryptosporidium hominis (2004) Cryptosporidium parvum (2004) Theileria annulata (2005) Theileria parva (2005) Toxoplasma gondi
Apicomplexa
Paramecium tetraurelia (2006)Tetrahymena thermophila (2006)
Ciliophora
Leishmania major (2005)Trypanosoma brucei (2005)Trypanosoma cruzi (2005)
Euglenozoa
Entamoeba histolytica (2005)Dictyostelium discoideum (2005)
Conosa
Cyanidioschyzon merolae (2004) Galdieria sulphuraria (2005)
Rhodophyta
Ostreococcus tauri (2006)
Chlorophyta
Thalassiosira pseudonana (2004)
Stramenopiles
Strongylocentrus purpuratus
Echinodermata
Arabidospis thaliana Oryza sativaPopulus nigraVitis vinifera
ViridiplantaeMammalia
Homo sapiensPan troglodytesMus musculusRattus norvegicusGallus gallusTetraodon negroviridsFugu rubripes
Drosophila melanogaster (2000)
Arthropoda
Caenorhabditis elegans (1998)Caenorhabditis briggsae (2003)Oscheius tipulae (2006)Meloidogyne incognita
Nematoda
Ernst Haeckel, 1866
Baldauf (2003) Science 300: 1703-1706
Qu'apprenons nous dans les génomes ?
Catalogue complet des gènes et autres éléments
Présence de nombreux gènes et autres éléments de fonctions inconnues
Processus dynamiques de modification (altération et évolution) du génome
ADN
ARN
Protéine
Transcription
Traduction
Réplication
1970-19801970-1980
Transcription réverse
EpissageEdition
19531953
ARN
Protéine
Réplication
Transcription
Traduction
ADN
Le "dogme central" de la biologie moléculaire (1ère révision)
Gène
Fonction
Informationgénétique
Catalyse
= 5-méthyl uracile
ARN
C
C C
C
O
OH H
HH
CH2
P
O -
O
O
O
base
HH 1’
2’3’
4’
5’
C
C C
C
O
OH OH
HH
CH2
P
O -
O
O
O
base
HH 1’
2’3’
4’
5’
ribonucléotides
désoxyribonucléotides
GèneADN
adeninecytosine guaninethymine
NH2
O
sucre
N
N
C 1
23
4
5 6
sucre
NH2
N
N
N
NA 1
23
4
5 6
78
9
O
sucre
N
NH2
G
N
N
NH1
23
4
5 6
78
9
O
O
sucre
CH3
NH
N
T 1
23
4
5 6
sucre
NH2
N
N
N
NA 1
23
4
5 6
78
9
O
sucre
N
NH2
G
N
N
NH1
23
4
5 6
78
9
NH2
O
sucre
N
N
C 1
23
4
5 6
O
O
sucre
NH
N
U 1
23
4
5 6
adeninecytosine guanineuracile
AD
NA
RN
GèneADN
ARN précurseurtranscrit du gène
Intron 2 Intron 3Intron 1
Exon 1 Exon 2 Exon 3 Exon 4
Epissage des ARN
protéine
dégradation
+ Introns excisés
Phase codante
Jonctions des exons
régulation5' UTR 3' UTR
ARN épissé
Exon shuffling
~ 19 % des exons des génomes eucaryotes proviennent de ce processus
exon
Exon 1 Exon 2Intron
nouvel exon
Nouvel épissage ou perte de l'intron
Evènements évolutifs dépendant des ARN
~ 4 % des nouveaux exons du génome humain proviennent de ce processus
Insertion d'un élément mobile
élement
mobile
Exon 1 Exon 2Intron
Formation de nouveaux sites d'épissage ou perte des introns
Nouvel exon
Formation de rétrogènes
1 % des gènes humains, plus de nombreux pseudogènes, sont issus de ce processus
ADNc
rétrogene
fusion de gène
ou
ARN
gène ancestral
Exonisation d'éléments mobilesGène humain RPE2-1
1 2 3 4 5 63' UTR5' UTR Alu J
exon 3
Partie de séquence Alu J devenant un exon codant
intron
Ribulose-5-phosphate-3-épimerase
SaguinusLemur Eulemur Tarsius Saimiri Macaca Colobus Hylobates Pongo Pan Homo
Réversion
Alu J insertion / fixation
Alu J exonisation
Strepsirrhini
Tarsioidea
Platyrrhini
CercopithecoideaHominoidea
ca. 10 MYr
Mutations au site 3' d'épissage
Les gènes se dupliquent et se perdent
Gène ancestral
Le génome n'est qu'un cliché instantané de processus continuels de duplications et de perte de gènes au cours des générations successives
Susumu Ohno, 1970
Copies de gènes paralogues
nouvelles fonctionsspécialisation fonctionnelleredondance
mutations
Ex.: Le génome de la paramécie (49 000 gènes) révèle les traces de trois évènements successifs de duplication (ancêtre ~ 6 000 gènes)
Duplication totale du génome
Perte de gènesEx.: génotypage de trios parents-enfant normaux révèle 30-50 délétions nouvelles (> 5kb) à chaque génération (total 550 -750 kb)
Duplication de segments du génome
Ex.: le génome humain montre plusieurs centaines de segments dupliqués (> 5kb) totalisant ~ 150 Mb (5 % du génome). Source d'instabilités génomiques.
Les éléments des génomes
levure homme
Gènes (codant des protéines) 5 770 ~ 23 000
Introns 280 > 100 000
Pseudogènes 10 > 25 000
Éléments mobiles ~ 50 > 1 100 000
Nombre de familles de protéines ~ 4 100 ~10 000
Redondance (gènes paralogues) 1,4 x 2,3 x
Exons codants
Introns, UTR, pseudogènes
Eléments mobiles
Autres régions
régulationsévolution
fonctions
Buts et outils de la génomique fonctionnelle
Buts: connaître les fonctions de tous les gènes
comprendre leurs interactions
prédire les phénotypes à partir du génotype
Puces à ADN et quantification des ARN
Principes pour l'interprétation des résultats
2- les gènes qui participent à une même fonction doivent avoir des expressions corrélées
Gènes dont l'expression est corrélée
1- l'expression des gènes dans différentes conditions est révélatrice de leur fonction
Condition 1
Con
ditio
n 2
Zone des variations non significatives
Gène
Fonction
ARN
Nombreux gènes
Complexe fonctionnel
Nombreux ARN
RNA
proteins
La grande sous-unité du ribosome
ARN
Protéines
Les interactions fonctionnelles
Identifier les interactions des protéines
1- purification biochimique des complexes
Marquage de chaque gène par une étiquette moléculaire facilitant la purification de la protéine dans des conditions non dénaturantes
Analyse des complexes purifiés par spectrographie de masse
2- identification des interactions binaires par artifice génétique (double hybride)
XY
OFF
YX
ON
A B
I
J
K
Mutant 1 de J
Mutant 2 de J
Saccharomyces cerevisiae
5 770 gènes (protéines)
Collections de délétions avec marquage moléculaire (barcoding). Recherche de phénotypes et d'interactions.
Collections de fusions de gènes pour produire les protéines fluorescentes. Localisation intracellulaire.
Collections de gènes surexprimés (augmentation de la quantité de protéine). Recherche de phénotypes et d'interactions.
1- Collections complètes de mutants
Identifier les interactions fonctionnelles des gènes
2- Phénotypes synthétiques
Mutant A Mutant B Mutant A+B
Mutants --->
Mutants --->
fonctions inconnues
fonctions identifiées
Nom
bre
de g
ènes
temps
Integration des résultats des différentes approches : vers la connaissance complète du
fonctionnement d'une cellule
ARN
Génomique comparative
Interactions des produits des gènes
Localisation intracellulaire
Génétique Prédire le phénotypeReplacer les mécanismes dans l'évolution
Et maintenant ?
ADN
ARN
Protéine
Transcription
Traduction
Réplication
1970-19801970-1980
Transcription réverse
EpissageEdition
19531953
ARN
Protéine
Réplication
Transcription
Traduction
ADN
Le "dogme central" de la biologie moléculaire (actuel)
20082008
ADN
ARN
ProtéineS
Transcriptionmultiple
Traduction
Réplication
Transcription reverse
EpissageEditionRégulation
EvolutionFormation de gènesEpigénèse
Gène
Fonction
ARNLe génome fonctionnel
Le génome séquencé
Séquencer le transcriptome
Les fonctions étudiées
Qu'est qu'un gène ?
Gerstein et al., 2007 Genome Res. 17: 669-681
ENCODE Project Consortium 2004 Science 306: 636-640
ADN
Transcrits primaires
Transcrits épissés
Produits fonctionnels
Gènes
Protéines
ARN nc
Les nouvelles techniques de séquençage
Méthode longueur des nombre de total par coût relatiflectures lectures tour (run) par nucléotide
Sanger ~700 nuc. 96 70 Kb 1
Pyroséquençage ~250 nuc. 400 000 100 Mb 0,1
Phase solide 25-35 nuc. 40 000 000 1 000 Mb 0,0180 000 000 2 000 Mb 0,01
Combinaison des technologies:vers le séquençage des individus et des populations entières
Quelques grands projets en cours ou annoncés
1000 genomes Consortium internationalBut: cartographier le polymorphisme génétique de la population humaine (1000 individus)
Origine de la multicellularité NHGRIBut: identifier les gènes et complexes impliqués dans l'apparition de la vie multicellulaire (animaux, champignons, protistes)
Microbiome humain Plusieurs centres de séquençage américainBut: identification exhaustive de la flore microbienne commensale de l'homme
Encyclopédie génomique des bactéries et archaea JGIBut: étudier toutes les branches phylogénétiques de l'arbre de la vie (procaryote)
Bar coding of life 130 organisations, 43 paysBut: attribuer une signature moléculaire standard à chaque espèce identifiée
ENCyclopedia Of DNA Elements (ENCODE) Universités américaines, NHGRIBut: identifier tous les éléments fonctionnels du génome humain
génome
Qu'est ce que la vie ?
principes physico-chimiques + hérédité