annotation.ppt [mode de compatibilité]lecompte/cours/annotation_fonct_esbs.pdf · =>...
TRANSCRIPT
1
Plan
1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes
a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégrations
Annotation Fonctionnelle
Recherche de la fonction des gènes ou des protéines
Génomique fonctionnelle- transcriptomiqueDonnées
b bl h
Génomique
Prédictions in silico
p m q- protéomique- interactomique...
bibliographiques
2
Annotation fonctionnelle
gène
protéine
Fasta, BlastpPsi-Blast
Génomique
Banques protéiques généralistes
UniProt RefSeq
Protéines homologues
Les erreursd’annotation
?
Banque
Protéine malannotée
Protéine query
BLASTP
Propagation des erreurs
Génomique
3
SPT:P72010 P72010 GLYCEROL 1-PHAPHATE DEHYDROGENASE. 3/2001 356 3e-97SPTNEW:AAK41055 Aak41055 GLYCEROL-1-PHOSPHATE DEHYDROGENASE ... 337 2e-91SPT:Q9UXE7 Q9uxe7 GLYCEROL 1-PHOSPHATE DEHYDROGENASE. 3/2001 337 2e-91SPT:Q9YER2 Q9yer2 370AA LONG HYPOTHETICAL GLYCEROL DEHYDROGE... 320 2e-86SPTNEW:BAB60393 Bab60393 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENA... 283 2e-75SPT:Q9HJ16 Q9hj16 GLYCEROL 1-PHOSPHATE DEHYDROGENASE RELATED... 277 2e-73SPT:Q9HS49 Q9hs49 VNG0406C. 3/2001 277 2e-73SW:Y712_METJA Q58122 HYPOTHETICAL PROTEIN MJ0712. 8/2001 265 5e-70SPT:O28599 O28599 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE (GLD... 248 9e-65SPT:Q9X7U9 Q9x7u9 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 182 5e-45SPT:Q9L1H9 Q9l1h9 PUTATIVE DEHYDROGENASE. 6/2001 176 5e-43SW:ARAM_BACSU P94527 ARABINOSE OPERON PROTEIN ARAM. 8/2001 157 3e-37SPT:O85004 O85004 PUTATIVE GLYCEROL-2-PHOSPHATE DEHYDROGENAS... 154 1e-36
PH1475
Annotation
351AA long hypotheticalGlycerol 1-Phaphate dehydrogenase
(SPT:O59144)
SPT:Q9KBR3 Q9kbr3 L-ARABINOSE UTILIZATION PROTEIN. 10/2000 145 1e-33SPT:Q9WYC1 Q9wyc1 ARAM PROTEIN, PUTATIVE. 6/2001 120 3e-26SPT:Q9RGD4 Q9rgd4 GLYCEROL DEHYDROGENASE (EC 1.1.1.6). 6/2001 87 4e-16SW:GLDA_CITFR P45511 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 81 2e-14SPT:Q9HHR2 Q9hhr2 SN-GLYCEROL-1-PHOSPHATE DEHYDROGENASE. 6/2001 80 4e-14SW:GLDA_ECOLI P32665 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 79 7e-14SPTNEW:BAB38297 Bab38297 GLYCEROL DEHYDROGENASE. 6/2001 79 9e-14SPTNEW:AAG59146 Aag59146 GLYCEROL DEHYDROGENASE, (NAD). 6/2001 79 9e-14SPT:Q99XT5 Q99xt5 PUTATIVE GLYCEROL DEHYDROGENASE. 6/2001 78 2e-13SW:GLDA_BACST P32816 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 78 2e-13SW:GLDA_PSEPU P50173 GLYCEROL DEHYDROGENASE (EC 1.1.1.6) (GL... 70 5e-11SW:YB67_SYNY3 P74246 HYPOTHETICAL OXIDOREDUCTASE SLR1167. 8/... 65 2e-09SPT:O13702 O13702 PUTATIVE GLYCEROL DEHYDROGENASE (EC 1.1.1.... 64 2e-09SW:YBDH_ECOLI P45579 HYPOTHETICAL OXIDOREDUCTASE IN CSTA-AHP... 63 6e-09SPTNEW:AAG54934 Aag54934 PUTATIVE OXIDOREDUCTASE. 6/2001 62 8e-09SW:AROB BUCAI P57604 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 59 9e-08SPT:Q9RNG6 Q9rng6 3-DEHYDROQUINATE SYNTHETASE HOMOLOG (FRAGM... 57 5e-07SPT:Q9A434 Q9a434 3-DEHYDROQUINATE SYNTHASE. 6/2001 53 7e-06SPT:Q9U2M4 Q9u2m4 Y38F1A.6 PROTEIN. 6/2001 52 9e-06SW:ADHB_CLOAB Q04945 NADH-DEPENDENT BUTANOL DEHYDROGENASE B ... 52 9e-06SPT:Q9JVW5 Q9jvw5 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 1e-05SW:CLCE_PSEAE O87612 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 1e-05SPT:Q9PNT2 Q9pnt2 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3). 6/... 52 2e-05SW:CLCE_PSESB O30847 MALEYLACETATE REDUCTASE (EC 1.3.1.32). ... 52 2e-05SW:AROB_SALTY P77980 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 51 3e-05SW:AROB_BACSU P31102 3-DEHYDROQUINATE SYNTHASE (EC 4.6.1.3).... 50 4e-05SPT:P70784 P70784 TECR. 6/2001 50 6e-05
1e-07
1e-05
Les erreursd’annotation
?
Banque
Protéine malannotée
Protéine query
BLASTP
Propagation des erreurs
Protéine queryProtéines modulaires
BLASTP
Génomique
Banque
BLASTP
4
Annotation des protéines
gène
Prints
INT
E
protéine
Fasta, BlastpPsi-Blast
Prosite
Smart
Prodom
ER
PR
OC
D se
Smart
Génomique
Banques protéiques généralistes
SwissProt SpTrEMBL PIR
Pfam
Motifs, domaines, Protéines homologues
earch
Les erreursd’annotation
?
Banque
Protéine malannotée
Protéine query
BLASTP
Propagation des erreurs
Protéine queryProtéines modulaires
BLASTP
Banque
BLASTP
Paralogie
Fonction 1
Génomique
Banque
BLASTP
?
Protéine query
BLASTP
paralogue
Fonction 1
Fonction 2
5
Relations d’homologie
spéciation
X1 X2
X0
ancêtre
orthologie
spéciation
X1 X2
X0
ancêtre
orthologie
duplication
X0
Espèce 0
Y0 Z0
paralogie
duplication
X0
Espèce 0
Y0 Z0
paralogie
X
espèce 1
Y
espèce 2
Gène ancestralcommun
Transfert horizontal
xénologie
X
espèce 1
Y
espèce 2
Gène ancestralcommun
Transfert horizontal
xénologieRappel
X1
espèce 1
X2
espèce 2
X1
espèce 1
X2
espèce 2Y0
espèce 0
Z0Y0
espèce 0
Z0X et Y espèce 1X et Y espèce 1
Fonction souventconservée
Fonction souventlégèrement différente
Devenir des paralogues
è Après duplication… 1 gène conserve fonction initiale, l’autre dégénère
=> pseudogène 1 gène conserve fonction initiale, l’autre évolue rapidement
=> nouvelle fonction le gène ancestral a plusieurs fonctions, les 2 gènes perdent
une partie de leur fonction=> complémentation
maintien de la fonction ancestrale mais spécialisationex: expression tissu-spécifique
6
ATPase et GTPase6% 3% 7%
Importance de la paralogie
NAD/FAD utilizing enzymes
DNA binding proteins
Signal transduction systems
Fe-S oxidoreductases
S-adenosylmethionine methyltransferase
Other families of paralogs
6% 3%
0%
0%
42%
43%
7% 2%3%0%5%0%
36%
47%
Synechocystis sp. (57%) Methanococcus jannaschii (53%)
Génomique
No paralogs8% 2%3%0%0%1%
27%59%
12%2%0%0%0%1%
20%
65%
Mycoplasma genitalium (35%)Haemophilus influenzae (41%)
Prokaryotic genomes: the emerging paradigm of genome-based microbiologyKoonin & GalperinCurrent Opinion in Genetics & development7:757-763 (1997)
Importance de la paralogieSegmentally duplicated regions in the Arabidopsis genome.
The Arabidopsis Genome Initiative. Nature 408:796-815 (2000)
7
Importance de la paralogie3 des 5 classes de protéases chez l’homme, la souris et le rat
GénomiqueRat Genome Sequencing Project Consortium, Nature 2004
Identification des orthologues
gi|2129084|pir||C64499 isocitrate dehydrogenase (EC 1.1.1.-... 666 0.0gi|7431325|pir||A69113 isocitrate dehydrogenase - Methanoba... 310 1e-83gi|6685584|sp|O27441|LEU3_METTH 3-ISOPROPYLMALATE DEHYDROGE... 303 2e-81gi|2129085|pir||H64389 isocitrate dehydrogenase (NADP+) (EC... 295 5e-79gi|3915940|sp|Q58130|LEU3_METJA 3-ISOPROPYLMALATE DEHYDROGE... 294 6e-79gi|11498236|ref|NP_069462.1| 3-isopropylmalate dehydrogenas... 278 4e-74gi|14521551|ref|NP_127027.1| 3-isopropylmalate dehydrogenas... 274 1e-72gi|7473536|pir||E75368 probable isocitrate dehydrogenase - ... 271 6e-72gi|15023878|gb|AAK78948.1|AE007613_4 (AE007613) Isocitrate ... 262 3e-69gi|6686294|sp|P50455|LEU3_SULS7 3-ISOPROPYLMALATE DEHYDROGE... 253 1e-66gi|11251519|pir||A82539 isocitrate dehydrogenase XF2596 [im... 251 5e-66g | |p || y g [gi|7492685|pir||T38621 probable isopropyl malate dehydrogen... 249 3e-65gi|6015753|emb|CAB57580.1| (Y18930) 3-isopropylmalate dehyd... 246 2e-64gi|6322097|ref|NP_012172.1| Homo-isocitrate dehydrogenase; ... 239 3e-62gi|14520655|ref|NP_126130.1| 3-isopropylmalate dehydrogenas... 235 3e-61gi|462385|sp|P33197|IDH_THETH ISOCITRATE DEHYDROGENASE [NAD... 231 7e-60gi|281496|pir||A43934 isocitrate dehydrogenase (NADP+) (EC ... 231 8e-60gi|15282623|ref|NP_201775.1| 3-isopropylmalate dehydrogenas... 228 8e-59gi|6685603|sp|Q9WZ26|LEU3_THEMA 3-ISOPROPYLMALATE DEHYDROGE... 224 8e-58gi|6225524|sp|Q9ZDR0|IDH_RICPR ISOCITRATE DEHYDROGENASE [NA... 224 8e-58
8
Identification des orthologuesComparaison par Blastp des protéines des génomes complets
« all-against-all » protein sequence comparison
P1
P2
P10best hit
• recherche des protéines dont le meilleur hit est à l’intérieur du même génome Identification des paralogues « récents »
• recherche des meilleurs hits réciproques (« reciprocal best hits »)
reciprocal best hit
P2
P3
P4
P5
Génome A
P26
P50
…
Génome B
Méthode utilisée dans COGhttp://www.ncbi.nlm.nih.gov/COG
Arbres phylogénétiques
Famille X
Famille Y
Sp2
Sp4Sp3
Sp5
Sp1
Sp9
Sp8
Sp7
Sp6Sp5
Sp4
9
Annotation fonctionnelle
gène
Prints
Pfam
IN Prédictions ab initio
protéine
Fasta, BlastpPsi-Blast
Prints
Prosite
Blocks
Smart
Prodom
NT
ER
PR
O
ab initio
Hélices transmembranaires
Peptide signal
Structures secondaires...
Génomique
COGBanques protéiques généralistes
SwissProt SpTrEMBL PIR
Motifs, domaines,familles
Protéines homologues Localisation, structure, ...
Bilan des annotations
10
Bilan des annotations
Erreur d’annotations : (Brenner, Trends Genet. 1999)8 %
L’annotation est un processus dynamique=> Intégration de nouvelles données
Bilan des annotations
Estimated percentages of error for different functional descriptions in three microbial genomes
Devos & Valencia, Trends In Genetics, 2001
11
Bilan des annotations
Misannotation over time in the NR database (from Genbank) for the 37 families investigated.
Schnoes et al, Plos Computational Biology, 2009
Plan
1 Gé l1. Génomes complets2. Architecture des génomes3. Annotation des génomes
a) Annotation structurale : localisation des éléments génétiquesb) Annotation fonctionnellec) Intégration
12
Localisation des éléments génétiques• éléments répétés • régions de régulation• gènes codant pour des ARNs non traduitsgènes codant pour des ARNs non traduits• gènes protéiques, pseudogènes…
Protéines• recherche de similarité• recherche de domaines fonctionnels• recherche de motifs « signature »
Intégration biologique• reconstitution des processus biologiques
Voies métaboliques,…• reconstitution des interactions,…• modélisation des systèmes…
Une tâche infinie !!!
Intégration : catégories fonctionnelles
E. coli K12
13
Intégration : GOOntologie utilisée pour annoter les gènes et leurs produits (ARN protéines)Ontologie utilisée pour annoter les gènes et leurs produits (ARN,protéines)
=> vocabulaire standardisé permettant la définition non ambigüe des concepts, s’applique à n’importe quel organisme
Structure de l’ontologie : un graphe=> noeuds = concepts liens : is_a et part_of
3 ontologies: fonction moléculaire localisation cellulaire processus biologique
Intégration des données
Gene Ontology Annotation for Human
14
KEGG (Kyoto Encyclopedia of Genes and Genomes)
http://www.genome.jp/kegg/
KEGG pathways Global metabolic map
15
KEGG metabolic pathwaysEx: Homo sapiens
Kegg pathways
Ex : DNA replication
16
STRING
http://string.embl.de/
STRING
17
From genome to systems biology
Borodina & Nielsen, Current Opinion in Biotechnology, 2005