annotation de séquences génomiques: gènes - south green
TRANSCRIPT
![Page 1: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/1.jpg)
Annotation de séquences génomiques: gènes
Olivier GarsmeurGaétan Droc
Franc-Christophe BaurensDominique This
Stéphanie Sidibé-Bocs
![Page 2: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/2.jpg)
Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2
principales questions :
1) Où sont les gènes et comment sont-ils distribués ?
Distinguer gènes et éléments transposables
Annotation structurale
2) Quelle est la fonction de ces gènes ?
Annotation fonctionnelle
Annotation des séquences génomiques
![Page 3: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/3.jpg)
Les gènes
● Ou sont les gènes? ● Les prédictions sont basées sur la structure (motifs, signatures ): intron,
exon, splice site, UTR.
Gene
StopGT AG
Gène prédit fonctionnel Structure complète
Codon initiateur M (ATG)Stop codon TAA, TAG or TGAGT (GC) / AG splicing sitePas de stop dans les exons prédits
Pseudogene (non fonctionnel) Structure NON complete
missing_acceptormissing_donormissing_start_codonmissing_stop_codonmultiple_stop_in_frame
CDS (CoDing Sequence)
ATG
Exon1 Exon2
![Page 4: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/4.jpg)
Annotation automatique
Deux méthodes d'annotation automatique :
1. Méthodes intrinsèques (ab-initio)
2. Méthodes extrinsèques
![Page 5: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/5.jpg)
-Basée uniquement sur des analyses informatiques avec des modèles statistiques
-Modèles probabilistes (Hidden Markov Models - Modèles de chaîne de Markov cachées - HMM) pour faire la distinction entre les régions codantes et non-codantes du génome
- Besoin d'un set d'entraînement de gènes annotés pour être efficace "apprentissage"
1. Méthode intrinsèque d'annotation automatique
![Page 6: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/6.jpg)
1. Méthode intrinsèque d'annotation automatique
Lukashin & Borodovsky, 1998
ensemble des transitions possibles entre états cachés (cercles)
brin direct
brin complémentaire
![Page 7: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/7.jpg)
Exemples de logiciels de prédiction des gènes
Outils d'annotation automatique des gènes
Plantes: GeneMark.HMMGeneFinderEugeneFgeneSHGlimmerAAugustus
Animaux:GenieHMMgeneMagPieGenIDGrail
Humain:GenescanGeneFinderGeneWise
![Page 8: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/8.jpg)
2. Méthodes extrinsèques
ADNg
Protéine
AlignementADNg - Protéine
AlignementADNg - ADNc
ADNc ADNg
AlignementADNg - ADNg
Approche comparative basée sur les similarités de séquences-> la séquence à annoter est comparée aux bases de données
3 types de comparaison
![Page 9: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/9.jpg)
L'annotation fonctionnelle sera toujours déduite des similarités (homologies) avec les éléments prédits
dans les bases de données
sequence (query) target (Subject) database
BLASTN nucleotide nucleotide NR , EST, genomes
BLASTX translated nucleotide protein Swissprot-Trembl
BLASTP protein protein Swissprot-Trembl
TBLASTX translated nucleotide translated nucleotide NR , EST, genomes
TBLASTN protein translated nucleotide NR , EST, genomes
2. Méthodes extrinsèques
![Page 10: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/10.jpg)
Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines
Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants
Domaines protéiques conservés = signatures
http://www.ebi.ac.uk/interpro/
2. Méthodes extrinsèques
BD de domaines utilisées par Interproscan :
Prosite patternsPfamProDomSuperfamily TIGRFAMsGENE3DHAMAPPANTHERPIRSF
![Page 11: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/11.jpg)
Bases de données…oui, mais…
Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments).
Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs
Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) Cluster d’ESTs disponibles, detection de structures correspondant à des gènes
Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)
![Page 12: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/12.jpg)
Eléments répétésLes gènes ne représentent qu’une petite portion du génome
● Les éléments répétés peuvent représenter plus de 80% du génome (blé)différents types
Class Order Superfamily Family Code / LabelCopia opie RLCGypsy maggy RLG
Unclassified RLXL1 RIL
Unclassified RIXAlu RSA
Unclassified RSXCACTA DTCMutator DTM
Stowaway DTTTourist DTH
Helitron Helitron DHH
LTR, long terminal repeat;LINE, long interspersed nuclear element;SINE, short interspersed nuclear element;TIR , terminal inverted repeat.MITE, Miniature Inverted Transposable Element
DNA transposons
TIR
MITE
LINE
SINE
Retrotransposon
LTR
Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.
![Page 13: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/13.jpg)
Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons
LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy)
![Page 14: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/14.jpg)
On peut filtrer les éléments répétés avant l'annotation des gènes -les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment)
Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée
Repeat masker est l'outil le plus utilisé pour masquer les répétitions
http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker
Masquer les séquences répétées
![Page 15: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/15.jpg)
Annotation automatique pratique, mais à vérifier manuellement !
Réalisée avec des programmes informatiques, algorithmes statistiques
- le résultat est un équilibre entre faux positifs et faux négatifs- le transfert peut induire des erreurs ou des aberrations
travail humain, donc :
- lent !- également source d'erreur !
Annoter manuellement les gènes dans les régions d'intérêt
Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)
Annotation automatique
![Page 16: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/16.jpg)
Méthode intégrative = ab-initio + approches comparativesPrédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour
améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)
Méthode intégrative d'annotation automatique
![Page 17: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/17.jpg)
Evaluation de la pertinence de l’annotationExemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago
VP (vrais positifs) gènes prédits, réellement présents = bonne prédictionFP (faux positifs) gènes prédits, mais réellement non présents = sur prédictionFN (faux négatifs) gènes non prédits, mais normalement présents = sous prédictionVN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction
Gene finder Sn N Sp N Sn E Sp E Sn G Sp GGenScan+ 83.2 98.2 69.6 78 25.8 29
GenMarkHMM 89.9 94.8 73.1 76.6 32.4 31.6FgenesH-At 95.1 93 85.3 81.4 47 46.5FgenesH-Mt 97.6 92.1 85.1 80.7 52.8 47.8
EGN 93.7 95 84.7 85.4 55.5 50.5EGN+FgenesH 97.8 94.2 90 86.9 63.2 56.4EGN+FH+AA 98.6 93.9 92.4 88 69.2 61.8
EGN+FH+AA+EST
98.2 99.9 94.4 94.6 80.2 79.4
la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp
Sensibilité =
Spécificité =
![Page 18: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/18.jpg)
http://eugene.toulouse.inra.fr/
Combiner d'annotation automatique
![Page 19: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/19.jpg)
C
Eugene
FGenesHBlastx Genome Threader
SpliceMachine Eugene HMM
DNA sequence
blastptblastnInterproscanBBMHGreenphyl
blastptblastnInterproscanBBMHGreenphyl
blastxGThExonerate
STRUCTURAL
FUNCTIONAL
A B
blastxGthExonerate
Eugene: fonctionnement
![Page 20: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/20.jpg)
EuGène : fichier graphique de sortie
![Page 21: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/21.jpg)
séquence nucléotidique
gène (7 exons)
transposon
Eléments annotés
exemple de logiciel d'annotation : Artemis
http://www.sanger.ac.uk/resources/software/artemis/
Annotation manuelle
![Page 22: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/22.jpg)
Dr Stéphanie Sidibe Bocs
http://southgreen.cirad.fr/
Plateforme d'annotation GNPAnnot au CIRAD
Annotateurintégration
vérification
croisement
analyse
Annotation automatique Annotation manuelle
![Page 23: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/23.jpg)
Plateforme d'annotation GNPAnnot au CIRAD
http://www.gnpannot.org/
![Page 24: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/24.jpg)
GBrowse : outil de visualisation de l'annotation
séquence
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
Gènes annotés
![Page 25: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/25.jpg)
GBrowse : outil de visualisation de l'annotation
séquence
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
Eléments répétés annotés
![Page 26: Annotation de séquences génomiques: gènes - South Green](https://reader035.vdocuments.site/reader035/viewer/2022062906/586dfc6b1a28ab29208b63ce/html5/thumbnails/26.jpg)
A vous de jouer …
L’annot at ion des génomesCahier de vacances
½ journée