une plateforme d’annotation et de génomique comparative...
TRANSCRIPT
1
LABGEM - Laboratoire d'Analyse Bioinformatique pour la Génomique et le Métabolisme - dir. C. Médigue"
Une plateforme d’annotation et de génomique comparative des microbes
Institut de Génomique CEA / UMR CNRS “Génomique Métabolique”- dir. M. Salanoubat"
http://www.genoscope.cns.fr/agc/microscope"
Introduction à
détection par contenu
Annotation : 3 étapes ! Annotation Syntaxique
• CDSs, RNAs • Regulation • Répétitions... etc
! Annotation Fonctionnelle • Fonction des gènes • Familles
Vue Statique du génome
Vue Dynamique du génome
! Annotation relationnelle
• Voies métaboliques • Cascades de signalisation • Regulation • …
Déterminer l’ensemble des fonctions nécessaires à l’accomplissement d’un processus biologique
L. Stein (2001)
Et après la séquence?
Visu
aliz
atio
n
Primary Databanks
Internal Genomic Objects
Computational results
Pathway Genome
DataBases
PkGDB
Dat
a M
anag
emen
t Pr
oces
s M
anag
emen
t
MaGe Web Interface
MicroCyc
JBPM Workflows
DB Release
JBPM Database
Functional / relational Analyses Primary Databank
Update
Login
Genome browser and
Synteny maps
Tutorial
Artemis Data Export
CGView LinePlot
Genome overview
Keyword search Blast and Pattern
Phylogenetic Profile Fusion / Fission
Tandem duplications Minimal Gene Set
RGPfinder SNPs / InDels
KEGG MicroCyc
Metabolic Profile Pathway / Synteny Synton
display Gene editor
Job History
Syntactic Annotations
Gene cart
Vallenet D. et al. MicroScope--an integrated microbial resource for the curation and comparative analysis of genomic and metabolic data Nucleic Acids Research 2013
> 25 méthodes :
=> Automatique: • Annotation • données primaires à jour
Intégrées dans un gestionnaire de
workflows
MicroScope - Composants
Process reconstruction
Biological Processes
RELATIONELLE
• Gene context, gene order • Comparative genomics: PhyloProfile Gene fusion/fission • Regulatory networks • Protein interaction • Metabolic networks
Genomic sequences
• RNA and protein genes • Transcription/translation
start & stop • Nucleotide composition
and «Words» • Codon usage
• Genomic islands
Genes / Proteins
SYNTAXIQUE
Computations, similarity searches
• Ortho/Para/Homologs • Gene/protein families
• Subcellular localization
• Motifs
Functional assignations
Annotated proteins
FONCTIONNELLE
Data Expert visualization annotations
EXPERTISE HUMAINE
EXPERTISE HUMAINE
Flux d’informations pendant le processus d’annotation
Pipeline d’annotation automatique Ssytème de Production
• Programmes enchaînés" l’output du précédent est l’input du suivant.
- Pas d’interaction avec les utilisateurs + Originalité des méthodes et utilisation des données primaires
• Procedure d’assignation automatique (AutoFAssign)
MicroScope components
Annotation Fonctionnelle � BLAST (recherche de similitude), InterproScan (domaines fonctionnels), COGnitor (familles de protéines), PRIAM (fonctions enzymatiques), Pathway tools (reconstruction de voies métaboliques), SignalP & TMHMM & PSORT (localisation des protéines). � Syntonizer (analyses du contexte génomique)
Tools for syntactic and functional annotation
En bout de course, AutoFAssign, réalise une assignation fonctionnelle sur la base de règles de décision
Annotation Syntaxique � Prodigal (prédiction gènes), RepSeek (répétitions), RNAmmer (rRNA), tRNAscan-SE (tRNA), RfamScan (ncRNA) � AMIGene (prédiction gènes), MICheck (re-annotation de génomes publics)
Le tout centralisé dans une seule instance… # Annotation collaborative # gestion des droits utilisateurs
Historique des annotations
# Données primaires (banques) # Résultats d’analyses # Annotation experte
Organisation des données et persistence:
PkGDB (Prokaryotic Genome DataBase)
The MicroScope platform : Data Management - 1
> 6TB of data
Annotation
automatique
Expert annotation 1
Expert annotation N
Update
Historique
Pipeline : AutoFAssign
$ Annotation des objets génomiques
=> Transfert des annotations des versions N des génomes vers les
versions N+1
PkGDB
Pipeline d’annotation
PkGDB
Interface Graphique pour l’annotation et la consultation
Système de production
Data management
Visualisation system
Exploration and edition de la connaissance: • Annotation Experte • Outils de génomique comparative
MicroScope components
Login
Navigation
http://www.genoscope.cns.fr/agc/microscope
Liste des organismes disponibles
News
Navigation Login Organisme et séquence
Quick Documentation
Carte génomique et table des gènes
Documentation
Genomic map in MicroScope : MaGe Genome Browser
MaGe: Génome Browser et outils dédiés à l’annotation experte Outils Génomiques: Genome overview, CG View, Tandem Duplications, COG automatic classification, Minimal Gene Set Génomique Comparative: Gene Phyloprofile, Genomic Islands, Line Plot, Fusion/Fission, Synteny statistics Métabolisme: KEGG, MicroCyc, Metabolic profiles, Synteny groups containing genes involved in metabolic pathway(s), CanOE, Pathway Curation tool. Recherche/Export: Search by keywords, BLAST searches & Download data Transcriptomique: Analysis of RNA-seq data Analyse de Variants: Analysis of evolution projects (SNPs/InDels) Panneau Utilisateur: Display preferences, Gene Carts, My Favourite Organisms, Personal Information A propos: Tutorial Access, Service offer, Collaborative Projects, Professional Trainings, …
Overview of the navigation bar Microscope – Les outils
Annotation Experte
Annoter les gènes du génome d’Intérêt • Utiliser les divers outils à disposition pour améliorer si possible
l’annotation autom
Outils de génomique comparative
COMPARATIVE GENOMICS
Synton visualization
0 0 RGP finder
LinePlot
Pan/core Genome
Fusion/Fission
Exploration du métabolisme
Metabolic phyloprofile
Analyses de Transcriptomes
" Gènes Sur/Sous Exprimés " RNA-Seq
Analyses de variants génomiques
Evolution projects • Détection des polymorphismes dans les populations
bactériennes (SNPs/InDel) • Dynamique mutationnelle des populations
bactériennes (Suivi temporel)
" Re séquençage de clones
Training courses on MicroScope platform
Annotation Syntaxique des
Génomes Bactériens
Le codon d’initiation
Moving along the bacterial chromosome (here the E. coli genome)
Repeat Regions CDSs
RNA genes (rRNA, tRNA, misc_RNA,…)
Coding prediction curve obtained with Matrix 1
Carte du Génome d’intérêt
Ou là ;-)
Cliquez Ici
Annotation editor access Carte du Génome d’intérêt
Partie de l'éditeur d'annotation permettant à l'expert de compléter / corriger l’annotation automatique => La dernière annotation mise à jour est affichée avec le nom de l'annotateur courant (ici Giraud à qui un autre expert peut envoyer un courriel pour discuter de l'annotation actuelle)
Partie de l'éditeur d'annotation contenant les résultats de l'annotation automatique. Ces valeurs sont mises à jour chaque fois que de nouveaux calculs doivent être effectués (mise à jour de base de données ou une nouvelle version de la molécule d'ADN du génome étant annoté)
L'accès aux résultats individuels de chaque outil d'annotation utilisé sur le gène de courant. Ces résultats sont régulièrement mis à jour avec de nouveaux calculs (mise à jour de base de données ou une nouvelle version de la molécule d'ADN du génome étant annotées).
L’éditeur d’annotation
5’ 3’
Begin End (leftmost start)
AMstart (AMIGene Start)
AM_Lpcod
% CDS en sens reverse (R)
AM_Apcod
Probabilité de codage est meilleure avec la position de ré-ajusté du codon de dinititiation (Amstart = SHOW = prodigal) Probabilité de Codage calculée avec le modèle de gènes 1 (ie Matrix)
= SHOW end & Prodigal End
% CDS en sens direct (D)
Probabilité de codage est meilleure avec la position de ré-ajusté du codon d'initiation par SHOW mais le début réajustement des prodigal est moins important. Probabilité de Codage calculée avec le modèle de gènes 3 (ie Matrix)
5’ 3’
Begin (leftmost start) End
AMstart (AMIGene Start) AM_Apcod (the length End-AMstart+1)
SHOW begin SHOW_proba (Mean coding probability on the length End-SHOW_begin +1)
AM_Lpcod (Mean coding probability on the length End-Begin+1)
Prodigal Start
Les résultats AMIGene
Start codon ?
Click on this functionality
Herminiimonas arsenicoxydans - chromosome HEAR 456055 -- 476055
(Re)annotation du codon d’initiation avec Artemis -1-
1
2
Double click on one CDS to see the corresponding annotations in the upper map. 3
! The overall DNA sequence is loaded ! The annotation data corresponding to the visualized region in MaGe are loaded.
Loading data from the analyzed region in the Artemis software Analyses de variants génomiques
RBS?
Start codon for CENAR0439 OK (coding prediction curve + Artemis)
The start codon for CENAR0438 is WRONG (coding prediction curve + alignments + overlap in Artemis)
RBS?
(Re)annotation du codon d’initiation avec Artemis -2-
-1- select the CDS CENAR0438 -2- press the ‘Y’ key (=> next start codon), ‘U’ undo, ‘Q’ the whole ORF -3- check the new start codon position (looking for the RBS pattern)
CENAR0438 is selected
New possible start position (two ‘y’ key)
Value of the new start position
(Re)annotation du codon d’initiation avec Artemis -3-
Other possible start position
(three ‘y’)
Value of the new start position Which one is correct ?.. Have a look at the alignments :
(Re)annotation du codon d’initiation avec Artemis -4-
Genomic Object Editor: CENAR0438 Herminiimonas arsenicoxydans - chromosome HEAR
Mise à jour des annotations -1-
Before …
After correction ….
Mise à jour des annotations -2-
Exercices
A propos de Burkholderia thailandensis : " Selectionnez B. thailandensis BTH_I. Ouvrez la barre d'outils « MaGe
» et regardez la section « Overlapping CDS ». Accédez à la région de MaGe correspondant à la BTH_I0001 / 0002 et utiliser Artemis pour trouver la bonne position du codon start pour BTH_I0001. Regardez les résultats ‘Start’ et ‘alignements’ de ‘SwissProt’ dans l'éditeur de gène BTH_I0001 pour vérifier votre conclusion ...
Training courses on MicroScope platform
Annotation Fonctionnelle des
Génomes Bactériens
Utilisation des alignements
SwissProt >500,000 entries, <1 %
Literature extracted
information
Manually curated functional annotations
TrEMBL >90,000,000 entries, >99 %
Automatic translation of EMBL CDSs Complete and incomplete genomes
(“Whole Genome Shotgun”)
Functional annotations are very often coming from automatic
procedure only
Mais…
TrEMBL contient tout de même “quelques” protéines
dont la fonction a été validée EXPERIMENTALEMENT
UniProt
% Les rapports des longueurs d'alignement sont calculés pour chaque comparaison en utilisant le logiciel Blast:
minLrap = Lmatch/ min(Lprot1, Lprot2)
Lmatch = length of the match Lprot1 = length of protein 1 Lprot2 = length of protein 2.
maxLrap = Lmatch /max(Lprot1, Lprot2)
minL=1 maxL=1
minL=1 maxL<1
minL=1 maxL<1
minL<1 maxL<1
minL<1 maxL<1
Alignement OK !
Protéine modulaire? (domain fusion/fission) Ou problème fde start?
Ou pseudogène? Ou frameshift (erreur de séquençage) ?
Probable “gene Remnant”
Analyser les résultats d’alignements
Alignment OK !
Problème de start: maxL<1
minL=1 Alignment complet Sur le protéine de ref. :
Quelques exemples -1-
Alignment is OK !
minL=1
Alignment complet Sur le protéine de ref. :
Query plus longue → protéine modulaire:
maxL<1
Quelques exemples -2-
Partie 1 : Annotation Syntaxique
1. Centrez la carte du génome d’intérêt sur la séquence codante dont le label est Acfer_0931. La probabilité de codage vous semble-t’elle bonne? Combien y a t’il de modèles de gènes disponibles pour ce génome?
2. Ouvrir la fiche d’annotation de l’objet génomique en question.
a) Avec quel modèle de gène a-t’il été prédit?
b) Le codon d’initiation a t’il été réajusté?
c) La protéine encodée est-elle plutôt basique? Plutôt acide?
Exercices Sélectionner le génome d’Acidaminococcus fermentans DSM 20731
Partie 2 : Annotation Fonctionnelle
1. Qu’indiquent les annotations primaires?
2. Les similitudes sont calculées contre des données de référence issues de bactéries modèles E. coli K12 et B. subtilis 168. Que suggèrent les résultats obtenus contre ces 2 références?
3. Analyses des alignments:
a) Section SwissProt
• Qu’indique le premier hit obtenu?
• Cliquer sur le PBid de ce premier hit. Quelle(s) information(s) importante(s) doit-on retenir quant à l’annotation de cette entrée?
• Qu’indiquent les 2 et 3ème hits?
b) Section TrEMBL
• Qu’indique le premier hit obtenu? Pourquoi?
Exercices Sélectionner le génome d’Acidaminococcus fermentans DSM 20731
Partie 2 : Annotation Fonctionnelle (Suite)
4. Les activités enzymatiques potentielles sont reportées dans les résultats PRIAM (PRofils pour l’Identification Automatique du Métabolisme). Combien d’activités sont reportées? Cliquer sur le(s) lien(s) proposés pour obtenir de plus amples informations sur cette/ces activité(s)? Sont-elles toutes pertinentes?
5. L’étude des domaines fonctionnels est reportée dans la section InterProScan
a) Combien de méthodes différentes détectent des motifs/domaines dans notre séquence d’intérêt? Quelles sont celles qui détectent préférentiellment des domaines?
b) Parmi celles qui détectent des domaines, proposent-elles toutes les mêmes résultats? Pourquoi (Hint: comparer par exemple les résultats HMMPfam et Gene3D)?
6. Et pour finir l’annotation fonctionnelle proprement dite…
a) Le produit…
b) La confiance accordée à cette annotation…
Exercices Sélectionner le génome d’Acidaminococcus fermentans DSM 20731