bases de données en biologie (suite) g. almouzni (i. curie)
TRANSCRIPT
Bases de données en biologie (suite)
G. Almouzni (I. Curie)
Bases de données en biologie
• BD séquences généralistes- séquences nucléotidiques- séquences protéiques
• BD bibliographiques
• Historique
Plan du cours (1)
Rappels de BIO
• BD spécialisées - par organisme- par thématique (problématique bio)
Violaine Pillet+ Extraction d ’information à partir de textes
• Des bases de données aux bases de connaissances
Banques de séquences généralistes
• PIR-NBRF
Banques de séquences protéiques
• données expérimentalesisolation, séquençage
• données in silicodéduction à partir de la séquence nucléique par simple traduction
Séquences protéiques
• Swissprot
PIR-NBRF
• création 1984
• données
NBRF (National Biomedical Research Foundation)
MIPS (Martinsried Institute for Protein Sequences, Munich)JIPID (Japan International Protein Information Database)
http://pir.georgetown.edu/
Swissprot
• création 1986
• données
Université de Genève
Séquences banque PIR-NBRFSéquences banque EMBL (traduction)
Chaque entrée de la base a été expertisée par un annotateur
Amos Bairoch
SIB: Swiss Institute of Bioinformatics
Collaboration : SIB + EBI
www.expasy.org/sprot/
Bases de données en biologie
• BD séquences généralistes- séquences nucléotidiques- séquences protéiques
• Historique
Plan du cours
Rappels de BIO• BD spécialisées
- par organisme- par thématique (problématique bio)
• Des bases de données aux bases de connaissances
Forte croissance + hétérogénéité des séquences des banques généralistes
constitution de bases de données
• par thématique
• par organisme
espace de connaissances de références
Des banques aux bases de séquences (1)
• bases de séquences dédiées – à un organisme– à des objets biologiques communs à
plusieurs organismes
• travail important– correction des erreurs– élimination des doublons– annotations
Des banques aux bases de séquences (2)
Bases de séquences Adresse Bases génériques (multi- organismes)EMBL / trEMBL http:/ / www.ebi.ac.uk/ embl/Genbank / GenPept http:/ / www.ncbi.nlm.nih.gov/ entrezDDBJ (DNA Data Bank of J apan) http:/ / www.ddbj .nig.ac.jp/SwissProt http:/ / www.expasy.org/ sprot/ Bases spécialisées (organisme)GenoList http:/ / genolist.pasteur.f rCyanobase http:/ / www.kazusa.or.jp/ cyano/TAI R (The Arabidopsis I nformation Resource) http:/ / www.arabidopsis.orgFlyBase (Database of the Drosophila Genome) http:/ / flybase.bio.indiana.edu/MGD (Mouse Genome Database) http:/ / www.informatics.jax.org/GDB (Human Genome data Base) http:/ / gdbwww.gdb.org/ Bases spécialisées (thématique)PROSI TE http:/ / www.expasy.org/ prositeeMOTI F http:/ / f old.stanford.edu/ motifEPD (Eukaryotic Promoter Database) http:/ / www.epd.isb-sib.ch/
Bases de séquences spécialisées
Génomes procaryotes
Mais les données ne se limitent pas aux séquences...
BD biologie moléculaire
Nom adresse MétabolismeKEGG (Kyoto Encyclopedia of Genes and Genomes) http:/ / www.genomes.ad.jp/ keggBRENDA http:/ / www.brenda.uni-koeln.deEMP (Enzymes and Metabolic Pathways) http:/ / www.empproject.comEnzyme http:/ / www.expasy.ch/ enzymeEcoCyc http:/ / ecocyc.org Régulation transcriptionnelleRegulonDB http:/ / itzmanna.cif n.unam.mx/ Computational
_Genomics/ regulonDB I nteractions protéine- protéineDI P (Database of I nteracting Proteins) http:/ / dip.doe-mbi.ucla.edu/BI ND (The Biomolecular I nteraction NetworkDatabase)
http:/ / www.bind.ca/
Données structurales (3D)PDB (Protein Data Bank) http:/ / www.rcsb.org/ pdbEC to PDB http:/ / www.biochem.ucl.ac.uk/ enzymes Famille de gènes ou de protéinesThe Protein Kinase Resource (PKR) http:/ / www.sdsc.edu/ kinases5S Ribosomal RNA Database http:/ / biobases.ibch.poznan.pl/ 5Sdata/
Données structurales : PDB
Navigation dans les bases
• BD spécialisées - par organisme- par thématique (problématique bio)
Bases de données en biologie
• BD séquences généralistes- séquences nucléotidiques- séquences protéiques
• Historique
Plan du cours
Rappels de BIO
• Des bases de données aux bases de connaissances
• Illusoire de penser construire un jour “ le ” système d’informations biologiques universel
pluralité des problématiques pluralité des bases de données
• > 1000 BDs
• Ces BDs sont conçues pour répondre à des objectifs différents.
• Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer
Schéma conceptuel = modèle dont la conception est pilotée par les questions qu’il doit permettre d’aborder
Une multiplicité de bases de données hétérogènes
Mais, conséquences pratiques facheuses...
Une multiplicité de BDs hétérogènes : conséquences (1)Recherche d ’informations
Interroger plusieurs basesRelier entre elles les données extraites= Intégrer les données
merci Internet
Démarche fastidieuse
Démarche inenvisageable
Analyse d ’un petit nombre de séquences
Analyse de résultats à grande échelle (génome, protéome, transcriptome,…)
• Problème technique : Diversité des modèles et des formats des bases concernées.
Cas favorable : s’adapter au modèle de chacune des bases.
Cas moins favorable (mais plus fréquent) : les dites “ bases de données ” sont constituées de simples fichiers munis d’un langage d’interrogation et de manipulation ad hoc.
Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données
Une multiplicité de BDs hétérogènes : conséquences (2)
Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases
Souvent: schéma indisponible, inexistant,…Pb :connaître le nom d ’un champ ou d ’un enregistrement est insuffisant
Une multiplicité de BDs hétérogènes
Problème majeur:HETEROGENEITE des données ( nature, formats)
Volume de données : non limitant
Comment intégrer ces données biologiques, hétérogènes et distribuées, afin qu’elles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ?
INTEGRATION
2 grandes catégories de solutions
Entrepôts de données (data warehousing)2
= restructurer les données au sein d ’un schéma uniqueles données des différentes bases concernées sont copiées de leurs bases d’origine
(+) temps de traitement des requêtes(-) mises à jours
Intégration de données hétérogènes
= ajouter, au-dessus des bases existantes, une couche logicielle • offre les interfaces nécessaires entre les bases • fait apparaître l’ensemble comme une seule base virtuelle
Approche fédérative1
(+) assure d’accéder à tout instant à des données qui sont à jour
Résoudre les problèmes d ’incompatibilité syntaxique et sémantique
SRS - Sequence Retrieval System
Rajouter l ’URL
1
SRS permet d ’accéder à différentes BDs via une interface uniqueExemple: ExPASy: SWISS-PROT, TrEMBL (SPTR)
SRS - Sequence Retrieval System1
ENTREZ
ENTREZ (NCBI)1
Mise en correspondance des entités modélisées dans différents schémas conceptuels
Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement
documenté
Cependant,dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base)
Parfois,description sous forme de textes dans la documentation associée
Expliciter et formaliser les entités manipulées
Entrepôt de données2
= restructurer les données au sein d ’un schéma unique
Représentation de connaissances
François Rechenmann
Danielle Ziébelin : AROM
Des bases de données aux bases de connaissances...
Modéliser plus finement les classes d’entités, ainsi que les relations qu’elles entretiennent
non plus seulement à des fins de requêtes et de gestionmais pour expliciter formellement leurs définitions
Des bases de données aux bases de connaissances
Ontologie : formalisation des concepts d’un domaine et des relations qu’ils entretiennent
Une ontologie n’est pas réductible à la constitution d’un vocabulaire
En pratique, le schéma d’une base de connaissance correspond = mise en œuvre de l’ontologie retenue
bases de données base de connaissances
Les modèles de connaissances offrent une capacité d ’expression permettant d’aborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases
Champs texte (langage naturel)
Lisible et interprétable par un humain
Exploitation automatique très délicate
Ex: champ fonction
Bases de connaissances
• Syntactic Annotation Feature detection by content
Genome annotation
DNA sequence
• CDSs, RNAs• Regulation signals• Repeats... etc
• Functional Annotation « function » attribution
Objects
Seq
•• Relational / Context Annotation ?
• gene products• operator families
•• Sequence similarity
Genome B
Genome A
Synton
Genome A Genome B
Dyn. Prog.
• Comparative genomics
• Genetic networks
• Molecular assemblies
ABC tranporters Fichant et al.
• Metabolic pathways
relation
Relational Annotation
Panoramix KBs
gene polypeptide
Chromosome BChromosome A
biochemical reactions
compounds (e.g. sugar...)molecularassembly
EC
EC
EC
Metabolix
Proteix
Genomix
EC enzyme
Fini pour aujourd’hui...
ENTREZ - BLAST
Les limites des bases de séquences...
Hétérogénéité dans la nature des séquences
Variabilité de l ’état des connaissances sur les séquences
Erreurs dans les séquences
Biais d ’échantillonage
A voir ???
• Databases: nombreuses erreurs (annotation automatique) !
• Toutes les BDs ne sont pas disponibles sur tous les serveurs
• Problème de synchronisation des mises à jour
• Références croisées
BDs: ATTENTION !
• Compatibilité syntaxique Format
• Compatibilité sémantiqueBiologiste + bio-informaticien
• Analyse de séquences
• Données de bonne qualité
• Complète, détaillée
• Remise à jour
• Peu redondante
• Indexée pour pouvoir poser des requêtes compliquées
• Quel site répond le plus rapidement
• …….??????
Prolifération de BDs
Recherche de la BD idéale