bases de données en biologie (suite) g. almouzni (i. curie)

Bases de données en biologie (suite)

G. Almouzni (I. Curie)

Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• BD bibliographiques

• Historique

Plan du cours (1)

Rappels de BIO

• BD spécialisées - par organisme- par thématique (problématique bio)

Violaine Pillet+ Extraction d ’information à partir de textes

• Des bases de données aux bases de connaissances

Banques de séquences généralistes

• PIR-NBRF

Banques de séquences protéiques

• données expérimentalesisolation, séquençage

• données in silicodéduction à partir de la séquence nucléique par simple traduction

Séquences protéiques

• Swissprot

PIR-NBRF

• création 1984

• données

NBRF (National Biomedical Research Foundation)

MIPS (Martinsried Institute for Protein Sequences, Munich)JIPID (Japan International Protein Information Database)

http://pir.georgetown.edu/

Swissprot

• création 1986

• données

Université de Genève

Séquences banque PIR-NBRFSéquences banque EMBL (traduction)

Chaque entrée de la base a été expertisée par un annotateur

Amos Bairoch

SIB: Swiss Institute of Bioinformatics

Collaboration : SIB + EBI

www.expasy.org/sprot/



• Historique

Plan du cours

Rappels de BIO• BD spécialisées

- par organisme- par thématique (problématique bio)


Forte croissance + hétérogénéité des séquences des banques généralistes

constitution de bases de données

• par thématique

• par organisme

espace de connaissances de références

Des banques aux bases de séquences (1)

• bases de séquences dédiées – à un organisme– à des objets biologiques communs à

plusieurs organismes

• travail important– correction des erreurs– élimination des doublons– annotations

Des banques aux bases de séquences (2)

Bases de séquences Adresse Bases génériques (multi- organismes)EMBL / trEMBL http:/ / www.ebi.ac.uk/ embl/Genbank / GenPept http:/ / www.ncbi.nlm.nih.gov/ entrezDDBJ (DNA Data Bank of J apan) http:/ / www.ddbj .nig.ac.jp/SwissProt http:/ / www.expasy.org/ sprot/ Bases spécialisées (organisme)GenoList http:/ / genolist.pasteur.f rCyanobase http:/ / www.kazusa.or.jp/ cyano/TAI R (The Arabidopsis I nformation Resource) http:/ / www.arabidopsis.orgFlyBase (Database of the Drosophila Genome) http:/ / flybase.bio.indiana.edu/MGD (Mouse Genome Database) http:/ / www.informatics.jax.org/GDB (Human Genome data Base) http:/ / gdbwww.gdb.org/ Bases spécialisées (thématique)PROSI TE http:/ / www.expasy.org/ prositeeMOTI F http:/ / f old.stanford.edu/ motifEPD (Eukaryotic Promoter Database) http:/ / www.epd.isb-sib.ch/

Bases de séquences spécialisées

Génomes procaryotes

Mais les données ne se limitent pas aux séquences...

BD biologie moléculaire

Nom adresse MétabolismeKEGG (Kyoto Encyclopedia of Genes and Genomes) http:/ / www.genomes.ad.jp/ keggBRENDA http:/ / www.brenda.uni-koeln.deEMP (Enzymes and Metabolic Pathways) http:/ / www.empproject.comEnzyme http:/ / www.expasy.ch/ enzymeEcoCyc http:/ / ecocyc.org Régulation transcriptionnelleRegulonDB http:/ / itzmanna.cif n.unam.mx/ Computational

_Genomics/ regulonDB I nteractions protéine- protéineDI P (Database of I nteracting Proteins) http:/ / dip.doe-mbi.ucla.edu/BI ND (The Biomolecular I nteraction NetworkDatabase)

http:/ / www.bind.ca/

Données structurales (3D)PDB (Protein Data Bank) http:/ / www.rcsb.org/ pdbEC to PDB http:/ / www.biochem.ucl.ac.uk/ enzymes Famille de gènes ou de protéinesThe Protein Kinase Resource (PKR) http:/ / www.sdsc.edu/ kinases5S Ribosomal RNA Database http:/ / biobases.ibch.poznan.pl/ 5Sdata/

Données structurales : PDB

Navigation dans les bases

• BD spécialisées - par organisme- par thématique (problématique bio)



• Historique

Plan du cours

Rappels de BIO


• Illusoire de penser construire un jour “ le ” système d’informations biologiques universel

pluralité des problématiques pluralité des bases de données

• > 1000 BDs

• Ces BDs sont conçues pour répondre à des objectifs différents.

• Même si leurs contenues se recouvrent, leurs schémas conceptuels peuvent différer

Schéma conceptuel = modèle dont la conception est pilotée par les questions qu’il doit permettre d’aborder

Une multiplicité de bases de données hétérogènes

Mais, conséquences pratiques facheuses...

Une multiplicité de BDs hétérogènes : conséquences (1)Recherche d ’informations

Interroger plusieurs basesRelier entre elles les données extraites= Intégrer les données

merci Internet

Démarche fastidieuse

Démarche inenvisageable

Analyse d ’un petit nombre de séquences

Analyse de résultats à grande échelle (génome, protéome, transcriptome,…)

• Problème technique : Diversité des modèles et des formats des bases concernées.

Cas favorable : s’adapter au modèle de chacune des bases.

Cas moins favorable (mais plus fréquent) : les dites “ bases de données ” sont constituées de simples fichiers munis d’un langage d’interrogation et de manipulation ad hoc.

Activité majeure des bioinformaticiens: Ecriture de scripts de lecture et de reformatage de données

Une multiplicité de BDs hétérogènes : conséquences (2)

Pour formuler de bonnes requêtes : Connaître la structure et le schéma conceptuel des bases

Souvent: schéma indisponible, inexistant,…Pb :connaître le nom d ’un champ ou d ’un enregistrement est insuffisant

Une multiplicité de BDs hétérogènes

Problème majeur:HETEROGENEITE des données ( nature, formats)

Volume de données : non limitant

Comment intégrer ces données biologiques, hétérogènes et distribuées, afin qu’elles soient accessibles et exploitables aussi facilement que si elles figuraient dans une seule et même base ?

INTEGRATION

2 grandes catégories de solutions

Entrepôts de données (data warehousing)2

= restructurer les données au sein d ’un schéma uniqueles données des différentes bases concernées sont copiées de leurs bases d’origine

(+) temps de traitement des requêtes(-) mises à jours

Intégration de données hétérogènes

= ajouter, au-dessus des bases existantes, une couche logicielle • offre les interfaces nécessaires entre les bases • fait apparaître l’ensemble comme une seule base virtuelle

Approche fédérative1

(+) assure d’accéder à tout instant à des données qui sont à jour

Résoudre les problèmes d ’incompatibilité syntaxique et sémantique

SRS - Sequence Retrieval System

Rajouter l ’URL

1

SRS permet d ’accéder à différentes BDs via une interface uniqueExemple: ExPASy: SWISS-PROT, TrEMBL (SPTR)

SRS - Sequence Retrieval System1

ENTREZ

ENTREZ (NCBI)1

Mise en correspondance des entités modélisées dans différents schémas conceptuels

Rappel: la seule connaissance des noms est insuffisante schéma conceptuel accessible et correctement

documenté

Cependant,dans un schéma conceptuel, description minimale des entités (traitement des requêtes, administration de la base)

Parfois,description sous forme de textes dans la documentation associée

Expliciter et formaliser les entités manipulées

Entrepôt de données2

= restructurer les données au sein d ’un schéma unique

Représentation de connaissances

François Rechenmann

Danielle Ziébelin : AROM

Des bases de données aux bases de connaissances...

Modéliser plus finement les classes d’entités, ainsi que les relations qu’elles entretiennent

non plus seulement à des fins de requêtes et de gestionmais pour expliciter formellement leurs définitions

Des bases de données aux bases de connaissances

Ontologie : formalisation des concepts d’un domaine et des relations qu’ils entretiennent

Une ontologie n’est pas réductible à la constitution d’un vocabulaire

En pratique, le schéma d’une base de connaissance correspond = mise en œuvre de l’ontologie retenue

bases de données base de connaissances

Les modèles de connaissances offrent une capacité d ’expression permettant d’aborder la représentation de données plus complexes que celles qui apparaissent traditionnellement dans les bases

Champs texte (langage naturel)

Lisible et interprétable par un humain

Exploitation automatique très délicate

Ex: champ fonction

Bases de connaissances

• Syntactic Annotation Feature detection by content

Genome annotation

DNA sequence

• CDSs, RNAs• Regulation signals• Repeats... etc

• Functional Annotation « function » attribution

Objects

Seq

•• Relational / Context Annotation ?

• gene products• operator families

•• Sequence similarity

Genome B

Genome A

Synton

Genome A Genome B

Dyn. Prog.

• Comparative genomics

• Genetic networks

• Molecular assemblies

ABC tranporters Fichant et al.

• Metabolic pathways

relation

Relational Annotation

Panoramix KBs

gene polypeptide

Chromosome BChromosome A

biochemical reactions

compounds (e.g. sugar...)molecularassembly

EC

EC

EC

Metabolix

Proteix

Genomix

EC enzyme

Fini pour aujourd’hui...

ENTREZ - BLAST

Les limites des bases de séquences...

Hétérogénéité dans la nature des séquences

Variabilité de l ’état des connaissances sur les séquences

Erreurs dans les séquences

Biais d ’échantillonage

A voir ???

• Databases: nombreuses erreurs (annotation automatique) !

• Toutes les BDs ne sont pas disponibles sur tous les serveurs

• Problème de synchronisation des mises à jour

• Références croisées

BDs: ATTENTION !

• Compatibilité syntaxique Format

• Compatibilité sémantiqueBiologiste + bio-informaticien

• Analyse de séquences

• Données de bonne qualité

• Complète, détaillée

• Remise à jour

• Peu redondante

• Indexée pour pouvoir poser des requêtes compliquées

• Quel site répond le plus rapidement

• …….??????

Prolifération de BDs

Recherche de la BD idéale

bases de données en biologie (suite) g. almouzni (i. curie)

Documents