banques de données de séquences biologiques
DESCRIPTION
Banques de données de séquences biologiques. Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558. Guy Perrière. Terminés et publiés Terminés non publiés Séquençage en cours Total. Bactéries 124 92 286 502. Archées 16 3 20 39. Eucaryotes 16 - PowerPoint PPT PresentationTRANSCRIPT
Banques de données de Banques de données de séquences biologiquesséquences biologiques
Guy PerrièreGuy Perrière
Pôle Bioinformatique LyonnaisLaboratoire de Biométrie et Biologie Évolutive
UMR CNRS 5558
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Projets génomesProjets génomes
Génomes eucaryotes séquencés et publiésGénomes eucaryotes séquencés et publiés ::• A. gambiaeA. gambiae, , A. thalianaA. thaliana, , C. elegansC. elegans, , C. intestinalisC. intestinalis, , D. D.
melanogastermelanogaster, , E. cuniculiE. cuniculi, , G. thetaG. theta, , H. sapiensH. sapiens, , M. M. musculusmusculus, , N. crassaN. crassa, , O. sativaO. sativa ssp. ssp. indicaindica, , O. sativaO. sativa ssp. ssp. japonicajaponica, , P. falciparumP. falciparum, , P. yoeliiP. yoelii, , S. cerevisiaeS. cerevisiae, , S. S. pombepombe..
Bactéries
124
92
286
502
Terminés et publiés
Terminés non publiés
Séquençage en cours
Total
Archées
16
3
20
39
Eucaryotes
16
9
241 (133)
266 (158)
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Banques de séquencesBanques de séquences
Premières compilations papier dès 1965 Premières compilations papier dès 1965 ((Atlas of Protein SequencesAtlas of Protein Sequences).).
Développement de banques de données Développement de banques de données informatisées au début des années 80informatisées au début des années 80 ::• Rapidité d’accès.Rapidité d’accès.• Premières analyses bioinformatiques réalisées Premières analyses bioinformatiques réalisées
sur de nombreuses séquencessur de nombreuses séquences ::– Usage des codons (Grantham Usage des codons (Grantham et al.et al., 1981)., 1981).
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Les banques généralistesLes banques généralistes
Plusieurs banques ont été conçues dans différents Plusieurs banques ont été conçues dans différents laboratoires au début des années 80laboratoires au début des années 80 ::
Nucléotides
EMBLGenBankDDBJ
Protéines (1)
TrEMBLGenPept
Protéines (2)
SWISS-PROTPIR†
La disponibilité de toutes ces banques pose plu-La disponibilité de toutes ces banques pose plu-sieurs problèmessieurs problèmes ::• Incompatibilité des formats, quelle banque utiliserIncompatibilité des formats, quelle banque utiliser ??
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Banques compositesBanques composites
Une solution a la prolifération des banques est de Une solution a la prolifération des banques est de créer des banques composites.créer des banques composites.
Malheureusement, plusieurs banques de ce type ont Malheureusement, plusieurs banques de ce type ont également été développéeségalement été développées !!
NRDB
SWISS-PROTPIRGenPeptPDB
OWL†
SWISS-PROTPIRGenPeptNRL_3D
SP/TrEMBL
SWISS-PROTTrEMBL
NRDB et SWISS-PROT/TrEMBL suppriment NRDB et SWISS-PROT/TrEMBL suppriment uniquement la redondance uniquement la redondance exacteexacte..
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Provenance des séquencesProvenance des séquences
Les données proviennent de soumissions Les données proviennent de soumissions directes par les auteursdirectes par les auteurs ::• Numéro d’accession délivré par les centres de Numéro d’accession délivré par les centres de
saisie (EMBL / GenBank / DDBJ).saisie (EMBL / GenBank / DDBJ).
Les soumissions sont réalisées par l’inter-Les soumissions sont réalisées par l’inter-médiaire du réseau Internet.médiaire du réseau Internet.
Les séquences recueillies sont échangées Les séquences recueillies sont échangées quotidiennementquotidiennement ::• Le contenu des trois banques est identique.Le contenu des trois banques est identique.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Croissance des donnéesCroissance des données
5
6
7
8
9
10
11L
og
(Nb
. rés
idu
s)
08/8
3
11/8
4
02/8
6
05/8
7
08/8
8
11/8
9
02/9
1
05/9
2
08/9
3
11/9
4
02/9
6
05/9
7
08/9
8
11/9
9
02/0
1
05/0
2
08/0
3
Date
GenBankEMBLPIRSWISS-PROT
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Contenu de GenBankContenu de GenBank
35,635,6101099 nucléotides. nucléotides. 29,829,8101066 séquences. séquences. 11 470470 659 gènes (protéines et ARN).659 gènes (protéines et ARN). 329329 891 références bibliographiques.891 références bibliographiques. 120,8 giga-octets sur disque.120,8 giga-octets sur disque. Augmentation de 34,2Augmentation de 34,2 % en 12 mois.% en 12 mois. 18-2418-24 h pour transférer l’intégralité de Gen-h pour transférer l’intégralité de Gen-
Bank Bank viavia Internet. Internet.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Échantillonnage taxonomiqueÉchantillonnage taxonomique
145145 371 espèces pour 371 espèces pour lesquelles on a au lesquelles on a au moins une séquence.moins une séquence.
Dix espèces (0,07Dix espèces (0,07 ‰) ‰) représentent 63,3représentent 63,3 % du % du nombre total.nombre total.
7676 053 espèces ne sont 053 espèces ne sont représentées que par représentées que par une séquenceune séquence !!
Homo sapiensMus musculusZea maysCanis familiarisRattus norvegicusBos taurusGallus gallusBrassica oleaceraArabidopsis thalianaDanio rerio
24,1 %17,4 %
6,2 %3,0 %2,8 %2,1 %2,0 %2,0 %1,9 %1,8 %
Les dix espèces les plusreprésentées dans GenBank
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
La redondanceLa redondance
Un problème majeur Un problème majeur est celui de la redon-est celui de la redon-dance.dance.
De nombreuses en-De nombreuses en-trées sont dupliquéestrées sont dupliquées ::
• 2020 % des séquences de % des séquences de vertébrés.vertébrés.
Les doublons présen-Les doublons présen-tent souvent des dif-tent souvent des dif-férences.férences.
{ {
{
Duplications partielles oucomplètes dans les séquences
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Erreurs dans les banquesErreurs dans les banques
De nombreuses erreurs figurent dans les De nombreuses erreurs figurent dans les banques de séquences nucléotidiquesbanques de séquences nucléotidiques ::• Au niveau des annotationsAu niveau des annotations ::
– Imprécisions, omissions et erreurs.Imprécisions, omissions et erreurs.
– Incohérences entre différents champs.Incohérences entre différents champs.
• Dans les séquences elles-mêmesDans les séquences elles-mêmes ::– Erreurs de séquençage.Erreurs de séquençage.
– Compression, lecture des gels.Compression, lecture des gels.
– Insertion de vecteurs de clonage.Insertion de vecteurs de clonage.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Banques spécialiséesBanques spécialisées
De très nombreuses banques spécialisées De très nombreuses banques spécialisées ont été développées :ont été développées :• Génomes complets ou en cours de séquençageGénomes complets ou en cours de séquençage ::
– Association à des projets de cartographie (euca-Association à des projets de cartographie (euca-ryotes pluricellulaires).ryotes pluricellulaires).
• Familles de gènesFamilles de gènes ::– Consacrées à certains organismes (procaryotes, Consacrées à certains organismes (procaryotes,
vertébrés) ou à des familles particulières (immuno-vertébrés) ou à des familles particulières (immuno-globulines, récepteurs nucléaires).globulines, récepteurs nucléaires).
• Domaines et signatures.Domaines et signatures.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Banques génomiquesBanques génomiques
Banques disponibles
SubtiList
ColibriECDC (E. coli Database Collection)
GenoListPkGDB (Prokaryotic Genomes Database)CMR (Comprehensive Microbial Resource)EMGLib (Enhanced Microbial Genomes Libray)Micado (Microbial Advanced Database Organization)
MYGD (MIPS Yeast Genome Database)SGD (Saccharomyces Genome Database)YPD (Yeast Proteome Database)
PlasmoDB (P. falciparum Database)
WormBaseWormPD (Worm Protein Database)
TAIR (The Arabidopsis Information Resource)
Organisme
Bacillus subtilis
Escherichia coli
Procaryotes divers
Saccharomyces cerevisiae
Plasmodium falciparum
Caenorhabditis elegans
Arabidopsis thaliana
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Banques de familles de gènesBanques de familles de gènes
De nombreuses études requièrent de dispo-De nombreuses études requièrent de dispo-ser de séquences homologues :ser de séquences homologues :• Recherche de parties codantes.Recherche de parties codantes.• Détection des erreurs de séquençage.Détection des erreurs de séquençage.• Études des voies métaboliques.Études des voies métaboliques.• Phylogénie moléculaire.Phylogénie moléculaire.• Transferts horizontaux.Transferts horizontaux.• Structure des protéines.Structure des protéines.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Banques disponiblesBanques disponibles
Banque
ProtoMapProClassCluSTrSYSTERSCOGsHOBACGENHOGENOMEHOVERGENRTKdb
NuReBase
ABCdb
Basée sur
SWISS-PROTPIR/PROSITESWISS-PROT/TrEMBLSWISS-PROT/PIRGenomeSWISS-PROT/TrEMBLSWISS-PROT/TrEMBLSWISS-PROT/TrEMBLSWISS-PROT/TrEMBL
GenPept
SWISS-PROT/TrEMBL
Contenu
Tous organismesTous organismesTous organismesTous organismesGénomes completsBactéries et archéesGénomes completsVertébrésRecepteurs à tyrosinekinasesRecepteurs nucléairesde métazoairesTransporteurs ABC de bactéries
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Consultation et interrogationConsultation et interrogation
Se font essentiellement par accès à des Se font essentiellement par accès à des serveurs au travers d’Internetserveurs au travers d’Internet ::• Pas de prise en compte des problèmes de Pas de prise en compte des problèmes de
gestion des banques par les utilisateursgestion des banques par les utilisateurs ::– Stockage des données.Stockage des données.– Mises à jour.Mises à jour.– Simplicité d’utilisation.Simplicité d’utilisation.
• Moyens d’accèsMoyens d’accès ::– Logiciels clients dédiés (Entrez, FamFetch).Logiciels clients dédiés (Entrez, FamFetch).– Comptes utilisateurs (INFOBIOGEN).Comptes utilisateurs (INFOBIOGEN).– SitesSites WebWeb..
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Le serveur du PBILLe serveur du PBIL
Accès à un ensemble d’outils pour l’analyse des Accès à un ensemble d’outils pour l’analyse des séquences nucléiques et protéiquesséquences nucléiques et protéiques ::• Banques de séquences généralistes (GenBank, EMBL, Banques de séquences généralistes (GenBank, EMBL,
SWISS-PROT, PIR).SWISS-PROT, PIR).
• Banques spécialisées développées dans notre groupe Banques spécialisées développées dans notre groupe (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, NuReBase).NuReBase).
• Programmes de recherche de similarités et Programmes de recherche de similarités et d’alignement (BLAST, d’alignement (BLAST, -BLAST, FASTA, -BLAST, FASTA, SSEARCH)SSEARCH)
• Programmes de modélisation moléculaire (12 méthodes Programmes de modélisation moléculaire (12 méthodes différentes).différentes).
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Accès aux banquesAccès aux banques
Requêtes sur les séquencesRequêtes sur les séquences ::• Nom, numéros d’accession, mots-clés, Nom, numéros d’accession, mots-clés,
références bibliographiques, taxonomie, etc.références bibliographiques, taxonomie, etc.
Requêtes sur les famillesRequêtes sur les familles ::• Numéros d’accession, critères taxonomiques.Numéros d’accession, critères taxonomiques.
Visualisation des donnéesVisualisation des données ::• Séquences, alignements et arbres phylogéné-Séquences, alignements et arbres phylogéné-
tiques.tiques.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Requêtes sur les séquencesRequêtes sur les séquences
Sequence listSequence list
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Accès aux séquencesAccès aux séquences
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Accès aux famillesAccès aux familles
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Visualisation des donnéesVisualisation des données
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
Pour conclure…Pour conclure…
Les données figurant dans ces banques sont en Les données figurant dans ces banques sont en accès libre (soumission et consultation)accès libre (soumission et consultation) ::• Fond commun utilisable par l’ensemble de la Fond commun utilisable par l’ensemble de la
communauté des chercheurs.communauté des chercheurs.
• Problèmes de la qualité des donnéesProblèmes de la qualité des données ::– Nécessité de disposer de personnes en charge du contrôle des Nécessité de disposer de personnes en charge du contrôle des
annotations.annotations.
Il existe de très nombreuses banques disponibles Il existe de très nombreuses banques disponibles (863 recensées par Lion Biosciences(863 recensées par Lion Biosciences !)!) ::• Problèmes de l’interconnection et de l’interopérabilité Problèmes de l’interconnection et de l’interopérabilité
des données. des données.
Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr
RemerciementsRemerciements
Laboratoire de Biométrie et Biologie ÉvolutiveLaboratoire de Biométrie et Biologie Évolutive ::• Simon Penel, Laurent Duret, Manolo Gouy, Céline Simon Penel, Laurent Duret, Manolo Gouy, Céline
Delucinge.Delucinge.
Unité de Recherche INRIA Rhône-Alpes:Unité de Recherche INRIA Rhône-Alpes:• Jean-François Dufayard.Jean-François Dufayard.
Centre de Génétique Moléculaire et CellulaireCentre de Génétique Moléculaire et Cellulaire ::• Julien Grassot, Frédéric Tingaud.Julien Grassot, Frédéric Tingaud.
Laboratoire de Biologie Moléculaire et CellulaireLaboratoire de Biologie Moléculaire et Cellulaire ::• Marc Robinson, Jorge Duarte, David Ruau.Marc Robinson, Jorge Duarte, David Ruau.