Basi di dati biologiche (Teoria)
1
Banche dati biologiche - Introduzione
2
Il concetto di informazione e’ strettamente connesso a quello di dato e di struttura.
Il dato e’ un osservabile (insieme di numeri, caratteri, simboli…)
La struttura e’ l’ organizzazione ordinata di dati che ne consente l’apprendimento.
Una banca dati e’ l’insieme di dati elementari, omogenei, ordinati e fruibili. In
altre parole: e’ una collezione organizzata di dati
Esempio: elenco telefonico. L’informazione e’ strutturata in campi (nome, cognome ecc.).
Ogni persona con i propri dati e’ un record.
Banche dati biologiche - Introduzione
3
I dati biologici necessitano di
un’organizzazione. Primo tentativo:
Margaret Dayhoff (1925-1983): raccolse,
nel 1965, le sequenze di 65 proteine (lavoro
pioneristico per il tempo!)
Le tecniche di sequenziamento rapido ed i
progetti –omici hanno prodotto una quantita’
esplosiva di dati, anche di sequenze
L’avvento di Internet ha facilitato di gran
lunga l’acquisizione e la distribuzione
dell’informazione biologica in banche dati.
Banche dati biologiche - Introduzione
3D
EXPRESSION
MAPPING
>sp|P56478|IL7_RAT
MFHVSFRYIFGIPPLILVLLPVTSSD
CHIKDKDGKAFGSVLMISINQLDKMT
GTDSDCPNNEPNFFKKHLCDDTKEAA
FLNRAARKLRQFLKMNISEEFNDHLL
RVSDGTQTLVNCTSKEEKTIKEQKKN
DPCFLKRLLREIKTCWNKILKGSI
SEQUENCES
LS125-4 R14523 CYC223
FUNCTION
LITERATURE ONTOLOGIES
• Sono collezioni di dati:
• strutturati
• indicizzati
• aggiornati
• interconnessi
• …
• I database biologici sono legati a strumenti per:
• recuperare records al loro interno
• aggiornare il database
• combinare le informazioni
• Ci sono 6 principali categorie di basi di dati biologiche :
• basi di dati di sequenze:
• DNA
• RNA
• Proteine
• basi di dati per il mapping
• geni
• cromosomi
• …
• Strutture 3D (PDB)
• trascrittomica
• funzionali(KEGG)
• per la letteratura (PubMed), ontologies (GO),…
ONTOLOGIA: modo formale di rappresentare la conoscenza
Banche dati biologiche - Introduzione
Nucleic Acids Research Database summary contiene > 1800 database
classificati nelle seguenti categorie:
•Nucleotide Sequence Databases
•RNA sequence databases
•Protein sequence databases
•Structure Databases
•Genomics Databases (non-vertebrate)
•Metabolic and Signaling Pathways
•Human and other Vertebrate Genomes
•Human Genes and Diseases
•Microarray Data and other Gene Expression Databases
•Proteomics Resources
•Other Molecular Biology Databases
•Organelle databases
•Plant databases
•Immunological databases
•Cell biology
http://www.oxfordjournals.org/our_journals/nar/database/c/
Alcuni database di interesse biologico
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank,BIOMDB, BLOCKS,BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc …!!!!
Come ci si orienta?
Banche dati - introduzione
• Principio generale della biologia:
Le banche dati si strutturano e si integrano
per favorire lo studio di questo processo.
Tre enti al mondo sono i principali
DNA RNA
cDNA
ESTs
phenotype
genomic
DNA
databases
protein
sequence
databases
protein
Database di sequenze primarie
• Database pubblici che collezionano tutte le sequenze pubblicate: – GenBank (US National
Center for Biology information; 1982) http://www.ncbi.nlm.nih.gov/Genbank/
– EMBL (European Molecular Biology Laboratory; 1982) http://www.ebi.ac.uk/embl/
– DDBJ (DNA Data Bank of Japan; 1986) http://www.ddbj.nig.ac.jp/
A partire dal 1992 i tre database condividono tutte le sequenze. Download
ftp://ftp.ncbi.nih.gov/genbank ftp://ftp.ebi.ac.uk/pub/databases/embl/ ftp://ftp.ddbj.nig.ac.jp/database/
Banche dati – dati di sequenza
• Che dati si possono trovare? • Principalmente sono presenti
• sequenze (nucleotidi, amminoacidi)
• strutture
• L’uso della rappresentazione dei dati biologici di
varia natura come sequenze è la forma di gran lunga
più diffusa.
Sequenza del gene corrispondente alla proteina BAX (RefSeq: NM_001193517.1)
Banche dati - dati di sequenza
• Che dati si possono trovare? – Sequenze di DNA:
• formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina), t (timina)
– esempio: atggtacat..., tag, taa, tga …
– Sequenze di RNA: • formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina),u (uracile)
– esempio: aucgcuaa, auucg, … – Per convenzione sono rappresentate con lettere minuscole (ma non
sempre…)
– Sequenze proteiche: • formate da 20 lettere • corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,K, L, M, N, P, Q, R, S, T, V,
W, Y
– esempio: MPIVDTGSVAPLSAAEK…, TAG,... – Per convenzione sono rappresentate con lettere maiuscole
Banche dati - dati di sequenza • Il formato FASTA - Pearson
– Rappresentazione mediante testo di sequenze nucleotidiche o peptidiche (lettere MAIUSCOLE).
– La prima riga (di lunghezza arbitraria) è preceduta da “>” e rappresenta la descrizione della sequenza.
– Le linee precedute da “>” o “;” sono considerate di commento e non vengono interpretate come dato di sequenza
– Le linee successive (ciascuna di 80 caratteri) rappresentano la sequenza. – Un file fasta può avere estensione (non c’è uno standard)
• .fasta o .fas (generica) • .fna (acidi nucleici) • .ffn (regione codificante del genoma) • .faa (aminoacidi) (.mpfa per sequenza mutiple) • .frn (RNA non codificante)
Esempio di sequenza FASTA Schemi per formati di intestazione FASTA
LOCUS AB001325 1442 bp mRNA linear PRI 17-SEP-2005
DEFINITION Homo sapiens AQP3 mRNA for aquaporine 3, partail cds.
ACCESSION AB001325 D25280
VERSION AB001325.1 GI:1854373
KEYWORDS .
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE 1
AUTHORS Ishibashi,K., Sasaki,S., Saito,F., Ikeuchi,T. and Marumo,F.
TITLE Structure and chromosomal localization of a human water channel
(AQP3) gene
JOURNAL Genomics 27 (2), 352-354 (1995)
PUBMED 7558005
REFERENCE 2 (bases 1 to 1442)
AUTHORS Ishibashi,K.
TITLE Direct Submission
JOURNAL Submitted (28-OCT-1996) Kenichi Ishibashi, Tokyo Medical and Dental
University, 2nd Internal Medicine; Yushima 1-5-45, Bunkyo-ku, Tokyo
113, Japan (Tel:03-5803-5223, Fax:03-5803-0132)
COMMENT On Feb 28, 1997 this sequence version replaced gi:915195.
FEATURES Location/Qualifiers
source 1..1442
/organism="Homo sapiens"
/mol_type="mRNA"
/db_xref="taxon:9606"
/clone="HUM-AQP3"
/tissue_type="kidney"
gene 1..1442
/gene="AQP3"
CDS 61..939
/gene="AQP3"
/note="water channel"
/codon_start=1
/product="aquaporin 3"
/protein_id="BAA19237.1"
/db_xref="GI:1854374"
/translation="MGRQKELVSRCGEMLHIRYRLLRQALAECLGTLILVMFGCGSVA
QVVLSRGTHGGFLTINLAFGFAVTLGILIAGQVSGAHLNPAVTFAMCFLAREPWIKLP
IYTLAQTLGAFLGAGIVFGLYYDAIWHFADNQLFVSGPNGTAGIFATYPSGHLDMING
FFDQFIGTASLIVCVLAIVDPYNNPVPRGLEAFTVGLVVLVIGTSMGFNSGYAVNPAR
DFGPRLFTALAGWGSAVFTTGQHWWWVPIVSPLLGSIAGVFVYQLMIGCHLEQPPPSN
EEENVKLAHVKHKEQI"
ORIGIN
1 ccggggatcc acgcgcgccg ccacccctgc ccgcccgaca gcgccgccgc ctgccccgcc
61 atgggtcgac agaaggagct ggtgtcccgc tgcggggaga tgctccacat ccgctaccgg
121 ttgctccgac aggcgctggc cgagtgcctg gggaccctca tcctcgtgat gtttggctgt
181 ggctccgtgg cccaggttgt gctcagccgg ggcacccacg gtggtttcct caccatcaac
241 ctggcctttg gctttgctgt cactctgggc atcctcatcg ctggccaggt ctctggggcc
301 cacctgaacc ctgccgtgac ctttgccatg tgcttcctgg ctcgtgagcc ctggatcaag
361 ctgcccatct acaccctggc acagacgctg ggagccttct tgggtgctgg aatagttttt
421 gggctgtatt atgatgcaat ctggcacttt gccgacaacc agctttttgt ttcgggcccc
481 aatggcacag ccggcatctt tgctacctac ccctctggac acttggatat gatcaatggc
541 ttctttgacc agttcatagg cacagcctcc cttatcgtgt gtgtgctggc cattgttgac
601 ccttacaaca accccgtccc ccgaggcctg gaggccttca ccgtgggcct ggtggtcctg
661 gtcattggca cctccatggg cttcaactcc ggctatgccg tcaaccctgc ccgggacttt
721 ggcccccgcc tttttacagc ccttgcgggc tggggctctg cagtcttcac gaccggccag
781 cattggtggt gggtgcccat cgtgtcccca ctcctgggct ccattgcggg tgtcttcgtg
841 taccagctga tgatcggctg ccacctggag cagcccccac cctccaacga ggaagagaat
901 gtgaagctgg cccatgtgaa gcacaaggag cagatctgag tggcaagggc catctcccac
961 tccgctgccc tggccttgag catccactga ctgtccaagg ccactcccaa gaagcccccc
1021 ttcacgatcc accctttcag gctaaggagc tccctatcta ccctcacccc acgaagacag
GenBank File Format
header
features
DNA sequence
GenBank Flat file format
13
Il formato GenBank Flat file contiene un header con dei metadati:
Locus
name
Sequence
length
Molecule
type Division
GenBank Flat file format
14
Il formato GenBank Flat file contiene un header con dei metadati:
1. PRI - primate sequences 2. ROD - rodent sequences 3. MAM - other mammalian sequences 4. VRT - other vertebrate sequences 5. INV - invertebrate sequences 6. PLN - plant, fungal, and algal sequences 7. BCT - bacterial sequences 8. VRL - viral sequences 9. PHG - bacteriophage sequences 10. SYN - synthetic sequences 11. UNA - unannotated sequences 12. EST - EST sequences (expressed sequence tags) 13. PAT - patent sequences 14. STS - STS sequences (sequence tagged sites) 15. GSS - GSS sequences (genome survey sequences) 16. HTG - HTG sequences (high-throughput genomic sequences) 17. HTC - unfinished high-throughput cDNA sequencing 18. ENV - environmental sampling sequences
Il database genbank è
suddiviso in 18 divisioni
GenBank Flat file format
15
Il formato GenBank Flat file contiene un header con dei metadati:
Descrizione della sequenza
GenBank Flat file format
16
Il formato GenBank Flat file contiene un header con dei metadati:
Identificatore univoco della sequenza
GenBank Flat file format
17
Il formato GenBank Flat file contiene un header con dei metadati:
Versione
Numero identificatore della sequenza (cambia
se cambia in qualche modo la sequenza
GenBank Flat file format
18
Il formato GenBank Flat file contiene un header con dei metadati:
Nome scientifico dell’organismo
GenBank Flat file format
19
Il formato GenBank Flat file contiene un header con dei metadati:
Eventuali riferimenti bibliografici
GenBank Flat file format
20
Il formato GenBank Flat file contiene un header con dei metadati:
Features: informazioni su
geni e altre regioni di
rilevanza biologica
Regione corrispondente ad un gene (dalla base 687 alla base 3158)
Regione corrisondente ad una regione codificante una proteina
Id della proteina codificata
Traduzione della sequenza nucleotidica in sequenza amminoacidica
GenBank Flat file format
21
L’ultima parte del file contiene
la sequenza nucleotidica
Banche dati - dati di sequenza • Il formato XML (eXtensible Markup Language)
– Replica la struttura logica del record nella banca dati – I tag permettono di delimitare e definire campi e sottocampi
<?xml version='1.0' encoding='UTF-8'?>
<uniprot xmlns="http://uniprot.org/uniprot" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://uniprot.org/uniprot http://www.uniprot.org/support/docs/uniprot.xsd">
<entry dataset="Swiss-Prot" created="1995-02-01" modified="2011-01-11" version="120">
<accession>Q07812</accession>
<accession>A8K4W1</accession>
<accession>P55269</accession>
<accession>Q07814</accession>
<accession>Q07815</accession>
<accession>Q8WZ49</accession>
<accession>Q9NR76</accession>
<accession>Q9NYG7</accession>
<accession>Q9UCZ6</accession>
<accession>Q9UCZ7</accession>
<accession>Q9UQD6</accession>
<name>BAX_HUMAN</name>
<protein>
<recommendedName>
<fullName>Apoptosis regulator BAX</fullName>
</recommendedName>
<alternativeName>
<fullName>Bcl-2-like protein 4</fullName>
<shortName>Bcl2-L-4</shortName>
</alternativeName>
</protein>
<gene>
<name type="primary">BAX</name>
<name type="synonym">BCL2L4</name>
</gene>
<organism>
<name type="scientific">Homo sapiens</name>
<name type="common">Human</name>
<dbReference type="NCBI Taxonomy" id="9606" key="1"/>
<lineage>
<taxon>Eukaryota</taxon>
<taxon>Metazoa</taxon>
<taxon>Chordata</taxon>
<taxon>Craniata</taxon>
<taxon>Vertebrata</taxon>
<taxon>Euteleostomi</taxon>
<taxon>Mammalia</taxon>
<taxon>Eutheria</taxon>
<taxon>Euarchontoglires</taxon>
<taxon>Primates</taxon>
<taxon>Haplorrhini</taxon>
<taxon>Catarrhini</taxon>
<taxon>Hominidae</taxon>
<taxon>Homo</taxon>
</lineage>
</organism>
<reference key="2">
[…]
<feature type="turn">
<location>
<begin position="147"/>
<end position="149"/>
</location>
</feature>
<feature type="helix">
<location>
<begin position="150"/>
<end position="154"/>
</location>
</feature>
<feature type="helix">
<location>
<begin position="159"/>
<end position="164"/>
</location>
</feature>
<feature type="helix">
<location>
<begin position="171"/>
<end position="188"/>
</location>
</feature>
<evidence key="EC1" category="curator" type="Literature" attribute="PubMed=8358790" date="2010-07-01"/>
<evidence key="EC2" category="curator" type="Literature" attribute="PubMed=10772918" date="2010-07-01"/>
<evidence key="EC3" category="curator" type="Literature" attribute="PubMed=8521816" date="2010-07-01"/>
<evidence key="EC4" category="curator" type="Literature" attribute="PubMed=11259440" date="2010-07-01"/>
<evidence key="EC5" category="curator" type="Literature" attribute="PubMed=12732850" date="2010-07-01"/>
<evidence key="EC6" category="curator" type="Literature" attribute="PubMed=15071501" date="2010-07-01"/>
<evidence key="EC7" category="curator" type="Literature" attribute="PubMed=20300062" date="2010-07-01"/>
<evidence key="EC8" category="curator" type="Literature" attribute="PubMed=11106734" date="2010-07-01"/>
<evidence key="EC9" category="curator" type="Literature" attribute="PubMed=10228148" date="2010-07-01"/>
<evidence key="EC10" category="curator" type="Literature" attribute="PubMed=11912183" date="2010-07-01"/>
<evidence key="EC11" category="curator" type="Literature" attribute="PubMed=19413330" date="2010-07-01"/>
<evidence key="EC12" category="curator" type="Literature" attribute="PubMed=9531611" date="2010-07-01"/>
<evidence key="EC13" category="curator" type="Literature" attribute="PubMed=7475270" date="2010-07-01"/>
<sequence length="192" mass="21184" checksum="6C0CDB0A7DEE4994" modified="1995-02-01"version="1">
MDGSGEQPRGGGPTSSEQIMKTGALLLQGFIQDRAGRMGGEAPELALDPVPQDASTKK
LSECLKRIGDELDSNMELQRMIAAVDTDSPREVFFRVAADMFSDGNFNWGRVVALFYF
ASKLVLKALCTKVPELIRTIMGWTLDFLRERLLGWIQDQGGWDGLLSYFGTPTWQTVTIF
VAGVLTASLTIWKKMG</sequence>
</entry>
<copyright>Copyrighted by the UniProt Consortium, see http://www.uniprot.org/termsDistributed
under the Creative Commons Attribution-NoDerivs License</copyright>
</uniprot>
Banche dati - NCBI
• Offre accesso a TANTE risorse di vario tipo: – Sequenze geniche e proteiche – Strutture terziarie – Genomi completi – Pathways – EST (expressed sequence tags) – Profili trascrittomici – Cataloghi tassonimici – …
• accesso a numerosi database attraverso il sistema Entrez: – GenBank – Swissprot – PubMed – GEO – …
Banche dati - NCBI
• Poiché i dati sono condivisi tra le principali banche dati, iniziamo da NCBI (www.ncbi.nlm.nih.gov)
Dati sull’ereditarietà dei
caratteri e su disordini
genetici
Tassonomie
• Una ricerca qualunque dall’home page apre ENTREZ, interfaccia per l’accesso ai database presenti in NCBI
Banche dati - NCBI
PubMed è l’interfaccia di accesso a
MEDLINE.
Con I suoi
• 20 milioni di record fino agli anni ‘50
• 4600 riviste da più di 70 paesi
E’ la banca dati per la letteratura
biomedica più completa.
(Accessibile anche tramite EBI tramite
CiteXplore)
Banche dati - NCBI
Nucleotide Database di sequenze nucleotodiche primario.
•EST (expressed sequence tag) • GSS (genome sequence surveys altre sequenze, BactArtifChromosome, YeastArtifChromosome,...)
Database di sequenze nucleotidiche secondari:
• RefSeq (sistema di identificazione) • Unigene (sequenze raggruppate)
Gene è orientato ai geni, ai loci
Banche dati - NCBI
Protein è la sezione focalizzata sulle
proteine, alle quali possono
corrispondere strutture
PubChem dedicato ai composti chimici
Banche dati - NCBI
Qui i genomi completi con riferimenti alla
ricerca effettuata, varianti genomiche,
ecc
Informazioni su profili di espressione genica in
diverse condizioni, modifiche post-traduzionali
GEO (Gene Expression Omnibus) repository
Banche dati - NCBI
30
Database con informazioni riguardanti la salute umana: • letteratura • informazioni sui test genetici disponibili • Varianti di sequenza con significato clinico • …
Banche dati - NCBI
…E molto altro!
Banche dati - NCBI
Banche dati - NCBI
In fondo alla pagina links molto utili:
NCBI Banche dati primarie
GenBank è la banca dati di tutte le sequenze in NCBI (sincronizzata con
EMBL e DDBJ)
Le sequenze derivano da diverse fonti e tipi:
Geni (regioni di regolazione, esoni, introni: unità ereditarie)
EST (Expressed Sequence Tags)
brevi segmenti di DNA trascritti e sequenz. da cDNA (ottenuto da
mRNA retrotrascritto)
STS (sequence tagged site, dove l’informazione genetica è mappata
fisicamente)
GSS (Genome Survey Sequence, vettori come BactArtifChromosome, YeastArtifChromosome o
sequenze solo parzialmente sequenziate)
HTGS (High Throughput Genomic Sequence, sequenze prodotte da tecniche di
seconda generazione per il sequenziamento veloce, messe qui in “preview”)
Sequenze di proteine (sezione nr, non redundant)
Così tanto materiale ha provocato l’esigenza di ordine: Unigene e RefSeq
NCBI Banche dati secondarie
35
Unigene
Ha lo scopo di raggruppare le EST in insiemi non ridondanti tutti riferiti
allo stesso locus.
Integra anche informazioni trascrittomiche (tessuti, condizioni)
Si combina con la ricerca su homoloGene per trovare omologhi tra specie
diverse
Revisioni curate derivate dai database di sequenze primari
RefSeq è stato ideato per far corrispondere a ciascun trascritto
normalmente prodotto da un gene e a ciascuna proteina una sequenza di
riferimento, un identificatore (accession number).
Altri esempi di identificatori NON RefSeq sono:
X02775 GenBank/EMBL/DDBJ nucleotidic sequence
Rs7079946 dbSNP (single nucleotide polymorphism)
N91759.1 An expressed sequence tag
AAC02945 GenBank protein
Q28369 SwissProt protein
1KT7 Protein Data Bank structure record
Refseq fornisce un identificatore per la sequenza di riferimento, curato dal
personale dell’NCBI
NCBI Banche dati secondarie
I formati principali degli id RefSeq sono:
Complete genome/chromosome/plasmid NC_######
Genomic contig (segmenti sovrapposti di DNA segments che
rappresentano una sequenza consenso) NT_######
mRNA (DNA format) NM_###### e.g. NM_006744
Protein NP_###### e.g. NP_006735
E molti altri: Accession Molecule Method Note
AC_123456 Genomic Mixed Alternate complete genomic
AP_123456 Protein Mixed Protein products; alternate
NC_123456 Genomic Mixed Complete genomic molecules
NG_123456 Genomic Mixed Incomplete genomic regions
NM_123456 mRNA Mixed Transcript products; mRNA
NM_12345689 mRNA Mixed Transcript products; 9-digit
NP_123456 Protein Mixed Protein products;
NP_123456789 Protein Curation Protein products; 9-digit
NR_123456 RNA
Accession Molecule Method Note
NT_123456 Genomic Automated Genomic assemblies
NW_123456 Genomic Automated Genomic assemblies
NZ_ABCD12345678 Genomic Automated Whole genome shotgun data
XM_123456 mRNA Automated Transcript products
XP_123456 Protein Automated Protein products
XR_123456 RNA Automated Transcript products
YP_123456 Protein Auto. & Curated Protein products
ZP_12345678 Protein Automated Protein products
Banche dati - NCBI
Banche dati - NCBI
• Un primo esempio di ricerca: emoglobina
– Una delle prime proteine ad essere studiata (anni ’30 e ’40, da Mulder, Liebing et al.)
– La mioglobina, una globina (struttura globulare a 8 eliche) che lega l’ossigeno nei tessuti muscolari, è stata la prima proteina la cui struttura tridimensionale è stata risolta tramite cristallografia
John Kendrew, 1962,
Nobel Prize for Chemistry
(w. Max Perutz)
Banche dati - NCBI • Un primo esempio di ricerca: emoglobina
– L’emoglobina è un tetramero (due domini alfa e due beta negli adulti) è il
principale trasportatore di ossigeno nei vertebrati. Assieme alla mioglobina è stata usata nei primi studi sugli allineamenti multipli.
– Negli anni ’80 con le prime tecniche di sequenziamento è stata localizzata in due loci, uno sul cromosoma 16 (subunità alfa) e 11 (subunità beta). I due geni sono regolati sia in base all’età che in base ai diversi tessuti.
Banche dati - NCBI
• Un primo esempio di ricerca: emoglobina
Banche dati - NCBI
Seguireillinka“Gene”
Banche dati - NCBI
Entrez Gene (ex LocusLink) è un portale curato che descrive loci genetici
nomenclatura
alias
accession numbers
fenotipi
OMIM (ereditarietà dei caratteri)
cluster UniGene
HomoloGene
mappatura sul genoma
collegamenti esterni
Banche dati - NCBI
• Intestazione: Entrez Gene
• Nota: “Official Symbol” HBB
per la beta globina
•In generale, trova ad offi 113
entries
Banche dati - NCBI
Limitiamoci alla ricerca in Homo
Sapiens
Banche dati - NCBI
Cliccando la specie si aggiorna
automaticamente la stringa di
ricerca
•Con il limite Homo Sapiens le
entries sono solo 39
Banche dati - NCBI
Entrez Gene
(inizio dell’entry)
Sulla dx in basso:
numerosi link a
database esterni
Banche dati - NCBI
Entrez Gene (continua…)
Regioni genomiche…
Banche dati - NCBI
Entrez Gene (continua…)
E informazioni bibliografiche
Banche dati - NCBI Entrez Gene (…continua…):
GeneRif (intended to facilitate access to publications documenting
experiments that add to our understanding of a gene and its function)
Banche dati - NCBI E ancora Fenotipi, Variazione Genica, Pathways per Biosistemi e
Interazioni note con altri geni)
Banche dati - NCBI Entrez Gene (…continua…):
Ontologia
Ontologia (fondamentale per
sistemi automatici di
apprendimento)
Classificazione e organizzazione
dei dati in categorie predefinite così
da agevolare l’individuazione di
analogie e caratteristiche primarie.
Può essere di diversi tipi, ma la
principale distingue:
1.Funzione molecolare
2.Localizzazione cellulare
3.Processo biologico
Banche dati - NCBI
Entrez Gene
(…continua…
Quasi fine
pagina):
Catalogazione
RefSeq
Banche dati - NCBI
Restringe il campo di ricerca, inserendo ad es. la stringa:
equus caballus AND hemoglobin alpha
La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di
descrizione contengono entrambe le parole. Quindi le sequenze proteiche
del cavallo che non contengono nella descrizione la parola hemoglobin
non vengono selezionate.
Operatore AND (&)
1 AND 2 1 2
Banche dati - NCBI
Estende il campo di ricerca, digitando ad esempio:
homo sapiens OR mus musculus
Otterremo una lista di sequenze i cui campi contengono la parola homo
sapiens o la parola mus musculus.
L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme
delle sequenze che incontrano le nostre esigenze.
Operatore OR (|)
1 OR 2 1 2
Banche dati - NCBI
Restringe il campo di ricerca, inserendo:
homo sapiens BUT NOT hemoglobin
Richiederemo sequenze i cui campi contengono la parola homo sapiens
ma non la parola hemoglobin.
Operatore NOT (!)
1 NOT 2 1 2
Banche dati - NCBI
• Gli operatori booleani si possono combinare, vengono letti da sinistra a
destra. Per questo sono utili le parentesi.
• Ad esempio: globin AND promoter OR enhancer produce quasi 5000 hits. Ma
se si scrive globin AND (promoter OR enhancer) se ne ottengono circa 70.
• Altre possibilità sono:
– Specificare un organismo (human, nella query: human[ORGN]
– Usare l’asterisco: glob* restituisce tutte le entry che contengono
una stringa che inizia per “glob”
– Usare le virgolette “”. La ricerca di “toxin B1” restituirà le entries
che contengono esattamente la stringa intera.
– Ecc. ecc.
Banche dati - NCBI
Esempio di applicazione:
Ricerca di una sequenza nucleotidica
Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.
Un esempio è il Mycobacterium Tuberculosis, agente responsabile della
tubercolosi.
La domanda che ci si pone è:
Ci sono sequenze nucleotidiche nel M.Tuberculosis con la
caratteristica“Penicillin-binding”?
Passi:
1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per “Penicillin-
binding” (nota la stringa e non le due parole singolarmente)
2. Cerchiamo solo le sequenze di M.Tubercolosis.
3. Combiniamo i due criteri di selezione.
Banche dati - NCBI
Criterio di selezione
Numero di sequenze
Selezionare limits per Il 2° punto e successivamente
“advanced”
Cerchiamo sequenze nucleotidiche
Banche dati - NCBI
Con limits abbiamo alcune opzioni per restringere la ricerca. Ma con advanced è molto più mirata.
Banche dati - NCBI
History “ricorda” la ricerca fatta e il numero di Items trovati
Ogni ricerca precedente ha un suo ID numerico
Ora possiamo aggiungere l’organismo (new field)
Banche dati - NCBI
Scegliere HISTORY per combinare i criteri
Banche dati - NCBI
Numero di sequenze
Sintassi per combinare le ricerche
Banche dati - NCBI
Il numero finale di sequenze è
drasticamente ridotto
Banche dati - NCBI HomoloGene: la risorsa ideale per individuare gruppi
di geni omologhi negli eucarioti presenti in NCBI
Entrez Protein (1/2) Contiene diverse
Informazioni su proteine • 147 aminoacidi
• PRI: primates
• NP_000509 (protein accession
number)
• NM_000518.4 (mRNA, RefSeq)
• Riferimenti bibliografici
• Sequenza FASTA (Opzione
Display)
Banche dati di proteine: NCBI Protein
Banche dati - Proteine
Entrez Protein (2/2) Contiene diverse
Informazioni su proteine
• Siti di modificazione post-
traduzionalee (AA94, AA121)
• Riferimenti ad altri database
• Sequenza aminoacidica (1 lettera)
E’ un record non molto ricco dal punto di vista dei dati delle proteine…
Uniprot Uniprot è il più completo database centralizzato per le sequenze
proteiche.
E’ organizzato su 3 livelli:
1) Uniprot Knowledge Base Swiss-Prot (curato)
TrEMBL (automatico)
2) UniProt Reference clusters (UniRef) Cluster di proteine che condividono il 50%, 90%, 100% di identità di sequenza
3) UniProt Archive (UniParc)
Archivio di sequenze proteiche stabile, non ridondante, da diverse fonti
Dal 2002 Uniprot si è fuso con PIR, un’altra importante
risorsa per le sequenze proteiche
Uniprot - Homepage
68
Casella di ricerca
Accesso alle diverse informazioni in Uniprot
Uniprot – Esempio di ricerca
69
Uniprot Ricerca ristretta a proteine di uomo
70
Uniprot – esempio di una entry
71
Tavola con i contenuti disponibili
Uniprot – esempio di una entry
72
Uniprot – esempio di una entry
73
Uniprot – esempio di una entry
74
Uniprot – esempio di una entry
75
Uniprot – esempio di una entry
76
Uniprot – esempio di una entry
77
Uniprot – esempio di una entry
78
Link a PDB (protein data bank), database di strutture proteiche
Uniprot – esempio di una entry
79
Uniprot – esempio di una entry
80
Uniprot – esempio di una entry
81
Link ad altri database di sequenze (EMBL,GeneBank, DDBJ), varianti,
Wikipedia, ecc…
Uniprot – esempio di una entry
82
Banche dati - Proteine ExPASy (Expert Protein Analysis System)
E’ una risorsa curata, espressione del SIB (Swiss Institute of Bioinformatics). Principalmente dedicata alle proteine ma include tools anche per altri ambiti quali system biology, population genetics, imaging ecc…
La risorsa principale che ha prodotto è SwissProt (confluita in Uniprot)
Rimane un punto di riferimento per molti tools
Banche dati - NCBI dbSNP (single nucleotide polimorfism)
dbSNP – esempio di ricerca
85
dbSNP – esempio di ricerca
86
Filtri
dbSNP – esempio di ricerca
87
Organismo
dbSNP – esempio di ricerca
88
Classe della variante
dbSNP – esempio di ricerca
89
Significato clinico
dbSNP – esempio di ricerca
90
Classe della funzione
dbSNP – applicazione di filtri
91
Numero totale di varianti ridotto a 21 da oltre 1400
Notare che viene visualizzata anche l’espressione completa della ricerca
dbSNP – esempio di una entry
92
dbSNP – esempio di una entry
93
Dati generali dello SNP: Organismo, genoma di riferimento, validazione, riferimenti bibliografici
dbSNP – esempio di una entry
94
dbSNP – esempio di una entry
95
Alleli
dbSNP – esempio di una entry
96
Collegamento ad OMIM: compendio di geni umani e fenotipi
dbSNP – esempio di una entry
97
Collegamento a ClinVar (Clinical Variants): raccolta di informazioni che collegano le varianti con la loro relazione con la salute umana.
dbSNP – esempio di una entry
98
Frequenza dell’allele minore nella popolazione e numero di soggetti su cui è stata visto l’allele minore
dbSNP – esempio di una entry
99
Variation viewer mostra la variante in un contesto genomico
dbSNP – Link a Variation Viewer
100
Visualizzazione delle varianti in un contesto genomico
dbSNP – Link a Variation Viewer
101
Visualizzazione delle varianti in un contesto genomico
Varianti di interesse clinico
dbSNP – Link a Variation Viewer
102
Visualizzazione delle varianti in un contesto genomico
Grandi varianti strutturali in dbVar
dbSNP – Link a Variation Viewer
103
Visualizzazione delle varianti in un contesto genomico
Varianti in dbSNP
dbSNP – Link a Variation Viewer
104
Cliccando sui rettangolini posso vere quali altri varianti cliniche sono presenti nel gene
dbSNP – esempio di una entry
105
Sommario di tutte le sottomissioni riguardanti questa SNP
dbSNP – esempio di una entry
106
Sequenza fasta e link ad altri db (sequenze ed altro) in NCBI
dbSNP – esempio di una entry
107
Dati di frequenza nelle popolazioni
Alleli rari sono potenzialmente importanti le frequenze sono state
abbassate da una selezione “purificatrice”
Banche dati - OMIM
Catalogo di geni umani e disordini genetici
http://www.omim.org/
•Precedentemente presso l’NCBI ora
ha una pagina web dedicata.
•Risorsa importante per la ricerca
biomedica.
•Compendio di geni umani e fenotipi
•Raccoglie informazioni dalla
letteratura scientifica con link alle
risorse bibliografiche e strumenti di
analisi genomica.
•Aggiornato giornalmente
Banche dati - OMIM
• OMIM si focalizza principalmente su:
– malattie o fenotipi mendeliani a singolo gene (Es.: fibrosi cistica, anemia falciforme,…)
– Malattie complesse con un contributo significativo da parte di un singolo gene
– Sindromi da duplicazioni e delezioni ricorrenti
109
Statistiche di OMIM
110
Quasi 23,000 entry a Marzo 2015
Homepage di OMIM
Link a diverse risorse
Ricerca di base
Esempi di ricerca su OMIM
112
Autocompletamento
OMIM – risultati della ricerca
113
Cliccare per aprire
OMIM – Visualizzazione di una entry
114
Link alla sezioni della pagina
OMIM – Visualizzazione di una entry
115
Relazione gene-fenotipo
OMIM – Visualizzazione di una entry
116
Location
Omim – location
117
Genes in the same region
OMIM – Visualizzazione di una entry
118
Phenotype mapping key
• Phenotype map key 1: the disorder has been placed on the map based on its
association with a gene, but the underlying defect is not known.
• Phenotype map key 2: the disorder has been placed on the map by linkage;
no mutation has been found.
• Phenotype map key 3: the molecular basis for the disorder is known; a
mutation has been found in the gene.
• Phenotype map key 4: a contiguous gene deletion or duplication syndrome;
multiple genes are deleted or duplicated causing the phenotype.
OMIM – Visualizzazione di una entry
119
Gene/Locus ID in OMIM
OMIM – Gene
120 Tutte le relazioni gene-fenotipo per il locus HBB
OMIM – Gene
121 Tutte le relazioni gene-fenotipo per il locus HBB
OMIM – Gene
122
Varianti alleliche
Mutations are cataloged in OMIM in the Allelic Variants section of gene entries (see 1.2). For most genes, only
selected mutations are included. Criteria for inclusion include the first mutation to be discovered, high population
frequency, distinctive phenotype, historic significance, unusual mechanism of mutation, unusual pathogenetic
mechanism, and distinctive inheritance (e.g., dominant with some mutations, recessive with other mutations in the
same gene). Most of the allelic variants represent disease-causing mutations. A few polymorphisms are included,
many of which show a positive correlation with particular common disorders. http://www.omim.org/help/faq
OMIM – Visualizzazione di una entry
123
Descrizione del fenotipo
OMIM – Visualizzazione di una entry
124
Caratteristiche cliniche
OMIM – Visualizzazione di una entry
125
Modalità di diagnosi
OMIM – Visualizzazione di una entry
126
Gestione clinica
OMIM – Visualizzazione di una entry
127
OMIM – Visualizzazione di una entry
128
OMIM – Links
129
Lista di identificatori dell’International Classification of Diseases (ICD) e Systematized Nomenclature of Medicine (SNOMed)
OMIM – Links
130
OMIM – Links
131
OMIM – Links
132 Link al database di proteine Uniprot
OMIM – Links
133 Link al database di trial clinici
OMIM – Links
134 Link al Genetic Testing Registry (GTR)
OMIM – risultati della ricerca
135
Cliccando su Gene Map è possibile visualizzare i geni corrispondenti alla ricerca eseguite
OMIM – Gene map
136
OMIM – risultati della ricerca
137
Cliccando su Clinical Synopsis è possibile accedere direttamente a delle sinopsi cliniche
OMIM – clinical synopsis
138
The central dogma of molecular biology
DNA
RNA
PROTEIN
Replication
Transcription
Translation
Genes are transcribed from DNA into mRNA, which leaves the nucleus
and is translated to protein. A gene actively transcribed is said to be
expressed. 139
Database di dati di espressione
• Gene Expression Ominbus (GEO) database – NCBI
• http://www.ncbi.nlm.nih.gov/geo/ • EMBL-EBI microarray database (ArrayExpress)
• https://www.ebi.ac.uk/arrayexpress/ • Stanford Microarray Database (SMD)
• http://smd.princeton.edu • caARRAY (outdated)
– https://cabig-stage.nci.nih.gov/community/tools/caArray • The Cancer Genome Atlas (TCGA)
– http://cancergenome.nih.gov/ • PlexDB (unified gene expression resource for
plants and plant pathogens) – http://www.plexdb.org/
GEO
GEO organization C
ura
ted
U
ser
su
bm
itte
d
Platforms (GPLxxx) A Platform record is composed of a summary description of the array or sequencer
and, for array-based Platforms, a data table defining the array template. A Platform
may reference many Samples that have been submitted by multiple submitters.
Platform data table
Platform data table header
Samples (GSMxxx) A Sample record describes the conditions under which an individual Sample was
handled, the manipulations it underwent, and the abundance measurement of each
element derived from it. A Sample entity must reference only one Platform and may be
included in multiple Series.
Sample data
Series (GSExxx) A Series record links together a group of related Samples and provides a focal
point and description of the whole study.
GEO Datasets and Profiles
• GEO Profiles This database stores individual gene expression and molecular abundance profiles assembled from the Gene Expression Omnibus (GEO) repository. Search for specific profiles of interest based on gene annotation or pre-computed profile characteristics. GEO Profiles facilitates powerful searching and linking to additional information sources.
• GEO DataSets This database stores curated gene expression and molecular abundance DataSets assembled from the Gene Expression Omnibus (GEO) repository. Enter search terms to locate experiments of interest. DataSet records contain additional resources including cluster tools and differential expression queries.
Repository Browser
Repository Browser It’s possible to browse the repository at different levels
Repository Browser Data can be browsed by Series
Repository Browser Data can be browsed by Series, Samples
Repository Browser Data can be browsed by Series, Samples, Platforms
Repository Browser Data can be browsed by Series, Samples, Platforms and Datasets
Datasets
Expression profiles Filters
Filtering expression profiles
Profile of a specific gene
Sample Title Value Rank
GSM562208 Control, biological rep1 6.24609 56
GSM562209 Control, biological rep2 6.75805 61
GSM562210 Control, biological rep3 6.45933 59
GSM562211 Dark, biological rep1 5.88078 52
GSM562212 Dark, biological rep2 5.92748 53
GSM562213 Dark, biological rep3 5.98739 54
GSM562214 Light, biological rep1 7.72981 74
GSM562215 Light, biological rep2 8.29298 81
GSM562216 Light, biological rep3 8.27405 81
You can also go back to the
information related to each
specific sample analized
Profile neighbors Connects Profiles that show a similar expression pattern to the chosen Profile within a DataSet
Profile neighbors
Profile data can be downloaded
Profile data can be downloaded
Pathways