Download - Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Basi di dati biologiche (Teoria)

1

Banche dati biologiche - Introduzione

2

Il concetto di informazione e’ strettamente connesso a quello di dato e di struttura.

Il dato e’ un osservabile (insieme di numeri, caratteri, simboli…)

La struttura e’ l’ organizzazione ordinata di dati che ne consente l’apprendimento.

Una banca dati e’ l’insieme di dati elementari, omogenei, ordinati e fruibili. In

altre parole: e’ una collezione organizzata di dati

Esempio: elenco telefonico. L’informazione e’ strutturata in campi (nome, cognome ecc.).

Ogni persona con i propri dati e’ un record.


3

I dati biologici necessitano di

un’organizzazione. Primo tentativo:

Margaret Dayhoff (1925-1983): raccolse,

nel 1965, le sequenze di 65 proteine (lavoro

pioneristico per il tempo!)

Le tecniche di sequenziamento rapido ed i

progetti –omici hanno prodotto una quantita’

esplosiva di dati, anche di sequenze

L’avvento di Internet ha facilitato di gran

lunga l’acquisizione e la distribuzione

dell’informazione biologica in banche dati.


3D

EXPRESSION

MAPPING

>sp|P56478|IL7_RAT

MFHVSFRYIFGIPPLILVLLPVTSSD

CHIKDKDGKAFGSVLMISINQLDKMT

GTDSDCPNNEPNFFKKHLCDDTKEAA

FLNRAARKLRQFLKMNISEEFNDHLL

RVSDGTQTLVNCTSKEEKTIKEQKKN

DPCFLKRLLREIKTCWNKILKGSI

SEQUENCES

LS125-4 R14523 CYC223

FUNCTION

LITERATURE ONTOLOGIES

• Sono collezioni di dati:

• strutturati

• indicizzati

• aggiornati

• interconnessi

• …

• I database biologici sono legati a strumenti per:

• recuperare records al loro interno

• aggiornare il database

• combinare le informazioni

• Ci sono 6 principali categorie di basi di dati biologiche :

• basi di dati di sequenze:

• DNA

• RNA

• Proteine

• basi di dati per il mapping

• geni

• cromosomi

• …

• Strutture 3D (PDB)‏

• trascrittomica

• funzionali(KEGG)‏

• per la letteratura (PubMed), ontologies (GO),‏…

ONTOLOGIA: modo formale di rappresentare la conoscenza


Nucleic Acids Research Database summary contiene > 1800 database

classificati nelle seguenti categorie:

•Nucleotide Sequence Databases

•RNA sequence databases

•Protein sequence databases

•Structure Databases

•Genomics Databases (non-vertebrate)

•Metabolic and Signaling Pathways

•Human and other Vertebrate Genomes

•Human Genes and Diseases

•Microarray Data and other Gene Expression Databases

•Proteomics Resources

•Other Molecular Biology Databases

•Organelle databases

•Plant databases

•Immunological databases

•Cell biology

http://www.oxfordjournals.org/our_journals/nar/database/c/






Alcuni database di interesse biologico

AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank,BIOMDB, BLOCKS,BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc …!!!!

Come ci si orienta?

Banche dati - introduzione

• Principio generale della biologia:

Le banche dati si strutturano e si integrano

per favorire lo studio di questo processo.

Tre enti al mondo sono i principali

DNA RNA

cDNA

ESTs

phenotype

genomic

DNA

databases

protein

sequence

databases

protein

Database di sequenze primarie

• Database pubblici che collezionano tutte le sequenze pubblicate: – GenBank (US National

Center for Biology information; 1982) http://www.ncbi.nlm.nih.gov/Genbank/

– EMBL (European Molecular Biology Laboratory; 1982) http://www.ebi.ac.uk/embl/

– DDBJ (DNA Data Bank of Japan; 1986) http://www.ddbj.nig.ac.jp/

A partire dal 1992 i tre database condividono tutte le sequenze. Download

ftp://ftp.ncbi.nih.gov/genbank ftp://ftp.ebi.ac.uk/pub/databases/embl/ ftp://ftp.ddbj.nig.ac.jp/database/

http://www.ncbi.nlm.nih.gov/Genbank/

http://www.ncbi.nlm.nih.gov/Genbank/

http://www.ebi.ac.uk/embl/

http://www.ddbj.nig.ac.jp/

ftp://ftp.ncbi.nih.gov/genbank

ftp://ftp.ebi.ac.uk/pub/databases/embl/

ftp://ftp.ddbj.nig.ac.jp/database/

Banche dati – dati di sequenza

• Che dati si possono trovare? • Principalmente sono presenti

• sequenze (nucleotidi, amminoacidi)

• strutture

• L’uso della rappresentazione dei dati biologici di

varia natura come sequenze è la forma di gran lunga

più diffusa.

Sequenza del gene corrispondente alla proteina BAX (RefSeq: NM_001193517.1)

Banche dati - dati di sequenza

• Che dati si possono trovare? – Sequenze di DNA:

• formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina), t (timina)

– esempio: atggtacat..., tag, taa, tga …

– Sequenze di RNA: • formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina),u (uracile)

– esempio: aucgcuaa, auucg, … – Per convenzione sono rappresentate con lettere minuscole (ma non

sempre…)

– Sequenze proteiche: • formate da 20 lettere • corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,K, L, M, N, P, Q, R, S, T, V,

W, Y

– esempio: MPIVDTGSVAPLSAAEK…, TAG,... – Per convenzione sono rappresentate con lettere maiuscole

Banche dati - dati di sequenza • Il formato FASTA - Pearson

– Rappresentazione mediante testo di sequenze nucleotidiche o peptidiche (lettere MAIUSCOLE).

– La prima riga (di lunghezza arbitraria) è preceduta da “>” e rappresenta la descrizione della sequenza.

– Le linee precedute da “>” o “;” sono considerate di commento e non vengono interpretate come dato di sequenza

– Le linee successive (ciascuna di 80 caratteri) rappresentano la sequenza. – Un file fasta può avere estensione (non c’è uno standard)

• .fasta o .fas (generica) • .fna (acidi nucleici) • .ffn (regione codificante del genoma) • .faa (aminoacidi) (.mpfa per sequenza mutiple) • .frn (RNA non codificante)

Esempio di sequenza FASTA Schemi per formati di intestazione FASTA

LOCUS AB001325 1442 bp mRNA linear PRI 17-SEP-2005

DEFINITION Homo sapiens AQP3 mRNA for aquaporine 3, partail cds.

ACCESSION AB001325 D25280

VERSION AB001325.1 GI:1854373

KEYWORDS .

SOURCE Homo sapiens (human)

ORGANISM Homo sapiens

Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;

Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;

Catarrhini; Hominidae; Homo.

REFERENCE 1

AUTHORS Ishibashi,K., Sasaki,S., Saito,F., Ikeuchi,T. and Marumo,F.

TITLE Structure and chromosomal localization of a human water channel

(AQP3) gene

JOURNAL Genomics 27 (2), 352-354 (1995)

PUBMED 7558005

REFERENCE 2 (bases 1 to 1442)

AUTHORS Ishibashi,K.

TITLE Direct Submission

JOURNAL Submitted (28-OCT-1996) Kenichi Ishibashi, Tokyo Medical and Dental

University, 2nd Internal Medicine; Yushima 1-5-45, Bunkyo-ku, Tokyo

113, Japan (Tel:03-5803-5223, Fax:03-5803-0132)

COMMENT On Feb 28, 1997 this sequence version replaced gi:915195.

FEATURES Location/Qualifiers

source 1..1442

/organism="Homo sapiens"

/mol_type="mRNA"

/db_xref="taxon:9606"

/clone="HUM-AQP3"

/tissue_type="kidney"

gene 1..1442

/gene="AQP3"

CDS 61..939

/gene="AQP3"

/note="water channel"

/codon_start=1

/product="aquaporin 3"

/protein_id="BAA19237.1"

/db_xref="GI:1854374"

/translation="MGRQKELVSRCGEMLHIRYRLLRQALAECLGTLILVMFGCGSVA

QVVLSRGTHGGFLTINLAFGFAVTLGILIAGQVSGAHLNPAVTFAMCFLAREPWIKLP

IYTLAQTLGAFLGAGIVFGLYYDAIWHFADNQLFVSGPNGTAGIFATYPSGHLDMING

FFDQFIGTASLIVCVLAIVDPYNNPVPRGLEAFTVGLVVLVIGTSMGFNSGYAVNPAR

DFGPRLFTALAGWGSAVFTTGQHWWWVPIVSPLLGSIAGVFVYQLMIGCHLEQPPPSN

EEENVKLAHVKHKEQI"

ORIGIN

1 ccggggatcc acgcgcgccg ccacccctgc ccgcccgaca gcgccgccgc ctgccccgcc

61 atgggtcgac agaaggagct ggtgtcccgc tgcggggaga tgctccacat ccgctaccgg

121 ttgctccgac aggcgctggc cgagtgcctg gggaccctca tcctcgtgat gtttggctgt

181 ggctccgtgg cccaggttgt gctcagccgg ggcacccacg gtggtttcct caccatcaac

241 ctggcctttg gctttgctgt cactctgggc atcctcatcg ctggccaggt ctctggggcc

301 cacctgaacc ctgccgtgac ctttgccatg tgcttcctgg ctcgtgagcc ctggatcaag

361 ctgcccatct acaccctggc acagacgctg ggagccttct tgggtgctgg aatagttttt

421 gggctgtatt atgatgcaat ctggcacttt gccgacaacc agctttttgt ttcgggcccc

481 aatggcacag ccggcatctt tgctacctac ccctctggac acttggatat gatcaatggc

541 ttctttgacc agttcatagg cacagcctcc cttatcgtgt gtgtgctggc cattgttgac

601 ccttacaaca accccgtccc ccgaggcctg gaggccttca ccgtgggcct ggtggtcctg

661 gtcattggca cctccatggg cttcaactcc ggctatgccg tcaaccctgc ccgggacttt

721 ggcccccgcc tttttacagc ccttgcgggc tggggctctg cagtcttcac gaccggccag

781 cattggtggt gggtgcccat cgtgtcccca ctcctgggct ccattgcggg tgtcttcgtg

841 taccagctga tgatcggctg ccacctggag cagcccccac cctccaacga ggaagagaat

901 gtgaagctgg cccatgtgaa gcacaaggag cagatctgag tggcaagggc catctcccac

961 tccgctgccc tggccttgag catccactga ctgtccaagg ccactcccaa gaagcccccc

1021 ttcacgatcc accctttcag gctaaggagc tccctatcta ccctcacccc acgaagacag

GenBank File Format

header

features

DNA sequence

GenBank Flat file format

13

Il formato GenBank Flat file contiene un header con dei metadati:

Locus

name

Sequence

length

Molecule

type Division


14


1. PRI - primate sequences 2. ROD - rodent sequences 3. MAM - other mammalian sequences 4. VRT - other vertebrate sequences 5. INV - invertebrate sequences 6. PLN - plant, fungal, and algal sequences 7. BCT - bacterial sequences 8. VRL - viral sequences 9. PHG - bacteriophage sequences 10. SYN - synthetic sequences 11. UNA - unannotated sequences 12. EST - EST sequences (expressed sequence tags) 13. PAT - patent sequences 14. STS - STS sequences (sequence tagged sites) 15. GSS - GSS sequences (genome survey sequences) 16. HTG - HTG sequences (high-throughput genomic sequences) 17. HTC - unfinished high-throughput cDNA sequencing 18. ENV - environmental sampling sequences

Il database genbank è

suddiviso in 18 divisioni


15


Descrizione della sequenza


16


Identificatore univoco della sequenza


17


Versione

Numero identificatore della sequenza (cambia

se cambia in qualche modo la sequenza


18


Nome scientifico dell’organismo


19


Eventuali riferimenti bibliografici


20


Features: informazioni su

geni e altre regioni di

rilevanza biologica

Regione corrispondente ad un gene (dalla base 687 alla base 3158)

Regione corrisondente ad una regione codificante una proteina

Id della proteina codificata

Traduzione della sequenza nucleotidica in sequenza amminoacidica


21

L’ultima parte del file contiene

la sequenza nucleotidica

Banche dati - dati di sequenza • Il formato XML (eXtensible Markup Language)

– Replica la struttura logica del record nella banca dati – I tag permettono di delimitare e definire campi e sottocampi

<?xml version='1.0' encoding='UTF-8'?>

<uniprot xmlns="http://uniprot.org/uniprot" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://uniprot.org/uniprot http://www.uniprot.org/support/docs/uniprot.xsd">

<entry dataset="Swiss-Prot" created="1995-02-01" modified="2011-01-11" version="120">

<accession>Q07812</accession>

<accession>A8K4W1</accession>

<accession>P55269</accession>



<accession>Q8WZ49</accession>

<accession>Q9NR76</accession>

<accession>Q9NYG7</accession>

<accession>Q9UCZ6</accession>

<accession>Q9UCZ7</accession>

<accession>Q9UQD6</accession>

<name>BAX_HUMAN</name>

<protein>

<recommendedName>

<fullName>Apoptosis regulator BAX</fullName>

</recommendedName>

<alternativeName>

<fullName>Bcl-2-like protein 4</fullName>

<shortName>Bcl2-L-4</shortName>

</alternativeName>

</protein>

<gene>

<name type="primary">BAX</name>

<name type="synonym">BCL2L4</name>

</gene>

<organism>

<name type="scientific">Homo sapiens</name>

<name type="common">Human</name>

<dbReference type="NCBI Taxonomy" id="9606" key="1"/>

<lineage>

<taxon>Eukaryota</taxon>

<taxon>Metazoa</taxon>

<taxon>Chordata</taxon>

<taxon>Craniata</taxon>

<taxon>Vertebrata</taxon>

<taxon>Euteleostomi</taxon>

<taxon>Mammalia</taxon>

<taxon>Eutheria</taxon>

<taxon>Euarchontoglires</taxon>

<taxon>Primates</taxon>

<taxon>Haplorrhini</taxon>

<taxon>Catarrhini</taxon>

<taxon>Hominidae</taxon>

<taxon>Homo</taxon>

</lineage>

</organism>

<reference key="2">

[…]

<feature type="turn">

<location>

<begin position="147"/>

<end position="149"/>

</location>

</feature>

<feature type="helix">

<location>



</location>

</feature>


<location>



</location>

</feature>


<location>



</location>

</feature>

<evidence key="EC1" category="curator" type="Literature" attribute="PubMed=8358790" date="2010-07-01"/>













<sequence length="192" mass="21184" checksum="6C0CDB0A7DEE4994" modified="1995-02-01"version="1">

MDGSGEQPRGGGPTSSEQIMKTGALLLQGFIQDRAGRMGGEAPELALDPVPQDASTKK

LSECLKRIGDELDSNMELQRMIAAVDTDSPREVFFRVAADMFSDGNFNWGRVVALFYF

ASKLVLKALCTKVPELIRTIMGWTLDFLRERLLGWIQDQGGWDGLLSYFGTPTWQTVTIF

VAGVLTASLTIWKKMG</sequence>

</entry>

<copyright>Copyrighted by the UniProt Consortium, see http://www.uniprot.org/termsDistributed

under the Creative Commons Attribution-NoDerivs License</copyright>

</uniprot>

http://uniprot.org/uniprot

http://www.w3.org/2001/XMLSchema-instance



http://uniprot.org/uniprot

http://www.uniprot.org/support/docs/uniprot.xsd

http://www.uniprot.org/termsDistributed

Banche dati - NCBI

• Offre accesso a TANTE risorse di vario tipo: – Sequenze geniche e proteiche – Strutture terziarie – Genomi completi – Pathways – EST (expressed sequence tags) – Profili trascrittomici – Cataloghi tassonimici – …

• accesso a numerosi database attraverso il sistema Entrez: – GenBank – Swissprot – PubMed – GEO – …

Banche dati - NCBI

• Poiché i dati sono condivisi tra le principali banche dati, iniziamo da NCBI (www.ncbi.nlm.nih.gov)

Dati sull’ereditarietà dei

caratteri e su disordini

genetici

Tassonomie

http://www.ncbi.nlm.nih.gov/

• Una ricerca qualunque dall’home page apre ENTREZ, interfaccia per l’accesso ai database presenti in NCBI

Banche dati - NCBI

PubMed è l’interfaccia di accesso a

MEDLINE.

Con I suoi

• 20 milioni di record fino agli anni ‘50

• 4600 riviste da più di 70 paesi

E’ la banca dati per la letteratura

biomedica più completa.

(Accessibile anche tramite EBI tramite

CiteXplore)

Banche dati - NCBI

Nucleotide Database di sequenze nucleotodiche primario.

•EST (expressed sequence tag) • GSS (genome sequence surveys altre sequenze, BactArtifChromosome, YeastArtifChromosome,...)

Database di sequenze nucleotidiche secondari:

• RefSeq (sistema di identificazione) • Unigene (sequenze raggruppate)

Gene è orientato ai geni, ai loci

Banche dati - NCBI

Protein è la sezione focalizzata sulle

proteine, alle quali possono

corrispondere strutture

PubChem dedicato ai composti chimici

Banche dati - NCBI

Qui i genomi completi con riferimenti alla

ricerca effettuata, varianti genomiche,

ecc

Informazioni su profili di espressione genica in

diverse condizioni, modifiche post-traduzionali

GEO (Gene Expression Omnibus) repository

Banche dati - NCBI

30

Database con informazioni riguardanti la salute umana: • letteratura • informazioni sui test genetici disponibili • Varianti di sequenza con significato clinico • …

Banche dati - NCBI

…E molto altro!

Banche dati - NCBI

Banche dati - NCBI

In fondo alla pagina links molto utili:

NCBI Banche dati primarie

GenBank è la banca dati di tutte le sequenze in NCBI (sincronizzata con

EMBL e DDBJ)

Le sequenze derivano da diverse fonti e tipi:

Geni (regioni di regolazione, esoni, introni: unità ereditarie)

EST (Expressed Sequence Tags)

brevi segmenti di DNA trascritti e sequenz. da cDNA (ottenuto da

mRNA retrotrascritto)

STS (sequence tagged site, dove l’informazione genetica è mappata

fisicamente)

GSS (Genome Survey Sequence, vettori come BactArtifChromosome, YeastArtifChromosome o

sequenze solo parzialmente sequenziate)

HTGS (High Throughput Genomic Sequence, sequenze prodotte da tecniche di

seconda generazione per il sequenziamento veloce, messe qui in “preview”)

Sequenze di proteine (sezione nr, non redundant)

Così tanto materiale ha provocato l’esigenza di ordine: Unigene e RefSeq

NCBI Banche dati secondarie

35

Unigene

Ha lo scopo di raggruppare le EST in insiemi non ridondanti tutti riferiti

allo stesso locus.

Integra anche informazioni trascrittomiche (tessuti, condizioni)

Si combina con la ricerca su homoloGene per trovare omologhi tra specie

diverse

Revisioni curate derivate dai database di sequenze primari

RefSeq è stato ideato per far corrispondere a ciascun trascritto

normalmente prodotto da un gene e a ciascuna proteina una sequenza di

riferimento, un identificatore (accession number).

Altri esempi di identificatori NON RefSeq sono:

X02775 GenBank/EMBL/DDBJ nucleotidic sequence

Rs7079946 dbSNP (single nucleotide polymorphism)

N91759.1 An expressed sequence tag

AAC02945 GenBank protein

Q28369 SwissProt protein

1KT7 Protein Data Bank structure record

Refseq fornisce un identificatore per la sequenza di riferimento, curato dal

personale dell’NCBI

NCBI Banche dati secondarie

I formati principali degli id RefSeq sono:

Complete genome/chromosome/plasmid NC_######

Genomic contig (segmenti sovrapposti di DNA segments che

rappresentano una sequenza consenso) NT_######

mRNA (DNA format) NM_###### e.g. NM_006744

Protein NP_###### e.g. NP_006735

E molti altri: Accession Molecule Method Note

AC_123456 Genomic Mixed Alternate complete genomic

AP_123456 Protein Mixed Protein products; alternate

NC_123456 Genomic Mixed Complete genomic molecules

NG_123456 Genomic Mixed Incomplete genomic regions

NM_123456 mRNA Mixed Transcript products; mRNA

NM_12345689 mRNA Mixed Transcript products; 9-digit

NP_123456 Protein Mixed Protein products;

NP_123456789 Protein Curation Protein products; 9-digit

NR_123456 RNA

Accession Molecule Method Note

NT_123456 Genomic Automated Genomic assemblies

NW_123456 Genomic Automated Genomic assemblies

NZ_ABCD12345678 Genomic Automated Whole genome shotgun data

XM_123456 mRNA Automated Transcript products

XP_123456 Protein Automated Protein products

XR_123456 RNA Automated Transcript products

YP_123456 Protein Auto. & Curated Protein products

ZP_12345678 Protein Automated Protein products

Banche dati - NCBI

Banche dati - NCBI

• Un primo esempio di ricerca: emoglobina

– Una delle prime proteine ad essere studiata (anni ’30 e ’40, da Mulder, Liebing et al.)

– La mioglobina, una globina (struttura globulare a 8 eliche) che lega l’ossigeno nei tessuti muscolari, è stata la prima proteina la cui struttura tridimensionale è stata risolta tramite cristallografia

John Kendrew, 1962,

Nobel Prize for Chemistry

(w. Max Perutz)

Banche dati - NCBI • Un primo esempio di ricerca: emoglobina

– L’emoglobina è un tetramero (due domini alfa e due beta negli adulti) è il

principale trasportatore di ossigeno nei vertebrati. Assieme alla mioglobina è stata usata nei primi studi sugli allineamenti multipli.

– Negli anni ’80 con le prime tecniche di sequenziamento è stata localizzata in due loci, uno sul cromosoma 16 (subunità alfa) e 11 (subunità beta). I due geni sono regolati sia in base all’età che in base ai diversi tessuti.

Banche dati - NCBI

• Un primo esempio di ricerca: emoglobina

Banche dati - NCBI

Seguire‏il‏link‏a‏“Gene”

Banche dati - NCBI

Entrez Gene (ex LocusLink) è un portale curato che descrive loci genetici

nomenclatura

alias

accession numbers

fenotipi

OMIM (ereditarietà dei caratteri)

cluster UniGene

HomoloGene

mappatura sul genoma

collegamenti esterni

Banche dati - NCBI

• Intestazione: Entrez Gene

• Nota: “Official Symbol” HBB

per la beta globina

•In generale, trova ad offi 113

entries

Banche dati - NCBI

Limitiamoci alla ricerca in Homo

Sapiens

Banche dati - NCBI

Cliccando la specie si aggiorna

automaticamente la stringa di

ricerca

•Con il limite Homo Sapiens le

entries sono solo 39

Banche dati - NCBI

Entrez Gene

(inizio dell’entry)

Sulla dx in basso:

numerosi link a

database esterni

Banche dati - NCBI

Entrez Gene (continua…)

Regioni genomiche…

Banche dati - NCBI

Entrez Gene (continua…)

E informazioni bibliografiche

Banche dati - NCBI Entrez Gene (…continua…):

GeneRif (intended to facilitate access to publications documenting

experiments that add to our understanding of a gene and its function)

Banche dati - NCBI E ancora Fenotipi, Variazione Genica, Pathways per Biosistemi e

Interazioni note con altri geni)

Banche dati - NCBI Entrez Gene (…continua…):

Ontologia

Ontologia (fondamentale per

sistemi automatici di

apprendimento)

Classificazione e organizzazione

dei dati in categorie predefinite così

da agevolare l’individuazione di

analogie e caratteristiche primarie.

Può essere di diversi tipi, ma la

principale distingue:

1.Funzione molecolare

2.Localizzazione cellulare

3.Processo biologico

Banche dati - NCBI

Entrez Gene

(…continua…

Quasi fine

pagina):

Catalogazione

RefSeq

Banche dati - NCBI

Restringe il campo di ricerca, inserendo ad es. la stringa:

equus caballus AND hemoglobin alpha

La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di

descrizione contengono entrambe le parole. Quindi le sequenze proteiche

del cavallo che non contengono nella descrizione la parola hemoglobin

non vengono selezionate.

Operatore AND (&)‏

1 AND 2 1 2

Banche dati - NCBI

Estende il campo di ricerca, digitando ad esempio:

homo sapiens OR mus musculus

Otterremo una lista di sequenze i cui campi contengono la parola homo

sapiens o la parola mus musculus.

L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme

delle sequenze che incontrano le nostre esigenze.

Operatore OR (|)‏

1 OR 2 1 2

Banche dati - NCBI

Restringe il campo di ricerca, inserendo:

homo sapiens BUT NOT hemoglobin

Richiederemo sequenze i cui campi contengono la parola homo sapiens

ma non la parola hemoglobin.

Operatore NOT (!)‏

1 NOT 2 1 2

Banche dati - NCBI

• Gli operatori booleani si possono combinare, vengono letti da sinistra a

destra. Per questo sono utili le parentesi.

• Ad esempio: globin AND promoter OR enhancer produce quasi 5000 hits. Ma

se si scrive globin AND (promoter OR enhancer) se ne ottengono circa 70.

• Altre possibilità sono:

– Specificare un organismo (human, nella query: human[ORGN]

– Usare l’asterisco: glob* restituisce tutte le entry che contengono

una stringa che inizia per “glob”

– Usare le virgolette “”. La ricerca di “toxin B1” restituirà le entries

che contengono esattamente la stringa intera.

– Ecc. ecc.

Banche dati - NCBI

Esempio di applicazione:

Ricerca di una sequenza nucleotidica

Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.

Un esempio è il Mycobacterium Tuberculosis, agente responsabile della

tubercolosi.

La domanda che ci si pone è:

Ci sono sequenze nucleotidiche nel M.Tuberculosis con la

caratteristica‏“Penicillin-binding”?

Passi:

1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per “Penicillin-

binding” (nota la stringa e non le due parole singolarmente)

2. Cerchiamo solo le sequenze di M.Tubercolosis.

3. Combiniamo i due criteri di selezione.

Banche dati - NCBI

Criterio di selezione

Numero di sequenze

Selezionare limits per Il 2° punto e successivamente

“advanced”

Cerchiamo sequenze nucleotidiche

Banche dati - NCBI

Con limits abbiamo alcune opzioni per restringere la ricerca. Ma con advanced è molto più mirata.

Banche dati - NCBI

History “ricorda” la ricerca fatta e il numero di Items trovati

Ogni ricerca precedente ha un suo ID numerico

Ora possiamo aggiungere l’organismo (new field)

Banche dati - NCBI

Scegliere HISTORY per combinare i criteri

Banche dati - NCBI

Numero di sequenze

Sintassi per combinare le ricerche

Banche dati - NCBI

Il numero finale di sequenze è

drasticamente ridotto

Banche dati - NCBI HomoloGene: la risorsa ideale per individuare gruppi

di geni omologhi negli eucarioti presenti in NCBI

Entrez Protein (1/2) Contiene diverse

Informazioni su proteine • 147 aminoacidi

• PRI: primates

• NP_000509 (protein accession

number)

• NM_000518.4 (mRNA, RefSeq)

• Riferimenti bibliografici

• Sequenza FASTA (Opzione

Display)

Banche dati di proteine: NCBI Protein

Banche dati - Proteine

Entrez Protein (2/2) Contiene diverse

Informazioni su proteine

• Siti di modificazione post-

traduzionalee (AA94, AA121)

• Riferimenti ad altri database

• Sequenza aminoacidica (1 lettera)

E’ un record non molto ricco dal punto di vista dei dati delle proteine…

Uniprot Uniprot è il più completo database centralizzato per le sequenze

proteiche.

E’ organizzato su 3 livelli:

1) Uniprot Knowledge Base Swiss-Prot (curato)

TrEMBL (automatico)

2) UniProt Reference clusters (UniRef) Cluster di proteine che condividono il 50%, 90%, 100% di identità di sequenza

3) UniProt Archive (UniParc)

Archivio di sequenze proteiche stabile, non ridondante, da diverse fonti

Dal 2002 Uniprot si è fuso con PIR, un’altra importante

risorsa per le sequenze proteiche

Uniprot - Homepage

68

Casella di ricerca

Accesso alle diverse informazioni in Uniprot

Uniprot – Esempio di ricerca

69

Uniprot Ricerca ristretta a proteine di uomo

70

Uniprot – esempio di una entry

71

Tavola con i contenuti disponibili


72


73


74


75


76


77


78

Link a PDB (protein data bank), database di strutture proteiche


79


80


81

Link ad altri database di sequenze (EMBL,GeneBank, DDBJ), varianti,

Wikipedia, ecc…


82

Banche dati - Proteine ExPASy (Expert Protein Analysis System)

E’ una risorsa curata, espressione del SIB (Swiss Institute of Bioinformatics). Principalmente dedicata alle proteine ma include tools anche per altri ambiti quali system biology, population genetics, imaging ecc…

La risorsa principale che ha prodotto è SwissProt (confluita in Uniprot)

Rimane un punto di riferimento per molti tools

Banche dati - NCBI dbSNP (single nucleotide polimorfism)

dbSNP – esempio di ricerca

85


86

Filtri


87

Organismo


88

Classe della variante


89

Significato clinico


90

Classe della funzione

dbSNP – applicazione di filtri

91

Numero totale di varianti ridotto a 21 da oltre 1400

Notare che viene visualizzata anche l’espressione completa della ricerca

dbSNP – esempio di una entry

92


93

Dati generali dello SNP: Organismo, genoma di riferimento, validazione, riferimenti bibliografici


94


95

Alleli


96

Collegamento ad OMIM: compendio di geni umani e fenotipi


97

Collegamento a ClinVar (Clinical Variants): raccolta di informazioni che collegano le varianti con la loro relazione con la salute umana.


98

Frequenza dell’allele minore nella popolazione e numero di soggetti su cui è stata visto l’allele minore


99

Variation viewer mostra la variante in un contesto genomico

dbSNP – Link a Variation Viewer

100

Visualizzazione delle varianti in un contesto genomico


101


Varianti di interesse clinico


102


Grandi varianti strutturali in dbVar


103


Varianti in dbSNP


104

Cliccando sui rettangolini posso vere quali altri varianti cliniche sono presenti nel gene


105

Sommario di tutte le sottomissioni riguardanti questa SNP


106

Sequenza fasta e link ad altri db (sequenze ed altro) in NCBI


107

Dati di frequenza nelle popolazioni

Alleli rari sono potenzialmente importanti le frequenze sono state

abbassate da una selezione “purificatrice”

Banche dati - OMIM

Catalogo di geni umani e disordini genetici

http://www.omim.org/

•Precedentemente presso l’NCBI ora

ha una pagina web dedicata.

•Risorsa importante per la ricerca

biomedica.

•Compendio di geni umani e fenotipi

•Raccoglie informazioni dalla

letteratura scientifica con link alle

risorse bibliografiche e strumenti di

analisi genomica.

•Aggiornato giornalmente

http://www.omim.org/

Banche dati - OMIM

• OMIM si focalizza principalmente su:

– malattie o fenotipi mendeliani a singolo gene (Es.: fibrosi cistica, anemia falciforme,…)

– Malattie complesse con un contributo significativo da parte di un singolo gene

– Sindromi da duplicazioni e delezioni ricorrenti

109

Statistiche di OMIM

110

Quasi 23,000 entry a Marzo 2015

Homepage di OMIM

Link a diverse risorse

Ricerca di base

Esempi di ricerca su OMIM

112

Autocompletamento

OMIM – risultati della ricerca

113

Cliccare per aprire

OMIM – Visualizzazione di una entry

114

Link alla sezioni della pagina


115

Relazione gene-fenotipo


116

Location

Omim – location

117

Genes in the same region


118

Phenotype mapping key

• Phenotype map key 1: the disorder has been placed on the map based on its

association with a gene, but the underlying defect is not known.

• Phenotype map key 2: the disorder has been placed on the map by linkage;

no mutation has been found.

• Phenotype map key 3: the molecular basis for the disorder is known; a

mutation has been found in the gene.

• Phenotype map key 4: a contiguous gene deletion or duplication syndrome;

multiple genes are deleted or duplicated causing the phenotype.


119

Gene/Locus ID in OMIM

OMIM – Gene

120 Tutte le relazioni gene-fenotipo per il locus HBB

OMIM – Gene

121 Tutte le relazioni gene-fenotipo per il locus HBB

OMIM – Gene

122

Varianti alleliche

Mutations are cataloged in OMIM in the Allelic Variants section of gene entries (see 1.2). For most genes, only

selected mutations are included. Criteria for inclusion include the first mutation to be discovered, high population

frequency, distinctive phenotype, historic significance, unusual mechanism of mutation, unusual pathogenetic

mechanism, and distinctive inheritance (e.g., dominant with some mutations, recessive with other mutations in the

same gene). Most of the allelic variants represent disease-causing mutations. A few polymorphisms are included,

many of which show a positive correlation with particular common disorders. http://www.omim.org/help/faq

http://www.omim.org/help/faq


123

Descrizione del fenotipo


124

Caratteristiche cliniche


125

Modalità di diagnosi


126

Gestione clinica


127


128

OMIM – Links

129

Lista di identificatori dell’International Classification of Diseases (ICD) e Systematized Nomenclature of Medicine (SNOMed)

OMIM – Links

130

OMIM – Links

131

OMIM – Links

132 Link al database di proteine Uniprot

OMIM – Links

133 Link al database di trial clinici

OMIM – Links

134 Link al Genetic Testing Registry (GTR)


135

Cliccando su Gene Map è possibile visualizzare i geni corrispondenti alla ricerca eseguite

OMIM – Gene map

136


137

Cliccando su Clinical Synopsis è possibile accedere direttamente a delle sinopsi cliniche

OMIM – clinical synopsis

138

The central dogma of molecular biology

DNA

RNA

PROTEIN

Replication

Transcription

Translation

Genes are transcribed from DNA into mRNA, which leaves the nucleus

and is translated to protein. A gene actively transcribed is said to be

expressed. 139

Database di dati di espressione

• Gene Expression Ominbus (GEO) database – NCBI

• http://www.ncbi.nlm.nih.gov/geo/ • EMBL-EBI microarray database (ArrayExpress)

• https://www.ebi.ac.uk/arrayexpress/ • Stanford Microarray Database (SMD)

• http://smd.princeton.edu • caARRAY (outdated)

– https://cabig-stage.nci.nih.gov/community/tools/caArray • The Cancer Genome Atlas (TCGA)

– http://cancergenome.nih.gov/ • PlexDB (unified gene expression resource for

plants and plant pathogens) – http://www.plexdb.org/

http://www.ncbi.nlm.nih.gov/geo/

https://www.ebi.ac.uk/arrayexpress/

http://smd.princeton.edu/

https://cabig-stage.nci.nih.gov/community/tools/caArray



http://cancergenome.nih.gov/

http://www.plexdb.org/

GEO organization C

ura

ted

U

ser

su

bm

itte

d

Platforms (GPLxxx) A Platform record is composed of a summary description of the array or sequencer

and, for array-based Platforms, a data table defining the array template. A Platform

may reference many Samples that have been submitted by multiple submitters.

Platform data table

Platform data table header

Samples (GSMxxx) A Sample record describes the conditions under which an individual Sample was

handled, the manipulations it underwent, and the abundance measurement of each

element derived from it. A Sample entity must reference only one Platform and may be

included in multiple Series.

Sample data

Series (GSExxx) A Series record links together a group of related Samples and provides a focal

point and description of the whole study.

GEO Datasets and Profiles

• GEO Profiles This database stores individual gene expression and molecular abundance profiles assembled from the Gene Expression Omnibus (GEO) repository. Search for specific profiles of interest based on gene annotation or pre-computed profile characteristics. GEO Profiles facilitates powerful searching and linking to additional information sources.

• GEO DataSets This database stores curated gene expression and molecular abundance DataSets assembled from the Gene Expression Omnibus (GEO) repository. Enter search terms to locate experiments of interest. DataSet records contain additional resources including cluster tools and differential expression queries.

Repository Browser

Repository Browser It’s possible to browse the repository at different levels

Repository Browser Data can be browsed by Series

Repository Browser Data can be browsed by Series, Samples

Repository Browser Data can be browsed by Series, Samples, Platforms

Repository Browser Data can be browsed by Series, Samples, Platforms and Datasets

Datasets

Expression profiles Filters

Filtering expression profiles

Profile of a specific gene

Sample Title Value Rank

GSM562208 Control, biological rep1 6.24609 56



GSM562211 Dark, biological rep1 5.88078 52



GSM562214 Light, biological rep1 7.72981 74



You can also go back to the

information related to each

specific sample analized

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM562208









Profile neighbors Connects Profiles that show a similar expression pattern to the chosen Profile within a DataSet

Profile neighbors

Profile data can be downloaded

Pathways

Download - Basi di dati biologiche (Teoria) - ddlab.sci.univr.itddlab.sci.univr.it/alberto/bioinformatica/Teoria_L02_Banche_dati.pdf · Banche dati biologiche - Introduzione 2 Il concetto di

Top Related