banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf ·...

69
Riccardo Percudani 01/01/09 File: banchedati.odp Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

Upload: vuongkhuong

Post on 15-Feb-2019

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati di sequenze biologiche

interrogazione ericerca di omologia

Riccardo Percudani 010109 File banchedatiodp

Raccolte di dati biologici

Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)

Cd-rom

Floppydisk

- 1977 PDB Strutture di macromolecole

- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici

- 1991 EST (Expressed Sequence Tags)

WWW

Internet- 1996 Genomi

- 1998 Trascrittomi

Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche

Riccardo Percudani 010109 File banchedatiodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 010109 File banchedatiodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 010109 File banchedatiodp

Banche dati biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 2: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Raccolte di dati biologici

Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)

Cd-rom

Floppydisk

- 1977 PDB Strutture di macromolecole

- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici

- 1991 EST (Expressed Sequence Tags)

WWW

Internet- 1996 Genomi

- 1998 Trascrittomi

Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche

Riccardo Percudani 010109 File banchedatiodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 010109 File banchedatiodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 010109 File banchedatiodp

Banche dati biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 3: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 010109 File banchedatiodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 010109 File banchedatiodp

Banche dati biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 4: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 010109 File banchedatiodp

Banche dati biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 5: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 6: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 7: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici Release e aggiornamenti

Genetic Sequence Data Bank

October 15 2001

NCBI-GenBank Flat File Release 1260

Distribution Release Notes

13602262 loci 14396883064 bases from 13602262 reported sequences

This document describes the format and content of the flat files that

comprise releases of the GenBank database If you have any questions or

comments about GenBank or this document please contact NCBI via email

at infoncbinlmnihgov or

Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data

+

Aggiornamenti quotidianiEs GenBank_new EMBL_new

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 8: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura

Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)

Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza

bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata

bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 9: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Incremento dei dati di sequenza Vs diminuizione dei costi

Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 10: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Acidi nucleici quantitagrave di informazioneEntries Bases Species

5074650 7915783043 Homo sapiens

3282738 1982497435 Mus musculus

309512 615314337 Drosophila melanogaster

277024 342250586 Rattus norvegicus

196531 292339256 Oryza sativa

194296 258809578 Arabidopsis thaliana

140700 187274610 Caenorhabditis elegans

189005 165547824 Tetraodon nigroviridis

198152 95024632 Bos taurus

204698 92361300 Glycine max

156413 89308950 Danio rerio

155185 80380251 Lycopersicon esculentum

140798 72431327 Medicago truncatula

80582 72089785 Entamoeba histolytica

121918 60487285 Xenopus laevis

102233 58906089 Chlamydomonas reinhardtii

124150 57745385 Zea mays

86956 54526352 Strongylocentrotus purpuratus

104222 54130240 Sus scrofa

91420 53130188 Trypanosoma brucei

httpwwwncbinlmnihgovGenbankgenbankstatshtml

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 11: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 12: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

EST quantitagrave di informazione

dbEST release 102601

Summary by Organism - October 26 2001

-------------------------------------------------

Number of public entries 9372718

Homo sapiens (human) 3859807

Mus musculus + domesticus (mouse) 2328188

Rattus sp (rat) 317076

Drosophila melanogaster (fruit fly) 255456

Glycine max (soybean) 208186

Bos taurus (cattle) 193313

Danio rerio (zebrafish) 155077

Lycopersicon esculentum (tomato) 141687

Medicago truncatula (barrel medic) 137588

Caenorhabditis elegans (nematode) 135203

Xenopus laevis (African clawed frog) 118996

Arabidopsis thaliana (thale cress) 113330

Chlamydomonas reinhardtii 111958

Zea mays (maize) 108392

Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST

Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto

Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 13: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

EST IMAGE consortiumFEATURES LocationQualifiers

source 1355

organism=Homo sapiens

db_xref=taxon9606

clone=IMAGE69864

Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 14: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati primarie proteineDue consorzi che non scambiano informazioni

SwissProt (europea) PIR (americana)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 15: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Proteine quantitagrave di informazione

--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 16: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 17: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 18: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Formato del record Flat File format

ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza

Sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 19: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

GenBankDDBJ entry

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 20: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 21: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

DDBJEMBLGenBank Feature table

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 22: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC

httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 23: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

SwissProt entry (continua)

DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 24: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 25: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Porzioni ldquoordinaterdquo di GenBank

Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 26: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Unigene informazioni sui trascritti

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 27: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 28: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 29: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 30: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 31: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 32: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 33: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 34: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

3 Errori e stranezze

ldquotransciptionrdquo 26sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 35: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)bull SRS (Sequence Retrieval System)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 36: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 37: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune

Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 38: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 39: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Banche dati genomiche whitehead

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 40: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Museo del genoma

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 41: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 42: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc

gtDDDDacgctaaaaggctagcatcgggga

gtAAAAacgctaggctagctggatcggggatcggat

1deg

ndeg

2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 43: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 44: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 45: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 46: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 47: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V LVDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 48: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 49: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

FASTA (schema)FASTA (schema)

bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple

bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap

bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)

bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 50: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagraveWT

sensibilitagravesensibilitagrave

velocitagraveWT

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 51: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 52: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Calcolo della probabilitagrave casuali di un allineamento

La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)

Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso

P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 53: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Calcolo del numero di segmenti attesi (E)

SKmneE λminus=

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 54: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 55: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================

98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================

250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48

Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 56: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

FASTA output 2FASTA output 2

The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021

gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016

gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

score significativitagravescoreLista

Allineamenti

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 57: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 58: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140

Matrix BLOSUM62Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 59: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 60: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 61: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Output grafico di blastOutput grafico di blast

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 62: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Significativitagrave e dimensioni delle bancadati

La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati

bull Il punteggio del confronto tra due sequenze egrave costante

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe

bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 63: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to

B L A S TF A S T A

b la s tn fa s ta 3 n u c n u c n u c n u c

b la s tp fa s ta 3 a a a a a a a a

b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a

tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a

tb la s tx n u c n u c a a a a

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 64: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 65: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 66: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 67: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

100

100Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 68: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Accuratezza dei metodi di ricerca

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA gt BLAST

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 69: Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf · sequenza alle banche dati è condizione essenziale per pubblicare sulle principali

Riccardo Percudani 010109 File banchedatiodp

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni