prosite contiene anche pattern ad alta occorrenza, corti e aspecifici (modifiche post-traduzionali)...

21
PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Upload: paolina-valle

Post on 01-May-2015

217 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali)

Es. phosphorylation by CK2[ST]-x(2)-[DE]

Page 2: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

• PROSITE: pattern funzionali – pattern relativi a corte seq con alta probabilità di accadimento (modificazioni e non funzioni) – profili – indicazioni su SPECIFICITA’ e SENSIBILITA’ del pattern (POTERE DIAGNOSTICo);

• PRINTS: costruisce la signature di una famiglia codificata come fingerprint – si autoimplementa usando SwissProt partendo da un allineamento seme – punteggi basati sulla freq di vedere un aa in una posizione

• BLOCKS: parte dalle famiglie di Prosite – punteggi dati con Blosum 62 – ogni blocco valutato sulla base di 2 punteggi: livello a cui 99,5% sono negativi e forza della ricerca (devono essere ben distinti e la forza maggiore del primo punteggio)

• Pfam: fornisce info su domini strutturali codificate sottoforma di profili (metodo HMM)– ci sono poi indicazioni su repeats, sequenze segnale, regioni transmembrana, regioni a bassa complessità

Page 3: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

in molti casi è vero che solo l’analisi della struttura tridimensionale di una macromolecola può aiutarci a comprendere in quale modo e per quale motivo una determinata sequenza (avvolta in una specifica struttura) possa codificare una ben precisa funzione

vediamo per esempio la struttura 3D della chimotripsina, mettendo in evidenza i residui della triade catalitica, che non sono contigui nella sequenza proteica

perchè è interessante studiare la struttura di una proteina

la contiguità dei residui in struttura determina la funzione

Page 4: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Predizione della struttura di una proteina

In generale, la sequenza amminoacidica di una proteina codifica la sua struttura tridimensionale

dovrebbe quindi essere possibile disegnare un algoritmo per predire la struttura 3D di una proteina a partire dalla sua sequenza 1D

questo è l’obiettivo più ambizioso e complesso della bioinformatica, e non è ancora stato raggiunto (reverse folding)

Page 5: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

i metodi sperimentali per la determinazione della sequenza di una proteina sono estremamente rapidi (l’ordine di grandezza è il giorno) e relativamente economici

la risoluzione della struttura tridimensionale di una proteina richiede invece l’uso di strumenti più complessi, e talvolta mesi di lavoro

PDB (Protein Data Bank) circa 64.000 di strutture

Swiss-Prot + TrEMBL circa 10 milioni di sequenze

gran parte delle ricerche in biologia strutturale è quindi volta allo studio delle leggi fondamentali del folding delle proteine e la biologia computazionale dedica molte energie e risorse allo sviluppo di metodi per la predizione della struttura delle proteine

Page 6: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Perchè predire la struttura terziaria?• In cifre:

– 10 milioni sequenze proteiche– Piu‘ di 64000 strutture, di cui 6000 uniche– La distanza tra sequenze e strutture note si

sta allargando.

• Metodi computazionali– Veloci ( poche ore/giorni), poco costosi (PC)– Soluzioni corrette ca. nel 60% dei casi.– Risoluzione più bassa, ma spesso sufficiente

per spiegare la funzione e dettagli strutturali delle proteine

• Osservazione: La sequenza si evolve più rapidamente della struttura (Chothia & Lesk, 1986)

– Numero limitato di fold (< 1,000? )

0

100000

200000

300000

400000

500000

600000

Sequenze Comparative Models Strutture

Page 7: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

perchè è interessante studiare la struttura di una proteina

il confronto tra sequenze proteiche può essere utilizzato per mettere in luce relazioni evolutive tra proteine e la similarità tra sequenze può essere utilizzata come una misura della distanza evolutiva tra gli organismi

come abbiamo visto, le proteine che si confrontano possono talvolta essere così diverse che diventa difficile metterne in evidenza la comune origine evolutiva attraverso il solo confronto tra sequenze

cambiamenti nella struttura delle proteine sono invece più conservativi: l’evoluzione delle proteine avviene in modi che in genere non alterano il ripiegamento (fold) della struttura proteica, che quindi può conservare tracce di un’origine comune

Page 8: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

i metodi sperimentali classici per la risoluzione della struttura tridimensionale di una proteina sono:

• la cristallografia a raggi X

• la spettroscopia a risonanza magnetica e nucleare (Nuclear Magnetic Resonance, NMR)

Come si può studiare la struttura di una proteina

Page 9: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

cellula batterica

plasmide

DNA esogeno

moltiplicazione del clone

formazione di cristalli

purificazionedella proteina

diffrazioneai raggi X

NMR

Page 10: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]
Page 11: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Il pattern di diffrazione viene usato per ricostruire le coordinate dei singoli atomi che compongono la macromolecola e quindi la sua struttura 3D.

I raggi X interagiscono quasi esclusivamente con gli elettroni presenti nella materia e non con i nuclei.

Una struttura ai raggi X è quindi un’immagine della densità elettronica dell’oggetto in analisi

Cristallografia a raggi XLa proteina, cristallizzata, viene bombardata con un raggio di fotoni collimati ad alta energia. I fotoni vengono diffratti in modo differente a seconda del tipo di atomo che colpiscono. I raggi diffratti vengono raccolti formando un quadro (pattern) di diffrazione

Page 12: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Limiti del metodo:

• Cristallizzare proteine e` difficile

• Ricavare la struttura dal pattern di diffrazione e` computazionalmente complesso

• L’informazione che si ottiene e` statica, mentre la conforomazione di una proteina in soluzione varia nel tempo

• B factor (fattore di temperatura): indice “indiretto” di flessibilita’ strutturale

Cristallografia a raggi XRisoluzione ottenibile su piccole molecole organiche 1Å. In generale proteine cristallizate hanno grado di organizzazione più basso che limitano la risoluzione (2-3.5Å). Questo è dovuto anche all’alta idratazione dei cristalli (40-60% di acqua).Una tale risoluzione non è sufficiente per rivelare la posizione dei singoli atomi, ma è sufficiente per tracciare l’andamento e la disposizione dello scheletro covalente della proteina. Occorre quindi conoscere la sequenza primaria in modo da adattare la mappa della densità elettronica alla sequanza aminoacidica.

Page 13: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

In un cristallo di proteine, in ogni cella (sitoreticolare) si trova una proteina = somma didensità elettroniche dovute ai singoli atomi

Page 14: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Il risultato sperimentale diretto di un’ analisi cristallografica è una mappa di densità elettronica e non il modello atomico che voi state osservando!!!Se vi sono errori nelle strutture cristallografiche questi sono dovuti all’interpretazione (soggettiva) delle mappe elettroniche da parte del cristallografo!!

Page 15: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]
Page 16: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]
Page 17: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

PARAMETRI X VALUTAZIONE DELL’INFORMAZIONE CONTENUTA NELLA STRUTTURA X-RAY:Risoluzione (R) della mappa di densità elettronica (tra 3 e 1.5 Å). Strutture con R > 2.5 Å dettagli solo sul backbone, R < 2 Å dettagli su atomi catene laterali

R-value e R-free: parametri associati al livello di “discordanza” tra modello atomico e mappa di densita’ elettronica (devono essere R-value < 20% e R-free < 30%). Forniscono, in ultima istanza, indicazioni su quanto differiscono tra loro mappa di densita’ elettronica osservata (sperimentale) e mappa di densita’ elettronica calcolata dal modello della struttura finale.

Page 18: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Spettroscopia a risonanza magnetica nucleare (NMR)

Permette di ottenere informazioni sulla struttura di una molecola attraverso l’interazione con una radiazione elettromagnetica. Si basa sullo stesso principio della risonanza magnetica usata in medicina, usa onde radio.

È possibile rilevare quando i momenti magnetici dei vari nuclei (che continuano a ruotare) si inclinano completamente sul piano perpendicolare rispetto al campo magnetico applicato grazie ad un'antenna che capta le onde radio che questi generano ed è collocata perpendicolarmente al campo magnetico applicato.

I nuclei atomici (elettricamente carichi) ruotano, con una velocità angolare quantizzata, creando un momento magnetico

Immersi in un campo magnetico omogeneo esterno i momenti magnetici si allineano (“traballando” a causa del rumore termico).

I nuceli vengono irradiati da onde radio (RF), l’effetto è di “disallineare” (tanto da farli “ribaltare”).

Page 19: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

Spettroscopia a risonanza magnetica nucleare (NMR)

Caratteristiche:• studio delle proteine in soluzione (non occorre cristallizzarle)• alta risoluzione temporale (millisecondi)• informazioni sulle distanze interprotoniche non precise• la “proton signature” limita il metodo allanalsi di molecole “piccole” (<30 KD <250 residui)• informazioni su strutture di complessi proteici deducibili solo con il ricorso a metodi di modellistica guidati dai dati sperimentali

Ogni nucleo mostra le sue caratteristiche perchè ruota a velocità differente a seconda della sua posizione nella molecola e all'ambiente che gli atomi vicini gli fanno sentire e quindi risuona a frequenze radio diverse. Nuclei diversi risuonano a frequenze diverse. Ciò significa innanzitutto che un atomo di carbonio deve essere colpito da un'onda radio con frequenza diversa da quella necessaria ad un atomo di idrogeno per “ribaltarsi” di 90°, ma anche che atomi simili in ambienti diversi, come un atomo di idrogeno legato ad un atomo di ossigeno ed un atomo di idrogeno legato ad un atomo di carbonio si ribaltano a frequenze diverse. Questo è dovuto alla “schermatura” degli elettroni vicini

Page 20: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

HEADER OXYGEN TRANSPORT 22-JAN-98 1A3N TITLE DEOXY HUMAN HEMOGLOBIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: HEMOGLOBIN; COMPND 3 CHAIN: A, B, C, D; COMPND 4 BIOLOGICAL_UNIT: ALPHA-BETA-ALPHA-BETA TETRAMER SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: HOMO SAPIENS; SOURCE 3 ORGANISM_COMMON: HUMAN; SOURCE 4 TISSUE: BLOOD; SOURCE 5 CELL: RED CELL KEYWDS OXYGEN TRANSPORT, HEME, RESPIRATORY PROTEIN, ERYTHROCYTE EXPDTA X-RAY DIFFRACTION AUTHOR J.TAME,B.VALLONE REVDAT 1 29-APR-98 1A3N 0 REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 1.8 ANGSTROMS. REMARK 3

Esempio: Deossiemoglobina umana (1a3n)

[…]

http://www.pdb.org

PDB: banca dati di strutture (Protein Data Bank) – ridondante – strutture ottenute sperimentalmente via X-ray o NMR

Page 21: PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]

ATOM 1 N VAL A 1 10.720 19.523 6.163 1.00 21.36 N

ATOM 2 CA VAL A 1 10.228 20.761 6.807 1.00 24.26 C

ATOM 3 C VAL A 1 8.705 20.714 6.878 1.00 18.62 C

ATOM 4 O VAL A 1 8.164 20.005 6.015 1.00 19.87 O

ATOM 5 CB VAL A 1 10.602 22.000 5.966 1.00 27.19 C

ATOM 6 CG1 VAL A 1 10.307 23.296 6.700 1.00 31.86 C

ATOM 7 CG2 VAL A 1 12.065 21.951 5.544 1.00 31.74 C

ATOM 8 N LEU A 2 8.091 21.453 7.775 1.00 16.19 N

ATOM 9 CA LEU A 2 6.624 21.451 7.763 1.00 17.31 C

ATOM 10 C LEU A 2 6.176 22.578 6.821 1.00 18.55 C

ATOM 11 O LEU A 2 6.567 23.730 7.022 1.00 18.72 O

ATOM 12 CB LEU A 2 6.020 21.707 9.129 1.00 18.34 C

ATOM 13 CG LEU A 2 6.386 20.649 10.198 1.00 17.39 C

ATOM 14 CD1 LEU A 2 5.998 21.119 11.577 1.00 17.99 C

ATOM 15 CD2 LEU A 2 5.730 19.337 9.795 1.00 16.96 C

ATOM 16 N SER A 3 5.380 22.237 5.852 1.00 15.02 N

ATOM 17 CA SER A 3 4.831 23.237 4.928 1.00 16.59 C

ATOM 18 C SER A 3 3.725 24.027 5.568 1.00 14.84 C

ATOM 19 O SER A 3 3.095 23.717 6.591 1.00 14.40 O

ATOM 20 CB SER A 3 4.308 22.429 3.727 1.00 16.47 C

ATOM 21 OG SER A 3 3.076 21.786 3.991 1.00 14.91 O

X Y Z

coordinatetipo diatomo

tipo diamminoacido