![Page 1: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/1.jpg)
Lezione 6
Confronti fra sequenze: distanze, allineamenti
![Page 2: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/2.jpg)
tem
po
![Page 3: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/3.jpg)
La distanza tra due sequenze si definisce come il numero atteso di sostituzioni nucleotidiche per sito. Se il tasso di evoluzione è costante nel tempo la distanza crescerà linearmente con il crescere del tempo di divergenza.
AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA
Sostituzioni nucleotidiche
Una semplice misura di distanza è la proporzione dei siti differenti (a volte chiamata distanza p)
10 siti; 3 differenze distanza = 30% = 0.3
![Page 4: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/4.jpg)
Sostituzioni nucleotidiche
AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA distanza = 30% = 0.3 Questa proporzione grezza funziona per
sequenze che sono molto vicine
evolutivamente.
Se è passato molto tempo dalla
divergenza, p sottostima il numero di
sostituzioni che sono realmente
avvenute.
Un sito variabile può originarsi attraverso
più percorsi e perfino un sito uguale in
due sequenze può nascondere retro
sostituzioni o sostituzioni parallele.
Sostituzioni multiple nascondono alcuni
cambiamenti, perciò p non è una funzione
diretta del tempo evolutivo. La
proporzione grezza p può essere usata
solo se p < al 5%
![Page 5: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/5.jpg)
Per N siti ed n differenze: grado di divergenza = n/N AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA divergenza = 0.3 o 30%
Distanze fra sequenze
![Page 6: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/6.jpg)
![Page 7: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/7.jpg)
Distanze fra sequenze
Complichiamo lo scenario: correggiamo per “multiple hits” I modelli di Jukes e Cantor, Kimura, Tamura e Nei etc. possono essere usati oltre che per prevedere l’evolversi di una sequenza, anche per valutare la distanza fra due sequenze originatesi da una divergenza
![Page 8: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/8.jpg)
Modello di Jukes e Cantor (1969)
Distanze fra sequenze: non coding sites
d: numero di sostituzioni per sito dal momento della divergenza p: proporzione osservata di siti differenti tra due sequenze
![Page 9: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/9.jpg)
Modello di Kimura 2 parametri (1980)
d: numero di sostituzioni per sito dal momento della divergenza (se P e Q sono uguali si torna all’equazione di JC)
d
Distanze fra sequenze: non coding sites
![Page 10: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/10.jpg)
Esempio: rRNA 12s mtDNA
Da Yang “computational molecular evolution” Oxford University Press 2006
Distanze fra sequenze: non coding sites
![Page 11: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/11.jpg)
Esempio: rRNA 12s mtDNA N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948 p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949 P = transiz = (30+23+21+10)/948 =84/948=0.088 Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063
Da Yang “computational molecular evolution”
JC69
K2P80
JC69 : d = 0.1015
K2P80: d = 0.1038
La differenza è minima
Distanze fra sequenze: non coding sites
![Page 12: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/12.jpg)
Aumentiamo la divergenza: N= 948 p= 500/948 = 0.527 P = transiz = 400/948 = 0.4219 Q= trasv= 100/948 = 0.1055
JC69
K2P80
JC69 : d = 0.91
K2P80: d = 1.55
La differenza tra le due stime aumenta all’aumentare della
divergenza
Se c’è un alto livello di divergenza e, soprattutto, se ci sono motivi a priori di pensare che il tasso di transizione differisca da quello di trasversione è meglio considerare modelli più complessi di Jukes and Cantor
Distanze fra sequenze: non coding sites
![Page 13: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/13.jpg)
Distanze fra sequenze: coding sites
Calcolare il numero di sostituzioni tra due sequenze codificanti proteine è più complesso perché è necessario distinguere tra sostituzioni sinonime e non sinonime
![Page 14: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/14.jpg)
Distanze fra sequenze: coding sites
Seq1
Seq2
Ser Thr Glu Met Cys Leu
TCA ACT GAG ATG TGT TTA
↕ ↕ ↕ ↕
TCG ACA GAG ATA TGT CTA
Ser Thr Glu Ile Cys Leu Basta contare?
NO: Problemi con il denominatore
Non Sin
Sin Sin Sin
![Page 15: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/15.jpg)
Distanze fra sequenze: coding sites
Perché non basta contare?
sinonimo
Non sinonimo
1. La classificazione dei siti cambia nel tempo
![Page 16: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/16.jpg)
Distanze fra sequenze: coding sites
Perché non basta contare?
Sinonimo Non sinonimo
2. Alcuni siti non sono solo sinonimi o solo non sinonimi, dipende da come mutano
![Page 17: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/17.jpg)
Distanze fra sequenze: coding sites
Seq1
Seq2
Ser Thr Glu Met Cys Leu
TCA ACT GAG ATG TGT TTA
↕ ↕ ↕ ↕
TCG ACA GAG ATA TGT CTA
Ser Thr Glu Ile Cys Leu Basta contare?
NO: Problemi con il numeratore
Non Sin
Sin Sin Sin
![Page 18: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/18.jpg)
Distanze fra sequenze: coding sites Problemi col numeratore: Esempio: quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle sostituzioni deve essere conosciuto per classificare il sito come sinonimo o non sinonimo.
Esempio: CCC nella sequenza 1 e CAA nella sequenza 2 La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute
Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi
![Page 19: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/19.jpg)
Distanze fra sequenze: coding sites Basta contare?
NO: possibili soluzioni Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
Nei and Gojobori calculate average
number of synonymous and
nonsynonymous sites allowing
particular sites to be a portion in
each category (can also “weight”
substitution pathway probabilities).
![Page 20: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/20.jpg)
Distanze fra sequenze: coding sites Basta contare?
NO: possibili soluzioni
1. Consideriamo una posizione specifica in
un codon. Se i è il numero di possibili
cambiamenti sinonimi a quel sito allora lo
conteremo come i/3 sinonimo e (3 – i)/3
non sinonimo.
![Page 21: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/21.jpg)
Distanze fra sequenze: coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 – i)/3 non sinonimo. 2. Contiamo il numero di siti sinonimi e non sinonimi in ogni sequenza e calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e quello di non sinonimi è NA. 3. Classifichiamo le differenze in sinonime e non sinonime per due codon con 1 differenza è semplice GTC (Val) GTT (Val) > sinonimo GTC (Val) GCC (Ala) > non sinonimo per più di una differenza: considerare i diversi percorsi
![Page 22: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/22.jpg)
Distanze fra sequenze: coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime per più di una differenza: considerare i diversi percorsi (in che ordine sono avvenute le mutazioni?) Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi
Approccio non pesato: Tutto è equiprobabile Nei and Gojobori Ma=differenze non sin: (1+2)/2 = 1.5 Ms=differenze sinonime: (1+0)/2 = 0.5
Approccio pesato Utilizza criteri che aiutano a decidere quali dei due percorsi sia più probabile Percorso II meno probabile (sin più frequenti di non sin)
Ma= differenze non sin: (0.9*1) + (0.1*2) = 1.1 Ms= differenze sinonime: (0.9*1) + (0.1*0) = 0.9
![Page 23: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/23.jpg)
Distanze fra sequenze: coding sites
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime 4. Il numero di mutazioni sinonime per sito sinonimo pS = MS / NS
Il numero di mutazioni non sinonime per sito non sinonimo pA = MA / NA
Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor per correggere
![Page 24: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/24.jpg)
Distanze fra sequenze: coding sites
Nei & Gojobori (1986)
![Page 25: Lezione 6 - Unifedocente.unife.it/silvia.fuselli/dispense-corsi/copy_of_6_Distanze.pdf · Lezione 6 Confronti fra sequenze: distanze, allineamenti . o. La distanza tra due sequenze](https://reader035.vdocuments.site/reader035/viewer/2022070916/5fb66a9aa8d92130950c16ad/html5/thumbnails/25.jpg)
Allineamenti
Dan Graur : Lecture 18
ALIGNMENT OF NUCLEOTIDE
& AMINO-ACID SEQUENCES
http://nsm.uh.edu/~dgraur/
Genes and Genomes: Fundamentals of Molecular Evolution