1 - evolucion proteinas-teoria alineamiento
DESCRIPTION
proteinas evolucionTRANSCRIPT
Relaciones evolutiva entre proteínas
Evolución de secuencias de proteínas
¿Qué fenómenos hacen que las secuencias de proteínas “cambien”en el tiempo (evolucionen)?
MUTACIONES:
-Inserciones-Deleciones-Sustituciones
El resultado de estos procesos produce secuencias HOMÓLOGAS
HOMOLOGÍA: Se dice que dos secuencias son homólogas cuando derivan de un ancestro común. Es una característica cualitativa.
Sec. ancestral
Sec. 2 Sec. 1
Sec. 4 Sec. 5 Sec. 6Sec. 3 Sec. 7X
X
X
Tipos de homología de secuencias
Homólogos: secuencias similares en 2 organismos diferentesderivadas de una secuencia ancestro común.
Ortólogos: secuencias similares en 2 organismos diferentes queconvergen debido a un evento de especiación. Retienen la mismafunción.
Parálogos: secuencias similares en un mismo organismo queconvergen debido a un evento de duplicación génica. En teoría, inicialmente debieran retener función, pero con el paso del tiempo muchas veces no es así debido a la diferencia en mutación/selección sobre la copia duplicada del gen, la que puede adquirir nuevas funciones o perderlas.
Conceptos parecidos pero distintos
Identidad: Cuando en una secuencia, los residuos de una misma posición son iguales.
Similitud: Es una característica cuantitativa, que indica que tan parecida es una secuencia respecto a otra.
Por tanto, para ser homólogas, dos secuencias deben ser similares, pero no necesariamente a la inversa.
Tipos de homología de secuencias
Superposición de estructuras de proteínas de distinto origen
-Las proteínas evolucionan, variando su secuencia y estructura
-Las variaciones (evolución) en la secuencia determinan el parecido estructural (y la función??)
RMSD (Root mean squaredeviation): es una medida de la similitud estructural entre dos proteínas. Es la distancia cuadrática media entre los átomos, usualmente el carbono α. A menor RMSD, mayor es la similitud estructural.
Pregunta..
-Conociendo las características de los ortólogos y parálogos
-Conociendo que las proteínas evolucionan
Ud esperaría:
a) Que los ortólogos evolucionaran más libremente (con menos restricciones) que los parálogos
b) Que los parálogos evolucionaran más libremente (con menos restricciones) que los ortólogos
c) Que evolucionen igual (la evolución es la evolución, y punto…)
Respuesta…
Seminario 1
-¿Existirán restricciones a la evolución de proteínas?
-Si así fuera, se relacionan con aspectos estructurales y funcionales de las proteínas???
-Las proteínas que debieran adquirir nuevas funciones, ¿¿serían más o menos libres de evolucionar???
Excepciones
Evolución independiente de proteínas
Este fenómeno es distinto a la relación de homología.
Puede dar como resultado distintos tipos de “convergencias”
Evolución independiente que genera convergencia funcional
Genera proteínas que pueden tener la misma función, pero que no provienen de un ancestro común. Esto se refleja porque provienen de genes distintos, no tienen ninguna similitud de secuencia y cambian mecanismos de reacción. Caso clásico: enzimas del tipo glicosil hidrolasas.
Esta situación lleva a la clasificación de FAMILIAS DE PROTEÍNAS
Gen 1 Gen 2
Evolucion
MISMA FUNCIÓNDISTINTA ESTRUCTURADISTINTO MECANISMO
Inversión(un desplazamiento)
Retención (doble desplazamiento)
Evolución independiente que genera convergencia ESTRUCTURAL
Genera proteínas que pueden tener la misma estructura, a pesar de provenir desecuencias que no provienen de un ancestro común.
Estos casos son extremadamente raros, y generalmente no afectan toda la estructura de la proteína, si no que parte de ella. Es una estrategia común en virus, los cuales “imitan” estructuras de proteínas del hospedero
Gen 1 Gen 2
Evolucion
MISMA ESTRUCTURA
DISTINTA FUNCIÓN
¿Cómo podemos analizar las relaciones entre secuencias de proteínas homólogas?
La principal herramienta (y de la cual derivan todo el resto) esel ALINEAMIENTO DE SECUENCIAS.
¿Qué es un alineamiento de secuencias?
Es la comparación de secuencias mediante el apareamiento de residuos.
Ejemplo:
Proteínas – caracteres pertenecen a “alfabeto” de 20 letras
VLSPADKTNVKAAWGKVGAHAGEYG
VLSEGEWQLVLHVWAKVEADVAGHG
¿Qué información podemos obtener de un alineamiento de secuencias?
Ya que asumimos que dos secuencias biológicas similares tienden a estar relacionadas, podemos obtener información de tipo:
-Evolutiva (estudios de homología propiamente tal)
-Funcional (si las secuencias se relacionan en lugares específicos como el sitio activo, podemos inferir función)
-Estructural
Estrategia general de alineamientoEn general, hay tres posibilidades por cada posición del
alineamiento, las cuales se acepta que se corresponden con los sucesos evolutivos ocurridos:
-Coincidencia de caracteres (match: no ocurrió mutación)
-No coincidencia de caracteres (mismatch: ocurrieron una o más mutaciones)
-Inserción/Deleción: (gap: ocurrió una inserción en unasecuencia o una deleción en la otra)
La “cuantificación” y validación estadística de esos cambios permitirá definir si es que existe relación evolutiva entre las proteínas analizadas o no.
KCAG-AYG-ATTM
|| | | | | |
KC-GGA-GC-T-M
KCAGAYGATTM
|| ||
KCGGAGCTM--
KCAG-AYGATTM
|| | | | |
KC-GGA-GCTM-
KCAG-AYGATTM
|| | | | | |
KC-GGA-GCT-M
Supongamos que queremos alinear las secuencias
KCAGAYGATTM y KCGGAGCTM.
Podemos entonces obtener tantos alineamientos como queramos. Ejemplos:
¿Cuál de estos es el mejor alineamiento?
Resumiendo
Entonces, la idea general de un alineamento es:
A) Diseñar todos los posibles alineamientos
B) Calcular un puntaje o “score” para un particular alineamiento de secuencias
C) Encontrar el alineamiento de mayor “score” entre todoslos posibles.
Como se mide el score de un alineamiento
Matrices de sustitución
Es la forma de métrica de score para alineamientos de proteínas. Se basa en que el costo de sustitución entre dos residuos de aa. depende de la probabilidad de sustitución encontrada en la naturaleza
Una matriz de sustitución refleja dos hechos relevantes:
1- La probabilidad de ocurrencia de un aminoácido2- La probabilidad de sustitución mutua de dos residuos.
Las matrices de sustitución más ampliamente usadas son:
PAM: Matriz evolutiva extrapolada (se usa en alineamientos globales).
BLOSUM: Matriz basada en clasificación por familia (preferida en alineamiento locales)
Sistema de scoring por matrices de sustitución:
Sequence 1
Sequence 2
Scoring matrix
T:G = -2 T:T = 5
PTHPLASKTQILPEDLASEDLTI
PTHPLAGERAIGLARLAEEDFGM
C S T P A G N D . .
C 9
S -1 4
T -1 1 5
P -3 -1 -1 7
A 0 1 0 -1 4
G -3 0 -2 -2 0 6
N -3 1 0 -2 -2 0 5
D -3 0 -1 -1 -2 -1 1 6
Generalidades de una matriz de sustitución
Score positivo: los aa. son frecuentemente encontrados y las sustituciones entre ellos ocurren más frecuentemente que lo esperado por el azar
Score negativo: los aa. son poco frecuentes y la sustitución de uno con otro ocurre menos frecuentemente que lo esperado por el azar
Score cero: tanto la frecuencia como la sustitución mutua de los aa. comparados ocurre igual que lo esperado por el azar
Matrices PAM
PAM: Percent Accepted Mutations.
Es una matriz derivada de la observación de como los aareemplazan a otros aa diferentes en la evolución (matrizevolutiva).
Basada en set de datos de cambios en 1,572 proteína relacionadascon similitud en torno al 85%.
Dada la similitud tan alta, se dice que estas mutaciones no debieran alterar la función y por tanto son “aceptadas” por la naturaleza
Matrices PAM
PAMXX: las distintas matrices PAM se distinguen medianteun Nº que identifica el Nº de eventos de mutación por cada 100 aa. Esto significa que mientras más grande esel Nº de la matriz PAM, más distancia evolutiva hay entrelas proteínas alineadas, es decir, tienen MENOR similitud.
Ej: PAM 250 (la más común): 20% similitudPAM 120: 40%PAM 80: 50%PAM 60: 60%
Matriz PAM 250
Esto es lo que se usa para calcular scores
Matrices BLOSUM
BLOSUM: Blocks substitution matrix
Una matriz BLOSUM contiene scores de sustitución de aa. obtenidos apartir de frecuencias de sustitución de aa observadas en bloques dealineamientos múltiples locales de proteínas relacionadas. No hayextrapolación evolutiva. Esta matriz está mejor diseñada para encontrardominios conservados.
EKPRKVMLMVRAGDVVDQFIEALLPHLEEG
EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRKILLMVKAGTATDATIQSLLPHLEKD
ETPRRILLMVKAGAGTDAAIDSLKPYLDKG
ETPRRILLMVKAGSGTDSAIDSLKPYLDKG
Fuente: Alineamientos de bloques de secuencias. Bloque Matriz cuyas filas representan
segmentos de secuencias alineadas sin interrupciones
Matrices BLOSUM
Las matrices BLOSUM suponen una muestra mucho mayor que el caso de las matrices PAM. Además, se restringe el estudio a los bloques altamente conservados de proteínas.
Una matriz BLOSUMxx significa que se usó un umbral de identidad de XX% para seleccionar las proteínas que componen el bloque utilizado. Por esta razón, un BLOSUM bajo (umbral bajo de identidad) se corresponde con un número alto de PAM (distancia evolutiva grande).
Ej: BLOSUM 62, secuencias de 62% de identidad
BLOSUM 62
A R N D C Q E G H I L K M F P S T W Y V
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
BLOSUM 62 , es la más comunmente usada
Gaps
1 RSRASARACACARACCRRSRRCASSRSRR 29
||| | | ||| | || || |
1 RSRSCRRRAARARASAACSCCRASRRSSR 29
Gaps permitidos pero no penalizados Score: 88
Gaps no permitidos Score: 10
1 RSR.ASAR.ACACARA..CCRRS..RRCASSRSRR 29
||| || | | | ||| || | | || || |
1 RSRSAS.RRA.ARARASACC..SCCR..ASRRSSR 29
Los gaps deben ser permitidos, pero penalizados.
Match = 5Mismatch = -4
Gaps
El alineamiento óptimo de dos secuencias es aquel quemaximiza el Nº de matches y minimiza el Nº de gaps.
Sin embargo, hay una “tentación” entre ambos puntos: al adicionar gaps, se reduce el Nº de mismatches
Si se permitiera la inserción arbitraria de muchos gaps podríamos obtener altos scores de alineamiento entresequencias no homólogas.
Por esta razón, al penalizar los gaps, se fuerza al alineamiento para que tenga sólo los gaps imprescindibles.
Gaps
Empiricamente, se sabe que es más costoso abrir un gap que extenderlo. Los gaps en general se encuentran más bien aislados y con una extensión de varios caracteres:
O sea, es más común la existencia de 1 gap de n caracteres que n gaps de 1 carácter
Las penalidades del tipo “Affine” gap dan gran penalidad a un nuevogap, pero una penalidad menor si hay “gap extension”.
Gaps
Affine gaps: Una función general de penalización de gaps debe cumplir:
Comúnmente se usa lo que se denomina penalidad “affine”, una función lineal pero que penaliza distinto la apertura y extensión de un gap:
γγγγ(n) = d + e (n – 1)
Valores comunes: d = -10/-12 e = -2/-4
γ(n)
extensiónapertura
Gaps
V D G D D V D V C
D V D G D G C G D V D V
Score Total : 4
Gap (parámetros):d = -3 (abrir gap)
e = -0.1(extender gap)
n = 3 (largo del gap)
γγγγ(n) = -3 - (3 -1) 0.1 = -3.2
D V D G D G C G D V D V
V D G D - - - D V D V C
inserción / deleción
match = 1mismatch = 0
Score Total : 8 - 3.2 = 4.8