1 - evolucion proteinas-teoria alineamiento

Relaciones evolutiva entre proteínas

Evolución de secuencias de proteínas

¿Qué fenómenos hacen que las secuencias de proteínas “cambien”en el tiempo (evolucionen)?

MUTACIONES:

-Inserciones-Deleciones-Sustituciones

El resultado de estos procesos produce secuencias HOMÓLOGAS

HOMOLOGÍA: Se dice que dos secuencias son homólogas cuando derivan de un ancestro común. Es una característica cualitativa.

Sec. ancestral

Sec. 2 Sec. 1

Sec. 4 Sec. 5 Sec. 6Sec. 3 Sec. 7X

X

X

Tipos de homología de secuencias

Homólogos: secuencias similares en 2 organismos diferentesderivadas de una secuencia ancestro común.

Ortólogos: secuencias similares en 2 organismos diferentes queconvergen debido a un evento de especiación. Retienen la mismafunción.

Parálogos: secuencias similares en un mismo organismo queconvergen debido a un evento de duplicación génica. En teoría, inicialmente debieran retener función, pero con el paso del tiempo muchas veces no es así debido a la diferencia en mutación/selección sobre la copia duplicada del gen, la que puede adquirir nuevas funciones o perderlas.

Conceptos parecidos pero distintos

Identidad: Cuando en una secuencia, los residuos de una misma posición son iguales.

Similitud: Es una característica cuantitativa, que indica que tan parecida es una secuencia respecto a otra.

Por tanto, para ser homólogas, dos secuencias deben ser similares, pero no necesariamente a la inversa.

Tipos de homología de secuencias

Superposición de estructuras de proteínas de distinto origen

-Las proteínas evolucionan, variando su secuencia y estructura

-Las variaciones (evolución) en la secuencia determinan el parecido estructural (y la función??)

RMSD (Root mean squaredeviation): es una medida de la similitud estructural entre dos proteínas. Es la distancia cuadrática media entre los átomos, usualmente el carbono α. A menor RMSD, mayor es la similitud estructural.

Pregunta..

-Conociendo las características de los ortólogos y parálogos

-Conociendo que las proteínas evolucionan

Ud esperaría:

a) Que los ortólogos evolucionaran más libremente (con menos restricciones) que los parálogos

b) Que los parálogos evolucionaran más libremente (con menos restricciones) que los ortólogos

c) Que evolucionen igual (la evolución es la evolución, y punto…)

Respuesta…

Seminario 1

-¿Existirán restricciones a la evolución de proteínas?

-Si así fuera, se relacionan con aspectos estructurales y funcionales de las proteínas???

-Las proteínas que debieran adquirir nuevas funciones, ¿¿serían más o menos libres de evolucionar???

Excepciones

Evolución independiente de proteínas

Este fenómeno es distinto a la relación de homología.

Puede dar como resultado distintos tipos de “convergencias”

Evolución independiente que genera convergencia funcional

Genera proteínas que pueden tener la misma función, pero que no provienen de un ancestro común. Esto se refleja porque provienen de genes distintos, no tienen ninguna similitud de secuencia y cambian mecanismos de reacción. Caso clásico: enzimas del tipo glicosil hidrolasas.

Esta situación lleva a la clasificación de FAMILIAS DE PROTEÍNAS

Gen 1 Gen 2

Evolucion

MISMA FUNCIÓNDISTINTA ESTRUCTURADISTINTO MECANISMO

Inversión(un desplazamiento)

Retención (doble desplazamiento)

Evolución independiente que genera convergencia ESTRUCTURAL

Genera proteínas que pueden tener la misma estructura, a pesar de provenir desecuencias que no provienen de un ancestro común.

Estos casos son extremadamente raros, y generalmente no afectan toda la estructura de la proteína, si no que parte de ella. Es una estrategia común en virus, los cuales “imitan” estructuras de proteínas del hospedero

Gen 1 Gen 2

Evolucion

MISMA ESTRUCTURA

DISTINTA FUNCIÓN

¿Cómo podemos analizar las relaciones entre secuencias de proteínas homólogas?

La principal herramienta (y de la cual derivan todo el resto) esel ALINEAMIENTO DE SECUENCIAS.

¿Qué es un alineamiento de secuencias?

Es la comparación de secuencias mediante el apareamiento de residuos.

Ejemplo:

Proteínas – caracteres pertenecen a “alfabeto” de 20 letras

VLSPADKTNVKAAWGKVGAHAGEYG

VLSEGEWQLVLHVWAKVEADVAGHG

¿Qué información podemos obtener de un alineamiento de secuencias?

Ya que asumimos que dos secuencias biológicas similares tienden a estar relacionadas, podemos obtener información de tipo:

-Evolutiva (estudios de homología propiamente tal)

-Funcional (si las secuencias se relacionan en lugares específicos como el sitio activo, podemos inferir función)

-Estructural

Estrategia general de alineamientoEn general, hay tres posibilidades por cada posición del

alineamiento, las cuales se acepta que se corresponden con los sucesos evolutivos ocurridos:

-Coincidencia de caracteres (match: no ocurrió mutación)

-No coincidencia de caracteres (mismatch: ocurrieron una o más mutaciones)

-Inserción/Deleción: (gap: ocurrió una inserción en unasecuencia o una deleción en la otra)

La “cuantificación” y validación estadística de esos cambios permitirá definir si es que existe relación evolutiva entre las proteínas analizadas o no.

KCAG-AYG-ATTM

|| | | | | |

KC-GGA-GC-T-M

KCAGAYGATTM

|| ||

KCGGAGCTM--

KCAG-AYGATTM

|| | | | |

KC-GGA-GCTM-

KCAG-AYGATTM

|| | | | | |

KC-GGA-GCT-M

Supongamos que queremos alinear las secuencias

KCAGAYGATTM y KCGGAGCTM.

Podemos entonces obtener tantos alineamientos como queramos. Ejemplos:

¿Cuál de estos es el mejor alineamiento?

Resumiendo

Entonces, la idea general de un alineamento es:

A) Diseñar todos los posibles alineamientos

B) Calcular un puntaje o “score” para un particular alineamiento de secuencias

C) Encontrar el alineamiento de mayor “score” entre todoslos posibles.

Como se mide el score de un alineamiento

Matrices de sustitución

Es la forma de métrica de score para alineamientos de proteínas. Se basa en que el costo de sustitución entre dos residuos de aa. depende de la probabilidad de sustitución encontrada en la naturaleza

Una matriz de sustitución refleja dos hechos relevantes:

1- La probabilidad de ocurrencia de un aminoácido2- La probabilidad de sustitución mutua de dos residuos.

Las matrices de sustitución más ampliamente usadas son:

PAM: Matriz evolutiva extrapolada (se usa en alineamientos globales).

BLOSUM: Matriz basada en clasificación por familia (preferida en alineamiento locales)

Sistema de scoring por matrices de sustitución:

Sequence 1

Sequence 2

Scoring matrix

T:G = -2 T:T = 5

PTHPLASKTQILPEDLASEDLTI

PTHPLAGERAIGLARLAEEDFGM

C S T P A G N D . .

C 9

S -1 4

T -1 1 5

P -3 -1 -1 7

A 0 1 0 -1 4

G -3 0 -2 -2 0 6

N -3 1 0 -2 -2 0 5

D -3 0 -1 -1 -2 -1 1 6

Generalidades de una matriz de sustitución

Score positivo: los aa. son frecuentemente encontrados y las sustituciones entre ellos ocurren más frecuentemente que lo esperado por el azar

Score negativo: los aa. son poco frecuentes y la sustitución de uno con otro ocurre menos frecuentemente que lo esperado por el azar

Score cero: tanto la frecuencia como la sustitución mutua de los aa. comparados ocurre igual que lo esperado por el azar

Matrices PAM

PAM: Percent Accepted Mutations.

Es una matriz derivada de la observación de como los aareemplazan a otros aa diferentes en la evolución (matrizevolutiva).

Basada en set de datos de cambios en 1,572 proteína relacionadascon similitud en torno al 85%.

Dada la similitud tan alta, se dice que estas mutaciones no debieran alterar la función y por tanto son “aceptadas” por la naturaleza

Matrices PAM

PAMXX: las distintas matrices PAM se distinguen medianteun Nº que identifica el Nº de eventos de mutación por cada 100 aa. Esto significa que mientras más grande esel Nº de la matriz PAM, más distancia evolutiva hay entrelas proteínas alineadas, es decir, tienen MENOR similitud.

Ej: PAM 250 (la más común): 20% similitudPAM 120: 40%PAM 80: 50%PAM 60: 60%

Matriz PAM 250

Esto es lo que se usa para calcular scores

Matrices BLOSUM

BLOSUM: Blocks substitution matrix

Una matriz BLOSUM contiene scores de sustitución de aa. obtenidos apartir de frecuencias de sustitución de aa observadas en bloques dealineamientos múltiples locales de proteínas relacionadas. No hayextrapolación evolutiva. Esta matriz está mejor diseñada para encontrardominios conservados.

EKPRKVMLMVRAGDVVDQFIEALLPHLEEG

EKPRKIFLMVTAGKPVDSVIQSLKPLLEEG

ETPRKILLMVKAGTATDATIQSLLPHLEKD

ETPRKILLMVKAGTATDATIQSLLPHLEKD

ETPRRILLMVKAGAGTDAAIDSLKPYLDKG

ETPRRILLMVKAGSGTDSAIDSLKPYLDKG

Fuente: Alineamientos de bloques de secuencias. Bloque Matriz cuyas filas representan

segmentos de secuencias alineadas sin interrupciones

Matrices BLOSUM

Las matrices BLOSUM suponen una muestra mucho mayor que el caso de las matrices PAM. Además, se restringe el estudio a los bloques altamente conservados de proteínas.

Una matriz BLOSUMxx significa que se usó un umbral de identidad de XX% para seleccionar las proteínas que componen el bloque utilizado. Por esta razón, un BLOSUM bajo (umbral bajo de identidad) se corresponde con un número alto de PAM (distancia evolutiva grande).

Ej: BLOSUM 62, secuencias de 62% de identidad

BLOSUM 62

A R N D C Q E G H I L K M F P S T W Y V

A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3

N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3

D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3

C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1

Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2

E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2

G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3

H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1

K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2

M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2

S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2

T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3

Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1

V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4

BLOSUM 62 , es la más comunmente usada

Gaps

1 RSRASARACACARACCRRSRRCASSRSRR 29

||| | | ||| | || || |

1 RSRSCRRRAARARASAACSCCRASRRSSR 29

Gaps permitidos pero no penalizados Score: 88

Gaps no permitidos Score: 10

1 RSR.ASAR.ACACARA..CCRRS..RRCASSRSRR 29

||| || | | | ||| || | | || || |

1 RSRSAS.RRA.ARARASACC..SCCR..ASRRSSR 29

Los gaps deben ser permitidos, pero penalizados.

Match = 5Mismatch = -4

Gaps

El alineamiento óptimo de dos secuencias es aquel quemaximiza el Nº de matches y minimiza el Nº de gaps.

Sin embargo, hay una “tentación” entre ambos puntos: al adicionar gaps, se reduce el Nº de mismatches

Si se permitiera la inserción arbitraria de muchos gaps podríamos obtener altos scores de alineamiento entresequencias no homólogas.

Por esta razón, al penalizar los gaps, se fuerza al alineamiento para que tenga sólo los gaps imprescindibles.

Gaps

Empiricamente, se sabe que es más costoso abrir un gap que extenderlo. Los gaps en general se encuentran más bien aislados y con una extensión de varios caracteres:

O sea, es más común la existencia de 1 gap de n caracteres que n gaps de 1 carácter

Las penalidades del tipo “Affine” gap dan gran penalidad a un nuevogap, pero una penalidad menor si hay “gap extension”.

Gaps

Affine gaps: Una función general de penalización de gaps debe cumplir:

Comúnmente se usa lo que se denomina penalidad “affine”, una función lineal pero que penaliza distinto la apertura y extensión de un gap:

γγγγ(n) = d + e (n – 1)

Valores comunes: d = -10/-12 e = -2/-4

γ(n)

extensiónapertura

Gaps

V D G D D V D V C

D V D G D G C G D V D V

Score Total : 4

Gap (parámetros):d = -3 (abrir gap)

e = -0.1(extender gap)

n = 3 (largo del gap)

γγγγ(n) = -3 - (3 -1) 0.1 = -3.2

D V D G D G C G D V D V

V D G D - - - D V D V C

inserción / deleción

match = 1mismatch = 0

Score Total : 8 - 3.2 = 4.8

1 - evolucion proteinas-teoria alineamiento

Documents