curso teórico-práctico de posgrado herramientas informáticas para el análisis estructural

20
Posgrado Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas ALINEAMIENTO MÚLTIPLE DE SECUENCIAS ALINEAMIENTO MÚLTIPLE DE SECUENCIAS CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS 2006 Nancy I. López

Upload: marci

Post on 18-Mar-2016

44 views

Category:

Documents


0 download

DESCRIPTION

Curso Teórico-Práctico de Posgrado Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas. ALINEAMIENTO MÚLTIPLE DE SECUENCIAS CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS. 2006. Nancy I. López. ALINEAMIENTO DE SECUENCIAS. - PowerPoint PPT Presentation

TRANSCRIPT

Curso Teórico-Práctico de Posgrado  

  Herramientas informáticas

para el análisis estructural de ácidos nucleicos y

proteínasALINEAMIENTO MÚLTIPLE DE SECUENCIASALINEAMIENTO MÚLTIPLE DE SECUENCIAS

CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOSCONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS

2006

Nancy I. López

ALINEAMIENTO DE SECUENCIASALINEAMIENTO DE SECUENCIAS Comparación alineamiento de a pares.

Alineamiento múltiple comparando varias secuencias relacionadas   Utilidad . Destacar regiones de similitud, divergencia o mutaciones

. Motivos, estructura y función en proteínas. Resaltar errores en la predicción de la secuencia de proteínas o en la secuencia misma

. Seleccionar primers de una familia de genes.

. Realizar análisis evolutivos (filogenia) árboles filogenéticos  

Cómo obtener los mejores alineamientos 

Homología. 

Fragmentos que compartan regiones comunes o secuencia completa.  Estructura / Secuencia?

Editar manualmente. 

Alineamientos múltiples

La premisa básica de un alineamiento múltiple es que para cada columna en el alineamiento cada residuo de cada secuencia es homólogo. Esto significa que ha evolucionado desde la misma posición en una secuencia ancestral común sin inserción ni deleción.

información sobre estructura y función de proteínas modo de evoluciónfilogenia. En el caso de la filogenia molecular el resultado del análisis dependerá del alineamiento previo. Inspeccionar cuidadosamente ese alineamiento para ver que se incluye y que no.

En caso de utilizar genes que codifican proteínas: usar secuencia de proteínas o de DNA.

Agrupación (clustering) es uno de los más utilizados. Alineamientos óptimos requieren programas de computación.

Programa CLUSTALPrograma CLUSTALalineamiento global para un conjunto de secuencias Las secuencias son alineadas de a pares y los pares con puntaje (score) más alto son luego agrupados con otras secuencias y los grupos (clusters) son armados de acuerdo a la similitud. Árbol guía no da información filogenética. Secuencias similares más cercanas en el árbol (archivo.dnd)Alineamiento múltiple constituye un paso fundamental. Hasta 1989 alineamientos a mano. ClustalW –ClustalX

BioEdit

Métodos utilizados para realizar Métodos utilizados para realizar alineamientosalineamientos

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS ALINEAMIENTO MÚLTIPLE DE SECUENCIAS UTILIZANDO EL PROGRAMA CLUSTALWUTILIZANDO EL PROGRAMA CLUSTALW

1. Secuencias en un archivo común en un formato compatible.Nombre >abcFormato FASTA

Genebank

2. Pegar archivo 3. Seleccionar opciones

MatricesDNA identity matrixGonnet 250

SeqA Name Len(aa) SeqB Name Len(aa) Score ============================================================================= 1 Ps.putida 304 2 Ps.fluorescensPfO-1 304 82 1 Ps.putida 304 3 Acinetobacter 311 52 1 Ps.putida 304 4 Ralstonia 307 50 2 Ps.fluorescensPfO-1 304 3 Acinetobacter 311 54 2 Ps.fluorescensPfO-1 304 4 Ralstonia 307 50 3 Acinetobacter 311 4 Ralstonia 307 52 ============================================================================= Alineamiento múltiple (basado en secuencia de proteínas-Fragmento) Ps.putida MTVNISHTAEVQQFFEQAAGFCNAAGNPRLKRIVQRLLQDTARLIEDLDISEDEFWHAVD 60 Ps.fluorescensPfO-1 MTVKIAHTAELQKFFEEAAGFANDGGSSRLKTIVLRVLQDTARIIEDLEISEDEFWKAVD 60 Acinetobacter MEVKIFNTQDVQDFLRVASGLEQEGGNPRVKQIIHRVLSDLYKAIEDLNITSDEYWAGVA 60 Ralstonia MTHAEIEALAKQFIVDTAT---QGTANARVQQVVLRLTTDLFKAIEDLDLSQSEVWKGIE 57 * .: * :. *: : ...*:: :: *: * : ****:::..* * .: Ps.putida YLNRLGGRGEAGLLVAGLGIEHFLDLLQDAKDQEAGRVGGTPRTIEGPLYVAGAPIAQGE 120 Ps.fluorescensPfO-1 YLNRLGGCSEAGLLVAGLGLEHFLDLLQDAKDAQIGLTGGTPRTIEGPLYVAGAPLYEGE 120 Acinetobacter YLNQLGANQEAGLLSPGLGFDHYLDMRMDAEDAALGIENATPRTIEGPLYVAGAPESVGY 120 Ralstonia YMAEAGATQELGLLAAGLGLERFLDVRADEADAKAGISGGTPRTIEGPLYVAGAPESKGF 117 *: . *. * *** .***::::**: * * * ..*************** *

Resultados del alineamiento múltiple de 4 proteínas

Árbol guía

Archivo de datos

>s1GCTCGGTATGTTGGTCGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAAA...............>s2GAcACTGCCCTCCCGATGCAGGGAAAAATCGGCGCCATTGTCGATCAATGAGCAGTAACGAACAAAATGC................>s3GCAAAGCgCacTTcAaATCaGGGCTCGACATCATCaCATAGCCCAccACGTCGTAAATgCCCGGCTTGACCAG.....

 Árbol filogenético 1° alineamiento múltiple. Árbol obtenido dependiente de este alineamiento. Árbol estructura matemática que se usa para modelar la historia evolutiva de un grupo de secuencias o de organismos.

Árboles . se pueden graficar de cualquier manera

. complejidad rotación (todas las ramas pueden rotar alrededor del plano de sus nodos árboles =)

.crecen de izquierda a derecha

. etiquetas son horizontales.

Construcción de árboles filogenéticosFilogenia es la ciencia de estimar el pasado evolutivo. Filogenia molecular basada en comparación de secuencias de proteínas o de DNA.

Construcción de árboles filogenéticos

1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos microorganismos

2. Alinear correctamente esas secuencias

3. Aplicar métodos adecuados para la construcción de árboles filogenéticos

4. Evaluar estadísticamente el árbol filogenético obtenido

NodosRamas Nodos terminales:OTUs (Datos)Nodos internos:antecesores hipotéticos

Raiz: nodo del cual los otros descienden. Da dirección

Patrón de ramificación:topología

Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2

Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3

Number of Taxa

Number of unrooted trees

Number of rooted trees

3 1 34 3 155 15 1056 105 9457 945 103958 10395 1351359 135135 2027025

10 2027025 34459425

NNrr para n = N para n = Nuu para para n+1n+1

Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo evolutivo. Filograma: contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo. Es aditivo. Métricos. Dendrograma: tipo especial de árbol aditivo en el cual los extremos del árbol son equidistantes de la raíz y son proporcionales al tiempo de divergencia. Ultramétricos. 

Métodos para la construcción de árboles filogenéticosMétodos de distanciaMétodos de distanciaUtilizan matrices de distancia

UPGMA: Unweighted Pair Group Method with Arithmetic Mean.

NJ-Neighbour Joining. Vecino más cercano

Minimum evolution. Utiliza el método de cuadrados mínimos.

Métodos discretosMétodos discretosOperan directamente con las secuenciasOperan directamente con las secuencias

Parsimonia: usa un carácter. Criterio: buscar el menor número de cambios evolutivos requeridos

Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia

Sitios

1 2 3 4 5 6 7 1 T T A T T A A

2 A A T T T A A3 A A A A A T A 4 A A A A A A T

Distancias  1 0

2 3 03 5 4 0

4 5 4 2 0___________ 1 2 3 4

Matriz de distanciasSe

cuen

cias

Diferencia o divergencia entre las secuencias

.- Rápidos

.- información restringida al árbol

Métodos discretosAnalizan cada columna dentro del alineamiento y construyen el mejor árbol que se ajusta a esa condición

.- lentos

.- ricos en información. Hipótesis para cada columna dentro del alineamiento. Puede obtenerse información sobre evolución de sitios específicos en la molécula (Ej.: sitios catalíticos o regiones regulatorias).

Cómo comparar diferentes métodos de construcción de árboles?

Eficiencia : rapidez“potencia”: número de datos requeridos para obtener resultados razonables Consistencia Robustez: sensibilidad a desviaciones Información sobre si los supuestos son violados.

METODO IDEAL DEBERIA CUMPLIR LOS 5 METODO IDEAL DEBERIA CUMPLIR LOS 5 CRITERIOS PERO NO EXISTECRITERIOS PERO NO EXISTE

Probar árboles con más de un método

4. Evaluación estadística del árbol filogenético obtenido

El test más simple para probar si el conjunto de datos “soportan” el árbol obtenido es el del bootstrap.

Es un método estadístico que puede estimar las distribuciones por creación repetida y análisis de conjuntos de datos artificiales.

Una forma de medir el error de muestreo es tomar muchas muestras de la población estudiada y compararlas. Bootstrap simula esto pero en lugar de muestrear de una población “remuestrea” los datos originando pseudorréplicas.

Valores de bootstrap ( %). > 50 %.

ProgramasClustalW Alineamiento

Graficar con Treeview, PhylodrawNJ-PlotPHYLIPMEGA 3.1 Es el más fácil de manejarPAUP* (POP STAR). Es el más

sofisticado y versátil

TRABAJO PRÁCTICO1. Tutorial de ClustalW  

Secuencias simples  

Alineamiento múltiple. Analizar. Observar árbol guía.

ClustalW para construir el árbol. Modificar opciones en la ventana “Phylogenetic tree”. Método utilizado por el programa es el del NJ-Vecino más cercano (Neighbour Joining). Elegir entre los posibles formatos de árbol (Neighbour, Phylip, Distance)

Con el archivo obtenido del CLustalW (. ph)entrar en el programa Treeview y graficar el árbol. Observar distintos tipos de árboles. Definir el outgroup