© copyright ebiointel,sl 2006 alineamiento múltiple identificación de regiones conservadas...
Post on 22-Jan-2016
230 Views
Preview:
TRANSCRIPT
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
•Identificación de regiones conservadas•Predicción de estructuras y funciones•Diseño de experimentos para probar y modificar funciones de proteínas concretas•Identificación de nuevos miembros de una familia de proteínas
Comparación múltiple de secuencias
1 2 3 4 5 6 7 8 9 10
I Y D G G A V - E A L
II Y D G G - - - E A L
III F E G G I L V E A L
IV F D - G I L V Q A V
V Y E G G A V V Q A L
Cons y d G G A/I V/L V e A l
Alineamiento múltiple = Tabla 2D
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Comparación múltiple de secuencias
FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL KTELSFALVNRKPVV PGHVLV...
APH1_SCHPO -----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL PGHVLV...
HNT2_YEAST MILSKTKKPKSMNKP IYFSKFLVT-EQVFY KSKYTYALVNLKPIV PGHVLI...
Y866_METJA -----------MCIF CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV...
Un método de alineamiento múltiple verdadero, debería alinear todas las secuencias al mismo tiempo.
Pero no existe un método computacional que pueda realizar esto en tiempo razonable
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
• Usando Prgramación dinámica en una matriz tridimensional• Objetivo: encontrar el camino óptimo
Cómo se resuelve un alineamiento múltiple de 3 secuencias?
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Complejidad del algoritmo de Programación Dinámica (PD)
• El número de comparaciones que el PS tiene debe realizar para llenar la matriz (sin usar heurísticas y excluyendo gaps) es el producto de las longitudes de las dos secuencias (N x M)
• La complejidad del algoritmo crece en forma exponencial con el número de secuencias
Alinear dos secuencias de 300 nt implica realizar 300 x 300 = 90,000 comparaciones
Alinear tres secuencias de 300 nt implica realizar 300 x 300 x 300 = 27,000,000 comparaciones!!
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Aproximaciones al algoritmo de Programación Dinámica
• Alinear todas las secuencias por pares• Usar los scores para construir un árbol• Alinear progresivamente (siguiendo el orden
que sugiere el árbol) todas las secuencias para producir un Alineamiento Múltiple
No es un verdadero Alineamiento MúltipleLas secuencias se alinean por pares
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Clustal WThompson J.D., Higgins D.G., Gibson T.J. (1994)"CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."; Nucleic Acids Res. 22:4673-4680
Programa de alineamiento múltiple
Alineamiento progresivo
© Copyright Ebiointel,SL 2006
Alineamiento múltipleClustal WThompson J.D., Higgins D.G., Gibson T.J. (1994)"CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice."; Nucleic Acids Res. 22:4673-4680
Estrategia generalAlineamiento rápido
• obtención de las mejores parejas• análisis de clusters• creación de un árbol guía
Alineamiento múltiple• se utiliza el árbol guía anterior• optimización alineamiento de los pares más próximos• introducción de gaps para mejorar el alineamiento• alineamiento de las parejas• optimización mediante inclusión de nuevos gaps
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Opciones Generales Clustal WYOUR EMAIL SEARCH TITLE CPU MODE
clustalw_mp - multiprocessor SGI systems. clustalw - genérico (CPU simple)
ALIGNMENTPermite realizar alineamientos completos utilizando algoritmos restrictivos que generan un árbol guía o algoritmos más rápidos.
OUTPUT Formato del resultado (ALN, GCG, PHYLIP, PIR and GDE)
OUTORDER Orden de las secuencias
COLOR Muestra el alineamiento en colores (solo en formatos ALN or GCG)
AVFPMILW
RED Small (small+ hydrophobic (incl.aromatic -Y))
DE BLUE Acidic
RHK MAGENTA
Basic
STYHCNGQ
GREEN Hydroxyl + Amine + Basic - Q
Others Gray
Línea consenso
•"*" = residuos idénticos o conservados en todas las secuencias
•":" = sustituciones conservadas
•"." = sustituciones semi-conservadas.
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Opciones FAST PAIRWISE
ALIGNMENT
Opciones MULTIPLE ALIGNMENT
KTUP Tamaño de la palabra
WINDOW Tamaño de la ventana
SCORE Valoración a considerar al calcular el apareamiento
TOPDIAG Número de top diagonal que se integraran al calcular el apareamiento
PAIRGAP Penalización de la abertura de gaps
MATRIX
GAPOPEN Penalización por la abertura de un gap
ENDGAP Penalización por el cierre de un gap
GAPEXT Penalización por la extensión de un gap
GAPDIST Penalización por la separación de gaps
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Clustal W (EBI)
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Formato secuencias para Clustal W
Formato FASTA >FOSB_HUMAN P53539 homo sapiens (human). fosb protein MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPVVDPYDMPGTSYSTPGMSGYSSGGASGSGGPSTSGTTSGPGPARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRDLPGSAPAKEDGFSWLLPPPPPPPLPFQTSQDAPPNLTASLFTHSEVQVLGDPFPVVNPSYTSSFVLTCPEVSAFAGAQRTSGSDQPSDPLNSPSLLAL>FOSB_MOUSE P13346 mus musculus (mouse). fosb protein. MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTVTAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGASGSGGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNRRRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPLAEVRDLPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNLTASLFTHSEVQVLGDPFPVVSPSYTSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPSLLAL
Eliminar espacios entre
secuencias
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Resultados
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Resultados JalView
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Resultados Clustal W (.dnd)
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Árboles Phylodendron Phylogenetic tree printer
© Copyright Ebiointel,SL 2006
Alineamiento múltiple
Práctica ClustalW - Primers
Diseño primers• Realizar una traducción reversa de los primers en la Sequence Manipulation Suite de la Univ de Alberta
• Mediante las tablas de uso de codones, disminuir la degeneración de los primers adaptándolos al uso del Microorganismo problema
Comparación múltiple• Abrir una sesión Clustal W• Fija los parámetros e introduce las secuencias usando el archivo múltiple al que hemos añadido todas las secuencias a alinear. • Ejecutar Clustal W• Visualizar los resultados• Identificar y almacenar les regiones conservadas (primers)
Árboles• Visualizar el archivo .dnd con Phylodendron (o TreeView local)• Variar la topología del árbol enraizándolo a un outgroup arbitrario
top related