algoritmos heurísticos: fasta y blast. la pd no es adecuada para buscar en bd
TRANSCRIPT
![Page 1: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/1.jpg)
Algoritmos heurísticos: FASTA y BLAST
![Page 2: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/2.jpg)
Algoritmos heurísticos: FASTA y BLAST
La PD no es adecuada para buscar en BD
![Page 3: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/3.jpg)
Algoritmos heurísticos: FASTA y BLAST
Heurística
![Page 4: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/4.jpg)
Algoritmos heurísticos: FASTA y BLAST
Un poco de historia
![Page 5: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/5.jpg)
Algoritmos heurísticos: FASTA y BLAST
![Page 6: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/6.jpg)
Algoritmos heurísticos: FASTA y BLAST
PNAS (1988) 85, 2444-2448
El artículo original
![Page 7: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/7.jpg)
Algoritmos heurísticos: FASTA y BLAST
¿Bueno bonito y barato? No existe
![Page 8: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/8.jpg)
Algoritmos heurísticos: FASTA y BLAST
Las ventajas de FASTA
Mayor sensibilidad = menos FN
Mayor selectividad = menos FP
Mayor velocidad de computación
Menor consumo de memoria
selectividad = especificidad
![Page 9: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/9.jpg)
Algoritmos heurísticos: FASTA y BLAST
El algoritmo FASTA
![Page 10: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/10.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 1: Identidad
![Page 11: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/11.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 1: Localizar k-tuplos idénticos (top ten)
Se agrupan las diagonales que estén a una cierta
distancia una de otra y, para cada secuencia de la
BD se localizan las 10 regiones con más densidad
de k-tuplos idénticos.
A partir de una secuencia problema se obtienen todos
los k-tuplos posibles mediante el método de la
ventana deslizante. Se comparan con los de las secuencias de la BD. Las
regiones idénticas aparecen como una diagonal.
IDENTIDAD
Secuencia problema
Se
cue
nci
a d
e la
BD
2 for proteins = 400 k-tuples
6 for DNA = 4096 k-tuples
![Page 12: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/12.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 2: Similitud (limitada al top ten)
![Page 13: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/13.jpg)
Algoritmos heurísticos: FASTA y BLAST
Se puntúan los top ten (init1)
SIMILITUD
Las 10 regiones con mayor densidad de k-tuplos idénticos
seleccionadas en la etapa anterior se vuelven a puntuar, esta vez utilizando una matriz
de sustitución. Esta puntuación es la variable init1.
Se identifican las subregiones que obtienen una mayor
puntuación (las denominadas regiones iniciales).
La región inicial con mayor valor init1 aparece marcada
con un asterisco.
![Page 14: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/14.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 3: Unión de regiones iniciales (con huecos)
![Page 15: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/15.jpg)
Algoritmos heurísticos: FASTA y BLAST
FASTA intenta unir las regiones iniciales cuya puntuación supera un
determinado cutoff.
Se vuelven a puntuar las regiones unidas
penalizando los huecos creados. Esta puntuación
se denomina initn y permite hacer un ranking con las
secuencias de la BD.
Las secuencias que superen cierto umbral de
puntuación initn pasan a la cuarta etapa
Puntuación initn y ranking de secuencias
![Page 16: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/16.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 4: Programación dinámica “bandeada”
![Page 17: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/17.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 4: Alineamiento óptimo “bandeado” (opt)
Se utiliza un algoritmo de PD modificado (SW
bandeado) para alinear la secuencia problema con la
secuencia de la BD. El alineamiento se limita a una estrecha banda centrada en
el segmento init1 y que engloba a las diagonales de
mayor puntuación.
La puntuación de este alineamiento es el
parámetro opt, con el que se hace un ranking de
alineamientos. También se determina su significación
estadística (E-value).
![Page 18: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/18.jpg)
Algoritmos heurísticos: FASTA y BLAST
PD bandeada
Etapa nº 1
SIMILITUD
IDENTIDAD
Etapa nº 2
Los 10 mejores
init1
UNIÓN (gaps)Etapa nº 3 initn
Etapa nº 4 opt + E-value
ResultadoOperación
Las cuatro etapas de FASTA
![Page 19: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/19.jpg)
Algoritmos heurísticos: FASTA y BLAST
http://www.ebi.ac.uk/Tools/sss/fasta/
![Page 20: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/20.jpg)
Algoritmos heurísticos: FASTA y BLAST
Variantes del programa FASTA
![Page 21: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/21.jpg)
Algoritmos heurísticos: FASTA y BLAST
http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml
![Page 22: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/22.jpg)
Algoritmos heurísticos: FASTA y BLAST
![Page 23: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/23.jpg)
Algoritmos heurísticos: FASTA y BLAST
J. Mol. Biol. (1990), 403-410
BLAST1
![Page 24: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/24.jpg)
Algoritmos heurísticos: FASTA y BLAST
Aplicaciones de BLAST
![Page 25: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/25.jpg)
Algoritmos heurísticos: FASTA y BLAST
1.- Procesamiento previo de la secuencia problema
![Page 26: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/26.jpg)
Algoritmos heurísticos: FASTA y BLAST
Se descompone la secuencia problema en “palabras”
Mediante el método de la “ventana deslizante” se descompone la secuencia problema en
“palabras”. El parámetro W (word size) determina el número de caracteres de las palabras.
Habitualmente, para proteínas W = 3 y para ADN W = 11
Al aumentar W se gana velocidad a costa de perder
sensibilidad
![Page 27: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/27.jpg)
Algoritmos heurísticos: FASTA y BLAST
A cada palabra se le asocian “vecinas” (neighbors)
Se puntúa cada palabra aplicando una matriz de sustitución. Sólo se tendrán en cuenta las
palabras cuya puntuación supere un valor T.
Al aumentar T se gana velocidad a costa de perder
sensibilidad
![Page 28: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/28.jpg)
Algoritmos heurísticos: FASTA y BLAST
Con cada palabra se elabora una lista de “palabras parecidas”
Resultado de la primera etapa de BLAST
![Page 29: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/29.jpg)
Algoritmos heurísticos: FASTA y BLAST
2.- Se buscan coincidencias en las secuencias de la BD
![Page 30: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/30.jpg)
Algoritmos heurísticos: FASTA y BLAST
Coincidencias (word hits) entre dos secuencias
![Page 31: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/31.jpg)
Algoritmos heurísticos: FASTA y BLAST
Un valor de T elevado disminuye la sensibilidad (se reduce le número de “hits” y
se puede perder algún alineamiento significativo) pero aumenta la velocidad.
Un valor de W pequeño aumenta la sensibilidad pero
disminuye la velocidad.
Efecto de los parámetros W (word size) y T (threshold)
Una selección adecuada de W, T y la matriz de
puntuación permite controlar de manera eficaz la
sensibilidad y la rapidez del algoritmo
![Page 32: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/32.jpg)
Algoritmos heurísticos: FASTA y BLASTBLAST1 intenta extender el alineamiento a ambos lados de cada coincidencia (sin dejar huecos), utilizando una variante del algoritmo de Smith-Waterman.
Etapa nº 3: extensión de las “coincidencias” (hits)
![Page 33: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/33.jpg)
Algoritmos heurísticos: FASTA y BLAST
¿Cuándo se detiene la extensión? → el parámetro X
Caída (X) = 5 (se para y retrocede hasta el valor máximo)
Caída (X) = 2 (sigue)
Máximo = 9
![Page 34: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/34.jpg)
Algoritmos heurísticos: FASTA y BLAST
Selección de los HSP (high scoring pairs)
![Page 35: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/35.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 4: ranking de HSP (en función del valor E)
SKmneE
![Page 36: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/36.jpg)
Algoritmos heurísticos: FASTA y BLAST
El valor E
![Page 37: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/37.jpg)
Algoritmos heurísticos: FASTA y BLAST
Nucleic Acids Res. 25:3389-3402 (1997)
BLAST2
![Page 38: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/38.jpg)
Algoritmos heurísticos: FASTA y BLAST
Etapa nº 3: algoritmo de la “doble coincidencia”
BLAST-2 utiliza el algoritmo de la doble coincidencia (two-hit algorithm): una
palabra sólo se extiende (sin huecos) si existe otra en la
misma diagonal a una distancia menor que A. El valor del parámetro A lo
establece el usuario.
Esta extensión genera una serie de
alineamientos con una puntuación
elevada (HSP, high scoring pairs)
![Page 39: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/39.jpg)
Algoritmos heurísticos: FASTA y BLAST
Este requisito reduce la sensibilidad del
método (se extienden menos palabras). Esta
circunstancia se puede compensar disminuyendo el parámetro T (el
umbral de puntuación que se utiliza en la primera
etapa para generar la lista de “palabras
parecidas”).
Se reduce T para compensar la menor sensibilidad
+ (T = 13)
• (T = 11)
![Page 40: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/40.jpg)
Algoritmos heurísticos: FASTA y BLAST
Se hace una extensión con huecos en los mejores HSP
![Page 41: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/41.jpg)
Algoritmos heurísticos: FASTA y BLAST
Subsecuencia del HSP de 11 caracteres con la
máxima puntuación
Residuo central de Alanina donde comienza, en ambas direcciones, el
alineamiento local con huecos
¿Dónde empieza el alineamiento con huecos?
![Page 42: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/42.jpg)
Algoritmos heurísticos: FASTA y BLAST
¿Dónde acaba el alineamiento con huecos?
El alineamiento local con huecos se lleva a cabo en ambas direcciones siempre y cuando la máxima puntuación alcanzada no se reduzca en un valor superior a Xg.
![Page 43: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/43.jpg)
Algoritmos heurísticos: FASTA y BLAST
Los alineamientos se muestran en función del valor E (ordenados de menor a mayor). El valor E indica el número de veces que uno esperaría encontrar por puro azar un alineamiento con una puntuación igual o mayor en una BD de
igual tamaño y composición.
Los resultados se ordenan en función del valor E
![Page 44: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/44.jpg)
Algoritmos heurísticos: FASTA y BLAST
NCBI-BLAST
http://blast.ncbi.nlm.nih.gov/Blast.cgi
![Page 45: Algoritmos heurísticos: FASTA y BLAST. La PD no es adecuada para buscar en BD](https://reader035.vdocuments.site/reader035/viewer/2022081506/5665b4271a28abb57c8f951d/html5/thumbnails/45.jpg)
Algoritmos heurísticos: FASTA y BLAST
http://www.ebi.ac.uk/Tools/sss/wublast/
WU-BLAST