a plicaciones de d ata m ining en c iencia y t e cnología bioinformática
DESCRIPTION
A plicaciones de D ata M ining en c iencia y t e cnología Bioinformática. Marcelo A. Soria ([email protected]) Maestria en Data Mining. DC-FCEN. Algunas preguntas …. ¿Qúe es la bioinformática? ¿Cuáles son los campos de aplicación? ¿Bioinformática o Biología Computacional?. - PowerPoint PPT PresentationTRANSCRIPT
Aplicaciones de Data Miningen ciencia y tecnología
Bioinformática
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
¿Qúe es la bioinformática?
¿Cuáles son los campos de aplicación?
¿Bioinformática o Biología Computacional?
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Algunas preguntas …
Bioinformática➢ La recolección organización y análisis de grandes
cantidades de datos biológicos➢ El uso de computadoras para resolver problemas
infomacionales en biología
Data mining➢ El proceso de analizar datos para identificar patrones
o relaciones➢ El análisis de grandes cantidades de datos para
extraer información
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Las dos disciplinas comparten técnicas y procedimientos
Una introducción a la biología (¡En una hora y algo!). Parte 1
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
➢ Interacción con el medio ambiente y con otros sistemas biológicos
➢ Autoreproducción➢ Para sobrevivir, desarrollarse y dejar descendencia un
ser vivo debe llevar a cabo un número enorme de reacciones químicas coordinadas
Los sistemas biológicos se distinguen de otros sistemas por ciertas características claves:
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
El dogma central de la biología molecular
ADN ADN
Replicación
ARN
Transcripción Transcripciónreversa
proteinas
Traducción
El ADN es el principal material genético en la mayoría de los seres vivos.
Mantiene la información genética que se requiere para crear un ser vivo idéntico a aquel del que proviene.
Contiene la información para todas las proteínas que un organismo necesita.
El ARN es una molécula mediadora, transmite la información del ADN hasta la maquinaria que sintetiza nuevas proteínas
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
El ADN (ácido desoxirribonucleíco) y el ARN (ácido ribonucleíco) son polímeros de nucleótidos monofosfato.
En el ADN la cadena es doble y en el ARN simple
La estructura de los ácidos nucleicos
Un ejemplo de nucleótido
grupo fosfato
La información contenida en los ácidos nucleicos está contenida en la secuencia de bases de una cadena
pentosa
base
Esquema del ADN
ADN: A,T,C,G ARN: A,U,C,G
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
La estructura de los ácidos nucleicos
Las bases de cadenas opuestas en el ADN están apareadas de una forma específica: A con T y C con G:
Adenina Guanina Citocina Timina Uracilo
A C T G C C G T A A T C G C C T T G A
T G A C G G C A T T A G C G G A A C T
Esta estructura facilita la copia del ADN
Cadena directa
Reverso complemento
Imagen de Wikipedia
Codificación de la información
El ADN y algunos ARN contienen información para sintetizar proteínas.
Cualquier ser vivo necesita miles de proteínas distintas para:
realizar reacciones químicas funciones estructurales interacción con el ambiente externo e
interno manejo de la información Modelo de la estructura 3D de la
enzima glucosa oxidasa (ModBase)
Una proteína es un polímero lineal de aminoácidos, desde unos pocos aminoácidos hasta 400 o más.
Existen muchos aminoácidos pero los seres vivos usamos solo 20 tipos diferentes.
La secuencia de bases del ADN codifica la secuencia de aminoácidos que debe tener una proteína.
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Aminoácido Código 3 letras Código 1 letra Propiedades
Alanina Ala A Hidrofóbico
Arginina Arg R Con carga positiva
Asparragina Asn N Neutro; hidrofílico
Aspartato Asp D Con carga negativa
Cisteina Cys C Neutro
Fenilalanina Phe F Hidrofóbico; aromatico
Glicina Gly G Neutro
Glutamato Glu E Con carga negativa
Glutamina Gln Q Neutro; hidrofílico
Histidina His H Con carga positiva; aromatico
Isoleucina Ile I Hidrofóbico
Leucina Leu L Hidrofóbico
Lisina Lys K Con carga positiva
Metionina Met M Hidrofóbico
Prolina Pro P Hidrofóbico
Serina Ser S Neutro; hidrofílico
Tirosina Tyr Y Hidrofóbico; aromatico
Treonina Thr T Neutro; hidrofílico
Triptofano Trp W Hidrofóbico; aromatico
Valina Val V Hidrofóbico
El código genético
En un gen que codifica para proteinas, cada grupo de tres nucleótidos codifica para un aminoácido diferente o es una señal de STOP.
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
UUU UUA AUU AUUPhe Leu Ile Ile
Ejemplo
Información y función en sistemas biológicos
ADNalfabeto de 4 letras
estable
transmisible
distintos tipos de mensajes
palabras de tres letras(codones)
43 -1 palabras codifican los nombres de 20 aminoácidos
rRNA, tRNA
signos de puntuación
basura
mRNA
proteinas
reguladoras estructurales
enzimas
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Una de las tareas más importantes y frecuentes de los bioinformáticos es analizar secuencias y realizar comparaciones entre secuencias de ADN y proteínas
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Comparación de secuencias
¿Por qué nos interesa comparar secuencias de ADN o proteínas de distintos orígenes?
¿Cómo se pueden alinear secuencias?
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Alineamiento de secuencias
Ejemplo: alinear las palabras “pantalón” y “andado”
Dos tipos de alineamientos
Alineamiento global (algoritmo de Needleman-Wunsch)
Alineamiento local (algoritmo Smith-Waterman)
Alineamiento global
Ejemplo: alinear las palabras “pantalon” (sin acento) y “andado”
Palabra 1 pantaloncoincidencias -an.a.o-Palabra 2 -andado-
En este alineamiento vemos los eventos que pueden ocurrir al alinear palabras, consideradas como secuencias de letras:
Coincidencia o “match”: las dos letras son iguales
No coincidencia o “mismatch”: las letras no coinciden
Hueco o “gap”: para aumentar la cantidad de matches se agregan espacios, al final, al principio o en el medio
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Y ahora el ejemplo en detalle…
Alineamiento global
Armamos una tabla con las palabras y la distancia desde el origen
p a n t a l o n
0 -1 -2 -3 -4 -5 -6 -7 -8
a -1
n -2
d -3
a -4
d -5
o -6
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Alineamiento global
p a n t a l o n
0 -1 -2 -3 -4 -5 -6 -7 -8
a -1 -1
n -2
d -3
a -4
d -5
o -6
Después calculamos los valores para cada celda
match = +1mismatch = -1gap = -1
gap + celda superior,gap + celda izquierda,match/mismatch + celda diagonal
Cálculo del valor de la celda:
max
La flecha indica donde queda el máximo seleccionado. Es importante marcarlo porque a veces dos celdas pueden ser máximos, y hay que ser consistentes en la selección, gap o diagonal
Valores predefinidos:
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Alineamiento global
p a n t a l o n
0 -1 -2 -3 -4 -5 -6 -7 -8
a -1 -1 0 -1 -2 -3 -4 -5 -6
n -2 -2 -1 1 0 -1 -2 -3 -4
d -3 -3 -2 0 0 -1 -2 -3 -4
a -4 -4 -2 -1 -1 1 0 -1 -2
d -5 -5 -3 -2 -2 0 0 -1 -2
o -6 -6 -4 -3 -3 -1 -1 1 0
.. completamos la tabla …
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Alineamiento global
p a n t a l o n
0 -1 -2 -3 -4 -5 -6 -7 -8
a -1 -1 0 -1 -2 -3 -4 -5 -6
n -2 -2 -1 1 0 -1 -2 -3 -4
d -3 -3 -2 0 0 -1 -2 -3 -4
a -4 -4 -2 -1 -1 1 0 -1 -2
d -5 -5 -3 -2 -2 0 0 -1 -2
o -6 -6 -4 -3 -3 -1 -1 1 0
… Y reconstruimos el camino que maximiza la suma de celdas de atrás para adelante empezando por la última
Palabra 1 pantalonPalabra 2 -andado-
Las flechas horizontales y verticales representan gaps y las diagonales matches o mismatches
!!
Alineamiento local
Los bordes de la matriz se inicializan en cero. El valor de la celda nunca puede ser menor que cero, y no
se agregan punteros a menos que el valor sea mayor que cero.
El alineamiento comienza desde el valor más alto y termina en cero
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
p a n t a l o n
0 0 0 0 0 0 0 0 0
a 0 0 1 0 0 1 0 0 0
n 0 0 0 2 0 0 0 0 1
d 0 0 0 0 1 0 0 0 0
a 0 0 1 0 0 2 0 0 0
d 0 0 0 0 0 0 1 0 0
o 0 0 0 0 0 0 0 2 0
Alineamiento global versus local
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
El alineamiento global busca exhaustivamente todo el espacio de búsqueda, introduciendo gaps donde no puede encontrar un apareamiento adecuado.
El alineamiento local busca sólo en regiones donde hay un apareamiento significativo. Es más efectivo cuando se analizan regiones que incluyen sectores con muy poca similitud.
El método de alineamiento más usado, Blast, es un método de alineamiento local
Modificaciones
Variaciones en la penalización de los gaps: iniciar un gap es más “caro” que extenderlo
Alineamiento por bandas: variante para reducir la memoria, puede dar alineamientos sub óptimos
En el caso de alineamientos locales, restringir las búsquedas a zonas con scores mayores que cero: Blast
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
En nuestros ejemplos anteriores habíamos alineado palabras.
Nosotros tenemos que alinear nucleótidos en una secuencia de ADN o aminoácidos en una proteína.
Los aminoácidos tienen una particularidad, algunos de ellos tienen estructuras químicas similares.
Si por mutación un aminoácido es reemplazado por uno estructuralmente similar, es probable que nohaya un efecto muy drástico sobre la proteína.
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
I L
V
MF
Y
S
CA
G
W
H R
K
D
E
Q
N
T
Similitudes entre aminoácidosalifáticos
hidrofóbicos
aromáticos
con grupos -OH
hidrofílicos
cargados
postivos
negativos
con grupos –NH2
pequeños
Se realizaron alineamientos entre grupos de proteínas y se determinan las frecuencias de ocurrencia simultánea de todos los pares de aminoácidos
S*ij = log(qij/pipj)
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
C S T P A G N D E Q H R K M I L V F Y W
C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2
S -1 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3
T -1 1 4 1 -1 1 0 1 0 0 0 -1 0 -1 -2 -2 -2 -2 -2 -3
P -3 -1 1 7 -1 -2 -1 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4
A 0 1 -1 -1 4 0 -1 -2 -1 -1 -2 -1 -1 -1 -1 -1 -2 -2 -2 -3
G -3 0 1 -2 0 6 -2 -1 -2 -2 -2 -2 -2 -3 -4 -4 0 -3 -3 -2
N -3 1 0 -2 -2 0 6 1 0 0 -1 0 0 -2 -3 -3 -3 -3 -2 -4
D -3 0 1 -1 -2 -1 1 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4
E -4 0 0 -1 -1 -2 0 2 5 2 0 0 1 -2 -3 -3 -3 -3 -2 -3
Q -3 0 0 -1 -1 -2 0 0 2 5 0 1 1 0 -3 -2 -2 -3 -1 -2
H -3 -1 0 -2 -2 -2 1 1 0 0 8 0 -1 -2 -3 -3 -2 -1 2 -2
R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 2 -1 -3 -2 -3 -3 -2 -3
K -3 0 0 -1 -1 -2 0 -1 1 1 -1 2 5 -1 -3 -2 -3 -3 -2 -3
M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 2 -2 0 -1 -1
I -1 -2 -2 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 2 1 0 -1 -3
L -1 -2 -2 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 3 0 -1 -2
V -1 -2 -2 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 -1 -1 -3
F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 3 1
Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 2
W -2 -3 -3 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11
Matriz Blosum62, una matriz de scoring
A partir de los S*ij se calculan los valores de la matriz
multiplicando por una constante y redondeando para que queden números enteros (scores crudos).
S*ij .λ= Sij
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
ijj
Siij eppq *
n
i
i
j
ijq1 1
1
)/(log*jiije ppqijS
Calculando el valor exacto de λ
n
i
i
j
ijSji epp
1 1
* 1
Resolvemos esta ecuación para determinar λ
Necesitamos calcular λ para estimar el valor E de cada alineamiento.
Los programas calculan λ por nosotros (por suerte…)
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
C S T T A D W A A N T
C T T T A D W A E N T
9 1 4 4 4 6 11 4 -1 6 4
Suma de los scores individuales (score crudo) = 54
Alineamiento + cálculo de score
Ya habíamos visto como construir alineamientos, ahora necesitamos asignarle un score.
Ahora necesitamos asignarle un valor de E (algo parecido a un test estadístico)…
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Cálculo del E de un alineamiento
Una alternativa es calcular E a partir del score normalizado(el que aparece en unidades de bits en la salida del BLAST):
2ln
ln'
* KSS
E: número de alineamientos esperados al azar, dados…
k: una constante
m: número de letras en la consulta
n: número de letras (nucleótidos / aminoácidos) en la base de datos
λS*: score del alineamiento
'2.. SnmE
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Cálculo del E de un alineamiento
La otra alternativa es a partir de la estadística de Karlin-Altschul para alineamientos locales
*... SenmkE E: número de alineamientos esperados al azar, dados…
m: número de letras en la consulta
n: número de letras (nucleótidos / aminoácidos) en la base de datos
λS: score del alineamiento
La ecuación de Karlin-Altschul
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Presencia de gaps
● Permitir gaps en los alineamientos, equivale a bajar los valores de la matriz de scoring.
● Cuanto más “barato” sea introducir gaps, mayor será la pérdida de información.
● Para compensar existen valores ajustados empíricamente de k y λ
Abrir un gap Extender un gap λ k H *
prohíbido prohíbido 0.318 0.134 0.40
11 2 0.297 0.082 0.27
10 2 0.291 0.075 0.23
7 2 0.239 0.027 0.10
Los gaps tienen un sentido biológico, no es conveniente prohibirlos. La práctica más usada es usar una penalidad alta por crearlos y una menor por extenderlos.
(*) H: entropía, una medida del contenido de información de la matriz de scoring
Correcciones para la matriz BLOSUM62
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Corrección por largo
● La ecuación de Karlin-Altschul considera un espacio de búsqueda igual a m x n.
● pero los extremos de las secuencias no pueden ser explorados efectivamente.
● Se puede calcular el largo mínimo de una secuencia que puede
producir un E significativo: l
Hnmkl /)..ln(
● Con l se pueden calcular los valores efectivos de m y n
ndbnn
lmm
'
'ndb: número de secuencias en la base de datos
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Corrección por largo
● A medida que el número de secuencias en las bases de datos de secuencias aumentan, es cada vez más fácil encontrar valores de l mayores que m, o sea, m’ negativos.
● Para remediar esto, si m’ < 1/k, entonces m’ = 1/k
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Cálculo del E de un alineamiento
Nuestra secuencia consulta (A) puede alinearse a una secuencia de la base de datos (B) en regiones:
A
B
Decimos que B se alinea con dos HSP (High-scoring Segment Pair)
hsp hsp
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Cálculo del score para un grupo de HSPs
Cuando queremos calcular el score y el E de una secuencia con varios con varios HSP no podemos simplemente sumar los HSP individuales…
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Cálculo del score para un grupo de HSPs…existen varias posibilidades, dependiendo del tipo de Blast que estemos usando:
r
irsum
r
irsum
r
irsum
rgkrnmkrSS
rnmkrSS
nmkrSS
1
1
1
)!ln())ln(.2)).(ln(1()..ln('
)!ln()..ln('
)..ln('
r: número de HSPs
g: largo del gap
1
2
3
1. Score suma no-ordenado2. Score suma ordenado de a pares, “premia” HSPs colineales3. Score modificado de 2, lo usa BLASTX , premia si los gaps son
cortos, es menos sensible al tamaño de la base dedatos, aunque da scores mayores cuanto mayor es el espacio de búsqueda.
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
BLAST por fin !!
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Ya sabemos como alinear secuencias localmente
Tambien sabemos cómo asignarles una expectativa a los HSP (E)
Ahora necesitamos un algoritmo que nos permita buscar secuencias similares a nuestra consulta en una base de datos que puede tener millones de registros en un tiempo razonable (1-2 minutos)
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Secuencia 1
Sec
uenc
ia 2
Un alineamiento entre dos secuencias
alineamientos (HSPs)
alineamientos con un gap
El objetivo de Blast es encontrar cada uno de los HSP significativos, para todas las secuencias similares
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Pasos de Blast: EvaluaciónSiembra Extensión
Uno de los supuestos de Blast es que si dos secuencias tienen homología, tiene que haber “palabras” en común.
En la terminología de Blast llamamos palabra a grupos contíguos de aminoácidos o nucleótidos
Por ejemplo, si definimos palabras de tres letras, la secuencia de aminoácidos ANCFG tiene 3 palabras:
ANFCG
ANF
NFC
FCG
Siembra
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Cuando Blast compara dos secuencias, primero busca la ubicación de todas las palabras comunes (word hits).
Los word hits son las “semillas” a partir de donde se extienden los alineamientos.
Una palabra común no significa una palabra idéntica.
Recordemos que a veces un aminoácido puede reemplazar a otro sin afectar demasiado la proteína (matrices BLOSUM y PAM).
Lo que se utiliza para calcular si una secuencia se puede considerar word hit, es determinar el “vecindario” de la secuencia.
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
DVHGTANCFG
HVHGTANCFG
Ejemplo:secuencia 1
secuencia 2
Consideremos una palabra de tres letras (W = 3)
Usamos la matriz BLOSUM62
Si las dos secuencias comenzaran con DVH, el score sería: 6 + 4 + 8 = 18
Pero tenemos que comparar DVH con HVH: -1 + 4 + 8 = 11
¿Un score de 18 es significativo? ¿Y el de 11?
¿Cómo se decide?
2
3
4
1
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Se fija un valor umbral conocido como T (threshold). La determinación es empírica y depende que queremos priorizar, velocidad o búsqueda.
W también se puede variar.
Dependiendo de la implementación de Blast se puede variar uno o los dos.
¿Qué efecto tendrá un W más grande o más chico?
¿Qúe ocurre con T?
PREGUNTAS
Algunas mejoras:Algoritmos de “dos golpes”Enmascaramiento de secuencias
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Extensión
Sec
uenc
ia 2
Secuencia 1
El segundo paso, la extensión, intenta prolongar los alineamientos a partir de las semillas del paso anterior
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
DVHGTANCFGQQHRL
HVHGTANCFGQKQCG
Ejemplo:
Vamos a extender hacia la derecha
Parte alineada con semillas
5 1 0 -3 -4
6 6 3 -1
scores
scores acumulados
Cuando el score cae por debajo de un umbral (X) se detiene la extensión:
2
1
DVHGTANCFGQQH
HVHGTANCFGQKQ
La elección de X tiene poco efecto sobre el rendimiento del programa comparado con W y T
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Evaluación
En este paso se determina cuáles de los alineamientos parciales obtenidos son significativos, es decir, pueden ser considerados un HSP.
También se determinan la secuencia de HSPs y se resuelven las posibles superposiciones
Finalmente se calcula el valor E del conjunto
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
Modificación de parámetros en NCBI-BLAST
La implementación web del NCBI permite cambiar solo algunos de los parámetros que vimos
W
Umbral para E
Selección de la matriz de scoring
Costo de los gaps
Filtrar regiones de baja complejidad
Filtrar solo en el paso el paso de siembra
Filtrar secuencias en minúsculas
Ajuste fino del scoring
La salida de BLAST documentada
Esta tabla que aparece al final de cualquier análisis BLAST registra nuestras opciones, las características principales de la base de datos y muestra secuencias y algunos estadísticos
La salida tabulada de BLAST. Nombres de campos
Query_id, identificador de la secuencia consulta Subject_id, identificador del hit que devuelva Blast identity, porcentaje de posiciones (nucleótidos o aminoácidos idénticos) identity, porcentaje de posiciones positivas (sólo para aminoácidos) alignment_length, largo del alineamiento mismatches, número de no-coincidencias gap_openings, cantidad de gaps que incluye el alineamiento q_start, comienzo del alineamiento en las coordenadas de la consulta q_end, fin del alineamiento en las coordenadas de la consulta s_start, comienzo del alineamiento en las coordenadas del hit s_end, comienzo del alineamiento en las coordenadas del hit e_value, valor E del alineamiento bit_score. valor del score en bits, esto es, en logaritmo base 2
Marcelo A. Soria ([email protected])Maestria en Data Mining. DC-FCEN
La familia de programas Blast
Programa Base de datos Consulta
BLASTN nucleótido nucleótido
BLASTP proteína proteína
BLASTX proteínanucleótido traducido a proteína
TBLASTNnucleótido traducido a proteína
proteína
TBLASTXnucleótido traducido a proteína
nucleótido traducido a proteína
Estos son los básicos, después hay derivaciones para usos más específicos