fustermolla.ppt

47
PREDICCION DE GENES CON GENSCAN José María Hidalgo Utrera Joan Miquel Fuster Mollá Ana Isabel Martínez García

Upload: cexfod

Post on 05-Aug-2015

422 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: FusterMolla.PPT

PREDICCION DE GENES CON GENSCAN

José María Hidalgo Utrera

Joan Miquel Fuster Mollá

Ana Isabel Martínez García

Page 2: FusterMolla.PPT

ÍNDICE

Introducción Problemas Conocimientos básicos Objetivos Modelo general. Métodos Limitaciones Resultados Conclusión

Page 3: FusterMolla.PPT

Introducción

GENSCAN: modelo probabilístico capaz de encontrar múltiples genes o genes parciales en una secuencia.

(http://genes.mit.edu/GENSCAN.html) Tipos de predicción

Por Homología Por uso de Señales Por análisis Estadístico

Page 4: FusterMolla.PPT

Problemas

Al principio, encontrar elementos funcionales, promotores, splice, regiones codificadas (por métodos biológicos).

Después, predicción de genes completos (por métodos informáticos) con limitaciones: Algoritmo suponen las secuencias contienen

genes completos. Sólo 50% de exones identificados.

Page 5: FusterMolla.PPT

Conocimientos básicos

Región reguladora EXON 1 EXON 2 EXON 3 EXON 4 EXON n Región reguladora

PROMOTOR

3`

Intrón 1 Intrón 2 Intrón 3

Secuencia que no se traduce Secuencia que no se traduce

5`

exon exon

start donor acceptor

intron

CDSUTR UTR

Page 6: FusterMolla.PPT

Splice Sites

Page 7: FusterMolla.PPT

Objetivos

Intenta encontrar, mediante métodos computacionales, la localización de zonas importantes, como: Actividad transcripcional. Las zonas de corte y empalme (splicing).

Utiliza un modelo probabilístico para la predicción de la localización de exones/genes en secuencias genómicas.

Page 8: FusterMolla.PPT

Objetivos

Algunas características del modelo: Capturar diferencias en la estructura de genes

entre distintas regiones C + G. Capacidad de predecir múltiples genes de una

secuencia, genes parciales y completos. Modelos estadísticos para las zonas de splicing

del donante y del aceptador que capturan dependencias importantes entre las posiciones de la señal.

Page 9: FusterMolla.PPT

Objetivos

Genscan puede ser usado para detectar genes noveles (genes que no se encuentran en la BD).

En la práctica se suelen utilizar distintos programas a la vez que usamos Genscan:1. CENSOR: identifica y enmascara secuencias repetidas.2. Uso de Genscan y las secuencias obtenidas buscarlas en bases

de datos de proteínas con BLASTP para detectar posibles homólogos.

3.1 Si homólogos detectados, refinar la predicción sometiendo la región del genoma correspondiente junto con la proteína homologa usando Procrustes (algoritmo ”spliced alignment”).

3.2 Sino, se podría usar la base de datos Expressed Sequence Tags para precisar terminos 3’.

4. RT-PCR y 3’ RACE: para precisar las posiciones exactas de los exones/intrones y posibles zonas de unión (splice).

Page 10: FusterMolla.PPT

Modelo general

Modelos de Markov: Modelo probabilístico basado en la estadística. Toma información adicional de los residuos de los

vecinos. Hay órdenes:

Primer orden: Toma la información del nucleótido adyacente (precedencias y sucesores)

Orden N: Toma la información de los N nucleótidos más cercanos.

Page 11: FusterMolla.PPT

Modelo general

Aquí usamos un modelo de Markov de 5º Orden:

Page 12: FusterMolla.PPT

Modelo general

SignalModels

State length distributions

Transcriptional Translational

signals

SpliceSignals

MDD

Acceptor spliceSite model Exon models

Reverse-strandstates

Algorithmic issues

Initial,transition

probabilities

HMM

Page 13: FusterMolla.PPT

Modelo general Estados: representan una unidad

funcional de un gen eukariota (exón, intrón,etc...)

N = región intergénica P = promotor F = región no traducida 5’ Esngl = gen de

exon único Einit = exon inicial Eterm = exon final T = región no traducida 3’ Ik = intron de fase k (0<=k<=2) A = señal polyadenylation Ek = Exon interno de fase k (0<=k<=2)

Page 14: FusterMolla.PPT

Modelo general Fase k (+):

k= 0. Aceptador k = 1. Región codificante k = 2. Donador.

Fase k (-) Al revés.

Donadores, aceptadores y señales de inicio y fin se consideran dentro del exon correspondiente.

Page 15: FusterMolla.PPT

Método: Conjunto de secuencias

Proceso para elegir las secuencias de genes: GenBank: Conjunto inicial no redundante (Kulp/Reese):

Secuencias completas (ATG a stop por lo menos) Inclusión regiones 5’ 3’ no traducidas X Uso BLASP: elimina redundancia

Limpieza genes: CDS Exones inciertos o putativos Genes solapados Pseudogenes De origen viral

Quedan 428 secuencias

Page 16: FusterMolla.PPT

Método: Conjunto de secuencias

Borrado de genes con más de 25% igualdad a nivel de aminoácidos (PROSET).

Quedan 238 secuencias multi-exón y 142 de exón único = 2,580,965 pbs.

Todos los parámetros en los métodos se basan en estos datos, salvo: Modelo promotor: basado en las fuentes publicadas Modelo de región codificante: sustitución por otro conjunto

de proteinas humanas de 100 aminoácidos de longitud mínimo (también PROSET).

Page 17: FusterMolla.PPT

Método: Algorithmic issues

Dado una secuencia S de longitud L, la probabilidad de unión de generar el parse Φi:

Uso del agortimo recursivo de Viterbi modificado porque aquí usamos un modelo semi-Markov.

P{S} se calcula con el algoritmo hacia delante; hacia atrás para el evento E (exon):

n

kkkkqqiqqi dqsPTdqsPdfSP

kk2

,11111 },|{},|{)(},{1

}{

},{}|{

)(],[:)(

],[ SP

SPSP i

kyxi E iK

yxE

Page 18: FusterMolla.PPT

Método: Probabilidades inicial y de transición

Page 19: FusterMolla.PPT

Método: State length distributions Importante: longitud en los exones internos.

Pueden producir fallos al incluir el exon en el mRNA final.

Pueden producir interferencias en los factores que reconocen los splicing y podría hacer la unión de exones pequeños más difícil.

Idea “medium-sized” entre 50 y 300 bp, todo más fácil.

Page 20: FusterMolla.PPT

Método: State length distributions Poner figura 4

Page 21: FusterMolla.PPT

Método: Signal models

Modelo weight matrix method WMM de Staden. Frecuencia pij de cada nucleótido j a cada posición i de

una señal de longitud n. : probabilidad de generar una

secuencia particular (X=x1,x2,…,xn). Modelo más simple usado para cierto tipo de señales.

Modelo weight array (WAM)de Zhang & Marr Considera las dependencias entre las posiciones

adyacentes : probabilidad de generar una

secuencia particular. Deriva al modelo MDD.

Page 22: FusterMolla.PPT

Método: Transcriptional and translational signals Señal polyA: 6 bp WMM (consensus:

AATAAA) model. Señal de iniciación de la traducción: (“CDS”).

12 bp WMM model. Señal de terminación de la traducción: codón

de parada (UAA, UAG, UGA) y siguientes tres nucleótidos usamos modelo WMM.

Page 23: FusterMolla.PPT

Método: Splice signals

Señales de donante y aceptador son las más críticas para la buena predicción de genes.

Significantes dependencias tanto en posiciones no adyacentes como en las adyacentes en la señal del donante.

La región de consenso del donante se encuentra en los últimos 3 bp del exón (posiciones -3 a -1) y los primeros 6 bp del siguiente intrón (1 a 6).

Page 24: FusterMolla.PPT

Método: Splice signals

Page 25: FusterMolla.PPT

Método: MDD

Estudio sobre un conjunto de zonas de corte y empalme.

Subdividir el conjunto hasta encontrar la secuencia modelo, basándonos en la tabla de dependencias creada.

Page 26: FusterMolla.PPT

Método: MDD

Page 27: FusterMolla.PPT

Método: Aceptor splice site model Consiste en el modelado de la región de

splice utilizando una ventana WAM. Objetivo: calcular probabilidades

condicionales de todas y cada una de las posiciones.

Page 28: FusterMolla.PPT

Método: Exon Models

Utilizado cuando es mayor la concentración A+T.

No es posible utilizar probabilidades calculadas.

Utiliza una matriz derivada de C+G < 43%.

Page 29: FusterMolla.PPT

Método: Reserve-strand states Depende del sentido en el que se lea la

hebra. Ej:

se predice TAG – TAA – TGA

se generan CTA – TTA - TCA

Page 30: FusterMolla.PPT

Limitaciones

Número de genes Organismo Tests no representativos Tipo de exón Señales de Splice

Page 31: FusterMolla.PPT

Resultados

Test con conjunto Burset/Guigó: 570 vertebrados (multiexones).

La evaluación del conjunto de Burset/Guigó consiste en tres pasos:

1. Extraer un conjunto de secuencia de vertebrados de los que se conoce su estructura génica (Conjunto de Test);

2. Definición de un número de medidas de exactitud de predicción; y

3. Evaluación de un número de programas con el conjunto de test usando las medidas.

Page 32: FusterMolla.PPT

Resultados

Nivel de Base (Nucleótido). Fiabilidad de la predicción por base

Nivel de Exón (Estructura del exón). Fiabilidad de la predicción con respecto a la

predicción exacta del comienzo y fin del exón. Nivel de Proteína (Proteína).

Fiabilidad de la predicción con respecto a la proteina codificada por el gen predicho

Page 33: FusterMolla.PPT

Resultados

Nivel de Base (Nucleótido)•TP: verdadero positivo

•TN: verdadero negativo

•FP: falso positivo

•FN: falso negativo

Page 34: FusterMolla.PPT

Resultados

Nivel de Base (Nucleótido). Sn: Sensibilidad = TP/(TP+FN) Sp: Especificidad = TN/(TN+FP) AC: Correlación aproximada

CC: Coeficiente de correlación

12

1

PN

TN

AN

TN

PP

TP

AP

TPAC

ANAPPNPP

FNFPTNTPCC

***

**

Page 35: FusterMolla.PPT

Resultados

Nivel de Exón (Estructura del exón) Sn: Sensibilidad =Num exones correctos/Num exones reales Sp: Especificidad =Num exones correctos/Numero exones

predichos ME = Numero exones perdidos/Numero exones reales WE = Numero exones erroneos/Numero exones predichos

Page 36: FusterMolla.PPT

Resultados

Nivel de Proteína (Proteína). % Sim: porcentaje de similaridad entre la secuencia de

aminoácidos codificada por el gen predicho y la secuencia de aminoácidos codificada por el gen real

Page 37: FusterMolla.PPT

Resultados: Nivel de estructuras completas

No por homología: los de arriba: FGENEH: Para secuencias de genes único GeneID: Utiliza matrices de posición y un modelo de Markov Genie: Solo para genes multiexon. Secuencias de un solo gen.

GeneID+ y GeneParser3: incorporan resultados de búsqueda de aminoácidos en base de datos para hacer la predicción de genes (homología).

Superado por GeneID+

Page 38: FusterMolla.PPT

Resultados: Nivel de gen

Resultados a nivel de gen (GA) para un conjunto de secuencias: proporción de genes que realmente son predichos exactamente.

Resultados: 0.43 (243/570) => es posible predecir estructuras multi-exón con un resultado razonable.

Ejemplo: Gen gástrico humano con 22 exones codificantes

Page 39: FusterMolla.PPT

Resultados: Nivel de gen

Relativamente insensible al contenido C+G (CC) Similar a AC.

Page 40: FusterMolla.PPT

Resultados: Nivel de Gen

Factor p (Probabilidad adelante-atrás) = Probabilidad de que un exon predicho sea correcto y pueda ser usado para señalar regiones de una predicción que son más o menos ciertos.

Total: 2678 exones predichos en el conjunto Burset/Guigó

pNúmero exones

Porcentaje correctos

>0.99 917 98%

[0.95,0.99] 551 92%

[0.90,0.95] 263 88%

[0.75,0.90] 337 75%

[0.50,0.75] 362 54%

[0.00,0.50] 248 30%

Page 41: FusterMolla.PPT

Resultados: Entrenamiento Uso de un conjunto independiente. Por solapamiento: Eliminación genes con más de 25% idénticos

a los genes del conjunto de test GeneParser a nivel de aminoácidos

Page 42: FusterMolla.PPT

Resultados: Entrenamiento Fueron los mismos que con el conjunto Burset/Guigó. Pero sí hay diferencia entre proporciones de C+G

Page 43: FusterMolla.PPT

Resultados: Entrenamiento Conjunto I: 28 secuencias.

Conjunto II: 34 secuencias

Page 44: FusterMolla.PPT

Resultados: Notas

Ninguno de los resultados son verdaderamente significativos de la realidad. Aquí usamos secuencias cortas.

Sólo GRAIL ha conseguido resultados aceptables en secuencias grandes, e incluso se encontraron dificultades

Page 45: FusterMolla.PPT

Resultados: Secuencias largas

Los dos encuentran exones conocidos, pero con diferencias

Page 46: FusterMolla.PPT

Resultados: Secuencias largas

GENSCAN predice genes. GRAIL predice exones en la secuencia.

Page 47: FusterMolla.PPT

Conclusión

GENSCAN es lo “mejor”