dmontaner dissertation slides

24
Avances Metodolgicos en el AnÆlisis Funcional de Estudios Genmicos David Montaner GonzÆlez Departamento de Bioqumica y Biologa Molecular Universidad de Valencia Programa de Doctorado en Biotecnologa TØsis dirigida por Joaqun Dopazo BlÆzquez 18 Julio de 2013 David Montaner AnÆlisis Funcional de Datos Genmicos 1/24

Upload: david-montaner

Post on 04-Aug-2015

63 views

Category:

Documents


0 download

TRANSCRIPT

Avances Metodológicos en elAnálisis Funcional deEstudios Genómicos

David Montaner González

Departamento de Bioquímica y Biología MolecularUniversidad de Valencia

Programa de Doctorado en Biotecnología

Tésis dirigida por Joaquín Dopazo Blázquez

18 Julio de 2013

David Montaner Análisis Funcional de Datos Genómicos 1/24

Compendio de Publicaciones

2006 Next station in microarray data analysis: GEPAS.

2008 New trends in the analysis of functional genomic data.

2009 Gene set internal coherence in the context of functionalprofiling.

2010 Multidimensional gene set analysis of genomic data.

David Montaner Análisis Funcional de Datos Genómicos 2/24

Análisis Funcional de Datos Genómicos

Interpretación de datos recogidos en experimentos genómicos

DATOS ←− INFORMACI ÓN CONOCIDA

• Interesa entender la función que realizan los genes

• Miles de variables: los genes

• Cientos de bases de datos: la información “conocida”

• Necesita metodologías estadísticas

• Necesita herramientas bioinformáticas

David Montaner Análisis Funcional de Datos Genómicos 3/24

Datos Genómicos I

Datos experimentales:

• medidas relativas a los genes: expresión, metilación,número de copias, pérdida de heterocigosidad . . .

• no siempre recolectados en laboratorio

• recogidos para responder cuestiones planteada a priori

• “universo” implícito de genes; variables en sentidoestadístico

• es información nueva que nunca nadie ha “visto” antes

David Montaner Análisis Funcional de Datos Genómicos 4/24

Datos Genómicos II

clase A A A B B Bgen1 -0.45 1.78 0.39 -0.28 0.23 -0.08gen2 -1.55 0.95 0.92 -1.41 0.94 -0.30gen3 -0.89 -1.27 -0.18 -0.68 0.58 -0.07gen4 -0.60 -0.67 1.44 0.04 -0.61 1.03gen4 … … … … … …

David Montaner Análisis Funcional de Datos Genómicos 5/24

Análisis Datos Genómicos

Para cada gen se plantea una hipótesis estadística quemodeliza la pregunta de interés sobre el gen:

• se resume en un estadístico,p-valor . . . o índice numérico continuoasociado a cada gen.

• ordena los genes acorde con ciertapropiedad biológica implícita en lapregunta.

• que debe ser interpretada . . .

ID Xgen1 1.23gen2 2.74gen3 -0.34gen4 1.32gen5 -2.02gen6 0.45gen7 0.93

… …

David Montaner Análisis Funcional de Datos Genómicos 6/24

Bases de Datos Genómicos

Información genómica ya conocida:

• lo que sabe el investigador que plantea el problema• la información descubierta y validada en estudios previos:

publicaciones• la información registrada en bases de datos: anotación

David Montaner Análisis Funcional de Datos Genómicos 7/24

Anotación de los genes• Es generalmente información de tipo dicotómico o binario.

• Guardada como etiquetas asociadas con los genes.

• Agrupa los genes en bloques funcionales que superponenentre si.

• Para la función biológica caracterizada por cada etiqueta,sabemos qué genes realizan la función y cuáles no.

gen Informacióngene1 GO:0055114gene2 GO:0055114gene3 GO:0055114gene1 GO:0044281gene2 GO:0044281gene4 GO:0006120

… …

label 1 label 2 label 3 …gene1 1 1 0 …gene2 1 1 0 …gene3 0 0 1 …gene4 1 0 1 …

… … … … …

David Montaner Análisis Funcional de Datos Genómicos 8/24

Análisis Funcional: Interpretación• Cambio en la unidad

biológica de interés

• Reducción de lacantidad devariables estudiadas

• Interpretaciónbiológica másasequible

ind. bloque1.23 12.74 1-0.34 01.32 1… …

David Montaner Análisis Funcional de Datos Genómicos 9/24

Metodología: Regresión LogísticaPara cada bloque funcional modelizamos la probabilidad π deque un gen pertenezca al bloque como función del índice xcalculado para dicho gen: π(x)

label 1 (Y) index (X)g1 1 1.23g2 1 2.74g3 0 -0.34g4 1 1.32… … …

log π(x)1− π(x) = κ+ αx

α > 0→ asociación con índice +α < 0→ asociación con índice −α = 0→ no asociación

David Montaner Análisis Funcional de Datos Genómicos 10/24

Regresión Logística: Ventajas• Modelo estadístico clásico:

metodología validada, software disponible, . . .

• Puede ser aplicado a cualquier tipo de dato genómico yaque sólo depende del índice derivado.

• Permite un análisis modular ; interesante por la facilidad decomputo y por la sencillez de la interpretación.

• Permite controlar otro tipo de variables, ej. la longitud delos genes.

• Permite incluir no sólo una, sino varias variablesgenómicas para interpretar funcionalmente a la vez:análisis multidimensional

• Permite incluir pesos que moderen la importanciaasignada a cada gen dentro del bloque

David Montaner Análisis Funcional de Datos Genómicos 11/24

Análisis MultidimensionalDatos experimentales medidos para varias característicasgenómicas a la vez; por ejemplo expresión diferencial ymetilación diferencial.

Bloque exp. met.1 1.23 -2.31 2.74 1.40 -0.34 -0.11 1.32 1.50 -2.02 2.00 0.45 -1.90 0.93 0.8… … …

log π

1− π = κ+ α x1 + β x2 + γ x1x2

La interpretación se realiza según elsigno de los coeficientes α, β y γ.

David Montaner Análisis Funcional de Datos Genómicos 12/24

Análisis MultidimensionalLa estimación de los parámetros en la ecuación nos permiteencontrar y definir la dependencia de un bloque funcionalrespecto de dos características genómicas a la vez.

log π

1− π = κ+ α x1 + β x2 + γ x1x2

   

+X

+Y

α > 0 > 0β

(pattern: q1f)

α > 0 < 0β

(pattern: q4f)

α < 0 < 0β

(pattern: q3f)

α > 0 = 0β

(pattern: xh)

α < 0 = 0β

(pattern: xl)

α = 0 < 0β

(pattern: yl)

α = 0 > 0β

(pattern: yh)

α < 0 > 0β

(pattern: q2f)

 =γ  0

David Montaner Análisis Funcional de Datos Genómicos 13/24

Patrón estándar univariante

   

+X

+Y

α > 0 > 0β

(pattern: q1f)

α > 0 < 0β

(pattern: q4f)

α < 0 < 0β

(pattern: q3f)

α > 0 = 0β

(pattern: xh)

α < 0 = 0β

(pattern: xl)

α = 0 < 0β

(pattern: yl)

α = 0 > 0β

(pattern: yh)

α < 0 > 0β

(pattern: q2f)

 =γ  0

   

+X

+Y

 <γ  0  >γ  0

+Y

+X

+X+Y

 >γ  0  <γ  0

+Y +X

Quadrant 1α > 0

 β > 0(pattern: q1i)

Quadrant 2α < 0

 β > 0(pattern: q2i)

Quadrant 3α < 0

 β < 0(pattern: q3i)

Quadrant 4α > 0

 β < 0(pattern: q3i)

   

+X

+Y >γ  0

 <γ  0

Quadrant 1α = 0

 β = 0(pattern: b13)

Quadrant 3α = 0

 β = 0(pattern: b13)

+X

+Y

Quadrant 4α = 0

 β = 0(pattern: b24)

Quadrant 2α = 0

 β = 0(pattern: b24)

David Montaner Análisis Funcional de Datos Genómicos 14/24

Patrón de interacción

   

+X

+Y

α > 0 > 0β

(pattern: q1f)

α > 0 < 0β

(pattern: q4f)

α < 0 < 0β

(pattern: q3f)

α > 0 = 0β

(pattern: xh)

α < 0 = 0β

(pattern: xl)

α = 0 < 0β

(pattern: yl)

α = 0 > 0β

(pattern: yh)

α < 0 > 0β

(pattern: q2f)

 =γ  0

   

+X

+Y

 <γ  0  >γ  0

+Y

+X

+X+Y

 >γ  0  <γ  0

+Y +X

Quadrant 1α > 0

 β > 0(pattern: q1i)

Quadrant 2α < 0

 β > 0(pattern: q2i)

Quadrant 3α < 0

 β < 0(pattern: q3i)

Quadrant 4α > 0

 β < 0(pattern: q3i)

   

+X

+Y >γ  0

 <γ  0

Quadrant 1α = 0

 β = 0(pattern: b13)

Quadrant 3α = 0

 β = 0(pattern: b13)

+X

+Y

Quadrant 4α = 0

 β = 0(pattern: b24)

Quadrant 2α = 0

 β = 0(pattern: b24)

David Montaner Análisis Funcional de Datos Genómicos 15/24

Patrón bimodal

   

+X

+Y

α > 0 > 0β

(pattern: q1f)

α > 0 < 0β

(pattern: q4f)

α < 0 < 0β

(pattern: q3f)

α > 0 = 0β

(pattern: xh)

α < 0 = 0β

(pattern: xl)

α = 0 < 0β

(pattern: yl)

α = 0 > 0β

(pattern: yh)

α < 0 > 0β

(pattern: q2f)

 =γ  0

   

+X

+Y

 <γ  0  >γ  0

+Y

+X

+X+Y

 >γ  0  <γ  0

+Y +X

Quadrant 1α > 0

 β > 0(pattern: q1i)

Quadrant 2α < 0

 β > 0(pattern: q2i)

Quadrant 3α < 0

 β < 0(pattern: q3i)

Quadrant 4α > 0

 β < 0(pattern: q3i)

   

+X

+Y >γ  0

 <γ  0

Quadrant 1α = 0

 β = 0(pattern: b13)

Quadrant 3α = 0

 β = 0(pattern: b13)

+X

+Y

Quadrant 4α = 0

 β = 0(pattern: b24)

Quadrant 2α = 0

 β = 0(pattern: b24)

David Montaner Análisis Funcional de Datos Genómicos 16/24

Análisis ponderadoNo todos los genes son igual de importantes dentro de cadabloque funcional. Los modelos logísticos nos permiten tener encuenta la importancia de cada gen en el análisis de cada unode los bloques.

Datos con pesosBloque Indice Peso

1 1.23 0.11 2.74 0.30 -0.34 0.21 1.32 0.10 -2.02 0.10 0.45 0.10 0.93 0.1

Datos sin pesos “equivalentes”

Bloque Indice Peso1 1.23 0.11 2.74 0.1 ∗1 2.74 0.1 ∗1 2.74 0.1 ∗0 -0.34 0.1 +0 -0.34 0.1 +1 1.32 0.10 -2.02 0.10 0.45 0.10 0.93 0.1

David Montaner Análisis Funcional de Datos Genómicos 17/24

Estimación empírica de laimportancia de cada gen

• 3000 arrays bajados de GEO (30.000 en siguientesversiones del estudio).

• Estimación de la correlación entre cada gen y cada bloquefuncional (GO y KEGG)

• Derivamos una distancia entre cada gen y cada bloquefuncional. Esta distancia representa lo coherente que es elgen dentro del bloque.

• Usamos la inversa de la distancia para ponderar cada genen el análisis de cada bloque funcional.

Resultados• El método logístico ponderado es más sensible y detecta

más bloques enriquecidos.• Un primer modelo para trabajar con la idea de pertenencia

no discreta de un gen a una función.David Montaner Análisis Funcional de Datos Genómicos 18/24

Coherencia interna de los bloques I

Los métodos de análisis funcional para datos de expresiónasumen implícitamente que los genes dentro de los bloquesestán correlacionada.Sin embargo esto no se había evaluado nunca antes con datosreales:

• Estimación de la correlación entre cada pareja de genes.• Estimación de la correlación media de grupos de genes de

distintos tamaños seleccionados de forma aleatoria.• Comparación de la correlación interna de los bloques de

GO y de KEGG con bloques aleatorios del mismo tamaño.• Derivamos un índice de coherencia interna para cada

bloque funcional.

David Montaner Análisis Funcional de Datos Genómicos 19/24

Coherencia interna de los bloques II

• La coherencia interna delos bloques en general esincluso menor de loesperado.

• El índice de coherenciaestimado para cada bloquenos permite filtrar losbloques no coherentesantes de introducirlos en elanálisis funcional.

David Montaner Análisis Funcional de Datos Genómicos 20/24

Conclusiones I

1 La regresión logística es una metodología apropiada pararealizar análisis de enriquecimiento funcional.

2 El análisis funcional combinado de varias característicasgenómicas es viable además de biológicamente relevante.

3 Los bloques funcionales de genes descritos en las basesde datos son, en ultima instancia, entidades heterogéneas.Esta heterogeneidad puede ser estimada a partir de datosprevios y dicha estimación utilizada para realizar análisisde enriquecimiento funcional más precisos.

4 Las rutas de KEGG y los bloques descritos en el GeneOntology son internamente menos coherente de loesperado en lo que respecta a la expresión génica.

David Montaner Análisis Funcional de Datos Genómicos 21/24

Conclusiones II

5 En todo experimento genómico hay implícito un “universo”de genes del que depende la interpretación de losresultados.

6 Los genes que muestran los mayores cambios odiferencias de expresión en un estudio no son siempre losmás relevantes desde el punto de vista biológico.

7 Los métodos de enriquecimiento funcional incrementan lapotencia del análisis ya que:

• incorporan la información adicional de la anotación.• combinan la información de varios genes.• reducen el espacio de variables observadas (del espacio

de genes al espacio de bloques).

David Montaner Análisis Funcional de Datos Genómicos 22/24

Conclusiones III

8 La separación de los diferentes pasos del análisis enmódulos facilita la implementación de algoritmos, el trabajode análisis y, sobre todo, la interpretación biológica de losresultados.

9 Desde el punto de vista estadístico es interesante resaltarque, en el enfoque modular, los propios resultadosestadísticos de un paso del análisis se convierten en losnuevos datos para analizar en el paso siguiente.

10 La presentación adecuada de los resultados deexperimentos genómicos es esencial, no sólo por estética,sino por que su comprensión y exploración depende dedicha presentación.

David Montaner Análisis Funcional de Datos Genómicos 23/24

Conclusiones IV

11 Incluir varios métodos para realizar el mismo estudioestadístico en el software de análisis genómico ayuda alusuario a entender los resultados de forma intuitiva.

12 Las herramientas web son una forma eficiente y cómodade hacer disponibles los nuevos métodos a losinvestigadores.

David Montaner Análisis Funcional de Datos Genómicos 24/24