datamining y machine learning para ciencias biológicas

Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas

Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015

Algo a cerca de miPhD(c) en el Lab de Sistemas

Inteligentes - UNAL.• Analizo funcionalmente el

metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para

obtener información

Otros Proyectos:

Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB

Proteínas de secreción en helmintos

Sistema de Recomendación de fuentes de financiamiento científico

Modelamiento Estadístico Dos Culturas

Statistical Science 2001, Vol. 16, No. 3, 199–231

• Una asume que los datos son generados por un modelo estocástico de datos.

• La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos

Modelamiento Estadístico Dos Culturas

La estadística y los datos

naturaleza xy

Los datos se generan en una «caja negra»

X es un vector de variables de entrada

(independientes)y son las variables de respuesta

Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»

La estadística y los datos

naturaleza xyDos objetivos en el análisis de datos:

Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras

Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.

Cultura del Modelamiento de Datosnaturaleza xy

Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra

Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes

variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)

Cultura del Modelamiento de Datosregresión lineal

regresión logistica Cox

xy

El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción.

Validación del modelo

Si o No, usando pruebas de bondad de ajuste y examen de residuales.

Estimación de la población. 98% de todos los estadísticos

Cultura del Modelamiento Algorítmico

El análisis considera el interior de la caja complejo y desconocido.

La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y.

desconocido xy• árboles de decisión • redes neurales • …

Cultura del Modelamiento Algorítmico

desconocido xy• árboles de decisión • redes neurales • …

Validación del modelo.Medido por la precisión de predicción.

Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.

Relación entre las Ciencias

Relación entre las Ciencias

http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg

La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación

http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg

Interdisciplinariedad

Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-48455111

Bibliotecología

Matemáticas

Procesamiento de Lenguaje

Natural Minería de Datos

Aprendizaje Automatizado

(Machine Learning)

Minería de Texto

EstadísticaIA

Administración de Bases de Datos

Ciencias de la Computación

http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-48455111

Aprendizaje Automático

MLMinería de

Datos

Conocimiento Curado

Sistemas Inteligentes(IA)

Ciencias de la Computación

Big

Dat

a

Modificado de: https://inovancetech.com/buzzwords.html

Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC).

Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos..

Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados.

Usa técnicas desarrolladas en ML y estadística

https://inovancetech.com/buzzwords.html

Subcategorías de DM

RegresiónAprendizaje

por reglas de asociación

Detecciónde

Anomalías

Clasificación

Agrupamiento«Summarization»

Existen diferentes métodos y algoritmos para cada Categoría. Ej:

Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística

Regresión: SVM, Lineal, KNN, PADE, PLS, Media.

Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.

Aprendizaje por reglas de Asociación

Aprendizaje por reglas de Asociación

SOMReducción de

Dimencionalidad

AgrupamientoReglas de AsociaciónModelamiento

Estadístico

Recomendadores

Métodos de Kernel

Aprendizaje Supervisado

Aprendizaje NO Supervisado

Supervisado

RefuerzoNo Supervisado

Aprendizaje

• Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro

• Sin Etiquetas • Sin Retroalimentación • Busca la «estructura

subyacente»

• Procesos de decisión • Sistemas de

bonificación • Aprende series de

actos

No Supervisado

No se tienen etiquetas o marcas.

No se conocen a priori las relaciones entre los datos

Metagenómica

No Supervisado

http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg

SupervisadoSe sabe que experimentos se realizaron, su significado, condiciones.

Cientos o miles de datos plenamente identificados.

Transcriptómica: Microarreglos, RNA Seq

Supervisado

http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg

Aprendizaje Supervisado

Colecta de Datos Crudos

Pre-ProcesamientoDatos Faltantes

Extracción de Características

Muestreo

Entrenamiento del Conjunto de Datos

Validación Cruzada

Pre-ProcesamientoEvaluar

Conjunto de Datos

Nuevos datos

Extracción de Características

Reducción de Dimensionalidad

Escalar Características

Refinamiento

Selección del Modelo

Métricas de Desempeño

Entrenamiento de Algoritmo de Aprendizaje

Optimización de Hiperparámetros

Post-Procesamiento

Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka

• Escalamiento de características• Ej. estandarización • Rápida convergencia • Distancias en la misma escala

(k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos

normalmente • Estabilidad numérica evitando

pequeños pesos.

• Valores faltantes• Remover características

(columnas) • Remover muestras (filas) • Imputar (media,

Vecindad, …)

• Muestreo• División aleatoria entre conjuntos

de datos de entrenamiento y validación.

• Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación

hasta el puro final (sobreentrenamiento)

Nomenclatura

sepal length sepal width petal length petal width class5.1 3.5 1.4 0.2 Iris-setosa4.9 3.0 1.4 0.2 Iris-setosa4.7 3.2 1.3 0.2 Iris-setosa4.6 3.1 1.5 0.2 Iris-setosa5.0 3.6 1.4 0.2 Iris-setosa5.4 3.9 1.7 0.4 Iris-setosa4.6 3.4 1.4 0.3 Iris-setosa

Iris

Instancias (muestras, observaciones)

Características (atributos, dimensiones, experimentos)

Clases (objetivo)

Variables CategóricasColor Tamaño Precio Clase

1 verde M 10.1 clase12 rojo L 13.5 clase23 azul XL 15.3 clase1

Color=azul

Color=verde

Color= Rojo Precio Clase Tamaño

1 0 1 0 10.1 0 12 0 0 1 13.5 1 23 1 0 0 15.3 0 3

nominalazul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal

M 1 L 2 XL 3

Validación cruzada

Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características.

Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation».

Conjunto de Datos Completo

Conjunto de Datos de Entrenamiento

Conjunto de Datos de Validación

Conjunto de

Validación

Conjunto de

Validación

Conjunto de

Validación

Conjunto de

Validación

fold 1 fold 2 fold 3 fold 4

k-fold cross-validation (k=4)

1ª iteración

2ª iteración

3ª iteración

4 iteración

calc error

calc error

calc error

calc error

cálculo de error

promedio

Evaluación del Modelo

1-Especificidad/Taza de falsas alarmas

Taza de Error = 1 - Exactitud

Variable de Respuesta Evaluada:Y es realmente:

Positiva Negativa

Positiva

Negativa

# Falsa Negativa

# Verdadera Negativa

# Falsa Positiva

# Verdadera Positiva

VP+VNP+NExactitud =

Precisión = VPVP+FP

Recall/Sensibilidad= VPVP+FN

Especificidad /Verdadera Taza de Error = VNVN+FP

Matriz de Confusión

Evaluación del Modelo

http://www.intechopen.com/source/html/38584/media/image56.jpeg

Área bajo la Curva ROC - AUC

http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gifTaza de Falsos Positivos

True positive rate

Taza

de

Verd

ader

os P

ositi

vos



Clasificación & Agrupamiento

Clasifiquen…

¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?

Fácil, no?

Ahora…

¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?

…. y ahora….

15-7

15. Classification And Evolution

FOSSILS (continued)

15-7


FOSSILS (continued)

15-6


LIVING CAMINALCULES

FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)

15-6


LIVING CAMINALCULES

FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)

¿Un poco mas complicado?

¿Por qué?

Etiquetas

Características

Aprendizaje

Clasificación

X2

X1 ?

1) Aprender de los datos de entrenamiento

2) Mapear nuevos datos (nunca vistos)

Clasificadores Comunes

Perceptron Multicapa

Bayesiano Ingenuo

Regresión Logística

KNN- K Vecinos más Cercanos

Redes Neurales Artificiales - AAN / Aprendizaje Profundo

Máquinas de Soporte Vectorial - SVM

Árboles de Decisión

C4.5

C4.5• Construye un clasificador en forma de un árbol de decisión.

• Usa ganancia de Información en el proceso de generación del árbol.

• A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento.

• Puede trabajar tanto con datos continuos como con discretos.

• Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.

K Nearest Neighbor - KNN• Este es un método de clasificación no

paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos.

• En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.

Support Vector Machine (SVM)• Muestren hiperplanos que son capaces

de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM

Support Vector Machine (SVM)

Clasificador Bayesiano• El Teorema de Bayes: calcula el la

probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud.

• Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.

Clasificador BayesianoVerosimilitud

Probabilidad de la clase prior

Probabilidad del posterior

Predictor de Probabilidad del prior

Posterior = Anterior * ProbabilidadEvidencia

Redes Neurales Artificiales (ANN)

• Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.

Árboles de Decisión • Son grafos tipo árbol, en los que los

nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja.

• Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información.

*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.

Hiperparámetros• Los hiperparámetros de un clasificador o estimador que no son directamente

aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada.

• El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje.

• Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria.

• Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.

Agrupamiento Jerárquico• Es un método de agrupamiento que busca construir una jerarquía de

grupos. Usa estrategias de dos tipos:

• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía.

• Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía.

• En general, las uniones y divisiones son determinadas de forma voraz.

• El resultado del agrupamiento usualmente ese presenta en forma de dendrograma

k-meansk-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos.

Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos.

¿Cómo sabe cuál es el mejor k?

Silhouette

Mapa Auto-Organizado - SOM• Es un tipo de red neuronal artificial,

entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa.

• Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada.

• Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.

Nada es gratis…Los modelos son una simplificación de la realidad

La simplificación es basada en presunciones (sesgo del modelo)

Las presunciones fallan en algunas ocaciones

No existe un único modelo que funcione igual de bien para todas las situaciones

¿Cuál Algoritmo Escoger?• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?

• ¿Son los datos lineaments separables?

• ¿Que tanto hay que preocuparse por la eficiencia computacional

• Construcción del modelo vs tiempo real de predicción

• Aprendizaje:

• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad

• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?

• ….

datamining y machine learning para ciencias biológicas

Data & Analytics