datamining y machine learning para ciencias biológicas
TRANSCRIPT
Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas
Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
Algo a cerca de miPhD(c) en el Lab de Sistemas
Inteligentes - UNAL.• Analizo funcionalmente el
metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para
obtener información
Otros Proyectos:
Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB
Proteínas de secreción en helmintos
Sistema de Recomendación de fuentes de financiamiento científico
Modelamiento Estadístico Dos Culturas
Statistical Science 2001, Vol. 16, No. 3, 199–231
• Una asume que los datos son generados por un modelo estocástico de datos.
• La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos
Modelamiento Estadístico Dos Culturas
La estadística y los datos
naturaleza xy
Los datos se generan en una «caja negra»
X es un vector de variables de entrada
(independientes)y son las variables de respuesta
Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»
La estadística y los datos
naturaleza xyDos objetivos en el análisis de datos:
Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras
Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.
Cultura del Modelamiento de Datosnaturaleza xy
Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra
Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes
variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
Cultura del Modelamiento de Datosregresión lineal
regresión logistica Cox
xy
El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción.
Validación del modelo
Si o No, usando pruebas de bondad de ajuste y examen de residuales.
Estimación de la población. 98% de todos los estadísticos
Cultura del Modelamiento Algorítmico
El análisis considera el interior de la caja complejo y desconocido.
La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y.
desconocido xy• árboles de decisión • redes neurales • …
Cultura del Modelamiento Algorítmico
desconocido xy• árboles de decisión • redes neurales • …
Validación del modelo.Medido por la precisión de predicción.
Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.
Relación entre las Ciencias
Relación entre las Ciencias
http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg
La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación
Interdisciplinariedad
Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-48455111
Bibliotecología
Matemáticas
Procesamiento de Lenguaje
Natural Minería de Datos
Aprendizaje Automatizado
(Machine Learning)
Minería de Texto
EstadísticaIA
Administración de Bases de Datos
Ciencias de la Computación
Aprendizaje Automático
MLMinería de
Datos
Conocimiento Curado
Sistemas Inteligentes(IA)
Ciencias de la Computación
Big
Dat
a
Modificado de: https://inovancetech.com/buzzwords.html
Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC).
Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos..
Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados.
Usa técnicas desarrolladas en ML y estadística
Subcategorías de DM
RegresiónAprendizaje
por reglas de asociación
Detecciónde
Anomalías
Clasificación
Agrupamiento«Summarization»
Existen diferentes métodos y algoritmos para cada Categoría. Ej:
Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística
Regresión: SVM, Lineal, KNN, PADE, PLS, Media.
Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.
Aprendizaje por reglas de Asociación
Aprendizaje por reglas de Asociación
SOMReducción de
Dimencionalidad
AgrupamientoReglas de AsociaciónModelamiento
Estadístico
Recomendadores
Métodos de Kernel
Aprendizaje Supervisado
Aprendizaje NO Supervisado
Supervisado
RefuerzoNo Supervisado
Aprendizaje
• Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro
• Sin Etiquetas • Sin Retroalimentación • Busca la «estructura
subyacente»
• Procesos de decisión • Sistemas de
bonificación • Aprende series de
actos
No Supervisado
No se tienen etiquetas o marcas.
No se conocen a priori las relaciones entre los datos
Metagenómica
No Supervisado
http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg
SupervisadoSe sabe que experimentos se realizaron, su significado, condiciones.
Cientos o miles de datos plenamente identificados.
Transcriptómica: Microarreglos, RNA Seq
Supervisado
http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg
Aprendizaje Supervisado
Colecta de Datos Crudos
Pre-ProcesamientoDatos Faltantes
Extracción de Características
Muestreo
Entrenamiento del Conjunto de Datos
Validación Cruzada
Pre-ProcesamientoEvaluar
Conjunto de Datos
Nuevos datos
Extracción de Características
Reducción de Dimensionalidad
Escalar Características
Refinamiento
Selección del Modelo
Métricas de Desempeño
Entrenamiento de Algoritmo de Aprendizaje
Optimización de Hiperparámetros
Post-Procesamiento
Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka
• Escalamiento de características• Ej. estandarización • Rápida convergencia • Distancias en la misma escala
(k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos
normalmente • Estabilidad numérica evitando
pequeños pesos.
• Valores faltantes• Remover características
(columnas) • Remover muestras (filas) • Imputar (media,
Vecindad, …)
• Muestreo• División aleatoria entre conjuntos
de datos de entrenamiento y validación.
• Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación
hasta el puro final (sobreentrenamiento)
Nomenclatura
sepal length sepal width petal length petal width class5.1 3.5 1.4 0.2 Iris-setosa4.9 3.0 1.4 0.2 Iris-setosa4.7 3.2 1.3 0.2 Iris-setosa4.6 3.1 1.5 0.2 Iris-setosa5.0 3.6 1.4 0.2 Iris-setosa5.4 3.9 1.7 0.4 Iris-setosa4.6 3.4 1.4 0.3 Iris-setosa
Iris
Instancias (muestras, observaciones)
Características (atributos, dimensiones, experimentos)
Clases (objetivo)
Variables CategóricasColor Tamaño Precio Clase
1 verde M 10.1 clase12 rojo L 13.5 clase23 azul XL 15.3 clase1
Color=azul
Color=verde
Color= Rojo Precio Clase Tamaño
1 0 1 0 10.1 0 12 0 0 1 13.5 1 23 1 0 0 15.3 0 3
nominalazul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal
M 1 L 2 XL 3
Validación cruzada
Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características.
Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation».
Conjunto de Datos Completo
Conjunto de Datos de Entrenamiento
Conjunto de Datos de Validación
Conjunto de
Validación
Conjunto de
Validación
Conjunto de
Validación
Conjunto de
Validación
fold 1 fold 2 fold 3 fold 4
k-fold cross-validation (k=4)
1ª iteración
2ª iteración
3ª iteración
4 iteración
calc error
calc error
calc error
calc error
cálculo de error
promedio
Evaluación del Modelo
1-Especificidad/Taza de falsas alarmas
Taza de Error = 1 - Exactitud
Variable de Respuesta Evaluada:Y es realmente:
Positiva Negativa
Positiva
Negativa
# Falsa Negativa
# Verdadera Negativa
# Falsa Positiva
# Verdadera Positiva
VP+VNP+NExactitud =
Precisión = VPVP+FP
Recall/Sensibilidad= VPVP+FN
Especificidad /Verdadera Taza de Error = VNVN+FP
Matriz de Confusión
Evaluación del Modelo
http://www.intechopen.com/source/html/38584/media/image56.jpeg
Área bajo la Curva ROC - AUC
http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gifTaza de Falsos Positivos
True positive rate
Taza
de
Verd
ader
os P
ositi
vos
Clasificación & Agrupamiento
Clasifiquen…
¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
Fácil, no?
Ahora…
¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
…. y ahora….
15-7
15. Classification And Evolution
FOSSILS (continued)
15-7
15. Classification And Evolution
FOSSILS (continued)
15-6
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)
15-6
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES(numbers in parentheses indicate age in millions of years)
¿Un poco mas complicado?
¿Por qué?
Etiquetas
Características
Aprendizaje
Clasificación
X2
X1 ?
1) Aprender de los datos de entrenamiento
2) Mapear nuevos datos (nunca vistos)
Clasificadores Comunes
Perceptron Multicapa
Bayesiano Ingenuo
Regresión Logística
KNN- K Vecinos más Cercanos
Redes Neurales Artificiales - AAN / Aprendizaje Profundo
Máquinas de Soporte Vectorial - SVM
Árboles de Decisión
C4.5
C4.5• Construye un clasificador en forma de un árbol de decisión.
• Usa ganancia de Información en el proceso de generación del árbol.
• A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento.
• Puede trabajar tanto con datos continuos como con discretos.
• Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.
K Nearest Neighbor - KNN• Este es un método de clasificación no
paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos.
• En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.
Support Vector Machine (SVM)• Muestren hiperplanos que son capaces
de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM
Support Vector Machine (SVM)
Clasificador Bayesiano• El Teorema de Bayes: calcula el la
probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud.
• Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.
Clasificador BayesianoVerosimilitud
Probabilidad de la clase prior
Probabilidad del posterior
Predictor de Probabilidad del prior
Posterior = Anterior * ProbabilidadEvidencia
Redes Neurales Artificiales (ANN)
• Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.
Árboles de Decisión • Son grafos tipo árbol, en los que los
nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja.
• Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información.
*Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
Hiperparámetros• Los hiperparámetros de un clasificador o estimador que no son directamente
aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada.
• El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje.
• Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria.
• Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.
Agrupamiento Jerárquico• Es un método de agrupamiento que busca construir una jerarquía de
grupos. Usa estrategias de dos tipos:
• Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía.
• Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía.
• En general, las uniones y divisiones son determinadas de forma voraz.
• El resultado del agrupamiento usualmente ese presenta en forma de dendrograma
k-meansk-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos.
Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos.
¿Cómo sabe cuál es el mejor k?
Silhouette
Mapa Auto-Organizado - SOM• Es un tipo de red neuronal artificial,
entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa.
• Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada.
• Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.
Nada es gratis…Los modelos son una simplificación de la realidad
La simplificación es basada en presunciones (sesgo del modelo)
Las presunciones fallan en algunas ocaciones
No existe un único modelo que funcione igual de bien para todas las situaciones
¿Cuál Algoritmo Escoger?• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?
• ¿Son los datos lineaments separables?
• ¿Que tanto hay que preocuparse por la eficiencia computacional
• Construcción del modelo vs tiempo real de predicción
• Aprendizaje:
• ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad
• ¿Debe tenerse cuidado en la interpretabilidad de los resultados?
• ….