``análisis inteligente de datos: introducción''cvalle/inf-390/introduccion.pdf ·...
TRANSCRIPT
“AID:Introduccion”
Carlos ValleVidal
Introduccion
“Analisis Inteligente de Datos: Introduccion”
Carlos Valle [email protected]
Departamento de Informatica -Universidad Tecnica Federico Santa Marıa
Santiago, Marzo 2009
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Temario
1 Introduccion
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Temario
1 Introduccion
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Preguntas Relevantes
¿Por que analisis inteligente datos?
¿Existe alguna estructura en los datos?
¿Existen datos anomalos? (Outliers, Leverage Points)
¿Se pueden fusionar (sintetizar) los datos de otra maneramas conveniente?
¿Se pueden desagregar los datos de otra manera masconveniente?
¿Es este grupo diferente al otro?
¿Es este atributo dinamico? (cambia con el tiempo)
¿Se puede predecir el valor de este atributo basado en lasmediciones de otros valores?
“AID:Introduccion”
Carlos ValleVidal
Introduccion
¿Que es el analisis inteligente de datos?
Area dedicada al estudio sistematico de los datosTransforma datos en informacionContribuye al descubrimiento de nuevo conocimiento (KDD)Ayuda al reconocimiento de Patron (PR)
Papel de las maquinas de aprendizajeMetodos para aprender de los datosDesarrollo de metodos de aprendizajesautomaticos/semiautomaticos
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Tiempo de Respuesta una variable crıtica
“AID:Introduccion”
Carlos ValleVidal
Introduccion
¿Que es un dato?
Dato puede ser:un numeroun vectorun nombre una direccionuna cualidad, etc
Pero tambien podrıa seruna imagenuna fotoun sımbolo un jeroglıficouna senal acusticaun electrocardiogramaun documentoun librouna funcionuna matriz, etc.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Tipos de Datos
EstructuradosCuantitativosCualitativosSimbolicosOrdenados jerarquicamente
Bloques de datos binariosImagenesSonido
No EstructuradosTextos
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Aplicaciones del analisis de datos
Problemas que estan relacionados con AIDAIdentificar un rostro en una imagenConvertir un texto hablado en uno escritoEstablecer un diagnostico medico a partir de un ECG
En cada uno de ellos se tienen propositos especıficos.
Estos propositos determinan la forma en que los datos debenser procesados.
Esto implica que todo proceso de datos esta precedido porun proceso de modelado del problema que necesitamosresolver.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
AIDA: Aplicaciones
Pronostico de magnitudes de terremotos
Pronostico de perspectiva de yacimientos minerales
Pronosticos de tormentas ionosfericas
Regionalizacion sısmica
Diagnostico diferencial de enfermedades
Evaluacion de pacientes
Clasificacion automatica de hongos (bio-lixiviacion)
Clasificacion automatica de clientes
Identificacion de huellas dactilares
Identificacion de las preferencias de los clientes en sitios web.
Identificacion de rostros
Identificacion de objetos mediante sonidos (aviones,vehıculos)
“AID:Introduccion”
Carlos ValleVidal
Introduccion
AIDA: (2)
Identificacion de objetos mediante rastros (balıstica, marcasde zapatillas)
Reconocimiento de placas de vehıculos
Caracterizacion socio-polıtica de colectivos sociales
Pronostico de surgimiento de fenomenos sociales
Caracterizacion del modus operandis de un terrorista /delincuente
Analisis de causas de fenomenos sociales (delincuenciajuvenil)
Evolucion de especies a traves del estudio de genes.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
AIDA: Problematica
Casi siempre los datos no vienen puros, es decir, vienen demanera difusa.
En el caso particular del AIDA, aunque no haya una divisionexacta en el procesamiento desde los datos difusos por unlado hasta las conclusiones por el otro, un modelo util deAIDA ser dividido en cuatro etapas.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
AIDA: Etapas
Etapas del procesamiento de Datos:
Adquisicion
Preprocesamiento
Representacion-descripcion de objetos
Analisis de datos
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Adquisicion
Este proceso se caracteriza por el hecho que la entradaesta constituida por los datos originales, tomados de lasfuentes originales y la salida son los datos difusos, de loscuales podemos extraer informacion.
Puede ser tan simple como tomar los datos sin ruido yprocesarlos directamente.
Observemos que en la entrada tenemos una fuente, porejemplo, un electrocardiografo, a partir del cual se obtiene lasenal, ECG del paciente.
La senal puede venir con ruidos por lo que no siempre esposible la lectura de lo que queremos extraer sin errores
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Preprocesamiento
Esta etapa se caracteriza porque tanto entrada como salidason datos de la misma naturaleza
Por ejemplo, ambas son senales, imagenes, matrices, etc.
Ejemplos de pre-procesamiento: Filtrado de senales oimagenes, aumentar el contraste de una imagen, restaurarla,eliminarle ruido
Validar datos, escalarlos , transformarlos
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Representacion
En esta etapa los datos pre-procesados son transformadosen una nueva forma que es la adecuada para elprocesamiento posterior.
La entrada y las salidas son diferentes al menos en susignificado.Ejemplos:
Segmentacion de imagenesSeleccion de caracterısticasRepresentacion de una imagen mediante waveletsRepresentacion de una imagen mediante una matriz digitalRepresentacion de la voz, mediante una senal de audio
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Analisis
Proceso en el cual encontramos el significado de los datosoriginales, o al menos una parte de ellos
Podemos reconocer la ocurrencia de cierta informacionpreviamente almacenada y podemos tomar una conclusion.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Etapas
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Ejemplos
Problemas de
Asociacion, correlacion o causalidad
Interpretacion
Caracterizacion
Clasificacion
Clusterizacion
Reconocimiento
Pronostico
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Ejemplos (2)
En el caso de la senal ECG podemos determinar lanormalidad del paciente desde el punto de vista del estadode su sistema cardiovascular, si nosotros tenemos elsuficiente conocimiento de Cardiologıa.
En el caso de una fotografıa podemos identificar personasexaminando sus rostros, incluso si tenemos suficienteconocimiento previo podrıamos identificar a cada una deesas personas.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Disciplina Aplicada
AIDA es una disciplina con un marcado caracter interdisciplinario,que tiene que ver con la Ingenierıa, la Estadıstica y la Ciencia dela Computacion para el procesamiento de datos acerca de losobjetos fısicos o abstractos, con el proposito de mediantealgoritmos obtener la informacion relevante y no evidente que nospermita establecer propiedades de ciertos subconjuntos no vacıosde objetos.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Esquema constituyente de AIDA
Estadıstica
Ciencias de la Computacion
Procesamiento de Senales
Vision por Computacional
Maquinas de Aprendizaje
Redes Neuronales artificiales
Maquinas de soporte vectorial
Morfologıa Matematica
Reconocimiento de patrones, etc
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Convergencia de multiples Disciplinas
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Convergencia de multiples Disciplinas (2)
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Como interactuan las disciplinas
EstadısticaComo develar y optimizar la informacion extraıda de los datosComo recolectar los datos para maximizar la informacionComo hacer inferencias de los datos para obtener nuevoconocimiento.
Ciencias de la Computacion, Maquinas de AprendizajeComo calcular y procesar de manera optima los datosComo medir el costo asociado al procesamiento de lainformacionComo la informacion y el conocimiento pueden ser utilmenterepresentadosComo comprender los lımites de lo que se puede computar.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Maquinas de Aprendizaje
Capacidad del computador para aprender de la experiencia(Oxford English Dictionary)
Proceso que causa que el sistema mejore con la experiencia(Mitchell 1997)
Uso de los algoritmos computacionales para aprender de losdatos (Hutchinson 1995)
Programa de computacion que puede aprender de laexperiencia respecto a algun tipo de tarea y medida dedesempeno (Mitchell 1997)
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Aprendizaje
Consiste en inducir funciones generales de un conjuntoespecıfico de formas denominado patrones deentrenamiento.Tipos de Aprendizaje
Aprendizaje SupervisadoAprendizaje ReforzadoAprendizaje No-supervisadoAprendizaje Semi-supervisado.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Data Mining
Etapa de reconocimiento de patrones mediante algoritmosautomaticos o semiautomaticos de grandes bases de datos,con el objetivo de apoyar la toma de decisiones dentro deuna organizacion
Es el descubrimiento eficiente de informacion valiosa (nuevoshechos y relaciones) no evidentes desde una gran base dedatos. (Bigus 1996)
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Machine Learning
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Estadıstica v/s Maquinas de aprendizaje
Estadıstica Moderna =⇒ Modelo
Maquinas de Aprendizaje =⇒ AlgoritmosModelo:
Estructura propuesta, o una estructura de la cual seobtuvieron los datosLos modelos pueden ser:
Modelos Empıricos buscan relaciones sin basarlas en algunateorıa subyacente.Modelos Mecanicistas: Se construyen en base a algunmecanismo supuesto del proceso de generacion de los datos.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Modelos y Patrones
Modelo: Consiste en una estructura en gran escala queresume las relaciones sobre muchos casos
Patron:Consiste en una estructura local satisfecha poralgunos pocos casos o una pequena region del espacio delos datos.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Analisis de Datos
Es el proceso de calcular varios resumenes y valoresderivados a partir de una coleccion de datosLa falsedad de la receta de cocina (cookbook)
Las herramientas del analisis de datos poseen relacionescomplejas.Rara vez unas pregunta de investigacion es estipulada demanera precisa, de manera tal que una aplicacion simple yunica de algun metodo sera suficiente.
El analisis de datos es un proceso iterativoLos datos se estudian, se analizan utilizando algunaherramienta analıtica, se decide observarla de otra manera,quizas modificandola, se repite el proceso.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
¿Por que inteligente?
Para extraer la estructura subyacente a los datos hay queentender lo que esta sucediendo, Aplicar en forma reiteradadiversos metodos, refinar las preguntas que el investigadortrata de responder requiere de mucho cuidado e inteligencia.
El analisis inteligente de datos no es un metodo pocosistematico de aplicacion de las herramientas Estadısticas yde Data Mining, no es un paseo aleatorio a traves del espaciode las tecnicas analıticas, sino que un procesocuidadosamente planeado para decidir lo que sera mas util yrevelador.
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Herramientas Modernas de Analisis de Datos
Durante el curso se analizaran una serie de tecnicas modernas
Modelos Bayesianos
Metodos de Kernel y maquinas de vectores de soporte
Series Temporales
Reglas de Induccion
Redes Neuronales Artificiales
Ensamblado de maquinas
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Herramientas Modernas de Analisis de Datos
Durante el curso se analizaran una serie de tecnicas modernas
Modelos Bayesianos
Metodos de Kernel y maquinas de vectores de soporte
Series Temporales
Reglas de Induccion
Redes Neuronales Artificiales
Ensamblado de maquinas
“AID:Introduccion”
Carlos ValleVidal
Introduccion
Consultas y Comentarios