big data jornada fundación ramón areces

29
Un universo de datos. El fenómeno Big Data y la Ciencia Joaquín Salvachúa @ DIT ETSIT UPM [email protected]

Upload: joaquin-salvachua

Post on 17-May-2015

370 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Big data Jornada Fundación Ramón Areces

Un universo de datos. El fenómeno Big Data y la

Ciencia

Un universo de datos. El fenómeno Big Data y la

Ciencia

Joaquín Salvachúa @ DIT ETSIT [email protected]

Joaquín Salvachúa @ DIT ETSIT [email protected]

Page 2: Big data Jornada Fundación Ramón Areces

Movimiento brownianoMovimiento browniano

•Movimiento aleatorio de particulas en un medio fluido.

•Analizado en función de la agregación de los movimientos de las moléculas del agua.

•¿Que ocurriría si tuviesemos acceso a los movimientos de TODAS las moleculas del agua? (en vez de una agregación de datos).

•Movimiento aleatorio de particulas en un medio fluido.

•Analizado en función de la agregación de los movimientos de las moléculas del agua.

•¿Que ocurriría si tuviesemos acceso a los movimientos de TODAS las moleculas del agua? (en vez de una agregación de datos).

Page 3: Big data Jornada Fundación Ramón Areces

Movimiento browniano social

Movimiento browniano social

•Actualmente podemos tener toda la información de lo que realiza una persona.

•... Incluso lo que piensa, siente o desea (facebook, twitter, etc).

•.. Movimientos (smartCity, smartCar).

•El mundo como un gran fuente de datos.

•Actualmente podemos tener toda la información de lo que realiza una persona.

•... Incluso lo que piensa, siente o desea (facebook, twitter, etc).

•.. Movimientos (smartCity, smartCar).

•El mundo como un gran fuente de datos.

Page 4: Big data Jornada Fundación Ramón Areces

DatosDatos

•Análisis en casi tiempo real.

•Acceso a mayor cantidad de datos, de todo tipo, relevancia y veracidad.

•Posiblidad de almacenarlos todos.

•Posiblidad de procesar y guardar TODOS los datos. ( 1 W / n R ).

•Análisis en casi tiempo real.

•Acceso a mayor cantidad de datos, de todo tipo, relevancia y veracidad.

•Posiblidad de almacenarlos todos.

•Posiblidad de procesar y guardar TODOS los datos. ( 1 W / n R ).

Page 5: Big data Jornada Fundación Ramón Areces

¿Muerte del método científico?

¿Muerte del método científico?

•¿Modelo analítico? tengo datos...

•Evitar razonar sobre el problema.

•Ciencia guiada por datos.

•El mundo como experimento (gripe)

•¿Modelo analítico? tengo datos...

•Evitar razonar sobre el problema.

•Ciencia guiada por datos.

•El mundo como experimento (gripe)

Page 6: Big data Jornada Fundación Ramón Areces

Big DataBig Data

•Capacidad de manipular grandes cantidades heterogeneas de datos.

•Volumen

•Variedad

•Velocidad

•Veracidad

•Capacidad de manipular grandes cantidades heterogeneas de datos.

•Volumen

•Variedad

•Velocidad

•Veracidad

Page 7: Big data Jornada Fundación Ramón Areces

VolumenVolumen

•Es como lo de antes.. pero más grande

•Bussines intelligence.

•¿Seguro?

•¿Podemos tener una hormiga de 10 m de largo?

•Es como lo de antes.. pero más grande

•Bussines intelligence.

•¿Seguro?

•¿Podemos tener una hormiga de 10 m de largo?

Page 8: Big data Jornada Fundación Ramón Areces

Almacenamiento y procesado

Almacenamiento y procesado

•Diversos enfoques para sistemas distribuidos.

•Problemas de resistencia a caidas, dificultad de configuración etc.

•Evitar que sea necesario manejar dichos datos.

•Diversos enfoques para sistemas distribuidos.

•Problemas de resistencia a caidas, dificultad de configuración etc.

•Evitar que sea necesario manejar dichos datos.

Page 9: Big data Jornada Fundación Ramón Areces

Sistemas de almacenamiento

Sistemas de almacenamiento

•BigTable (google GFS ) 2006

•Imitado en Hadoop (HDFS)

•Almacen clave-valor sin estructura.

•Discos baratos y fungibles (3 replicas)

•BigTable (google GFS ) 2006

•Imitado en Hadoop (HDFS)

•Almacen clave-valor sin estructura.

•Discos baratos y fungibles (3 replicas)

Page 10: Big data Jornada Fundación Ramón Areces

P2PP2P•Sistemas autoregulados y

autoconfigurados.

•Basados en DHT (Distributed Hash Tables)

•Base de los sistemas de compartición de ficheros P2P.

•Bases de datos NoSQL

•Sistemas autoregulados y autoconfigurados.

•Basados en DHT (Distributed Hash Tables)

•Base de los sistemas de compartición de ficheros P2P.

•Bases de datos NoSQL

Page 11: Big data Jornada Fundación Ramón Areces

MapReduceMapReduce

•Sistema de procesado distribuido autoorganizado y autosincronizado.

•Diseñado por google (2004)

•Estado en disco.

•Dos fases.

•Sistema de procesado distribuido autoorganizado y autosincronizado.

•Diseñado por google (2004)

•Estado en disco.

•Dos fases.

Page 12: Big data Jornada Fundación Ramón Areces

Hadoop y otras hierbas.Hadoop y otras hierbas.

•Proyecto de software libre Apache que replica la infraestructura inicial de google.

•Escrito en Java.

•Diversas capas para que sea más sencillo usarlo.

•Proyecto de software libre Apache que replica la infraestructura inicial de google.

•Escrito en Java.

•Diversas capas para que sea más sencillo usarlo.

Page 13: Big data Jornada Fundación Ramón Areces

Relación con CloudComputing

Relación con CloudComputing

•Despliegue de Hadoop en la nube.

•Pagas por lo que gastas.

•Soporte en los distintos proveedores.

•Engarce con sistemas de almacenamiento y de procesado de valores.

•Despliegue de Hadoop en la nube.

•Pagas por lo que gastas.

•Soporte en los distintos proveedores.

•Engarce con sistemas de almacenamiento y de procesado de valores.

Page 14: Big data Jornada Fundación Ramón Areces

VariedadVariedad

•Manipulación de datos no estructurados, ni agregados.

•Necesidad de “cocinarlos” previamente.

•De múltiples fuentes no disjuntas: redundancia.

•Sobrepasar las ideas de la fracasada web semántica. (enfoque más pragmatico).

•Manipulación de datos no estructurados, ni agregados.

•Necesidad de “cocinarlos” previamente.

•De múltiples fuentes no disjuntas: redundancia.

•Sobrepasar las ideas de la fracasada web semántica. (enfoque más pragmatico).

Page 15: Big data Jornada Fundación Ramón Areces

VelocidadVelocidad

•Problema en transportar datos de un sensor a un almacenamiento o entre almacenamiento.

•Necesidad de procesarlos rapidamente.

•Esquemas similares a multimedia.

•Uso de GPUs.

•Procesado en “streamming”.

•Problema en transportar datos de un sensor a un almacenamiento o entre almacenamiento.

•Necesidad de procesarlos rapidamente.

•Esquemas similares a multimedia.

•Uso de GPUs.

•Procesado en “streamming”.

Page 16: Big data Jornada Fundación Ramón Areces

VisualizaciónVisualización

•Mark Twain : "Lies, damned lies, and statistics Visualization”.

•Componente vital de todo análisis.

•Parte artistica del análisis.

•Nicho de gran futuro.

•Mark Twain : "Lies, damned lies, and statistics Visualization”.

•Componente vital de todo análisis.

•Parte artistica del análisis.

•Nicho de gran futuro.

Page 17: Big data Jornada Fundación Ramón Areces

PrivacidadPrivacidad

•Cambio en el esquema.

•Saben como nos comportamos (tipado de patos// duck-typing ).

•Cambio en el esquema.

•Saben como nos comportamos (tipado de patos// duck-typing ).

Page 18: Big data Jornada Fundación Ramón Areces

¿Nuestros datos?¿Nuestros datos?

Internet of thingsInternet of things

SocialmediaSocialmedia

Page 19: Big data Jornada Fundación Ramón Areces

IoT & SmartCitiesIoT & SmartCities

•Fuente de datos en crudo.

•Abundancia de sensores: nuevos API.

•Problemas de almacenamiento: procesado distribuido.

•Ciudades inteligentes: propiedad emergente de sistemas analizados con BigData.

•Fuente de datos en crudo.

•Abundancia de sensores: nuevos API.

•Problemas de almacenamiento: procesado distribuido.

•Ciudades inteligentes: propiedad emergente de sistemas analizados con BigData.

Page 20: Big data Jornada Fundación Ramón Areces

Problemas prácticosProblemas prácticos

•Podemos sintetizar atributos a los que debemos aplicar la ley de protección de datos.

•Inferir sexo, orientación sexual, religión.

•Dificultad de la anonimización de los datos: esquemas de federación de busquedas-resultados.

•Podemos sintetizar atributos a los que debemos aplicar la ley de protección de datos.

•Inferir sexo, orientación sexual, religión.

•Dificultad de la anonimización de los datos: esquemas de federación de busquedas-resultados.

Page 21: Big data Jornada Fundación Ramón Areces

Cerrando el bucleCerrando el bucle

Page 22: Big data Jornada Fundación Ramón Areces

Periodismo de datosPeriodismo de datos

•Importancia de saber procesar datos no solo por científicos.

•Importante para la sociedad.

•OpenData

•Necesidad de entornos sencillos.

•Importancia de saber procesar datos no solo por científicos.

•Importante para la sociedad.

•OpenData

•Necesidad de entornos sencillos.

Page 23: Big data Jornada Fundación Ramón Areces

“Los limites de mi lenguaje son los limites

de mi mundo”

“Los limites de mi lenguaje son los limites

de mi mundo”•R : Comunidad y flexibilidad

•Julia : Rapidez.

•NumPy (selección por parte de Darpa)

•R : Comunidad y flexibilidad

•Julia : Rapidez.

•NumPy (selección por parte de Darpa)

Page 24: Big data Jornada Fundación Ramón Areces

Problemas clásicosProblemas clásicos

•Lo ha dicho el “BigData”: Eliminación de teletrabajo en Yahoo (Marisa Mayer).

•GarbageIn-Garbage-Out

•Lo ha dicho el “BigData”: Eliminación de teletrabajo en Yahoo (Marisa Mayer).

•GarbageIn-Garbage-Out

Page 25: Big data Jornada Fundación Ramón Areces

Social Media.Social Media.

•Importancia del analisis basado en ciencia de redes.

•Extrapolable a otros campos.

•el Grafo social como “mi tesoro”.

•Ciencia de las redes.

•Necesidad de avances teóricos.

•Importancia del analisis basado en ciencia de redes.

•Extrapolable a otros campos.

•el Grafo social como “mi tesoro”.

•Ciencia de las redes.

•Necesidad de avances teóricos.

Page 26: Big data Jornada Fundación Ramón Areces

Problemas de procesado de grafos

Problemas de procesado de grafos

•Almacenamientos poco orientado a análisis de grafos

•Nuevos enfoques

• (Google Pregel 2010)

•¿ enfoque correcto ?

•Almacenamientos poco orientado a análisis de grafos

•Nuevos enfoques

• (Google Pregel 2010)

•¿ enfoque correcto ?

Page 27: Big data Jornada Fundación Ramón Areces

Future InternetFI-ware Fi-pppFuture InternetFI-ware Fi-ppp

Page 28: Big data Jornada Fundación Ramón Areces

Triste es pedir... pero más triste es robar.

Triste es pedir... pero más triste es robar.

•Dificultad de acceder a “datasets” interesantes.

•¿Es realmente el nuevo petroleo?

•Enfoques abiertos y colaborativos.

•Dificultad de acceder a “datasets” interesantes.

•¿Es realmente el nuevo petroleo?

•Enfoques abiertos y colaborativos.

Page 29: Big data Jornada Fundación Ramón Areces

¿ Preguntas?¿ Preguntas?