sueños y realidades de big data

73
Realidades y sueños de en México Marzo 2015

Upload: abel-alejandro-coronado-iruegas

Post on 12-Sep-2015

16 views

Category:

Documents


0 download

DESCRIPTION

Vision de los alcances de un proyecto de Big Data. Explorando Técnicas y herramientas de proyectos reales.

TRANSCRIPT

Ciencia de Datos Mexicana

Realidades y sueos de

en Mxico Marzo 20151

abel.coronado @ inegi.org.mx

Qu es Big Data?Dan Ariely, Duke UniversityQu es Big Data?

@abxdaQu es Big Data?

Big Data

http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante

@abxdaQu es Big Data?Big data: A big mistake? Journal Significance, The Royal Statistical SocietyBig data Gartner & Finantial Times

http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?

Big Data sola significar que una sola maquina cierta cantidad de datos, Ahora Big Data se ha convertido en una palabra de moda.9

http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?

http://datascience.berkeley.edu/what-is-big-data/ @abxda

Qu es Big Data?

Segn GartnerBig data es informacin en altos volmenes, alta velocidad o alta variedad que demanda formas creativas y viables econmicamente para procesarla con el fin de contribuir a tomar decisiones, actuar y crear valor.http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf Qu es Big Data?

@abxda

Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales

@abxda

@abxda

http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg Tomar decisiones, actuar y crear valor

Big Data en las Oficinas Nacionales de Estadsticahttp://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184

@abxda

It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose. @abxda

Big Data en las Oficinas Nacionales de Estadstica

'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda

Big Data en las Oficinas Nacionales de Estadstica

http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/ ComprenderRecolectarExplorar, VisualizarLimpiarTransformar/CaracterizarModelar / EntrenarValidarComunicar?Imaginar /Considerar la Integracin de Otras Fuentes Analizar Fuente(s)ConceptualizarUn Proceso de Ciencia de Datos

Experto encomputacin ydesarrollo avanzadosExperto enestadsticamatemticaExperto enel dominio dedatosCIENCIADEDATOSZonapeligrosa!InvestigacintradicionalMachinelearningCiencia de Datos@abxda

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Experto encomputacin ydesarrollo avanzadosExperto enestadsticamatemticaExperto enel dominio dedatosUnicornioZonapeligrosa!InvestigacintradicionalMachinelearningCiencia de Datos@abxdaCIENCIADEDATOS

http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html Cientfico de Datos

Ingeniero de Datos@abxdaProductos de DatosManejar las 3 vsvs

VisualizacinModeladoContar HistoriasCientfico de DatosAdministracin de SistemasProgramacinMatemticasEstadsticaIngeniero de DatosAdministracin de Bases de DatosAlmacenamiento de Datos

http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/

Equipo de Big Data y Ciencia de DatosEstadsticaMatemticasMachine LearningMinera de TextoInterfaces de UsuarioExperiencia del UsuarioFirst MobileVisualizacin de DatosIngeniera de SoftwareAdministradores de SistemasBases de datos NoSQLArquitecturas Big DataArquitecturas de SoftwareCrowdsourcing@abxda

Internet de las cosasInternet de las personasInternet de las ideasInternet del todoDatos Crudoshdfs://Informacin(Significado)TomarDecisionesActuar

quin?cuntos?por qu?qu?Dnde?Anlisis de DatosEstadsticaMachine LearningEstratificacionesAnlisis de RegresinMuestreoMucho msAnlisis de Redes (Grafos)Minera de DatosVelocidadVariedadVolumenCiencia de Datos (Transforma/Modela)Cmputo Concurrente y ParaleloArquitectura paraCiencia de Datos y Big Data

@abxda@hbcolectivo

Internet de las Personas

Internet de las Cosas

Sensores{ json }< xml >c,s,v

Redes Sociales

Internet de las IdeasCrowdsourcing

Sistemas de Archivos DistribuidosComputo Paralelo y ConcurrenteProgramacin FuncionalRazonamiento Algebraico

EstadsticaAnlisis MultivariadoMachine LearningAnlisis de Interaccin Espacial

{ json }< xml >c,s,v{ json }< xml >c,s,vBases de Datos NoSQLVisualizacin

Panorama Tecnolgico

Infraestructura de Cmputo

Estratificador InegiQu es un producto de datos

Ciencia de Datos

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda

Tecnologas Involucradas (2013)

{ JSON }

@abxdaD3.js Librera JavaScript para creacin de losgrficos vectoriales interactivos.Librera JavaScript facilita la incorporacin del patrnMVC en aplicaciones web de una sola pginaDiseo de estructura de la pgina y habilitacinresponsiva via Twitter Bootstrap.JSON formato de intercambio de datos.Motor de anlisis estadstico,habilitador de la inteligenciaestadstica.

Ciencia de Datos

@abxdaCiencia de Datos

@abxdaCiencia de Datos

%Acceso a Internet, %Pc, %Telefono Celular, %Automovil

@abxdaEstratificacin de 1.2 M de ManzanasEn la misma Pc de 4 Procesadores:(2013)SoftwareTiempoManzanasBig Data8 Seg.1221,180Tradicional8 Seg.2,666https://spark.apache.org/

@hbcolectivoTwitter como fuente de Big DataPara medir el pulso emotivo de Mxico y mucho ms

Cuntos caracteres?

@abxda

140 ???

@abxda

Todo listo para la presentacin de #BigData en el @FSLmx .1482

Json: Formato de Intercambio

Nuestra huella en las Redes Sociales

@abxdaTodos los tuits estn disponibles para su recoleccin en tiempo real.

@abxda

Incluso permite consultas geogrficas

@abxda

Dnde recolectar?@abxda

http://www.elasticsearch.org/

@abxda

Por qu ElasticSearch?@abxda

Switch Puertos (a) 10.200.2.xPuertos (b)10.1.1.X

Hydra 2 [10.1.1.X | 10.200.X.X]Hydra1 Master 10.1.1.XAcceso a Internet [Recolecta informacin Redes Sociales]

< ESCALABILIDAD HORIZONTAL >Por qu ElasticSearch?@abxda

Hydra

@abxda< ESCALABILIDAD HORIZONTAL >

Hydra

El 22 de enero cumplimos 1 ao de estar recolectando las 24 horas 7 das de la semana.Mas de 121 millones de tuits recolectadosRecoleccin de tuits en Archivos Distribuidos con Bases de Datos NoSQL.

Visualizacin de la Base de Datos

121 Millones de Tuits

Frecuencia de Tuiteo

# TuitsFrecuencia por hora del da882,007 Tuiteros generaron 43079,312 de Tuits

Frecuencia de Tuiteo

Movilidad de los Tuiteros

4469,550 de desplazamientos de 347,157 Tuiteros

Movilidad hacia Pueblos Mgicos

Contenido de los Tuits

@abxdaRed Nacional de Caminos y Twitter

Red Nacional de Caminos y Twitter

DENUE & Twitter

Horarios de Tuiteo cerca de algn sector

@abxda

PIO Anlisis y la medicin del bienestar a travs de twitterMachine LearningQu es un producto de datos

Indicador de sentimiento

Proceso de Machine LearningObjetivo:

Proceso de Machine Learning

Muestra de TuitsEtiquetado Manual

Representacin numrica

http://scikit-learn.org/http://www.r-project.org/ Machine LearningTuits en Tiempo Real

Modelo Clasificador

Indicador de sentimiento@abxda

EntrenamientoProduccin

http://cienciadedatos.inegi.org.mx/pioanalisis@hbcolectivo@ricardoaolvera@abxda

@abxda

{ JSON }

D3.js Librera JavaScript para creacin de losgrficos vectoriales interactivos.Librera JavaScript facilita la incorporacin del patrnMVC en aplicaciones web de una sola pginaDiseo de estructura de la pgina y habilitacinresponsiva via Twitter Bootstrap.JSON formato de intercambio de datos.Web Api 2 / Interface RESTTecnologas Involucradas

Resultados

@hbcolectivo@ricardoaolvera@abxdaAlrededor de 5000 anotadores de la Universidad Tec Milenio64

Seguimos trabajando Seguimos trabajando en la definicin de la estrategia y entrenamiento de los algoritmos de Machine Learning

IMPLEMENTACIN DE BIG DATA

Hadoop / Apache Spark

@abxda

Procesamiento70 Cores > 3 Ghz>250 Gb Ram5 TB+Recoleccin20 Cores > 3 Ghz100 Gb Ram1 TB

Tecnologa de procesamiento en paralelo para Ciencia de Datos

Apache Spark@abxda

@abxda

Reflexin@abxda

http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html Reflexin@abxda

Preguntas@abxda

[email protected]