francisco sanchez. iti. big data, anaytics el valor de los datos. semanainformatica.com 2015

45
ITI – Instituto Tecnológico de Informática www.i$.es formacion@i$.es Big Data Analy,cs: el valor de los datos 23 de abril de 2015 Copyright 20142015 Ins$tuto Tecnológico de Informá$ca (ITI) Prohibida la reproducción total o parcial sin permiso del ITI

Upload: coiicv

Post on 22-Jul-2015

79 views

Category:

Technology


0 download

TRANSCRIPT

ITI – Instituto Tecnológico de Informática

www.i$.es  formacion@i$.es  

Big  Data  Analy,cs:  el  valor  de  los  datos  

23  de  abril  de  2015  

Copyright  2014-­‐2015  Ins$tuto  Tecnológico  de  Informá$ca  (ITI)  Prohibida  la  reproducción  total  o  parcial  sin  permiso  del  ITI  

ITI – Instituto Tecnológico de Informática

u  Introducción a Big Data

u  ¿Qué hacemos con los datos?

u  Big Data Analytics

u  Oportunidades en Big Data Analytics    

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Fuente Venturebeat

Introducción a Big Data

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Introducción a Big Data

En 2011 se generó y almacenó más de 1 Zettabyte de datos

El 80% de la información es desestructurada

Las empresas sólo aprovechan en torno al 5% de la información generada

El volumen de datos generados cada año crece de forma exponencial en todos los sectores

El 90% de la información existente ha sido generada en los dos últimos años

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Introducción a Big Data

En 2020, 30mil millones de dispositivos estarán conectados a internet

¿Cuáles son las fuentes de datos?

•  Datos propios

•  Open Data •  Redes sociales

•  Telecomunicaciones

•  Comercio electrónico •  Internet de las Cosas o M2M

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Introducción a Big Data

Seminario Big Data

¿Qué es Big Data?

Big Data es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable

Fuente: Wikipedia

¿Estamos hablando sólo de VOLUMEN de datos?

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

La problemática Big Data

Características de Big Data (las 4 v’s)

Fuente: IBM

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

La problemática Big Data: Volumen

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

•  Tecnologías habituales no son capaces de manejar con soltura este ingente volumen de información

•  Ha sido necesario crear técnicas y tecnologías para conseguir: •  Bases de datos altamente escalables •  Sistemas de archivos distribuidos autogestionados •  Tratamiento masivo de datos

•  El estándar más extendido es Hadoop •  También han proliferando soluciones cloud (IaaS) para dar respuesta

a las necesidades de elasticidad

La problemática Big Data: Volumen

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

•  Hace  años:  nombre,  edad,  dirección...  •  Datos  estructurados  y  organizados,  como  los  de  cualquier  BBDD  convencional  •  Campos  bien  definidos,  con  información  bien  especificada  

La problemática Big Data: Variedad

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

•  Hoy  en  día,  80%  datos  no  estructurados:  imágenes,  vídeos,  tuits,  documentos  completos...  ¡Y  no  sólo  en  un  $po  de  sector!  

•  Datos  producidos  por  humanos  para  que  los  humanos  los  consuman:  Gramá$ca,  Contexto,  Cultura...  Semán,ca  

•  Aparición  de  nuevas  tecnologías  especializadas  en  almacén  de  este  $po  de  datos:  

•  NoSQL:  •  NewSQL:  

La problemática Big Data: Variedad

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

La problemática Big Data: Variedad

Fuente:  Sunil  Soares  

Fuente:  Dzone  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

•  ¿Qué  $empo  de  respuesta  podemos  ofrecer  con  esos  volúmenes  de  datos?  •  ¿Podemos  analizarlos  en  ,empo  real  si  así  se  requiere?  (no  de  forma  periódica  o  

cercana  al  $empo  real)  •  ¿Podemos  conseguir  esos  $empos  cuando  hablamos  de  Vídeos,  Imágenes,  

Documentos...?  •  ¿Nos  valen  los  servidores  de  BBDD  tradicionales?  •  BBDD  NoSQL  y  NewSQL  in-­‐memory:  

La problemática Big Data: Velocidad

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

La problemática Big Data: Velocidad

•  Ejemplos: •  Detección de fraudes en transacciones bancarias •  Análisis de riesgos para la compra de acciones •  Dashboards inteligentes •  Mensajes virales en redes sociales (twitter) •  Interacciones en juegos online (MMOG) •  Recogida de datos en sensores (logs) •  …

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

•  Establecer  hasta  qué  punto  podemos  confiar  en  los  datos  que  tenemos.  •  Incluye:  la  fiabilidad,  la  precisión,  la  confiabilidad  •  Descartar  aquellos  datos  que  no  son  veraces:  

•  Eliminar  duplicados  •  Arreglar  entradas  parciales  •  Eliminar  entradas  nulas  o  en  blanco  •  Inconsistencias  en  formato  •  ...  

La problemática Big Data: Veracidad

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Fuente Venturebeat

¿Qué hacemos con los datos?

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

¿Qué hacemos con los datos?

Seminario Big Data

•  El  problema  es  que  hay  mucha  información:  –  Interna  –  Externa  

   •  ...  pero  no  tenemos  una  idea  clara  de  

cómo  explotarla  –  A  nivel  tecnológico  –  A  nivel  estratégico  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

¿Qué hacemos con los datos?

Seminario Big Data

hfps://www.centrodeinnovacionbbva.com/    

hfps://www.telecomitalia.com/$t/en/bigdatachallenge  

hfp://ibmhadoop.challengepost.com/  

No  os  preocupéis,  no  somos  los  únicos  con  este  problema:  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

¿Qué hacemos con los datos?

Seminario Big Data

hfps://www.youtube.com/watch?v=BtCwjfU2Rro    

hfps://www.youtube.com/watch?v=vP4QTyVQTUo    

Muuuchos datos de flujo de corrientes

 

 

¿Y si les agregamos...? Salinidad, Temperatura, Color, Vientos...

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

¿Qué hacemos con los datos?

Seminario Big Data

Muuuchos datos de flujo de dinero  

 

¿Y si les agregamos información social? ¿Estaban relacionados con algún evento? ¿Podemos preverlo en futuras situaciones?

hfps://www.youtube.com/watch?t=33&v=8J3T3UjHbrE    

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

¿Qué hacemos con los datos?

Seminario Big Data

•  En  defini$va:  –  Necesitamos  saber  de  qué  estamos  hablando  al  referirnos  a  BigData  

–  Necesitamos  conocer  las  tecnologías  e  infraestructura  necesarias  para  la  explotación  del  Big  Data  

–  Necesitamos  estudiar  la  estrategia  para  sacar  valor  a  esos  datos  

•  ¿Por  nosotros  mismos?  •  ¿Vendiéndolos  a  terceros?  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Fuente Venturebeat

Big Data Analytics

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

•  Almacenar datos no es suficiente •  Extraer valor de los datos es la clave •  Información = Ventaja competitiva

•  20% del tiempo se invierte en buscar datos •  61% de los ejecutivos quieren acceso rápido a datos •  80% de las decisiones se toman en base a datos

•  Las empresas necesitan: •  Descubrir tendencias •  Evaluar el impacto •  Dirigirse al target (personalizar) •  Mejorar sus procesos •  Apoyo en la toma de decisiones

 

 

Big Data Analytics

Seminario Big Data

El negocio de datos

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Big Data Analytics Terminología del uso y análisis de datos

Término   Marco  temporal   Significado  

Decision  Support   1970-­‐1985   Uso  del  análisis  de  datos  para  ayudar  a  la  toma  de  decisiones  

Execu$ve  Support   1980-­‐1990   Enfocado  a  análisis  de  datos  para  toma  de  decisiones  de  ejecu$vos  senior  

Online  Anali$cal  Processing  (OLAP)  

1990-­‐2000   Sorware  para  analizar  tablas  de  datos  mul$dimensionales  

Business  Intelligence   1989-­‐2005   Herramientas  para  ayuda  a  la  toma  de  decisiones  basadas  en  los  datos,  con  especial  énfasis  en  repor$ng  

Analy$cs   2005-­‐2010   Enfocado  a  análisis  estadís$co  y  matemá$co  para  la  toma  de  decisiones  

Big  Data  Analy$cs   2010-­‐actualmente  

Enfocado  al  análisis  de  grandes  volúmenes  de  datos,  desestructurados  y  muy  variables  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Big Data Analytics

“Proceso de examinar BigData para extraer patrones ocultos, correlaciones desconocidas y cualquier otro tipo de información

que pueda ser de utilidad para la tomar mejores decisiones” SAS Institute

•  Big Data Analytics:

•  se pueden analizar grandes volúmenes de datos que el análisis tradicional y el Business Intelligence hasta el momento no eran capaces de manejar.

•  No hay necesidad de descartar datos. •  Reducimos los tiempos de días a horas. Y de horas a minutos.

 

 

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Big Data Analytics

•  Aproximaciones para Analytics: –  Reactivas:

•  Business Intelligence: informes ad-hoc, informes estándar, OLAP, e incluso algunas alertas y notificaciones relacionadas con el análisis de datos históricos.

•  Big Data BI: similar al anterior, pero manejando inmensos volúmenes de datos. En ambos casos los métodos son reactivos.

–  Proactivas:  

 •  Big Analytics: se trata de usar análisis

estadístico, minería de datos, forecasting, modelado predictivo, u optimización, tomando decisiones proactivas.

•  BigData Analytics: nos permite extraer información relevante de terabytes, petabytes y exabytes.

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Big Data Analytics

¿Cuáles son esas nuevas

herramientas o técnicas que nos permiten hacer el análisis de esas inmensas cantidades

de datos?

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  Seminario Big Data

Big Data Analytics: Ecosistema

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  Seminario Big Data

Tecnologías base Soluciones diseñadas para resolver las dificultades genéricas en Big Data

Big Data Analytics: Ecosistema

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  Seminario Big Data

Infraestructura Soluciones encargadas de procesar, almacenar y, en ocasiones, analizar

Big Data Analytics: Ecosistema

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  Seminario Big Data

Análisis Soluciones diseñadas específicamente para recoger, organizar y analizar datos para obtener información de valor: •  Analytics •  Visualization •  Business Inteligence

Big Data Analytics: Ecosistema

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  Seminario Big Data

Aplicaciones Soluciones que prestan servicios en torno al mercado de la toma de datos para su análisis: •  Specific applications •  Data Sources

Big Data Analytics: Ecosistema

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Fuente Venturebeat

Oportunidades en BigData Analytics

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Analizar  datos  

•  Estudiar  las  necesidades  y  estrategia  de  la  empresa  

•  Estudiar  las  preguntas  que  se  quieren  contestar  

•  Estudiar  qué  datos  nos  ayudan  a  contestar  dichas  preguntas  

•  Preparar  los  datos  •  Explotar  los  datos  •  Presentar  los  resultados  

Vender  Datos  

•  Empresas  que  cuentan  con  grandes  volúmenes  de  datos  

•  Quizás  haya  gente  interesada  en  explotar  esos  datos  

•  ¿Cómo  los  organizo?  ¿Cómo  los  pongo  a  disposición  de  terceros?  

•  ¿Qué  infraestructura  necesito?  

34  

Oportunidades del Big Data Analytics

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

Si quiero explotar los datos para mejorar mi negocio: •  Conocer que Twitter y Facebook tienen un montón de datos, o que un solo

genoma humano ocupa varios gigabytes, no nos ayuda mucho •  Las preguntas que debemos hacernos son:

¿Cuál es la estrategia de mi empresa? ¿Qué datos necesito para ayudar a esa estrategia?

¿Qué preguntas hay que contestar para ayudar a esa estrategia? ¿Cuánta inversión necesitaremos para hacerlo?

¿Qué retorno espero obtener?

•  En definitiva: ¿Cómo podemos sacar partido a los datos?

35  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

•  Formas de conseguir valor:

–  Reducción de costes. E.g.: •  Mejoras de eficiencia energética alineando producción con consumo •  Mejoras en cálculo de rutas para flotas

–  Mejora en la toma de decisiones. E.g.: •  ¿De qué países me vendrán los clientes en las próximas semanas? ¿Podría

asignar turnos a los trabajadores de mis hoteles en base a esa información? •  ¿Dónde está teniendo más repercusión mi nuevo producto? ¿Debería invertir en

publicidad en el resto de países?

–  Mejora en los productos y servicios. E.g.: •  Aplicación de “People You May Know” de LinkedIn. Una de las primeras apuestas

de BigData de la compañía. •  Consiguieron un 30% más de clics por parte de usuarios que con cualquier otra

iniciativa anterior. Muchas otras compañías lo han copiado: twitter, facebook...

36  

¡Es importante no invertir más de lo que espero obtener a cambio!

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

Escenarios para la empresas que quieran analizar datos: •  Empresas que cuentan con datos propietarios y únicos:

–  Amazon, Visa, Facebook, ... –  Tienen una ventaja competitiva clara. Y muy probablemente no nos necesitan...

•  Empresas que están en posición de genera gran volumen de información

digital: –  No están seguros cómo almacenar todos sus históricos –  Intuyen, pero no conocen el potencial real –  No saben cómo analizar esos datos más allá de con técnicas de BI. –  Están lejos de poder analizar datos desestructurados (e.g. documentos de texto) –  Requieren de expertos en manejo de datos

37  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

•  Aquellas empresas que cuentan con pocos datos, pero relevantes, pueden: –  Complementar el análisis de sus datos con datos de terceros –  Comprar datos a terceros (Suele ser caro. Hay que medir bien el ROI) –  Incorporar OpenData (Es un reto encontrarla y otro reto sacarle valor) –  Vender sus datos

•  Una frase lo resume todo: “We don’t have better algorithms. We just have more data”

Peter Norvig, Director de Investigación de Google

38  

•  En definitiva:

–  Se trata de añadir más fuentes de datos a modelos y predictivos y explicativos ya existentes

–  Hay más valor en la adición de datos a los algoritmos que en la mejora de los algoritmos en sí

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

La oferta:

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

Lo que obtenemos:

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

–  No tengamos prisas: •  Big Data está dando aún sus primeros pasos •  Existen muchas tecnologías disponibles hoy en día para trabajar con Big

Data, pero pocas empresas las tienen aún en producción real –  Hay aún muchos retos por delante:

•  Conocer las estrategias de las empresas y el tipo de datos que tienen y necesitan: ¿sabes de modelos de negocio?

•  Conocer las infraestructuras necesarias para desplegar las tecnologías Big Data: ¿sabes de virtualización y de cloud computing?

•  Conocer las tecnologías Big Data, a qué escenarios aplican y cómo se complementan entre ellas: ¿conoces un amplio abanico de tecnologías?

•  Conocer las últimas técnicas de análisis: ¿sabes de estadística?

•  Representar y comunicar los resultados

El horizonte está muy cerca, pero aún estamos a tiempo de reaccionar

41  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data

42  

email: [email protected] twitter: @Francisco_1978

Síguenos en:  

Francisco Sánchez Cid Director del Dpto. de Servicios I+D

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

CONTACTO

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

•  ¿Nos asustan todas las Vs de BigData? –  No os preocupéis, no tenéis porqué cumplirlas todas: V1 o V2 o V3. No V1 y V2 y V3.

•  ¿Tus datos llegan a gran velocidad y de forma continua, por ejemplo a través de redes de sensores?

–  Ya puedes sacarle partido a las técnicas de procesamiento in-memory y real-time

•  ¿Tus datos incorporan mucho texto en lenguaje natural repartido en muchísimos documentos?

–  Ya puedes sacarle partido a técnicas de almacén y búsqueda especialmente preparadas para estos escenarios

•  ¿Tus datos son muchos pero están perfectamente estructurados?

–  Igual puedes apuntarte al carro de NewSQL como alternativa a NoSQL

•  ¿Tus datos son “small data”? –  Siempre puedes valorar la posibilidad de cruzarlos con BigData generado

externamente.

44  

www.iti.es

@i$_$c   i$   viewi$videos   ITI  -­‐  Ins$tuto  Tecnológico  de  Informá$ca  

Oportunidades del Big Data Analytics

•  Los datos están ahí, esperando a ser almacenados y analizados con cariño...

•  Muchas empresas siguen teniendo “HIPPO”

–  Sus decisiones de basan en: Highest’s Paid Person Opinion. –  Small data analytics lleva años con nosotros y aún hay empresarios que basan

la toma de decisiones en su intuición

•  El 76% de las empresas ven Big Data como una oportunidad –  ...pero sólo el 25% coinciden en una definición común de Big Data

•  El 64% de las empresas usan “la nube” de una forma u otra –  ...pero sólo el 33% de ellas la usan para almacenar Big Data

¡Aún queda camino por recorrer! 45