openanalytics - bigdata por ivan del prado (datasalt)
DESCRIPTION
Iván del Prado, CEO de Datasalt y uno de los creadores de Pangool Hadoop API y Splout SQL repasó las necesidades de usar tecnologías y procesos BigData y las alternativas libres para abordar proyectos de diversa índole.TRANSCRIPT
Big DataUna visión pragmática
Iván de Prado Alonso – CEO of Datasaltwww.datasalt.es@ivanprado@datasalt
Consultoría y formaciónConsultoría y formaciónBig DataBig Data
Analyzing credit card transactions
Extracting insights from Social Networks
Dealing with thousands of millions of classifieds
Managing billions of events per day
PangoolRevamped Hadoop API
Splout SQLMaking Hadoop data accessible
Success storiesDeep Knowledge
Building the future
ICDM 2012
Big Data Hype
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
5 / 27
BIG“MAC”DATA
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
6 / 27
Agenda
1. Definición de Big Data
2. Lo disruptivo
3. Ejemplos sectoriales
4. Conclusiones
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
7 / 27
Definición del Big Data – 4 puntos de vista
● Datos– Volumen
– Velocidad
– Variedad
● Inteligencia de negocio– Cruce de datos
● Redes sociales● Sensores, etc
● Filosofía de desarrollo– No tires ni un dato
– Esquemas en lectura
– Tolerancia a fallos humanos
● Herramientas– Hadoop
– NoSQL
– Sistemas distribuidos
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
8 / 27
Confusión
Big Data
La “caja” del Big Data pinta muy bien ...
¿Pero hay algo realmente nuevo y disruptivo dentro?
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
12 / 27
Agenda
1. Definición de Big Data
2. Lo disruptivo
3. Ejemplos sectoriales
4. Conclusiones
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
13 / 27
Tecnologías disruptivas
● Big Data → Nuevas tecnologías relevantes– Capaces de hacer viable lo que antes era inviable
● Distribuidas– Aprovechan el potencial de varias máquinas– Abstraen al programador de las complejidades de
coordinación● Pero siguen siendo complejas
● Open Source (la mayoría)● De bajo coste
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
16 / 27
Agenda
1. Definición de Big Data
2. Lo disruptivo
3. Ejemplos sectoriales
4. Conclusiones
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
17 / 27
Anuncios clasificados (I)
● Lo que se podía antes del Big Data– Hacer portales de clasificados (inmobiliarios, etc) a nivel de un país
– Tecnologías principales:
● Bases de datos relacionales (i.e. MySQL)
● Lo que era casi imposible y ahora es muy razonable– Hacer un buscador de clasificados de escala mundial
– Tecnologías principales:
● Hadoop, Hbase, Storm● Solr, ElasticSearch
● Ejemplos
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
18 / 27
Anuncios clasificados (II)
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
19 / 27
Análisis de influencia online y en redes sociales (I)
● Lo que se podía antes del Big Data– Restringido al poder de una máquina (análisis locales)
– Tecnologías principales:
● Bases de datos relacionales (i.e. MySQL)● Analítica monomáquina
● Lo que era casi imposible y ahora es muy razonable– Analizar la influencia de todos los individuos en una red social
– Tecnologías principales:
● Hadoop, Hbase, Storm● NoSQL: Voldemort, Cassandra● Hamma, Giraph
● Ejemplos
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
20 / 27
Análisis de influencia online y en redes sociales (II)
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
21 / 27
Explotar datos agregados (I)
● Lo que se podía antes del Big Data– Datos en silos
– Presos de los DW (muy poco flexibles)
– Tecnologías principales:
● EDW MPP
● Lo que era casi imposible y ahora es muy razonable– Explotar de nuevas maneras los datos y dar valor a terceros
– Tecnologías principales:
● Hadoop● NoSQL● Gestores geográficos
● Ejemplos
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
22 / 27
Explotar datos agregados (II)
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
23 / 27
Redes de anuncios (Ad networks)
● Lo que se podía antes del Big Data– Estadísticas básicas en Bds relacionales a clientes
– Agregados de muy alto nivel (se pierde el grano fino)
– Tecnologías principales:
● Bds relacionales (i.e. MySql, Oracle)
● Lo que era casi imposible y ahora es muy razonable– No tirar un sólo dato
– Estadísticas muy ricas y de gran detalle para cada cliente
– Tecnologías principales:
● Hadoop● NoSQL, Splout SQL
● Ejemplos
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
24 / 27
Juegos online
● Lo que se podía antes del Big Data– Recibir y procesar el gran nivel de eventos era casi imposible
– Tecnologías principales:
● Bds relacionales (i.e. MySql, Oracle)● Sistema de colas con consumidores
● Lo que era casi imposible y ahora es muy razonable– Estadísticas y respuesta a eventos en tiempo real
– Tecnologías principales:
● Storm, Erlang● NoSQL
● Ejemplos
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
25 / 27
Agenda
1. Definición de Big Data
2. Lo disruptivo
3. Ejemplos sectoriales
4. Conclusiones
Cop
yrig
ht ©
201
2 D
atas
alt S
yste
ms
S.L
. All
rig
hts
rese
rved
. Not
to b
e re
prod
uced
wit
hout
pri
or w
ritt
en c
onse
nt.
26 / 27
Conclusión
● El Big Data es algo disruptivo● Razón principal: Nuevas tecnologías
– Que hacen posibles aplicaciones antes casi imposibles● Tecnologías aún no maduras y muy dispersas
– Salvo Hadoop, con alto grado de madurez y que resuelve gran parte de problemas
● Oportunidad: arriesgar y abrazar estas tecnologías– Hay cierto riesgo (bajo grado de madurez)– Pero puede suponer una ventaja estratégica– Apostar por equipos pequeños pero capaces
● No centrarse únicamente en tecnología– Preparar equipos humanos Big Data (científicos de datos)
Gracias
Iván de Prado [email protected]@ivanpradowww.datasalt.com
Creative Commons images:http://www.flickr.com/photos/83633410@N07/7658298768/http://www.flickr.com/photos/meatheadmovers/5346219239/in/photostream/http://www.flickr.com/photos/meatheadmovers/5346220901/in/photostream/http://www.flickr.com/photos/jepoirrier/8319130269/