cassandra meet up noviembre - drag & drop techs with cassandra

27
Técnicas de Inyección / Extracción de Datos en #BigData + Técnicas Drag & Drop en Apache Cassandra @javituiter www.franciscojavierpulido.com @exploradata www.exploradata.com

Upload: francisco-javier-pulido-pinero

Post on 29-Jun-2015

188 views

Category:

Engineering


1 download

DESCRIPTION

Title: Drag&Drop Data Techniques with Apache Cassandra Description: Do you want to manage your Big Data WorkFlows of Apache Cassandra with the most advance visualization tools?. We´ll talk about PDI & Cassandra at this event and we´ll comment our favorite tips & tricks with Apache Cassandra in ExploraData. Target: Data Engineers, Data Scientist, Big Data Lovers. Título: Técnicas de Datos Drag&Drop con Apache Cassandra Descripción: ¿Quieres administrar tus Flujos de Trabajo Big Data de Apache Cassandra con las herramientas de visualización más avanzadas?. En este evento hablaremos de PDI & Apache cassandra y comentaremos nuestros trucos favoritos con Apache Cassandra en ExploraData. Público Objetivo: Ingenieros de Datos, Científicos de Datos, Amantes del Big Data.

TRANSCRIPT

Page 1: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas de Inyección / Extracción de Datos en #BigData +

Técnicas Drag & Drop en Apache Cassandra

@javituiter  www.franciscojavierpulido.com  

@exploradata  www.exploradata.com  

Page 2: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Sobre mí

Graduado  en  Ingeniera  del  So;ware  

Master  en  Sistemas  en  

Ingeniería  de  la  Información  

Big  Data  Specialist  www.ExploraData.com  

Bloguero  &  

Tuitero  

Page 3: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

ExploraBrand: Marketing Digital

www.explorabrand.com  

Page 4: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección/Extracción de Datos en #BigData

Page 5: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extracción de datos en #BigData

Page 6: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extracción de datos en #BigData

Page 7: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extracción de datos en #BigData

Page 8: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección/Extracción de Datos

en Cassandra

Page 9: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Comando  COPY  

Page 10: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Comando  COPY  

-­‐  Desarrollar  desde  0  un  programa  para  lanzar  múlMples  instancias  del  comando  (secuencialmente,  ya  que  paralelamente  estaba  sujeto  a  errores  de  concurrencia)  

-­‐  Paralelizable  en  varios  nodos  manualmente  -­‐  Limitado  a  500.000  registros  por  hilo/lanzamiento  

Page 11: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Apache  Sqoop  

·∙  Relacional  ·∙  NoSQL  

·∙  Relacional  ·∙  NoSQL  

Hadoop  

Page 12: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Apache  Flume  

-­‐  Herramienta  exclusiva  para  la  etapa  de  Obtención  de  datos  -­‐  Source  -­‐  Channel  -­‐  Sink  -­‐  Interceptor  

Page 13: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Apache  Flume  

Channel  1  

Channel  N  

Source  1   .  .  .  

.  

.  

.  

Source  2  

Sink  1  

Sink  2  

Page 14: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Apache  Flume  

Page 15: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

Apache  Flume  

+  Sink  a  Cassandra                          Personalizado  

hbp://www.treselle.com/blog/flume-­‐with-­‐cassandra-­‐integraMon    

Page 16: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Inyección / Extración de datos en Cassandra

DataStax:  SSTableLoader  

Page 17: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Page 18: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

ETL  •  Extraer, Transformar y Cargar (Load). En definitiva:

•  Extraer datos de múltiples fuentes

•  Aplicar calidad y consistencia (limpiar) a los datos

•  Conformar (unificar) los datos

•  Cargar los datos en un DW

•  La idea de Flujo.

•  Actividad inicial y con ejecución periódica/programable.

•  Herramientas: Talend, JasperSoft, Pentaho Data Integration

Page 19: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Pentaho  Data  IntegraMon  •  PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.

•  Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.

•  Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos.

•  Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).

Page 20: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Page 21: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Conectores  Big  Data  en  PDI  •  En PDI tenemos múltiples conectores para sistemas Big Data:

•  AVRO

•  Cassandra

•  CouchDB

•  Hadoop

•  Hbase

•  Map Reduce

•  MongoDB

Page 22: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Cassandra  en  PDI  •  Tenemos tres tipos de “pasos” para Apache Cassandra:

•  Cassandra Input: se utiliza para realizar lecturas

•  Cassandra Output: se utiliza para realizar escrituras

•  SSTable Output: se utiliza para volcar a una SSTable de Cassandra.

•  Requisitos:

•  Apache Cassandra 1.2.X

•  PDI 5.0.1 Stable

•  Librerías oficiales de Apache Cassandra para PDI

•  Limitaciones:

•  Los “pasos” funcionan correctamente con hasta 500K registros

Page 23: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Cassandra  Input  

Page 24: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

Cassandra  Output  

Page 25: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Técnicas Drag&Drop en Cassandra

SSTable  Output  

*  Este  paso  necesita  ser  ejecutado  siempre  en  un  nodo  de  Cassandra.  

Page 26: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

PDI en Acción

Page 27: Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

?  ¿ Dudas ?

@javituiter  www.franciscojavierpulido.com  

@exploradata  www.exploradata.com