![Page 2: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/2.jpg)
SPARKLYR• Introducción:
• Apache Spark: Historia, que es y cuando utilizarlo?• sparklyr : Historia, que es y cuando utilizarlo?
• Escalando sparklyr :• Clusters en Producción• Clusters en Amazon EMR
• sparklyr 0.5• Preguntas
![Page 3: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/3.jpg)
Introducción
![Page 4: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/4.jpg)
APACHE SPARK: HISTORIA
https://medium.com/@markobonaci/the-history-of-hadoop-68984a11704#.1mekvn5vc
2003: The Google File System (HDFS)2004: MapReduce: Simplified Data Processing on Large Clusters2006: Hadoop project at Yahoo2008: Hive project by Facebook (SQL on Hadoop)2009: Amazon EMR2010: Apache Spark (inicio)2013: Apache Spark (release)
![Page 5: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/5.jpg)
APACHE SPARK: QUE ES?
text_file = spark.textFile("hdfs://...") text_file.flatMap(lambda line: line.split()) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b)
“Fast and general engine for large-scale data processing”
Fast: Los datos están en memoria.General: Ejecución automática de código en paralelo.
![Page 6: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/6.jpg)
APACHE SPARK: CUANDO?Big data vs Big compute?Wu Feng - Professor VirginiaTech
Big ComputeBig Data Un poco de ambos!
![Page 7: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/7.jpg)
SPARKLYR: HISTORIA
![Page 8: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/8.jpg)
SPARKLYR: QUÉ ES?“Una interface in R para Apache Spark”
![Page 9: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/9.jpg)
SPARKLYR: CUANDO USARLO?- Cluster Existente
(La información no cabe en un ordenador y esta disponible en HDFS, etc.)
- Tiempo de Procesamiento (Mis modelos son (muy) lentos y necesito acelerarlos.)
* Análisis (SQL), machine learning o paquetes de Spark en sparkly 0.5, streaming y algoritmos personalizados en un futuro.
![Page 10: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/10.jpg)
Escalandosparklyr
![Page 11: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/11.jpg)
CLUSTERS EN PRODUCCIÓNCloud Computing Data Center
![Page 12: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/12.jpg)
CLUSTERS EN PRODUCCIÓN
sparklyr
![Page 13: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/13.jpg)
CLUSTERS EN AMAZON EMR
(1) Crear un Cluster en EMR con RStudio(2) Conectarse por SSH y R en consola
(3) Instalar y Configurar FoxyProxy(4) Monitoreo en Yarn, Spark y Ganglia(5) Usando RStudio en EMR
![Page 14: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/14.jpg)
CREAR UN CLUSTER EN EMR
![Page 15: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/15.jpg)
CREAR UN CLUSTER EN EMR
![Page 16: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/16.jpg)
CREAR UN CLUSTER EN EMR
![Page 17: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/17.jpg)
CREAR UN CLUSTER EN EMR
s3://awssupportdatasvcs.com/bootstrap-actions/rstudio-sparkr-emr4-proc/rstudio_sparkr_emr4.sh--rstudio --sparkr --rexamples --plyrmr --rhdfs --sparklyr --shiny
![Page 18: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/18.jpg)
CREAR UN CLUSTER EN EMR
![Page 19: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/19.jpg)
CONECTARSE POR SSH
![Page 20: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/20.jpg)
INSTALAR Y CONFIGURAR FOXYPROXY
![Page 21: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/21.jpg)
MONITOREO EN YARN, SPARK Y GANGLIA
![Page 22: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/22.jpg)
USANDO RSTUDIO EN EMR
![Page 23: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/23.jpg)
sparkly 0.5
![Page 24: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/24.jpg)
SPARKLY 0.5- Certificación Cloudera- Mejores Conexiones- Nuevas Funciones:
- n_distinct- sdf_quantile- ft_tokenizer- ft_regex_tokenizer- na.action- dim, nrow and ncos
- dplyr do - Livy (experimental)
![Page 25: SPARKLYR EN EMR - Cloud Object Storage | Store & …-+madrid... · • Apache Spark: Historia, que es y cuando utilizarlo?](https://reader031.vdocuments.site/reader031/viewer/2022022620/5bafa4f209d3f263638d0e57/html5/thumbnails/25.jpg)
[email protected] - @javierluraschihttps://github.com/rstudio/sparklyr/issues/