azure data usando hdinsight ejemplo hadoop: madreduce, hive, pig
DESCRIPTION
Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)TRANSCRIPT
![Page 1: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/1.jpg)
Azure DataIntroducción a HDInsight
Freddy Angarita C.MVP SQL Server@flacMVP | geeks.ms/blogs/fangarita/ @sqlpassmed
![Page 2: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/2.jpg)
ApplicationBuilding Blocks
storagebig data
caching
CDN
database
identity
media
messaging
networking
trafficcloud
services
![Page 3: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/3.jpg)
DemoConfiguración Storage y HDInsight
![Page 4: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/4.jpg)
Hadoop• Framework• Procesamiento distribuido• Modelo de programación simple• Diseñado para escalabilidad• Cada Nodo ofrece computación y
almacenamiento• Diseñada para ser tolerante a fallos
![Page 5: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/5.jpg)
Hadoop -Componentes• Framework de procesamiento• HDFS (Hadoo Distributed File System)
![Page 6: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/6.jpg)
Esquema de Datos Tecnología de Consumo
Relacionales SQL
No relacionales NoSql (Not Only SQL)
Hadoop MapReduce
Consumo de información
![Page 7: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/7.jpg)
MapReduce• Consumo de Datos mediante trabajos
(normalmente Java)• Alta Flexibilidad – Alta complejidad• Ha aumentado su adopción pero como DW
• Opciones• Hive – query en MapReduce
![Page 8: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/8.jpg)
Distribuido en el clúster• Los datos y el procesamiento se hospeda
en cada máquina• Agrega redundancia y tolerancia a fallos• El procesamiento ocurre localmente
![Page 9: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/9.jpg)
Cómo consulta
Master Node
JobTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
TaskTracker
![Page 10: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/10.jpg)
HDFS• Replica los datos en otros nodos (128M)• NameNode: Dónde están los datos• DataNodes: Almacenamiento de la
información• Cada máquina: más procesamiento, más
almacenamiento
![Page 11: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/11.jpg)
DemoEjecutar un Job desde PowerShell
![Page 12: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/12.jpg)
DemoObtener Resultados del Job localmente
![Page 13: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/13.jpg)
DemoConectar herramientas BI (Excel)
PowerQuery http://bit.ly/1loMSko
![Page 14: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/14.jpg)
HIVE• Consultas en paralelo usando MapReduce• Lenguaje parecido a SQL – HiveQL• Ideal para procesar grandes volúmenes de datos
inmutables• No se recomienda para almacenamiento transaccional• Optimizado para• Escalabilidad• Extensibilidad• Tolerancia a Fallos
• No se considera mucho la latencia
![Page 15: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/15.jpg)
Ejecución Query HIVEEjemplo:
2012-02-03 20:26:41 SampleClass3 [ERROR] verbose detail for id 1527353937
![Page 16: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/16.jpg)
Ejecución Invoke-Hive
![Page 17: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/17.jpg)
• Alternativa para escribir MapReduce• Pasos• Carga: lee la información a usar• Transformación: Manipulación de los datos• Volcar o almacenar: Salida a pantalla o a almacenamiento
PIG
![Page 18: Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG](https://reader036.vdocuments.site/reader036/viewer/2022062513/5565fe2fd8b42aa6628b466d/html5/thumbnails/18.jpg)
Acompáñanos mañana en EAFIT en el Bloque 19, Piso 4 desde las 9 a.m.
Evento de Comunidad