impri mir 26
TRANSCRIPT
-
7/26/2019 Impri Mir 26
1/19
pg. 1
GR NDES DE D TOS Y NOSQL
Catedrtico: Cartujano Escobar Francisco Javier
PROYECTO FIN L
Integrantes del equipo:
Garca Caldern Silvia Geraldine.
Guerrero Prez Jessica Alejandra.
Aguilar Ocampo Karem Merilu.
Amasende Pineda Dylan.
Simn Caldern Rubn.
INSTITUTO TECNOLGICO DE ZACATEPEC
26/Mayo/2016
-
7/26/2019 Impri Mir 26
2/19
pg. 2
INDICE
PROYECTO FINAL ................................................................................................... 3
ARQUITECTURA DISTRIBUIDA CON HADOOP PARA PROCESAR DATOS. ............ 3DESARROLLO: ...................................................................................................... 3
BASE DE DATOS EN MYSQL .................................................................................... 4CREACIN DE LA BD. ...................................................................................... 4
INSERCIONES EN LA BASE DE DATOS .................................................................... 4INSERCIONES ................................................................................................... 4
MIGRACIN DE SQOOP A HADOOP ................................................................... 5
PROCESOS EN PIG ............................................................................................... 13
EXPORTACIN DE PROCESOS ANTERIORES A MYSQL ...................................... 17
.............................................................................................................................. 18PROGRAMA DE VISUALIZACIN DE RESULTADOS ............................................. 19
-
7/26/2019 Impri Mir 26
3/19
pg. 3
PROYECTO FINAL
ARQUITECTURA DISTRIBUIDA CON HADOOP PARA PROCESAR DATOS.
DESARROLLO
1. Considere en MySQL las siguientes tablas: Clientes (idC, nombre, edad, sexo, nacionalidad) Productos(idP, nombre, tipo, precio_compra, precio_venta) facturaGeneral (idFactura, idC, fecha); // que abarque los 365 dias del
ao. FacturasDetalle(idFacturas, idP, cantidad, precio_unitario_venta);
2. Considerar el siguiente nmero de tuplas:a) Clientes: 10; 2 nacionalidadesb)
Productos: 20 (5 tipos y de cada tipo 4 productos)c) FacturaGeneral: 200,000 facturas (generadas por un programa, con datos
validos aleatorios); que abarquen un ao (todos los meses y das).d) FacturaDetalle: 800,000 facturas (4 productos por Factura, generados por
programa, con datos validos aleatorios).3. Utilizando Sqoop, migrar las tablas anteriores a Hadoop.4. Implementar un cluster de hadoop con al menos 3 mquinas.5. Implementar por medio de pig, los procesos que obtengas la siguiente info:
a) Total de factura (idFactura, total$);
b)
Total por mes (nombre-mes, total$);c) Total por producto (nombre_producto, total$);d) Total por tipo, producto(tipo_producto, total$, vantidad_vendida);e) Total por mes, producto(nombre_mes, nombre_producto, total$);f) Total por mes, tipo (nombre_mes, nombre_tipo, total$, c
antidad_vendida);g) Los 5 productos ms vendidos (idP, nombre, tipo, total$,
cantidad_vendida);6. Procesar los procesos anteriores en el cluster de hadoop.7. Exportar los resultados anteriores a MySQL.
8.
Realizar un programa en (java, c, c++, c, etc) que visualice los resultados delpaso 5.
9. Documentacin formal.10.Entregar de 24 al 27 de mayo.
-
7/26/2019 Impri Mir 26
4/19
pg. 4
Base de datos en MySQL
Creacin de la BD.
Inserciones en la base de datos
Inserciones
Cliente
Producto
FacturaGral
FacturaDeta
Clientes
Productos
-
7/26/2019 Impri Mir 26
5/19
pg. 5
Migracin de Sqoop a Hadoop
Ingresamos a Syncfusion Big Data Platform, y seleccionamos la opcin LaunchStudio.
FacturaGral
FacturaDeta
-
7/26/2019 Impri Mir 26
6/19
pg. 6
Seleccionamos la pestaa SQOOP.Nos parecer una ventana donde nos informa que tenemos que tener el conector de
java (JDBC). Para instalarlo solo damos clic en el link.
Descargamos el conector con extensin .zip
-
7/26/2019 Impri Mir 26
7/19
pg. 7
Descomprimimos el archivo donde se encuentra el conector y lo copiamos en lasiguiente ruta: C:\Syncfusion\BigData\2.11.0.92\BigDataSDK\SDK\Sqoop\lib
En Big Data studio, agregamos un nuevo trabajo (add job).
Despus nos mostrara una ventana, en la parte inferior izquierda de la ventana dondedice + Add Conection.
-
7/26/2019 Impri Mir 26
8/19
pg. 8
En la siguiente ventana para agregaremos una conexin.Llenamos los campos requeridos, y damos clic en el botn Save.
Ahora crearemos un New Job.Llenamos los campos correspondientes y seleccionamos un tipo de trabajo (Import)y damos clic en Next.
1. Llenar los campos
requeridos
2. Guardamos
1. Llenar los campos
requeridos
2. Seleccionar el tipo.
-
7/26/2019 Impri Mir 26
9/19
pg. 9
Ingresamos el nombre de la BD de la que queremos hacer la importacin.Seleccionamos la opcin de importar todas las tablas Next.NOTA: Tambin se puede indicar solo el nombre de las tablas que se desean importaren caso de que no queramos importar todas. Damos clic en el botn Next.
Indicamos el nombre del directorio HDFS donde se guardarn las tablas que sevan a importar de MySQL clic en el botn Save & Run.
-
7/26/2019 Impri Mir 26
10/19
pg. 10
Tardar un momento la importacin de la base de datos ventas a HDFS.
En el apartado Import aparece el estado de la importacin la cual en este caso sellev a cabo satisfactoriamente.
-
7/26/2019 Impri Mir 26
11/19
pg. 11
Seleccionamos la pestaa HDFS y observamos que se gener la carpetaimportacionMysql doble clic sobre esa carpeta.
Dentro de esa carpeta, se encuentran 4 carpetas cada una contiene un archivo conlos datos de cada tabla de la base de datos (ventas).
-
7/26/2019 Impri Mir 26
12/19
pg. 12
Damos doble clic sobre la carpeta clientes abrimos el archivo part-m-00000
Aparecer una ventana con el contenido del archivo que corresponde al contenidode la tabla clientes de la base de datos ventas.
NOTA: Tambin se pueden visualizar el contenido de cada una de las carpetas. Esto(ventas) como se mostr anteriormente.
-
7/26/2019 Impri Mir 26
13/19
pg. 13
Procesos en PIG
a) Total de factura (idFactura, total$);
Ejecucin
Resultado
-
7/26/2019 Impri Mir 26
14/19
pg. 14
b) Total por mes (nombre-mes, total$);
Ejecucin
Resultado
-
7/26/2019 Impri Mir 26
15/19
pg. 15
c) Total por producto (nombre_producto, total$);
Ejecucin
Resultado
-
7/26/2019 Impri Mir 26
16/19
pg. 16
d) Total por tipo, producto(tipo_producto, total$, vantidad_vendida);
Ejecucin
Resultado
-
7/26/2019 Impri Mir 26
17/19
pg. 17
Exportacin de procesos anteriores a MySQL
-
7/26/2019 Impri Mir 26
18/19
pg. 18
-
7/26/2019 Impri Mir 26
19/19
pg. 19
Programa de visualizacin de resultadosRealizamos un programa en Java que nos permite visualizar los datosanteriores. Pantalla principal
La siguiente imagen muestra todas las tablas que podremos visualizar.
1. Seleccionar la
tabla.
2. En esta parte se
mostrara el resultado.