distributed processing using cosine similarity for mapping...
TRANSCRIPT
![Page 1: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/1.jpg)
Distributed processing using cosine similarity for mapping Big Data in Hadoop(Procesamiento distribuido usando similitud de coseno para mapear Big Data en Haddop)
Andres Felipe Rojas / Nancy Gelvez
UNESCO UNIR ICT & Education Latam Congress 2016
![Page 2: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/2.jpg)
Indice
- Introducción
- Problema
- Objetivos
- Consideraciones y Limitaciones
- Conceptos clave
- Similitud de Coseno
- Arquitectura
- Resultados
- Conclusiones
![Page 3: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/3.jpg)
Introducción
¿Porque hacer análisis
de grandes cantidades
de datos (BigData)?
http://conchaabadgurria.com/wp-content/uploads/2014/02/empresario-pensando.jpg
![Page 4: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/4.jpg)
Problema
¿Como hallar correlación entre un registro y otro
en un conjunto muy grande de datos?
![Page 5: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/5.jpg)
Objetivos
Describir la arquitectura para el análisis de Big Data en un
entorno distribuido con Hadoop
Mostrar el uso de la similitud del coseno para hallar la
correlación en grandes cantidades de datos.
Mostrar el análisis y los resultados del rendimiento del cluster
![Page 6: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/6.jpg)
Consideraciones y Limitantes
● Uso de un recurso de datos libre. (MovieLens)
● Uso de AWS y Elastic Map Reduce como plataforma para
la implementación de Hadoop
● Uso de una cantidad limitada, pero no despreciable, de
registros para hacer la pruebas
![Page 7: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/7.jpg)
Conceptos Clave
Big Data
MapReduce
Hadoop
http://www.thebluediamondgallery.com/highlighted/images/keywords.jpg
![Page 8: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/8.jpg)
Big Data
Big Data. “Muchos datos”
Arquitecturas para el procesamiento de datos
Grandes cantidades de informacion estructurada o no estruturada
Fuentes de datos en tiempo real
Ciencias de la computación. Matematicas. Estadistica. IA.
![Page 9: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/9.jpg)
MapReduce
Modelo de programación para dar soporte a la computación
en paralelo sobre grandes colecciones de datos en cluster
de computadoras
![Page 10: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/10.jpg)
MapReduce
Map
● Se encarga del mapeo de los datos
y es aplicada en paralelo para cada
item en la entrada de datos.
● Produce como resultado una lista de
tipo {clave, valor}
Map(k1,v1) -> list(k2,v2)
![Page 11: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/11.jpg)
MapReduce
Reduce(k2, list (v2)) -> list(v3)
Reduce
● La función reduce es aplicada en
paralelo para cada grupo,
produciendo una colección de
valores para cada dominio
![Page 12: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/12.jpg)
Hadoop
Apache Hadoop es un framework de software que soporta aplicaciones
distribuidas bajo una licencia libre.
Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos.
Hadoop se inspiró en los documentos Google para MapReduce y Google
File System (GFS).
![Page 13: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/13.jpg)
Similitud de Coseno
La similitud coseno es una medida de la similitud entre dos
vectores en un espacio que posee un producto interior con
el que se evalúa el valor del coseno del ángulo
comprendido entre ellos.
El valor de esta métrica se encuentra entre -1 y 1, es decir
en el intervalo cerrado [-1,1].
![Page 14: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/14.jpg)
Similaridad de Coseno
Dados dos vectores A y B , el producto punto entre dos vectores puede ser
expresado como:
Asi se tiene la similitud de coseno representada usando el producto punto y la
magnitud como:
Donde Ai y Bi son las componentes de los vectores respectivamente.
![Page 15: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/15.jpg)
Arquitectura
PROCESAMIENTO
Pasos para el procesamiento de Big
Data
Preprocesamiento
Distribucion
Procesamiento
Resultadoshttp://sentidoweb.com/img/2007/11/hadoop.gif
![Page 16: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/16.jpg)
Arquitectura
Diagrama de flujo para procesamiento de los datos
![Page 17: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/17.jpg)
Arquitectura
HARDWARE
Elastic MapReduce de AWS
basado en Hadoop
http://www.slideshare.net/AmazonWebServices/clickstre
am-analytics-amazon-kinesis-and-apache-storm
![Page 18: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/18.jpg)
Resultados
Resultados del
procesamiento
Películas y el
coeficiente de
correlación
Resultados de
rendimiento
Películas y el
coeficiente de
correlación
![Page 19: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/19.jpg)
Resultados
Muestra del archivo de rating y de nombres
Muestra de archivo final de los datos correlacionados
![Page 20: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/20.jpg)
Resultados
Se realizó una comparación de
rendimiento con diferentes
configuraciones de cluster y
una máquina de control
Rendimiento del sistema para la maquina de control
![Page 21: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/21.jpg)
Análisis
Tiempos de ejecución para diferentes configuraciones del cluster
![Page 22: Distributed processing using cosine similarity for mapping ...research.unir.net/unesco-congreso/wp-content/...Apache Hadoop es un framework de software que soporta aplicaciones distribuidas](https://reader035.vdocuments.site/reader035/viewer/2022081607/5ec563e2e582ad621b7d044b/html5/thumbnails/22.jpg)
Conclusiones
• El uso de la correlación basada en similitud de coseno es un procedimiento que puede
ser usado como base para un sistema de recomendación de productos, si bien no es la
correlación más rápida, tiene buena fiabilidad y un rendimiento de complejidad
computacional aceptable.
• Si bien la computación distribuida en clúster es mejor en volumen, variedad, velocidad
y costo. No significa que el trabajo y tiempo de ejecución de los procesos escalen de
manera lineal respecto al número de nodos del clúster.
• El procesamiento de Big Data puede realizarse en aplicaciones académicas con
recursos limitados.