Download - Internet of Your Things
Bienvenida Introducción APS
IoT y Casos
de Éxito
Final y Cóctel
Agenda
¿Qué es Big Data para ?
• Datos, datos, datos…..
• ¿Big? Hoy es Big, pero dentro de 2-3 años, ¿seguirá siendo big?
• Equipos y negocios “centrados en datos”
• Big Data: “ Barreras para que una organización o equipo puedan almacenar, procesar y
acceder todos los datos que necesitan para operar con eficiencia, tomar decisiones,
reducir riesgos, etc.”
Smart Data(múltiples fuentes de datos
online / offline)
Identity Data(identidad física + identidad
online + gustos)
Open Data(datos externos a la
organización)
Tipos de Datos en Big Data
El primer proyecto Big Data
Microsoft Azure IoT services
Microsoft Azure IoT services
• Event Hubs
• Intelligent Systems Services
• Notification Hubs
• HDInsight
• Machine Learning
• Stream Analytics
• Power BI
HDInsight: Hadoop en Azure
¿Qué es Hadoop?
• Open Source
• Plataforma de almacenamiento de datos y análisis para Big Data
• Optimizado para manejar• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados, Menos estructurados)
• Uso de hardware económico
• No para OLTP / OLAP
¿Qué es Hadoop?
• Escalable• Escala linealmente en capacidad de almacenamiento y computación
• Tolerante a Fallos• Proporcionado por el Sistema de ficheros distribuido y el framework de lectura
• Procesamiento distribuido• Sigue la estrategia de divide y vencerás
¿Qué es Hadoop?: Componentes
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
HDInsight
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Windows Azure & Windows Server
MicrosoftBI
Platform
HDInsight
El ecosistema Hadoop
HDFS
Map-Reduce Ambari
YARN
Storm
TEZ
Stinger
Arquitectura Hadoop 2.0
Applications Run Natively in Hadoop
HDFS2 (Redundant, Reliable Storage)
YARN (Cluster Resource Management)
BATCH(MapReduce)
INTERACTIVE(Tez)
STREAMING(Storm, S4,…)
GRAPH(Giraph)
IN-MEMORY(Spark)
HPC MPI(OpenMPI)
ONLINE(HBase)
OTHER(Search)
(Weave…)
Arquitectura Empresarial
Why SolidQ Azure
Arquitectura Empresarial
Why SolidQ
Machine Learning
¿Qué es Machine Learning?
• Definición formal: “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”
• Otra definición “El objetivo de ML es programar computadoras para usar datos de ejemplo o experiencias pasadas para resolver un problema”
• Existen dos técnicas principales:• Aprendizaje Supervisado: Encontrar el enlace entre entradas y salidas utilizando
valores para “entrenar” un modelo
• Aprendizaje no supervisado: Encontrar patrones en datos de entrada
¿Qué buscamos?
*Gartner
Aprendizaje Supervisado
• Utilizado cuando se quieren predecir respuestas desconocidas desde respuestas que ya tenemos
• Los datos se dividen en dos partes: los datos que se usarán para “enseñar” al sistema (data set) y los datos que usaremos para ver si los algoritmos son fiables (test data)
• Después de seleccionar y limpiar los datos, seleccionamos datos que muestran las relaciones entre los datos`. Las respuestas son “etiquetas” las categorías / columnas / atributos son “características” y los valores son… valores
• Se seleccionan los algoritmos• Ejecutamos el programa con el data set y comprobamos si seleccionamos
la respuesta correcta del test set.• Una vez que creamos el experimento, seleccionamos el mejor modelo.
Esta es la salida final – el modelo se utiliza después contra más datos para obtener las respuestas que necesitas.
Aprendizaje No Supervisado
• Se utiliza cuando quieres buscar respuestas desconocidas – habitualmente grupos – directamente desde los datos
• No tenemos un modo sencillo de evaluar la fiabilidad de lo que se aprende
• Evaluar más vectores, grupos en conjuntos o clasificaciones
• Comenzar con los datos
• Aplicar Algoritmos
• Evaluar grupos
De los datos al resultado
© 2013 SolidQ
HDInsight
Azure Storage
Desktop Data
PowerBI/DashboardsMobile AppsWeb Apps
ML Studio y el científicos de datos
• Acceder y preparar datos• Crear, probar y entrenar
modelos• Colaboración • 1-click para despliegue
Azure Portal & ML API servicey el equipo Operaciones
• Crear espacio trabajo• Asignar cuentas de
almacenamiento• Monitor consume• Alertas• Desplegar Modelos
ML API service y el desarrollador
• Modelos publicados que pueden ser accedidos desde cualquier dispositivo
Usuarios de negocio accediendo a resultados
Azure Studio ML
El proceso
Stream Analytics
¿Qué es Stream Analytics?
• Primero ¿Qué significa Stream en este contexto?
¿Cuántos coches rojos han pasado en la última hora?
¿Qué es Stream Analytics?
Azure Stream Analytics
• Servicio de Computación de Stream en tiempo real y en la nube
• Los trabajos se definen en un lenguaje similar a SQL
• Fácil de utilizar
• Escalable
• Fiable y repetible
• Baja Latencia
El proceso
• Creamos un JOB
• Agregamos una entrada
• Agregamos una salida
• Agregamos la consulta del Job
Demostración: Azure Stream Analytics
¿Quieres empezar?
• Te ofrecemos una jornada gratuita para:• Evaluar tus escenarios de negocio
• Seleccionar el mejor escenarios
• Seleccionar las tecnologías a aplicar
Antonio Soto
@antoniosql