interoperabilidade com bigdata hadoop para windows azure
DESCRIPTION
O que é BigData e BI ? O que é um Cientista de Dados ? O que é Hadoop ? O que é a HortonWoks Haddoop ? Criando um Cluster Hadoop no Windows Azure? Integrando com Power BI Apresentação de Case de uso.TRANSCRIPT
Interoperabilidade com
BigData Hadoop para
Windows AzureAlessandro de Oliveira Binhara
Data Scientist – Horton Works System Integrator
Agenda
O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
Por que??? BigData ??? CloudComputing??
Em 2001 : Centenas de milhares de dólares para sequenciar um Gene
Atualmente: menos de 6 mil dólares por Gene
Atualmente o sequenciamento gerar cerca de 50petabyte de dados.
1 semana para decodificar 1 Gene
Atualmente: Se Faz o sequenciamento de 100 Gene por dia
O que é BigData ?
O que é Um Cientista de Dados ?
O cientista de dados é um especialista em análise de
informações. A característica mais importante desse
profissional, portanto, é a capacidade analítica. Por isso,
quem tem uma sólida formação em matemática e lógica,
como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
“Ter um consistente background em matemática é
fundamental, senão a pessoa tem que suar muito para
preencher a lacuna", diz o professor Renato Souza,
responsável pelo mestrado de modelagem matemática da
informação, da Fundação Getulio Vargas do Rio de Janeiro
(FGV-RJ), lançado em 2011.Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados.
Fonte: O'Reilly.
Curiosidades sobre ZetaBytes
Não confunda os conceitos
CloudComputing – computação em nuvem
BigData – Armazenamento e Processamento de Grandes
Volumes de Dados
BI Businnes Inteligence – Apresentar a informações de
forma clara, sendo a fonte de inteligencia para os
negocios
Cientista de Dados – é a pessoa capaz de orquestrar todos
esses conceitos apresentando o valor que a empresa quer
das informações
O que é Hadoop ?
O Apache Hadoop é um projeto desenvolvimento como
open-source software para escalável , confiável e com
processamento distribuído. Um sistema escalável e
confiável para armazenamento compartilhado e análises.
Ele automaticamente trata da replicação de dados e das
falhas em cada nó. Ele faz o trabalho duro, o
desenvolvedor pode se concentrar em processamento da
lógica de dados Permite que os aplicativos usem petabytes
de dados em paralelo.
Por que ?
Requisitos
500M+ usuário únicos por mês
Bilhões de eventos interessantes por
dia
Necessidade de scalabilidade massiva
PB’s de storage, milhares de
arquivos, 1000’s de nós
Necessidade de ter baixo custo
Uso de hardware comum
Compartilhar recursos com vários
projetos
Fornecer escala quando necessário
Precisa de infraestrutura confiável
Deve ser capaz de lidar com falhas - hardware, software, networking
A falha é esperada, e não uma exceção
Transparente para as aplicações
muito caro para construir confiabilidade em cada aplicação
A infra-estrutura do Hadoopprove essas capacidade.
Características
Um sistema escalável e confiável para armazenamento
compartilhado e análises.
Ele automaticamente trata da replicação de dados e da
falhas em cada nó.
Ele faz o trabalho duro - desenvolvedor pode se
concentrar em processamento da lógica de dados
Permite que os aplicativos usem petabytes de dados em
paralelo
Eco Sistema
Hadoop Core
Distributed File System
MapReduce Framework
Pig (criado pelo Yahoo!)
Parallel Programming Language e Runtime
Hbase (criado pelo Powerset)
Table storage for semi-structured data
Zookeaper (criado pelo Yahoo!)
Coordinating distributed systems
Hive (criado pelo Facebook)
SQL-like query language and metastore
Hadoop no FaceBook
Cluster em produção
4800 cores, 600 máquina, 16GB por máquina – Abril/2009
8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009
4 SATA discos de 1 TB por máquina
2 níveis de rede hierarquica, 40 máquinas por rack
Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB
raw storage.
Atualmente eles moveram 30PB de para um novo Cluster
Todos os dias o Facebook recebe 380milhões de novas fotos
Cluster no Yahoo
É investidor da HortonWorks
Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
HDFS – Hadoop File System
Inspirado em GFS
Projetado para trabalhar com arquivos muito grandes
Executado em hardware commodity
Streaming de acesso a dados
Replicação e localidade
HDFS- MapReduce Data Flow
O que é MapReduce
MapReduce é um modelo de programação e
implementação associados para o processamento e
geração de grandes conjuntos de dados (Jeffrey Dean e
Sanjay Ghemawat, 2004)
A ideia tem mais de 40 anos
Baseado em um modelo de programação funcional (como Lisp, Ml, etc)
Processamento de dados base em batch
A abstração limpa para programadores
Paralelização automática e distribuição
Tolerância a falhas
Exemplo Simplifica de Map/Reduce
map (String key, String value):
// key: nome documento
// value: Conteudo documento
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a palavra
// values: a lista de valores
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
Funcionamento do Map/Reduce
Arquitetura Moderna
HDP: Enterprise Hadoop Distribution
Hortonworks
Data Platform (HDP)
Enterprise Hadoop
A única 100% open source e
completa
Classe empresarial, provado e
testado em escala
Ecossistema endossado para
garantir a interoperabilidade
Uso Comum do Hadoop
1. SocialEntenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. ClickstreamCapturar e analisar as pistas de dados visitantes do site e
otimizar seu site
3. Sensor/MachineDescobrir padrões nos dados que fluem automaticamente
a partir de sensores e máquinas remotas
4. GeolocationAnalisar dados baseados em localização para gerenciar as
operações onde ocorrem
5. Server LogsLog de pesquisa para diagnosticar falhas no processo e
prevenir violações de segurança
6. Unstructured (text, video, pictures, etc..)Compreender padrões de texto através de milhões de
produtos de trabalho não estruturados: páginas web, e-
mails, vídeos, fotos e documentos
Valor
Demonstração HortonWorks
Gera sentimento em relação o IronMan 3
Coleta do Stream do Twitter
Dados do Twiter são salvos pelo flume no hadoop
Com uma tabela de classificação de sentimento
É processada a base e gerar informações a respeito do filme
Por que Hadoop no Windows De acordo com a IDC Windows Server tem 73% em 2012
Hadoop foi tradicionalmente construído para servidores Linux de
forma que há um grande número de organizações carentes
De acordo com o estudo de 2012 Barclays CIO big data supera
Virtualização como tendência N º 1 iniciativas de gastos
Crescimento de dados não estruturados superior a 80% ano / ano
na maioria das empresas
Apache Hadoop é a plataforma de dados defato grande. Para o
processamento de grandes quantidades de dados não estruturados
Complementar às tecnologias existentes da Microsoft
Há uma enorme comunidade de desenvolvedores do Windows
inexplorado e parceiros do ecossistema
Forte parceria Microsoft-Hortonworks e 18 meses de
desenvolvimento
HortonWorks Data Platform for Windows
HDP é a primeira e únição hadoop para Windows e Linux
Empresa de suporte Apache Hadoop no Windows
Permite mesma experiência para Hadoop no Windows e Linux
Mais parceiros, mais desenvolvedores para Hadoop
Nativa Apache Hadoop disponível para o Windows ecossistema
Mais opções para o Windows focada organizações
Hortonworks foco: Empresa Apache Hadoop para todas as
plataformas
Distribuição pronta para produção confiável Confiável para on-premise
Hadoop em implantações do Windows
Construído com investimentos conjuntos e com contribuições da
Microsoft
Relacionamento engenharia profunda garante integração e desempenho
máximo
Interoperability com Microsoft Tools Integrado com ferramentas da Microsoft
para análise de dados grande nativa
Conectores bidirecionais para SQL Server e SQL Azure através Sqoop
Integração ODBC Excel através Hive
Dirigindo-se a demanda por Hadoop no Windows
Ideal para clientes Windows com? Hadoopexperiência operacional
Permite que as cargas de trabalho do Hadoop mais comuns na empresa
Refinamento de dados e ETL para descarregar? De grande volume de dados de desembarque
Exploração de dados para a descoberta de novas oportunidades de negócios
Enriquecimento de dados para entrega sintonizado multado e mecanismos de recomendação
Por dentro do HDP for Windows
Hortonworks
Data Platform (HDP)
For Windows
100% Open Source Enterprise
Hadoop
Component and version
compatible with HDInsight
Availability
Beta release available now
GA early 2Q 2013
TreinamentosPresencias, On-line e Semipresenciais
Curso: Apache Hadoop Essencial (8horas )
Curso: Introdução ao Futuro Cientista de Dados (8h)
Curso: DataScientist e BigData for Bussines (16h)
Curso: Apache Hadoop Fundamental (24h)
Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)
Treinamento Apache Sqoop (8h)
Treinamento Apache Cassandra (16h)
Treinamento HBase (16h)
Treinamento Hive (16h)
Treimento Mahout (16h)
Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout(30h)
Curso de Splunk (16h)
Curso Pig e Pig Latin (16h)
Curos de Programaçao em MapReducecom Java e C# (16h)
Curso de Flume (16h)
Criando Cluster
no Azure
O que é windows Azure
É plataforma de hardware e Software da microsoft
Data Center Azure
HDInsight – Hadoop Eco System
Azure Blob
Criando seu Cluster Hadoop no Azure
Definido o Tamanho do Cluster
Interface Administrativa
Interface Administrativa
Interface Administrativa
InterFace Hive
Jobs
Job Info
Exemplo de Hadoop no Azure
Map Reduce em C#
Map
Reduce
Maximise sua escolha para o Hadoop
Use HDP para Windows para no local de implantação no Windows Server
Ideal para usuários de Windows com experiência Hadoop
Perfeito próximo passo para aqueles que estão prontos para se deslocar de POC
para produção
Use HDInsight para Microsoft ferramentas e gerenciamento e
provisionamento
Serviço HDInsight que oferece todos os benefícios do Windows Azure (por exemplo,
elasticidade e de baixo custo) - disponível em Visualizar hoje
HDInsight Servidor para a plena integração do Hadoop com ferramentas da
Microsoft no local - Developer Preview disponível hoje
Escolha completa interoperabilidade e implantação em todas as
plataformas
Implementar aplicações de dados grandes que funcionam on-premise e nuvem
Ao alavancar open source HDP, permite a interoperabilidade transparente entre
ambientes: Linux, Windows, Windows Azure
Cases !
Sistema de Recomendação
Sistema de Recomendação de Produtos
Vitrines inteligentes para lojas online
Aumento em 60% o volume de faturamento das lojas
Cluster com 70nós
Mais de 1.5 milhões de transações por segundo
Case Uniter
45 mil alunos
Crescimento da Base 1GB por dia
Preocessamento do dados 2 semanas
Com upload para cloud diários 1 hora
Processamento em 12 maquinas com PIG
Tempo de processamento baixou para 1 horas por
dia
Sistema
BigData China
Arquitetura
ODBC
DRIVER
HBASE
HDFS
HCATOLOG
MAPREDUCE
HIVE
PIG
Apache
Tomcat
WEB Service
StarGATE
EXCEL
FLUMEServer Local
De Captura
Server Local
De Captura
Server Local
De Captura
Captura e Processamento dos Vídeos
As imagens são capturadas e processadas em
tempo real.
Podemos notar as marcações realizadas pelo
software de análise.
Ele consegue identificar os carros em movimentos
e verificar várias infrações, como :
Velocidade acima de 10% do limite
Velocidade acima de 20% do limite
Avanço de Sinal
Caminhão fora de horário
Sobre a faixa de pedestre
Etapa 2 – Transmissão Via WebServices
Gravando dados no Hadoop
Etapa 5 - Consulta dos dados
Usando PowerPivot , geramos os relatórios que são consultas diretamente na
base do HBASE , via ODBC da HortonWorks.
Tabelas do HBase vista pelo Excel via
ODBC
Etapa 6 – Construção dos relatórios
Foram construídos uma série de relatórios:
Número de Eventos por câmera
Número de Eventos por mês
Numero de Eventos por semana
Número de eventos por Infrações
Por tipo de evento
Por Posição geográfica no mapa
Exemplo de Relatório
asd
Exemplo de Relatório
asd
Exemplo de Relatório
asd
Exemplo de Relatório
asd
Fotos Georeferenciados
Perguntas ???
@binhara
www.azuris.com.br