bigdata mapreduce

Post on 06-Dec-2014

1.384 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Apresentação sobre MapReduce e BigData feita pelo LINC (Laboratório de Inteligência Computacional) para a turma de DataMining do PPGE

TRANSCRIPT

BigData → MapReduce

Agenda

Qual a motivação ?Qual a motivação ?

Agenda

BigData

“Termo de mercado para o conjunto de soluções que analisa informações em

variedadevariedade, volume volume e velocidadevelocidade inéditos até hoje - os três Vs, como chamam os

tecnólogos...”

BigData

“No dia a dia, a sociedade gera, em média, mais de 15 petabytes 15 petabytes de

informações sobre as suas operações comerciais e financeiras, bem como sobre

clientes e fornecedores por dia...”

BigData

1 Petabyte (PB) = 1 024 TB 1 048 576 GB

1 073 741 824 MB 1 099 511 627 776 kB

1 125 899 906 842 624 (250) Bytes

BigData

Não estamos falando de quantidadequantidade de dados e sim de VOLUME DE DADOSVOLUME DE DADOS

BigData

Um exemplo prático:

Estamos trabalhando em uma base com volume de dados de aproximadamente

600 Gb

Temos um pouco mais de

85.000.000.000.000.000.000 quintilhões85.000.000.000.000.000.000 quintilhões de registros

BigData

Seguindo novos rumos...Seguindo novos rumos...

BigData

BigData

...conta a história da mais famosa aplicação do conceito: o gerente de um time de

beisebol que usa o Big Data para reunir um elenco de primeira linha sem gastar muito

BigData

BigData

“A Renner usa o Big Data para monitorar, em tempo realtempo real, o fluxo de mercadorias da loja ao cruzar dados de localização GPS dos

caminhões dos fornecedores com os níveis dos estoques” (Leandro Balbinot - Diretor de TI)

BigData

Segundo especialistas o Big Data foi de grande importância para o descobrimento do pré-sal...

BigData

…devido a sua velocidadevelocidade, que agilizava os processamentos de dados processamentos de dados sísmicos

captados pela sondas que procuram petróleo no fundo do mar.

Como são milhões as variáveismilhões as variáveis, o trabalho exige intermináveis simulaçõesintermináveis simulações de

imagens, e só o Big DataBig Data é capaz de dar conta do trabalho em um tempo melhortempo melhor.

BigData

No último “Fórum Econômico Mundial”

BigData

No último “Fórum Econômico Mundial”

BigData

No último Fórum Econômico Mundial...

"Big Data, grande impacto: novas Big Data, grande impacto: novas possibilidades para o desenvolvimento possibilidades para o desenvolvimento

internacionalinternacional"

…mostra como o Big Data pode ser uma arma contra problemas sócio-econômicos

BigDataConhecimento Estratégico...Conhecimento Estratégico...

BigData

Caso de negócio:

O McKinsey Global Institute McKinsey Global Institute publicou recentemente um relatório sobre as

oportunidades de negóciosnegócios e do governogoverno ao usar BigDataBigData.

“Big Data: The Next Frontier for Innovation, Competition and Productivity”

BigData

De acordo com a McKinsey, o uso de BigGataBigGata está se tornando uma forma

essencial para as principais empresas a superarem seus concorrentesconcorrentes.

BigData

"Nós estimamos que um revendedor com o apoio de BigData tem o potencial de

aumentar a sua margem operacional em mais de 60%”

BigData

“Big DataBig Data cria valor para as empresas descobrindo padrões descobrindo padrões e relacionamentos relacionamentos entre dadosentre dados que antes estavam perdidos não apenas em data warehouses internos,

mas na própria Web, em tuítes, comentários no Facebook e mesmo videos no YouTube.”

BigData

BigData

Um mercado de US$ 17 bi em 2015Um mercado de US$ 17 bi em 2015

BigData

Segundo a consultoria IDC, o mercado global de Big Data crescerá quase 40% ao ano 40% ao ano entre 2010 e 2015entre 2010 e 2015, saltando de US$ 3,2 US$ 3,2

bilhões para US$ 16,9 bilhõesbilhões para US$ 16,9 bilhões.

BigData

A tecnologia envolve tanto dinheiro porque soluciona um problema inadiável para a soluciona um problema inadiável para a

economia globaleconomia global.

Se você se sente atordoado atordoado com a enxurrada de posts no seu Twitter, imagine a perda de produtividadeperda de produtividade em uma empresa incapaz de compreender os dados compreender os dados que a

inundam.

Ministério das Comunicações

Como a internet Estimulou o BigData?Como a internet Estimulou o BigData?

Alguns Serviços na Web...

Problemáticas

Soluções?

MapReduceMapReduce

MapReduce

Nos últimos anos, os pesquisadores e desenvolvedores do Google tem implementado centenas de propostas de técnicas e cálculos que processam grandes quantidades de dados brutos e para computar vários tipos de dados derivados, tais como:

● Índices invertidos● Representações diversas da estrutura de gráfico de

documentos● Resumos do número de páginas rastreadas por host● Estatística das consultas mais frequentes em um

determinado dia.

MapReduce

– Os cálculos são conceitualmente simples...

– O problema é que os dadosdados de entrada são muito grandesmuito grandes...

● Solução: Distribuir esses cálculos através de centenas ou milhares de máquinas

– Garantir o término em um tempo razoável

MapReduce

“Como reação a essa complexidade, foi elaborado uma nova uma nova abstraçãoabstração que nos permite expressar os cálculos simples que estávamos tentando realizar, mas esconde os detalhesdetalhes confusos de paralelizaçãoparalelização, tolerância a falhas de distribuição de dados e tolerância a falhas de distribuição de dados e balanceamento de cargabalanceamento de carga”

MapReduce

● A nova abstração é inspirado no 'Map' e 'Reduce' primitivos presentes em Lisp e muitas outras linguagens funcionais.

“Percebemos que a maioria dos nossos cálculos envolvia a aplicação de uma operação de Map para cada "registro" lógico em nossa entrada, a fim de calcular um conjunto de pares intermediários de chave/valor e, em seguida , a aplicação de uma operação de Reduce a todos os valores que partilhavam a mesma chave, a fim de combinar os dados derivados apropriadamente.”

MapReduce

As maior contribuição dessa nova abordagem é a implantação de uma simples e poderosa interface que permite a paralelização automática e distribuição da computação em grande escala, combinado com uma implementação desta interface que atinge alta performance em grandes aglomerados de máquinas

MapReduce

O cálculo toma um conjunto de pares de entradas de chave/valor, e produz um conjunto de pares de saídas chave/valor.

O usuário que implementa o MapReduce expressa o cálculo como duas funções: Map e Raduce.

Reduce

A função Reduce, também escrito pelo usuário, aceita

● uma chave intermediária e um conjunto de valores para essa chave.

● Ela faz uma fusão desses valores em conjunto, para formar um menor conjunto de valores possível.

● Tipicamente apenas zero ou um valor de saída é produzido por um método Reduce.

● Os valores intermédios são fornecidos para a função através de uma iteração. Isto permite-nos lidar com listas de valores que são demasiadamente grandes para caber na memória.

MapReduce

O modelo de programação MapReduce tem sido utilizado com sucesso no Google para diversas finalidades. Atribui-se o sucesso a várias razões:

● o modelo é fácil de usar, mesmo para programadores sem experiência com os sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização, tolerância a falhas, otimização de localidade, e balanceamento de carga.

● Uma grande variedade de problemas são facilmente transcritos para o uso do MapReduce.

● É usado para a geração de dados para o serviço de busca do Google, para classificação, para mineração de dados, para aprendizado de máquina e muitos outros sistemas.

MapReduce

Exemplo...Exemplo...

MapReduce: Exemplos...

MapReduce: Exemplos...

MapReduce: Exemplos...

MapReduce: Exemplos...

MapReduce: Exemplos...

MapReduce: Exemplos...

'

Apache Hadoop

Bancos NoSQL

Cloudera

Ferramentas'

Bancos NoSQL (Not Only SQL)

Ferramentas'

Hadoop é uma plataforma de software em Java de computação distribuídacomputação distribuída voltada para clusters e processamento de grandes massas de dadosprocessamento de grandes massas de dados.

Foi inspirado pelo MapReduce e GoogleFS (GFS)

É, na pratica, uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS)

Base de muitos serviços em Cloud

Ferramentas'

Ferramentas

Data Mining?Data Mining?

Ferramentas

Aprendizado de máquina escalável Open-Source!!

Outrora domínio exclusivo de acadêmicos e corporações com grandes orçamentos de pesquisa, as aplicações inteligentes que aprendem a partir de dados e contribuição de usuário estão se tornando mais comuns.

Ferramentas

Ferramentas

Ferramentas

São distribuições Linux prontas ao uso para constituir um cluster Hadoop.

Cloudera é hoje uma referência no mundo Hadoop

Considerações Finais

●BigData é uma bolha?

●2012 é o ano do BigData

●Indo mais além...

Dúvidas?Dúvidas?

BigData → MapReduce

top related