big data e hadoop
TRANSCRIPT
-
7/24/2019 Big Data e Hadoop
1/7
Big Data e Hadoop o que tudo isso?
Pouca gente na indstria de computao no deve ter se deparado com o termoBig Data e Hadoop. Essas so algumas das palavras da moda que surgemcom frequncia nos dias de o!e. "pesar de #s ve$es superestimado% trata&sede algo muito importante para todas as empresas de an'lises e os respons'veispor pol(ticas. )e!amos ento so*re o que + esse *u$$ todo.
Desde o princ(pio da ,nternet% quantidades massivas de dados de usu'rios tmsido geradas. Particularmente nos ltimos anos% m(dias sociais como -ace*oo%/0itter e *logs criaram quantidades o*scenas de dados de usu'rios. De acordocom o 1artner% Big Data so grandes quantidades de dados% em alta
velocidade% gerados por uma multiplicidade de fontes. Por serem criados deforma quase aleat2ria% esses dados no possuem estrutura. Essas informa3espodem ser analisadas para a!udar em tomadas de decis3es mais eficientes einteligentes. Por causa dessas caracter(sticas% a manipulao e oprocessamento de Big Data necessitam de ferramentas e t+cnicas especiais. 4aqui que entra o Hadoop.
5 Hadoop + uma implementao de c2digo a*erto do paradigma deprogramao 6ap&7educe. 6ap&7educe + um paradigma de programao
introdu$ido pelo 1oogle para processar e analisar grandes con!untos de dados./odos esses programas que so desenvolvidos nesse paradigma reali$am oprocessamento paralelo de con!untos de dados e podem% portanto% sere8ecutados em servidores sem muito esforo. " ra$o para a escala*ilidadedesse paradigma + a nature$a intrinsecamente distri*u(da do funcionamento dasoluo. 9ma grande tarefa + dividida em v'rias tarefas pequenas que soento e8ecutadas em paralelo em m'quinas diferentes e ento com*inadaspara cegar # soluo da tarefa maior que deu in(cio a tudo. 5s e8emplos deuso do Hadoop so analisar padr3es de usu'rios em sites de e&commerce e
sugerir novos produtos que eles possam comprar.,sso + tradicionalmente camado de sistema de recomenda3es e pode serencontrado em todos os principais sites de e&commerce. Ele pode ser utili$adotam*+m para processar grandes grafos como o -ace*oo etc. " ra$o pela qualo Hadoop simplificou o processamento paralelo se d' pelo fato de odesenvolvedor no precisar se preocupar com pro*lemas relativos aoprocessamento em paralelo. Ele pode escrever apenas as fun3es de comoquer que os dados se!am processados.
Componentes do Apache Hadoop
-
7/24/2019 Big Data e Hadoop
2/7
5 frame0or do Hadoop + formado por dois componentes principais:arma$enamento e processamento. 5 primeiro + o HD-; % que manipula o arma$enamento de dados entre todas asm'quinas na qual o cluster do Hadoop est' sendo e8ecutado. 5 segundo% o
6ap&7educe% manipula a parte do processamento do frame0or. )amos olaras duas individualmente.
HDFS (Hadoop Distributed File System
5 HD-; + um sistema de arquivos escalon'vel e distri*u(do% cu!o deseno +*aseado fortemente no 1-; % que tam*+m + um sistemade arquivo distri*u(do. ;istemas de arquivo distri*u(dos so necess'rios% umave$ que os dados se tornem grandes demais para serem arma$enados emapenas uma m'quina. Por conta disso% toda a comple8idade e as incerte$asprovenientes do am*iente de rede entra em cena% o que fa$ com que sistemasde arquivos de rede se!am mais comple8os do que sistemas de arquivos
comuns. 5 HD-; arma$ena todos os arquivos em *locos. 5 tamano do *locopadro + ?@6*. /odos os arquivos no HD-; possuem mltiplas r+plicas% o queau8ilia o processamento em paralelo. 5s clusters HD-; possuem dois tipos den2s A primeiro um namenode% que + um master% e mltiplos datanodes% que son2s slave. -ora esses dois% tam*+m + poss(vel ter namenodes secund'rios.
!amenode"administra o namespace do sistema de arquivos. Ele gerenciatodos os arquivos e diret2rios. amenodes possuem o mapeamento entrearquivos e os *locos nos quais estes esto arma$enados. /odos os arquivosso acessados usando esses namenodes e datanodes.
-
7/24/2019 Big Data e Hadoop
3/7
Datanode"arma$ena os dados em forma de *locos. Datanodes se reportam anamenodes so*re os arquivos que possuem arma$enados para que onamenode este!a ciente e os dados possam ser processados. amenode +talve$ o principal ponto crucial de fala do sistema% sem o qual os dados no
podem ser acessados.
!amenodes secund#rios"esse node + respons'vel por cecar a informaodo namenode. o caso de fala% podemos usar esse n2 para reiniciar osistema.
$ap%&educe
6ap&7educe + um paradigma de programao em que cada tarefa +especificada em termos de fun3es de mapeamento e reduo. "m*as astarefas rodam paralelamente no cluster. 5 arma$enamento necess'rio paraessa funcionalidade + fornecido pelo HD-;. " seguir esto os principaiscomponentes do 6ap&7educe.
'ob rac)er"tarefas de 6ap&7educe so su*metidas ao Co* /racer. Eleprecisa falar com o amenode para conseguir os dados. 5 Co* /racersu*mete a tarefa para os n2s tas tracers. Esses tas tracer precisam se
reportar ao Co* /racer em intervalos regulares% especificando que estovivos e efetuando suas tarefas. ;e o tas tracer no se reportar a eles% entoo n2 + considerado morto e seu tra*alo + redesignado para outro tastracer. 5 Co* tracer + novamente um ponto crucial de fala. ;e o Co* /racerfalar% no poderemos rastrear as tarefas.
as) rac)er"o /as /racer aceita as tarefas to Co* /racer. Essas tarefasso tanto de map% reduce ou am*as . 5 /as /racer cria um processoC)6 separado para cada tarefa a fim de se certificar de que uma fala noprocesso no resulte em uma fala de /as /racer. /as tracers tam*+m sereportam ao Co* /racer continuamente para que este possa manter o registrode tarefas *em ou mal sucedidas.
-
7/24/2019 Big Data e Hadoop
4/7
Texto original da equipe Monitis, liderada por Hovhannes
Avoyan, disponvel em
http://blog.monitis.com/index.php/!"#/"/"$/big%data%and%
hadoop%&hats%it%all%about/
)er= fe0 people in te computer science industr= 0ouldnt ave come across te terms Big
Data and Hadoop. /ese are a fe0 *u$$ 0ords 0ic 0e are coming across quite frequentl=
no0 a da=s. /oug sometimes over&=ped% it is a *ig deal for all te anal=tics companies and
polic= maers. ;o lets see 0at tis *u$$ is all a*out.
Ever since te onset of ,nternet% massive amounts of user data is getting generated. Particularl=%
in te last couple of =ears% social media lie -ace*oo% /0itter and *logging 0e*sites avecreated umongous amounts of user data. "ccording to 1artner% Big Data is ver= ig volume%
ig velocit= data 0ic originates from multitude of sources. Being created in a random fasion%
tis data lacs te structure. /is information can *e anal=sed to elp in smarter and efficient
decision maing. Big data differs from te traditional data in t0o significant 0a=s. -irst% *ig data is
ver= uge and cant *e stored in single macine. ;econd% it lacs te structure 0ic traditional
data as. Because of tese caracteristics andling and processing of *ig data requires special
tools and tecniques. /is is 0ere Hadoop ics in.
Hadoop is an open source implementation of te 6ap&7educe programming paradigm. 6ap&
7educe is a programming paradigm introduced *= 1oogle for processing and anal=$ing ver=
large data&sets. "ll tese programs 0ic are developed in tis paradigm parallel= processes te
data&sets and so te= can *e run on servers 0itout muc effort. /e reason for scala*ilit= of tis
paradigm is te inerent distri*utive nature in te 0a= solution 0ors. /e *ig tas is divided into
man= small !o*s 0ic ten run parallel= on different macines and ten com*ine to give te
solution for te original *ig tas 0e started 0it. /e e8amples of usage of Hadoop are for
anal=$ing user patterns on e&commerce 0e*sites and suggest users ne0 products to *u=.
http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/ -
7/24/2019 Big Data e Hadoop
5/7
/is is traditionall= called a 7ecommendations ;=stems and can *e found in all of te ma!or e&
commerce 0e*sites. ,t can *e used for processing large graps lie -ace*oo etc. /e reason
0= Hadoop as simplified parallel processing is *ecause te developer doesnt ave to care
a*out te parallel programming 0orries. " developer onl= 0rites functions on o0 e 0ants to
process te data.
Apache Hadoop Components
Hadoop frame0or consists of t0o ma!or components% ;torage and Processing. -irst%
HD-; andles te data storage across all te macines on
0ic Hadoop cluster is running. ;econd% 6ap&7educe andles te processing part of te
frame0or. Fets ave a loo at tem individuall=.
-
7/24/2019 Big Data e Hadoop
6/7
HDFS (Hadoop Distributed File System
HD-; is a distri*uted% scala*le file s=stem 0ic dra0s its design eavil= from 1-; 0ic also is a distri*uted file s=stem. Distri*uted -ile ;=stems are required as data
*ecomes too large to store on one single macine. Hence all te comple8ities and uncertainties
of net0or come into picture 0ic mae Distri*uted -iles ;=stems more comple8 tan usual file
s=stems. HD-; stores all te files in te *locs. /e default *loc si$e is ?@6B. "ll files on HD-;
ave multiple replicas 0ic elp in parallel processing. HD-; clusters ave t0o t=pes of nodes%
first a namenode 0ic is a master node and multiple datanodes 0ic are slave nodes. "part
from tese t0o% it can also ave secondar= namenode.
!amenode"A ,t manages te namespace of te file s=stem. ,t manages all te files and
directories. amenode as mapping *et0een file and te *locs on 0ic it is stored. "ll te
files are accessed using tese namenodes and datanodes.
Datanode"A ,t actuall= stores te data in te form of *locs. Datanode eeps reporting to
namenode a*out te files it as stored so tat namenode is a0are and data can *e accessed.
amenode in suc a 0a= is te most crucial and single point of failure in te s=stem 0itout
0ic data cant *e accessed.
Secondary !amenode: A /is node is responsi*le for cec pointing te information
from namenode. ,n case of failure 0e can use tis node to restart te s=stem.
$ap%&educe
6ap&7educe is a programming paradigm 0ere ever= tas is specified in terms of map function
and a reducefunction. Bot tese tass run parallel= on te clusters. /e storage required for tisfunctionalit= is provided *= HD-;. -ollo0ing are te main components of te 6ap&7educe
'ob rac)er"A 6ap&7educe !o*s are su*mitted to Co* /racer. ,t as to tal to
amenode to fetc te data. Co* /racer su*mits te tas to tas tracers nodes. /ese tas
tracer nodes ave to report to Co* /racer at regular intervals specif=ing te= are alive and
doing te tas. ,f te tas tracer doesnt report ten it is assumed to *e dead and its 0or is
reassigned to oter tas tracer. Co* /racer is again a single point of failure. ,f Co* /racer
fails 0e 0ill not *e a*le to trac te tass.
-
7/24/2019 Big Data e Hadoop
7/7
as) rac)er"A /as /racer taes te tass from Co* tracer. /ese tass are eiter
map% reduce or suffle. /as /racer creates a separate C)6 process for eac tas to mae
sure tat process failure doesnt result into /as /racer failure. /as /racer also reports to
Co* /racer continuousl= so tat Co* /racer can eep trac of successful and failed /as
/racers.