big data e hadoop

Upload: valdeci-alcantara

Post on 21-Feb-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/24/2019 Big Data e Hadoop

    1/7

    Big Data e Hadoop o que tudo isso?

    Pouca gente na indstria de computao no deve ter se deparado com o termoBig Data e Hadoop. Essas so algumas das palavras da moda que surgemcom frequncia nos dias de o!e. "pesar de #s ve$es superestimado% trata&sede algo muito importante para todas as empresas de an'lises e os respons'veispor pol(ticas. )e!amos ento so*re o que + esse *u$$ todo.

    Desde o princ(pio da ,nternet% quantidades massivas de dados de usu'rios tmsido geradas. Particularmente nos ltimos anos% m(dias sociais como -ace*oo%/0itter e *logs criaram quantidades o*scenas de dados de usu'rios. De acordocom o 1artner% Big Data so grandes quantidades de dados% em alta

    velocidade% gerados por uma multiplicidade de fontes. Por serem criados deforma quase aleat2ria% esses dados no possuem estrutura. Essas informa3espodem ser analisadas para a!udar em tomadas de decis3es mais eficientes einteligentes. Por causa dessas caracter(sticas% a manipulao e oprocessamento de Big Data necessitam de ferramentas e t+cnicas especiais. 4aqui que entra o Hadoop.

    5 Hadoop + uma implementao de c2digo a*erto do paradigma deprogramao 6ap&7educe. 6ap&7educe + um paradigma de programao

    introdu$ido pelo 1oogle para processar e analisar grandes con!untos de dados./odos esses programas que so desenvolvidos nesse paradigma reali$am oprocessamento paralelo de con!untos de dados e podem% portanto% sere8ecutados em servidores sem muito esforo. " ra$o para a escala*ilidadedesse paradigma + a nature$a intrinsecamente distri*u(da do funcionamento dasoluo. 9ma grande tarefa + dividida em v'rias tarefas pequenas que soento e8ecutadas em paralelo em m'quinas diferentes e ento com*inadaspara cegar # soluo da tarefa maior que deu in(cio a tudo. 5s e8emplos deuso do Hadoop so analisar padr3es de usu'rios em sites de e&commerce e

    sugerir novos produtos que eles possam comprar.,sso + tradicionalmente camado de sistema de recomenda3es e pode serencontrado em todos os principais sites de e&commerce. Ele pode ser utili$adotam*+m para processar grandes grafos como o -ace*oo etc. " ra$o pela qualo Hadoop simplificou o processamento paralelo se d' pelo fato de odesenvolvedor no precisar se preocupar com pro*lemas relativos aoprocessamento em paralelo. Ele pode escrever apenas as fun3es de comoquer que os dados se!am processados.

    Componentes do Apache Hadoop

  • 7/24/2019 Big Data e Hadoop

    2/7

    5 frame0or do Hadoop + formado por dois componentes principais:arma$enamento e processamento. 5 primeiro + o HD-; % que manipula o arma$enamento de dados entre todas asm'quinas na qual o cluster do Hadoop est' sendo e8ecutado. 5 segundo% o

    6ap&7educe% manipula a parte do processamento do frame0or. )amos olaras duas individualmente.

    HDFS (Hadoop Distributed File System

    5 HD-; + um sistema de arquivos escalon'vel e distri*u(do% cu!o deseno +*aseado fortemente no 1-; % que tam*+m + um sistemade arquivo distri*u(do. ;istemas de arquivo distri*u(dos so necess'rios% umave$ que os dados se tornem grandes demais para serem arma$enados emapenas uma m'quina. Por conta disso% toda a comple8idade e as incerte$asprovenientes do am*iente de rede entra em cena% o que fa$ com que sistemasde arquivos de rede se!am mais comple8os do que sistemas de arquivos

    comuns. 5 HD-; arma$ena todos os arquivos em *locos. 5 tamano do *locopadro + ?@6*. /odos os arquivos no HD-; possuem mltiplas r+plicas% o queau8ilia o processamento em paralelo. 5s clusters HD-; possuem dois tipos den2s A primeiro um namenode% que + um master% e mltiplos datanodes% que son2s slave. -ora esses dois% tam*+m + poss(vel ter namenodes secund'rios.

    !amenode"administra o namespace do sistema de arquivos. Ele gerenciatodos os arquivos e diret2rios. amenodes possuem o mapeamento entrearquivos e os *locos nos quais estes esto arma$enados. /odos os arquivosso acessados usando esses namenodes e datanodes.

  • 7/24/2019 Big Data e Hadoop

    3/7

    Datanode"arma$ena os dados em forma de *locos. Datanodes se reportam anamenodes so*re os arquivos que possuem arma$enados para que onamenode este!a ciente e os dados possam ser processados. amenode +talve$ o principal ponto crucial de fala do sistema% sem o qual os dados no

    podem ser acessados.

    !amenodes secund#rios"esse node + respons'vel por cecar a informaodo namenode. o caso de fala% podemos usar esse n2 para reiniciar osistema.

    $ap%&educe

    6ap&7educe + um paradigma de programao em que cada tarefa +especificada em termos de fun3es de mapeamento e reduo. "m*as astarefas rodam paralelamente no cluster. 5 arma$enamento necess'rio paraessa funcionalidade + fornecido pelo HD-;. " seguir esto os principaiscomponentes do 6ap&7educe.

    'ob rac)er"tarefas de 6ap&7educe so su*metidas ao Co* /racer. Eleprecisa falar com o amenode para conseguir os dados. 5 Co* /racersu*mete a tarefa para os n2s tas tracers. Esses tas tracer precisam se

    reportar ao Co* /racer em intervalos regulares% especificando que estovivos e efetuando suas tarefas. ;e o tas tracer no se reportar a eles% entoo n2 + considerado morto e seu tra*alo + redesignado para outro tastracer. 5 Co* tracer + novamente um ponto crucial de fala. ;e o Co* /racerfalar% no poderemos rastrear as tarefas.

    as) rac)er"o /as /racer aceita as tarefas to Co* /racer. Essas tarefasso tanto de map% reduce ou am*as . 5 /as /racer cria um processoC)6 separado para cada tarefa a fim de se certificar de que uma fala noprocesso no resulte em uma fala de /as /racer. /as tracers tam*+m sereportam ao Co* /racer continuamente para que este possa manter o registrode tarefas *em ou mal sucedidas.

  • 7/24/2019 Big Data e Hadoop

    4/7

    Texto original da equipe Monitis, liderada por Hovhannes

    Avoyan, disponvel em

    http://blog.monitis.com/index.php/!"#/"/"$/big%data%and%

    hadoop%&hats%it%all%about/

    )er= fe0 people in te computer science industr= 0ouldnt ave come across te terms Big

    Data and Hadoop. /ese are a fe0 *u$$ 0ords 0ic 0e are coming across quite frequentl=

    no0 a da=s. /oug sometimes over&=ped% it is a *ig deal for all te anal=tics companies and

    polic= maers. ;o lets see 0at tis *u$$ is all a*out.

    Ever since te onset of ,nternet% massive amounts of user data is getting generated. Particularl=%

    in te last couple of =ears% social media lie -ace*oo% /0itter and *logging 0e*sites avecreated umongous amounts of user data. "ccording to 1artner% Big Data is ver= ig volume%

    ig velocit= data 0ic originates from multitude of sources. Being created in a random fasion%

    tis data lacs te structure. /is information can *e anal=sed to elp in smarter and efficient

    decision maing. Big data differs from te traditional data in t0o significant 0a=s. -irst% *ig data is

    ver= uge and cant *e stored in single macine. ;econd% it lacs te structure 0ic traditional

    data as. Because of tese caracteristics andling and processing of *ig data requires special

    tools and tecniques. /is is 0ere Hadoop ics in.

    Hadoop is an open source implementation of te 6ap&7educe programming paradigm. 6ap&

    7educe is a programming paradigm introduced *= 1oogle for processing and anal=$ing ver=

    large data&sets. "ll tese programs 0ic are developed in tis paradigm parallel= processes te

    data&sets and so te= can *e run on servers 0itout muc effort. /e reason for scala*ilit= of tis

    paradigm is te inerent distri*utive nature in te 0a= solution 0ors. /e *ig tas is divided into

    man= small !o*s 0ic ten run parallel= on different macines and ten com*ine to give te

    solution for te original *ig tas 0e started 0it. /e e8amples of usage of Hadoop are for

    anal=$ing user patterns on e&commerce 0e*sites and suggest users ne0 products to *u=.

    http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/http://blog.monitis.com/index.php/2013/12/19/big-data-and-hadoop-whats-it-all-about/
  • 7/24/2019 Big Data e Hadoop

    5/7

    /is is traditionall= called a 7ecommendations ;=stems and can *e found in all of te ma!or e&

    commerce 0e*sites. ,t can *e used for processing large graps lie -ace*oo etc. /e reason

    0= Hadoop as simplified parallel processing is *ecause te developer doesnt ave to care

    a*out te parallel programming 0orries. " developer onl= 0rites functions on o0 e 0ants to

    process te data.

    Apache Hadoop Components

    Hadoop frame0or consists of t0o ma!or components% ;torage and Processing. -irst%

    HD-; andles te data storage across all te macines on

    0ic Hadoop cluster is running. ;econd% 6ap&7educe andles te processing part of te

    frame0or. Fets ave a loo at tem individuall=.

  • 7/24/2019 Big Data e Hadoop

    6/7

    HDFS (Hadoop Distributed File System

    HD-; is a distri*uted% scala*le file s=stem 0ic dra0s its design eavil= from 1-; 0ic also is a distri*uted file s=stem. Distri*uted -ile ;=stems are required as data

    *ecomes too large to store on one single macine. Hence all te comple8ities and uncertainties

    of net0or come into picture 0ic mae Distri*uted -iles ;=stems more comple8 tan usual file

    s=stems. HD-; stores all te files in te *locs. /e default *loc si$e is ?@6B. "ll files on HD-;

    ave multiple replicas 0ic elp in parallel processing. HD-; clusters ave t0o t=pes of nodes%

    first a namenode 0ic is a master node and multiple datanodes 0ic are slave nodes. "part

    from tese t0o% it can also ave secondar= namenode.

    !amenode"A ,t manages te namespace of te file s=stem. ,t manages all te files and

    directories. amenode as mapping *et0een file and te *locs on 0ic it is stored. "ll te

    files are accessed using tese namenodes and datanodes.

    Datanode"A ,t actuall= stores te data in te form of *locs. Datanode eeps reporting to

    namenode a*out te files it as stored so tat namenode is a0are and data can *e accessed.

    amenode in suc a 0a= is te most crucial and single point of failure in te s=stem 0itout

    0ic data cant *e accessed.

    Secondary !amenode: A /is node is responsi*le for cec pointing te information

    from namenode. ,n case of failure 0e can use tis node to restart te s=stem.

    $ap%&educe

    6ap&7educe is a programming paradigm 0ere ever= tas is specified in terms of map function

    and a reducefunction. Bot tese tass run parallel= on te clusters. /e storage required for tisfunctionalit= is provided *= HD-;. -ollo0ing are te main components of te 6ap&7educe

    'ob rac)er"A 6ap&7educe !o*s are su*mitted to Co* /racer. ,t as to tal to

    amenode to fetc te data. Co* /racer su*mits te tas to tas tracers nodes. /ese tas

    tracer nodes ave to report to Co* /racer at regular intervals specif=ing te= are alive and

    doing te tas. ,f te tas tracer doesnt report ten it is assumed to *e dead and its 0or is

    reassigned to oter tas tracer. Co* /racer is again a single point of failure. ,f Co* /racer

    fails 0e 0ill not *e a*le to trac te tass.

  • 7/24/2019 Big Data e Hadoop

    7/7

    as) rac)er"A /as /racer taes te tass from Co* tracer. /ese tass are eiter

    map% reduce or suffle. /as /racer creates a separate C)6 process for eac tas to mae

    sure tat process failure doesnt result into /as /racer failure. /as /racer also reports to

    Co* /racer continuousl= so tat Co* /racer can eep trac of successful and failed /as

    /racers.