data science conference belgrade
TRANSCRIPT
Big Data: Hadoop i njegov ekosistem
Darko MarjanovićCEO & Co-Founder @ Things [email protected]
Agenda• Big Data• Hadoop• HDFS• Map Reduce• YARN• SPARK• Ekosistem
Big Data• Big Data predstavlja podatke koji pristižu velikom brzinom i one su
količine koja prevazilazi mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.
• Big Data je sve ono što ne može da stane u Excel.
Big Data - Dimenzije
Kompleksnost podataka
Količina (Volume)
Raznovrsnost (Variety) Brzina (Velocity)
Kvalitet (Veracity)
Big Data – Izvori podataka• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• slike, video, logovi, senzorski podaci
• Relacione baze podataka
Big Data - Korisnici
Hadoop• Hadoop je open-source softver Apache fondacije.
• Služi za skladištenje i procesiranje velikih količina podataka.
• Napisan je u Java programskom jeziku.
Hadoop• Hadoop Common
• HDFS
• Map Reduce
• YARN
Hadoop HDFS
Hadoop HDFS
Hadoop Map Reduce
HDFS
Data
MAP
MAP
MAP
REDUCE
REDUCE
Results
Hadoop YARN• ResourceManager• Scheduler – Alokacija resursa• ApplicationsManager – Prihvatanje poslova …
• Nove aplikacije na Hadoop-u (Real Time, Interactive…)• Veća iskorišćenost resursa
Spark• Apache Spark je platforma za Big Data obradu, sa ugrađenim
modulima za mašinsko učenje, SQL, streaming i graf obradu.• Obrada u memoriji.• 10x brži od Map Reduce-a.
Hadoop• Hadoop nije zamena za RDBMS.• Hadoop nije baza podataka.• Offline analitika.• Jedan data centar.
Hadoop Mane• Brzina• Kompleksnost• Podrška• Obrada u memoriji• Streaming
Ekosistem• Hadoop je moguće nadogaraditi brojnim alatima kojima se
poboljšavaju mogućnosti i efikasnost obrade podataka.
• Dele se na alate za prenošenje podataka, analizu podataka, upravljanje klasterom…
Ekosistem – Neki od alata• Unos podatak
• Flume• Kafka• Sqoop• …
• Obrada• Hive• Pig• Storm• …
• Upravljanje klasterom• Ambari• ..
Korisni linkovi• Hadoop Srbija• Hadoop• Hortonworks• Cloudera
Big Data: Hadoop i njegov ekosistem
Darko MarjanovićCEO & Co-Founder @ Things [email protected]