webinar - big data: einführung in hadoop und mapreduce

39
© inovex Academy Hadoop & map-reduce 1

Upload: inovex-gmbh

Post on 07-Jul-2015

502 views

Category:

Documents


1 download

DESCRIPTION

Bei der Präsentation handelt es sich um die Folien des Webinars „Big Data: Einführung in Hadoop und MapReduce“, das von inovex in 2012 und 2013 durchgeführt wurde. Herausforderung Big Data: Viele Unternehmen sind heute gezwungen, mit immer größeren Datenmengen umzugehen. Wenn Datenvolumina jenseits von 100 TB ausgewertet werden sollen, sich die Analyse-Anforderungen häufig ändern oder klassische ETL-Prozesse zu langsam sind, dann versprechen die neuen Big-Data-Technologien rund um das Hadoop-Ecosystem fundierte Abhilfe. Das Webinar richtete sich an Personen, die sich mit der Analyse großer Datenmengen beschäftigen. Das Ziel war es, ein solides Überblickswissen zu den neuen Big-Data-Technologien zu vermitteln, damit die Teilnehmer die Potenziale von Big Data für das eigene Unternehmen eigenständig bewerten können. In dem 45-minütigen Webinar erklärte das inovex-Team die Idee und die Funktionsweise des Hadoop File Systems, die wesentlichen Komponenten eines Hadoop-Clusters und was es beim Aufbau zu beachten gilt sowie das Grundprinzip und die Implementierungsmöglichkeiten von MapReduce. inovex als Hadoop-Spezialist: Das Apache Hadoop Framework hat sich als Technologie-Standard für Big Data etabliert. inovex ist einer der ersten BI-Dienstleister in Deutschland, die über Projekterfahrung mit Hadoop verfügen. Das Unternehmen deckt die ganze Hadoop-Palette ab: Aufbau der Infrastruktur, Big Data Engineering, Einführung von MapReduce und die Unterstützung angrenzender Technologien (HBase, Pig, Hive).

TRANSCRIPT

Page 1: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Hadoop & map-reduce

1

Page 2: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Speakers

1

Dr. Kathrin SpreyerBig Data Engineer

Patrick ThomaHead of Solution Development

Page 3: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Inevitable hadoop

2004: Google MapReduce paper

2006: Hadoop team around Doug Cutting at Yahoo!

2010/11: IBM’s Watson

2011/12: Hadoop connectors for Oracle products

Oct 2012: Microsoft (connectors f. Azure, HDInsights)

Oct 2012: SAP (cooperation w/ support companies)

3

Page 4: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Motivation

1. sample use case: logfile analytics @ 1&1

2. 80 TB/month to be processed

3. too slow on existing hardware

4. further scaling not possible -- or extremely expensive

4

Page 5: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Amazing performance improvement

4

Page 6: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Overview

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

6

Page 7: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

What?

1. framework for distributed data processing

2. highly scalable: TBs and PBs

3. originated at Google

4. open-source implementation: Apache Hadoop

7

Page 8: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

The big picture

8

input

Page 9: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

The big picture

8

Page 10: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 11: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 12: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Why?

1. too much data for one machine

2. processing speed

3. scaling out vs. scaling up

9

Photo by Flo P.

Page 13: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 14: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 15: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 16: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 17: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 18: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 19: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 20: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 21: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy 14

HDFS(hadoop distributed file system)

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

Page 22: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 23: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 24: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 25: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 26: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 27: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 28: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 29: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 30: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 31: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 32: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Apis

20

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

Page 33: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Basic map-reduce Apis

1. Java

2. C++ (Pipes)

3. Python (Dumbo)

4. streaming (any language)

21

Page 34: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Higher-level Apis

1. Apache Pig (data flow language)

2. Apache Hive (SQL dialect)

22

alternative: graphical ETL tools, e.g., Pentaho Data Integration

Page 35: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Cluster sizing

23

1. Map-Reduce

2. HDFS

3. APIs

4. Cluster sizing

Page 36: Webinar - Big Data: Einführung in Hadoop und MapReduce
Page 37: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Network topology

1. single data center

2. rack topology

3. bandwidth

25

Page 38: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Questions?

26

Page 39: Webinar - Big Data: Einführung in Hadoop und MapReduce

© inovex Academy

Contact:[email protected]

27