4×4: big data in der cloud

SMART DATA Developer Conference

Köln 06.12.2016

4x4: Big Data in der Cloud

Danny Lindentwitter: @CodingDannyLinkedIn: linkedin.com/in/danny-

lindenXing:

xing.com/profile/Danny_Linden ✉ [email protected]

Über mich1989 – Im wunderschönen Gelsenkirchen geboren

2005 – Softwaredeveloper

2011 – Auswandern nach München

2013 – Start bei OnPage.org

Interessen: Webcrawling, Suchmaschinen, skalierbare Big Data SystemeGründer der Spark Meetup Gruppe München:• http://www.meetup.com/de-DE/spark-munich/

> 250,000 User

40 mitarbeiter

> 300,000 Projects

bootstrapped

SaaS

Based in Munich

„Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von Programmen, die nicht auf dem lokalen Rechner installiert sind, sondern auf einem anderen Rechner, der aus der Ferne aufgerufen wird (bspw. über das Internet).“

Cloud Computing

Die vier Provider

Maslowsche Entwickler Bedürfnispyramide

SaaS(Machine Learning, ELK Stack,

Textanalyse)

PaaS(Hadoop, Serverless Backend,

MySQL)

IaaS(Computing, Storage, Network)

twitter: @CodingDanny

Infrastructure as a Service

Computing:• Virtuelle Server• Pay Per Use (Stunde/Minute)• Schnelle skalierbakeit• Standorte

• Nerviges Thema• Spezialisierung

• CPU• RAM• Lokaler Storage (keine gute

Idee)• Netzwerk


IaaS: Computing

• Riesige Auswahl an Typen• Art und Größe

• 14 Regionen• EU: Irland & Frankfurt• Bald: Paris & London• 54 Edge Locations• Spot

• Spot Fleets• Reserved Instances

• Bandbreite Typabhängig

• 18 Server Typen• Custom Typen• 6 Regionen

• EU: Belgien• Rabatt nach usage


Wahl der richtigen Instanz am Beispiel AWS EC2• Wahl der richtigen Instanz-Familie

• M4: Die Haus & Hof Instanz• C4: CPU Optimiert• R4 & X1: Memory Optimiert• G2 & P2: Grafiklastige Anwendungen• I2: I/O Optimiert• D2: Storage Optimiert• F1: FPGAs


On Demand vs. Spot

Instanz Typ ECU Memory(GB) Preis/Stunde Preis/Stunde Spot

Preis/Mon

at Preis/Monat Spot

m4.large 6,5 8 $0,13 $0,02 $92,88 $15,12

m4.xlarge 13 16 $0,26 $0,03 $185,04 $24,12

m4.2xlarge 26 32 $0,51 $0,17 $369,36 $120,17

m4.4xlarge 53,5 64 $1,03 $0,17 $738,72 $119,66

m4.10xlarge 124,5 160 $2,57 $0,43 $1.846,80 $308,16

m4.16xlarge 188 256 $4,10 $0,67 $2.954,88 $485,64

• Applikation muss „Fault Tolerant“ gebaut sein• Weitere Möglichkeit: Reserved Instances für 1 oder 3 Jahre (19% - 71%)


IaaS: AWS EC2 Spot (Fleets)


IaaS: Storage in der Cloud• Objekt Storage

• z.b für Hadoop/Spark (HDFS Replacement)• AWS: Simple Storage Service (S3)• Google: Cloud Storage• Azure: Blob Storage• IBM: Object Storage

• Block Storage• Virtuelle Festplatte für Compute Instanzen• AWS: EBS• Google: Persistant Disk• Azure: Disk Storage• IBM: Block Storage


Platform as a Service

„Herr Meier, installieren sie uns doch mal dieses Hadoop“

PaaS: Hadoop/Spark/Hive/HBase/PIG/Impala/Presto...

AWS EMR Google Dataproc HDInsight(HDP 2.4.2) BigInsightsHadoop 2.7.3 2.7.3 2.7.1 2.7.2Spark 2.0.2 2.0.2 2.0.1 1.6.1Hbase 1.2.3 - (Datastore) 1.1.2 1.2.0Hive 2.1.0 2.1.0 1.2.1 1.2.1

Presto 0.152.3 - - -

Impala 1.2.4 - - -Apache Storm -(Kinesis) 0.10.0 -



„Wir wollen auch BigData machen! Können wir nicht unser $90erJahreDBMS

in die Cloud packen?“

PaaS: Datenbanken nach Provider

AWS

RDS

Aurora

DynamoDB

Redshift

ElastiCache

ElasticSearch

Athena

Google

Cloud SQL

Datastore

BigTable

BigQuery

Azure

MSSQL

SQL-MPP-DW

SQL Server Stretch DB

DocumentDB

Table Storage

Redis Cache

Bluemix

Elasticsearch

Cloudant NoSQL DB

MongoDB

dashDB

RethinkDB

Redis

Wer braucht mehr?

[...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung anpassen, bis zu einem Maximum von 32 vCPUs und 244 GiB RAM.

Automatische Skalierung von SpeicherAmazon Aurora vergrößert Ihr Datenbank-Volume automatisch, wenn der Datenbankspeicher mehr Platz benötigt. Ihr Volume wächst in 10 GB-Schritten bis maximal 64 TB.


„Können wir dieses Serverless bei uns installieren?“

PaaS: Serverless mit Appengine

• Es skaliert von Geisterhand

• Budgetlimit / Tag• Custom Domain• HTTP• Scheduled Tasks /

Cronjobs• Module• Versionen• Lokales Entwickeln


PaaS: Serverless mit Appengine


PaaS: AWS Lambda• Diverse, generische

Trigger• DynamoDB• S3• SNS• HTTP• ....

• Java 8• NodeJs• C# (seit letzter Woche)


SaaS: AWS Machine Learning


SaaS: IBM Bluemix / Watson


Meine <3 zu


Das ist doch geil oder?

SMART DATA Developer Conference

Köln 06.12.2016

Vielen Dank

Danny Lindentwitter: @CodingDannyLinkedIn: linkedin.com/in/danny-

lindenXing:

xing.com/profile/Danny_Linden ✉ [email protected]

4×4: big data in der cloud

Technology