4×4: big data in der cloud

27
SMART DATA Developer Conference Köln 06.12.2016 4x4: Big Data in der Cloud

Upload: danny-linden

Post on 16-Apr-2017

105 views

Category:

Technology


0 download

TRANSCRIPT

SMART DATA Developer Conference

Köln 06.12.2016

4x4: Big Data in der Cloud

Danny Lindentwitter: @CodingDannyLinkedIn: linkedin.com/in/danny-

lindenXing:

xing.com/profile/Danny_Linden ✉ [email protected]

Über mich1989 – Im wunderschönen Gelsenkirchen geboren

2005 – Softwaredeveloper

2011 – Auswandern nach München

2013 – Start bei OnPage.org

Interessen: Webcrawling, Suchmaschinen, skalierbare Big Data SystemeGründer der Spark Meetup Gruppe München:• http://www.meetup.com/de-DE/spark-munich/

> 250,000 User

40 mitarbeiter

> 300,000 Projects

bootstrapped

SaaS

Based in Munich

„Unter Cloud Computing (deutsch Rechnerwolke[1]) versteht man die Ausführung von Programmen, die nicht auf dem lokalen Rechner installiert sind, sondern auf einem anderen Rechner, der aus der Ferne aufgerufen wird (bspw. über das Internet).“

Cloud Computing

Die vier Provider

Maslowsche Entwickler Bedürfnispyramide

SaaS(Machine Learning, ELK Stack,

Textanalyse)

PaaS(Hadoop, Serverless Backend,

MySQL)

IaaS(Computing, Storage, Network)

twitter: @CodingDanny

Infrastructure as a Service

Computing:• Virtuelle Server• Pay Per Use (Stunde/Minute)• Schnelle skalierbakeit• Standorte

• Nerviges Thema• Spezialisierung

• CPU• RAM• Lokaler Storage (keine gute

Idee)• Netzwerk

twitter: @CodingDanny

IaaS: Computing

• Riesige Auswahl an Typen• Art und Größe

• 14 Regionen• EU: Irland & Frankfurt• Bald: Paris & London• 54 Edge Locations• Spot

• Spot Fleets• Reserved Instances

• Bandbreite Typabhängig

• 18 Server Typen• Custom Typen• 6 Regionen

• EU: Belgien• Rabatt nach usage

twitter: @CodingDanny

Wahl der richtigen Instanz am Beispiel AWS EC2• Wahl der richtigen Instanz-Familie

• M4: Die Haus & Hof Instanz• C4: CPU Optimiert• R4 & X1: Memory Optimiert• G2 & P2: Grafiklastige Anwendungen• I2: I/O Optimiert• D2: Storage Optimiert• F1: FPGAs

twitter: @CodingDanny

On Demand vs. Spot

Instanz Typ ECU Memory(GB) Preis/Stunde Preis/Stunde Spot

Preis/Mon

at Preis/Monat Spot

m4.large 6,5 8 $0,13 $0,02 $92,88 $15,12

m4.xlarge 13 16 $0,26 $0,03 $185,04 $24,12

m4.2xlarge 26 32 $0,51 $0,17 $369,36 $120,17

m4.4xlarge 53,5 64 $1,03 $0,17 $738,72 $119,66

m4.10xlarge 124,5 160 $2,57 $0,43 $1.846,80 $308,16

m4.16xlarge 188 256 $4,10 $0,67 $2.954,88 $485,64

• Applikation muss „Fault Tolerant“ gebaut sein• Weitere Möglichkeit: Reserved Instances für 1 oder 3 Jahre (19% - 71%)

twitter: @CodingDanny

IaaS: AWS EC2 Spot (Fleets)

twitter: @CodingDanny

IaaS: Storage in der Cloud• Objekt Storage

• z.b für Hadoop/Spark (HDFS Replacement)• AWS: Simple Storage Service (S3)• Google: Cloud Storage• Azure: Blob Storage• IBM: Object Storage

• Block Storage• Virtuelle Festplatte für Compute Instanzen• AWS: EBS• Google: Persistant Disk• Azure: Disk Storage• IBM: Block Storage

twitter: @CodingDanny

Platform as a Service

„Herr Meier, installieren sie uns doch mal dieses Hadoop“

PaaS: Hadoop/Spark/Hive/HBase/PIG/Impala/Presto...

AWS EMR Google Dataproc HDInsight(HDP 2.4.2) BigInsightsHadoop 2.7.3 2.7.3 2.7.1 2.7.2Spark 2.0.2 2.0.2 2.0.1 1.6.1Hbase 1.2.3 - (Datastore) 1.1.2 1.2.0Hive 2.1.0 2.1.0 1.2.1 1.2.1

Presto 0.152.3 - - -

Impala 1.2.4 - - -Apache Storm -(Kinesis) 0.10.0 -

twitter: @CodingDanny

Platform as a Service

„Wir wollen auch BigData machen! Können wir nicht unser $90erJahreDBMS

in die Cloud packen?“

PaaS: Datenbanken nach Provider

AWS

RDS

Aurora

DynamoDB

Redshift

ElastiCache

ElasticSearch

Athena

Google

Cloud SQL

Datastore

BigTable

BigQuery

Azure

MSSQL

SQL-MPP-DW

SQL Server Stretch DB

DocumentDB

Table Storage

Redis Cache

Bluemix

Elasticsearch

Cloudant NoSQL DB

MongoDB

dashDB

RethinkDB

Redis

Wer braucht mehr?

[...] Datenverarbeitungs- und Arbeitsspeicherressourcen skalieren und die Leistung Ihrer Bereitstellung anpassen, bis zu einem Maximum von 32 vCPUs und 244 GiB RAM.

Automatische Skalierung von SpeicherAmazon Aurora vergrößert Ihr Datenbank-Volume automatisch, wenn der Datenbankspeicher mehr Platz benötigt. Ihr Volume wächst in 10 GB-Schritten bis maximal 64 TB.

Platform as a Service

„Können wir dieses Serverless bei uns installieren?“

PaaS: Serverless mit Appengine

• Es skaliert von Geisterhand

• Budgetlimit / Tag• Custom Domain• HTTP• Scheduled Tasks /

Cronjobs• Module• Versionen• Lokales Entwickeln

twitter: @CodingDanny

PaaS: Serverless mit Appengine

twitter: @CodingDanny

PaaS: AWS Lambda• Diverse, generische

Trigger• DynamoDB• S3• SNS• HTTP• ....

• Java 8• NodeJs• C# (seit letzter Woche)

twitter: @CodingDanny

SaaS: AWS Machine Learning

twitter: @CodingDanny

SaaS: IBM Bluemix / Watson

twitter: @CodingDanny

Meine <3 zu

twitter: @CodingDanny

Das ist doch geil oder?

SMART DATA Developer Conference

Köln 06.12.2016

Vielen Dank

Danny Lindentwitter: @CodingDannyLinkedIn: linkedin.com/in/danny-

lindenXing:

xing.com/profile/Danny_Linden ✉ [email protected]