amazon redshift

37
Amazon Redshift Data Warehouse als Cloud Service Steffen Krause Technology Evangelist @AWS_Aktuell [email protected]

Upload: aws-germany

Post on 24-Jun-2015

906 views

Category:

Technology


8 download

DESCRIPTION

DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/ Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.

TRANSCRIPT

Page 1: Amazon Redshift

Amazon RedshiftData Warehouse als Cloud Service

Steffen KrauseTechnology Evangelist

@[email protected]

Page 2: Amazon Redshift

Teilen Sie mir mit:

Was gut ist, was nicht

Was Sie bei unseren Veranstaltungen sehen

wollen

Was Sie sich von AWS wünschen

[email protected]

Ihr Feedback ist wichtig

Page 3: Amazon Redshift

Amazon DynamoDBSchneller, vorhersagbarer, hoch skalierparer NoSQL Data Store

Amazon RDSVerwalteter relationaler Datenbankdienst für

MySQL, Oracle und SQL Server

Amazon ElastiCacheIn-Memory Caching Service

Amazon RedshiftSchneller, mächtiger, voll verwalteter, Petabyte skalierbarer

Data Warehouse Dienst

Compute Storage

AWS Global Infrastructure

Database

Application Services

Deployment & Administration

Networking

AWS Datenbankdienste

Skalierbare, hochperformante Datenbanken in der Cloud

Page 4: Amazon Redshift

Amazon DynamoDBSchneller, vorhersagbarer, hoch skalierparer NoSQL Data Store

Amazon RDSVerwalteter relationaler Datenbankdienst für

MySQL, Oracle und SQL Server

Amazon ElastiCacheIn-Memory Caching Service

Amazon RedshiftSchneller, mächtiger, voll verwalteter, Petabyte skalierbarer

Data Warehouse Dienst

Compute Storage

AWS Global Infrastructure

Database

Application Services

Deployment & Administration

Networking

AWS Datenbankdienste

Skalierbare, hochperformante Datenbanken in der Cloud

Page 5: Amazon Redshift

Data Warehousing auf die AWS Art

• Keine Investitionskosten, Bezahlung nach Nutzung

• Sehr hohe Performance bei sehr niedrigem Preis

• Offen und flexibel, von populären Tools unterstützt

• Leicht zu nutzen, massiv skalierbar

Page 6: Amazon Redshift

Was wir gebaut haben…

Ein schnelles, mächtiges Data Warehouse, das bis in die Petabytes skaliert

Viel schneller

Viel billiger

Viel einfacher

Als verwalteter DienstAmazon Redshift

Page 7: Amazon Redshift

Dramatische I/O Reduktion

• Spaltenbasierte Speicherung

• Daten-Komprimierung

• Zone Maps

• Direct Attached Storage

• Große Datenblöcke

ID Alter Ort

123 20 Berlin

345 25 Leipzig

678 40 Dresden

Zeilen-Speicherung Spalten-Speicherung

Scan-Richtung

Page 8: Amazon Redshift

Amazon Redshift Architektur

• Leader Node– SQL Endpoint– Speichert Metadaten– Koordiniert Abfrageausführung

• Compute Nodes– Lokale spaltenbasierte Speicherung– Parallele Abfrageausführung– Load, Backup, Restore via Amazon S3– Paralleles Laden aus Amazon DynamoDB

• Einzel-Node-Version verfügbar

10 GigE(HPC)

LadenBackupRestore

SQL Clients/BI Tools

128GB RAM

16TB disk

16 cores

Amazon S3

JDBC/ODBC

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

LeaderNode

jdbc:postgresql://mycluster.c7lp0qs37f41.us-east-1.redshift.amazonaws.com:8192/mydb

Page 9: Amazon Redshift

Optimierte Hardware

HS1.8XL: 128 GB RAM, 16 Cores, 24 HDDs, 16 TB nutzbarer Platz, 2 GB/sec Scanrate

16 GB RAM

2 TB Disk

2 Cores

HS1.XL: 16 GB RAM, 2 Cores, 3 HDDs, 2 TB nutzbarer Platz

• Optimiert für I/O intensive Workloads• Hohe Festplattendichte• Läuft in HPC Netzwerk - schnell• HS1.8XL verfügbar auf Amazon EC2

128 GB RAM

16 Cores

16 TB Disk

Page 10: Amazon Redshift

Klein anfangen, groß wachsen

Extra Large Node (HS1.XL)3 HDDs, 2 TB, 16 GB RAM, 2 Cores

Single Node (2 TB)

Cluster 2-32 Nodes (4 TB – 64 TB)

Eight Extra Large Node (HS1.8XL)24 HDDs, 16 TB, 128 GB RAM, 16 Cores, 10 GigE

Cluster 2-100 Nodes (32 TB – 1.6 PB)

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL 8XL

XL

XL XL XL XL XL XL XL XL

XL XL XL XL XL XL XL XL

XL XL XL XL XL XL XL XL

XL XL XL XL XL XL XL XL

Hinweis: Knoten nicht in selber Skala

Page 11: Amazon Redshift

Parallelisierung

Redshift parallelisiert und verteilt alles

• Abfrage

• Laden

• Backup

• Restore

• Größenänderung

10 GigE(HPC)

LadenBackupRestore

SQL Clients/BI Tools

128GB RAM

16TB disk

16 cores

Amazon S3

JDBC/ODBC

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

LeaderNode

Page 12: Amazon Redshift

Günstige Preise

Pro Stunde für HS1.XL Single Node

Effektiver Stundenpreis pro TB

Effektiver Jahrespreispro TB

On-Demand $ 0,850 $ 0,425 $ 3.723

1 Year reserviert $ 0,500 $ 0,250 $ 2.190

3 Year reserviert $ 0,228 $ 0,114 $ 999

Einfache Preise

Anzahl Nodes x Kosten pro Stunde

Keine Kosten für Leader Node

Keine Investitionskosten

Pay as you go

Page 13: Amazon Redshift

Demo: Cluster erstellen

Page 14: Amazon Redshift

Amazon Redshift verwendet SQL

• Industriestandard SQL• ODBC und JDBC Treiber für Datenzugriff

– verwendet Postgres 8.x Treiber– Die meisten PostgreSQL Features werden unterstützt– Siehe Dokumentation für Unterschiede

• INSERT/UPDATE/DELETE werden unterstützt– Aber Daten laden aus S3 oder DynamoDB mit COPY-Befehl ist

deutlich schneller – VACUUM-Befehl nach vielen DELETE oder UPDATE-Operationen

empfohlen

Page 15: Amazon Redshift

• Sort Key– Mehrere Spalten möglich– Definiert die Reihenfolge der Daten auf Platte– Ermöglicht das Überspringen von Blöcken bei Abfrage

• wenn Sort Key in WHERE-Klausel

– Wenn neue Daten häufig abgefragt werden: timestamp-Spalte als Sort Key• Distribution Key

– Eine Spalte– Definiert Verteilung der Daten im Cluster– Sollte für gleichmäßige Verteilung der Daten sorgen

• hohe, über die Zeit gleichmäßige Kardinalität

– Sollte in Abfragen nicht als „ist gleich“ Filter vorkommen– Join-Key für häufige Joins ist guter Kandidat– Wird keiner angegeben werden die Daten gleichmäßig per Row ID verteilt

Tabellendesign

Page 16: Amazon Redshift

Daten laden aus S3 oder DynamoDB

• Direktes Laden aus S3 oder DynamoDB unterstützt:copy customer from 's3://mybucket/customer.txt’ credentials 'aws_access_key_id=<your-access-key-id>;aws_secret_access_key=<your-secret-access-key>’ gzip delimiter '|’;

• Paralleles Laden von Daten– Für paralleles Laden Daten in mehrere Dateien aufteilen– Dateinamen mit gemeinsamem Präfix:

• customer.txt.1, customer.txt.2, …

– Große Dateien mit gzip komprimieren• Nach Möglichkeit Daten in Sortierung des Sort Key laden

Page 17: Amazon Redshift

Daten-Komprimierung

• Komprimierung spart Platz und Disk I/O

• COPY analysiert die Daten automatisch und wählt geeignete Komprimierung– Ausschnitt der Daten für Auswahl der

Komprimierung verwendet– Unterstützt: byte dictionary, delta, mostly n, run

length, text

• Kundenerfahrungen: 4-8-fache Komprimierung mit Echtdaten– 20x und mehr bei geeigneten Daten möglich

• ANALYZE COMPRESSION zur Anzeige des gewählten Algorithmus

analyze compression listing;

Table | Column | Encoding ---------+----------------+---------- listing | listid | delta listing | sellerid | delta32k listing | eventid | delta32k listing | dateid | bytedict listing | numtickets | bytedict listing | priceperticket | delta32k listing | totalprice | mostly32 listing | listtime | raw

Page 18: Amazon Redshift

Einfach zu benutzen

• Provisionierung in Minuten

• Abfrageperformance überwachen

• Vergrößern und Verkleinern durch Klick

• Eingebaute Sicherheit

• Automatische Backups

Page 19: Amazon Redshift

Größenänderung durch Klick

Page 20: Amazon Redshift

SQL Clients/BI Tools

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresLeaderNode

Cluster bleibt online (read only)

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresLeaderNode

• Neuer Zielcluster im Hintergrund erstellt• Bezahlung nur für Quellcluster

Page 21: Amazon Redshift

Cluster bleibt online

SQL Clients/BI Tools• Der Cluster bleibt bei Größenänderungen

online

• Komplett automatisch– Daten automatisch neu verteilt

• Read Only Modus während Größenänderung

• Paralleles Kopieren der Daten (Node to Node)

• Automatische Endpoint-Wechsel per DNS

• Nur ein Cluster wird bezahlt

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresCompute Node

128GB RAM

48TB disk

16 coresLeaderNode

Page 22: Amazon Redshift

Demo: Verwaltung

Page 23: Amazon Redshift

Eingebaute Sicherheit

• SSL Verschlüsselung für Daten auf der Leitung

• Optional Verschlüsselung für Daten auf Festplatte– AES-256, Hardware-beschleunigt– Alle Blöcke auf Platte und in Amazon S3

verschlüsselt

• Kein direkter Zugriff auf Compute Nodes

• Amazon VPC unterstützt

10 GigE(HPC)

LadenBackupRestore

SQL Clients/BI Tools

128GB RAM

16TB disk

16 cores

128GB RAM

16TB disk

16 cores

128GB RAM

16TB disk

16 cores

128GB RAM

16TB disk

16 cores

Amazon S3

Kunden-VPC

InternerVPC

JDBC/ODBC

LeaderNode

Compute Node

Compute Node

Compute Node

Page 24: Amazon Redshift

Datensicherung und Verfügbarkeit

• Replikation innerhalb des Clusters und Backup nach S3 stellt mehrere Kopien der Daten zu jedem Zeitpunkt sicher

• Backups nach Amazon S3 sind kontinuierlich, automatisch und inkrementell– Entworfen für 11 Neunen Dauerhaftigkeit

• Kontinuierliche Überwachung und automatische Wiederherstellung im Fall von Festplatten- und Node-Fehlern

• Wiederherstellung von Snapshots in beliebige Availability Zones innerhalb einer Region

Page 25: Amazon Redshift

Datenquellen

Amazon DynamoDB

Amazon Elastic MapReduce

Amazon Simple Storage Service (S3)

Amazon Elastic Compute Cloud (EC2)

AWS Storage Gateway Service

Corporate Data Center

Amazon Relational Database Service (RDS)

Amazon Redshift

Mehr bald…

Integration mit verschiedenen Datenquellen

Page 26: Amazon Redshift

Daten laden und entladen

• Upload nach Amazon S3

• AWS Import/Export

• AWS Direct Connect

• Partner

Data Integration Systems Integrators

Mehr bald…

Page 27: Amazon Redshift

Analysewerkzeuge

JDBC/ODBC

Amazon Redshift

Verbindung mit Treibern von

PostgreSQL.org

Mehr bald…

Page 28: Amazon Redshift
Page 29: Amazon Redshift

Demo: Client Tools

Page 30: Amazon Redshift

Kundenbeispiel

Everyone NeedsSkilled People

At HomeAt WorkIn Life

Repeatedly

SkillPages

Page 31: Amazon Redshift

Who they are

What they can do

Your real life connections to them

Examples of what they can do

Page 32: Amazon Redshift

Data Architecture

Data Analyst

Raw Data

Get Data

Join via Facebook

Add a Skill Page

Invite Friends

Web Servers Amazon S3User Action Trace Events

EMRHive Scripts Process Content

• Process log files with regular expressions to parse out the info we need.

• Processes cookies into useful searchable data such as Session, UserId, API Security token.

• Filters surplus info like internal varnish logging.

Amazon S3

Aggregated Data

Raw Events

Internal Web

Excel Tableau

Amazon Redshift

Page 33: Amazon Redshift

Amazon Redshift ist• Ein voll verwalteter Data Warehouse Service• Schnell• Kostengünstig• Flexibel• Abrechnung nach Nutzung• Kompatibel mit bestehenden ETL und BI Tools

Zusammenfassung

Page 34: Amazon Redshift

Ressourcen

• Steffen Krause | [email protected] | @AWS_Aktuell

• http://aws.amazon.com/de/redshift• Getting Started Guide: http://docs.aws.amazon.com/redshift/latest/gsg/welcome.html• Setting Up SQL Workbench/J:

http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html • SQL Reference: http://docs.aws.amazon.com/redshift/latest/dg/cm_chap_SQLCommandRef.html

• Client Tools:• https://aws.amazon.com/marketplace/redshift/• https://www.jaspersoft.com/webinar-AWS-Agile-Reporting-and-Analytics-in-the-Cloud

Page 35: Amazon Redshift

• http://aws.amazon.com/de • Getting started with Free Tier:

http://aws.amazon.com/de/free/• 25 US$ credits für neue Kunden:

http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:

http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/• Slides: http://de.slideshare.net/AWSAktuell

Ressourcen

Page 36: Amazon Redshift

1. Was ist Amazon Web Services und wofür kann ich AWS nutzen2. Erste Schritte mit Amazon Web Services – von der Anmeldung bis

zur ersten Instanz3. Amazon Web Services 1*1 – welche Dienste gibt es wofür?4. Server in der Cloud – die AWS Compute-Dienste5. Daten speichern in der Cloud – die AWS Storage-Dienste6. Datenbanken in der Cloud – SQL und NoSQL7. Amazon Web Services für eCommerceAufzeichnungen http://aws.amazon.com/de/recorded-webinar/

Bisherige Webinare

Page 37: Amazon Redshift

• Big Data– 15.07.2013, 16 Uhr

• Wie kann man ein Unternehmens-Rechenzentrum um Cloud-Ressourcen erweitern? Netzwerke, Sicherheit, Ressource– 23.07.2013, 16 Uhr

• Die erste Woche mit AWS – 07.08.2013, 16 Uhr

• 8 Tipps für eine Cloud-Strategie – wie Unternehmen heute die Cloud einsetzen – 14.08.2013, 16 Uhr

• Optimieren Sie Ihre AWS Nutzung um Kosten zu sparen – 21.08.2013, 16 Uhr

• http://aws.amazon.com/de/about-aws/events/

Kommende Webinare