wie baue ich ein datawarehouse auf basis hadoop
DESCRIPTION
UseCase zu "Wie baue ich ein DataWarehouse auf Basis Hadoop"TRANSCRIPT
![Page 1: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/1.jpg)
Wie baut man ein komplementäres Data Warehouse auf Basis von Hadoop?
Gerd König11. November 2013 / DW2013
![Page 2: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/2.jpg)
PROFILECOMPANY
![Page 3: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/3.jpg)
WE ARE HERE
Vom Standort Kreuzlingen / Schweiz bedient YMC seit 2001 namhafte nationale und internationale Kunden.
![Page 4: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/4.jpg)
WEB SOLUTIONS
BIG DATA ANALYTICS
MOBILEAPPLICATIONS
WE CREATE Hosting & Support
Kundenspezifische Individuallösungen fürs Web
Social-Media-Anwendungen (z.B. Corporate Blogs, Wikis, Facebook-Apps etc.)
Web-Strategien
Shop-Systeme, Websites, Intranets
Empfehlungssysteme (z.B. für Apps, Webshops, Websites und Intranet)
Vorhersagemodelle(z.B. für Interessen von App-Usern)
Integrierte Suchsysteme(z.B. auch für unstrukturierte Daten)
Massgeschneiderte Web Analytics Systeme(z.B. mit Echtzeit-Metriken und Effekten in Sozialen Netzwerken)
Training(Apache Hadoop)
Geolokalisierung für ortsspezifische Services
Integration von Sozialen Netzwerken wie Facebook und Twitter
Apps für Tablets und Smartphones (iPhone, Android)
Mobile Strategien
![Page 5: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/5.jpg)
WORKCustomers
WITHWE
![Page 6: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/6.jpg)
VORSTELLUNGFALLBEISPIEL
![Page 7: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/7.jpg)
FALLBEISPIEL
Wir, die WebFashionSellers mit Sitz in Los Angeles, USA, betreiben einen Online Shop und möchten unseren Umsatz steigern.
Unsere häufigsten Fragen:
■ Was sind unsere Topseller?■ Wie umsatzstark war letztes Quartal?■ Wie entwickelt sich der Absatz von Produkt X?■ Wofür geben wir das meiste Geld aus?
■ Wie stehen unsere Kunden zu unseren Produkten?■ Würde der Umsatz steigen, wenn der Versand
kostenlos wäre?■ Wie hoch ist die Abbruchrate im Checkout-Prozess
und warum?
VORSTELLUNGFallbeispiel: Online Shop
![Page 8: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/8.jpg)
AUSGANGS-LAGE
FALLBEISPIEL
![Page 9: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/9.jpg)
AUSGANGSLAGEFallbeispiel: Online Shop
Hypothese“Wenn wir die Lieferzeit um die Hälfte verkürzen, führt dies zu zufriedeneren Kunden und damit zu mehr Umsatz.”
■ Wie wirkt sich die heutige Lieferzeit auf die Kundenzufriedenheit aus?
■ Sollten wir neue Lieferzentren eröffnen?■ Welche Standorte wären dafür optimal?
![Page 10: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/10.jpg)
Fallbeispiel: Online Shop
Wir haben ein externes Support-Call-Center zur Bearbeitung von Kundenanfragen. Alle Aufzeichnungen sämtlicher Anrufe sind als MP3 Dateien verfügbar. Aus den Metadaten können die Hauptursachen für einen Support-Call ermittelt werden.
Was benötigen wir zusätzlich, um die Fragen zu beantworten?
■ Kundendaten (CRM)■ Bestelldaten (OLTP)
AUSGANGSLAGE
![Page 11: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/11.jpg)
ZUR LÖSUNGVON DER IDEE
![Page 12: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/12.jpg)
LÖSUNGSANSATZHigh Level
Big Data Pipeline ■ Ingest/ETL ■ Store ■ Analyse
Die komplette Pipeline wird durch Tools aus dem Hadoop-Ökosystem abgedeckt.Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
![Page 13: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/13.jpg)
Hadoop-basierte Big Data Pipeline
Hadoop Tools für dieExtract Phase:■ Flume ■ Sqoop ■ Hue
Mögliche Quellen■ Datenbanken ■ Filesystem ■ Streams
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
![Page 14: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/14.jpg)
Hadoop-basierte Big Data Pipeline
Hadoop Tools für die Transform Phase:■ MapReduce■ Hive ■ Pig
Wozu?■ Validieren ■ Normalisieren■ Filtern■ Aggregieren
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
![Page 15: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/15.jpg)
Hadoop-basierte Big Data Pipeline
Hadoop Tools für die Load Phase:■ Hive ■ Pig■ Sqoop
Wozu?■ Data Marts■ Data Cubes ■ Tabellen■ Views
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
![Page 16: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/16.jpg)
Hadoop-basierte Big Data Pipeline
Hadoop Tools für Storage:■ HDFS
Eigenschaften:■ Skalierbar■ Verteilt ■ Zuverlässig■ Redundant■ Kostengünstig (industrial
standard hardware)
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
![Page 17: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/17.jpg)
Hadoop-basierte Big Data Pipeline
Hadoop Tools für Analyze:■ HiveQL■ PigLatin■ Impala■ Drill■ ODBC■ MapReduce■ Search/SolrCloud
Wozu?■ Anbindung an externe BI-
Lösung■ SQL-basierte Analyse
(low latency oder ad-hoc)
Hadoop
Excel
DataMart
Dashboard
Talend
….
Ingest(ETL) Store Analyze
LÖSUNGSANSATZ
![Page 18: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/18.jpg)
UMSETZUNGFALLBEISPIEL
![Page 19: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/19.jpg)
ANALYSE DER CALLCENTER AUFZEICHNUNGENExtract
Hue: ■ Upload der MP3-
Daten
■ HDFS Verzeichnis nach Upload
![Page 20: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/20.jpg)
Transform
Pig: ■ Dateien einlesen■ Extrahieren der
Metadaten mittels Pig-Streaming
■ Aggregieren■ Speichern
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
![Page 21: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/21.jpg)
Ergebnis
Erkenntnis:Bei mehr als der Hälfte aller eingegangenen Support Calls wurde die Lieferzeit bemängelt.
Hier besteht Optimierungsbedarf, aber welches wäre der optimale Standort für ein neues Verteilzentrum?
ANALYSE DER CALLCENTER AUFZEICHNUNGEN
![Page 22: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/22.jpg)
EVALUATION DES OPTIMALEN STANDORTSSchritt 1: Extract
Sqoop:■ Importieren der
Kunden-, und Bestelldaten aus dem OLTP
![Page 23: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/23.jpg)
Schritt 1: Extract
Sqoop:■ Importieren der
Kunden-, und Bestelldaten aus dem OLTP
EVALUATION DES OPTIMALEN STANDORTS
![Page 24: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/24.jpg)
Schritt 2: Transform
Pig:■ Zusätzlicher Input:
Datei latlon.tsv, enthält für jeden Zipcode den Längen- u. Breitengrad
■ Ermittlung der Geodaten von Kunden, welche kürzlich bestellt haben
EVALUATION DES OPTIMALEN STANDORTS
![Page 25: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/25.jpg)
Schritt 2: Heatmap Kundenwohnorte
■ Wo wohnen die Kunden, die in den letzten 2 Wochen bestellt haben?
akd
EVALUATION DES OPTIMALEN STANDORTS
![Page 26: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/26.jpg)
Schritt 3: Aggregation
Pig:■ Zusätzlicher Input:
alternative_verteilzentren.tsv, enthält 3 mögliche Standorte: Massachusetts, Texas, Missouri
■ Berechnung der durchschnittlichen Entfernung jedes im vorigen Schritt ermittelten Kunden zu jeder der 3 Alternativen
EVALUATION DES OPTIMALEN STANDORTS
![Page 27: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/27.jpg)
Schritt 4: Visualisierung
■ St. Louis, Missouri, ist die Alternative mit der geringsten, durchschnittlichen Entfernung zu den Kunden
EVALUATION DES OPTIMALEN STANDORTS
![Page 28: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/28.jpg)
SUMMARYFAZIT
![Page 29: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/29.jpg)
TAKEAWAYS
■ Hadoop bietet die Möglichkeit zur ad-hoc Datenanalyse auf explorative Art und Weise. Denn es ist unrealistisch, alle Fragen im voraus zu wissen. Fragen ergeben sich während der Analyse.
■ Für Ihr erstes Hadoop-Projekt empfehlen wir Ihnen:■ versuchen Sie nicht Ihr bestehendes DWH abzulösen :)■ starten Sie “einfach”, lean & agile, implementieren Sie einen
POC mit geringem Aufwand (~5MT)■ holen Sie sich die richtigen Personen / Skills ins Boot■ sammeln und speichern Sie alle Daten, es soll keine
Information verloren gehen■ “arbeiten” Sie mit den Daten■ erzeugen Sie Diagramme und Grafiken um Ihre Erkenntnisse
aus der Analyse zu präsentieren
![Page 30: Wie baue ich ein DataWarehouse auf Basis Hadoop](https://reader033.vdocuments.site/reader033/viewer/2022051610/54939af9b47959794d8b48a6/html5/thumbnails/30.jpg)
YMC AG
Sonnenstrasse 4
CH-8280 Kreuzlingen
Switzerland
@gerd_koenig
CONTACT [email protected]
Tel. +41 (0)71 508 24 74
www.ymc.ch