dv 20 sdlc_oss_automation

18
DataVault 2.0 – DAD – SDLC – OSS DDVUG 2014, Torsten Glunde Juni 2014

Upload: torsten-glunde

Post on 24-Jun-2015

383 views

Category:

Data & Analytics


0 download

DESCRIPTION

Enabling AgileBI by managing the data warehouse software lifecycle with DataVault 2.0, generators, data virtualization and cotinuous integration using open source tools

TRANSCRIPT

Page 1: Dv 20 sdlc_oss_automation

DataVault 2.0 – DAD – SDLC – OSSDDVUG 2014, Torsten Glunde

Juni 2014

Page 2: Dv 20 sdlc_oss_automation

2

Vorstellung Torsten Glunde

• Eigentümer, Managing Consultant bei Alligator Company (6 Mitarbeiter)

• 10+ Jahre Erfahrung in BI• Certified Data Vault 2.0 Practitioner• Member of the Boulder BI Brain Trust• Open Source Liebhaber

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Page 3: Dv 20 sdlc_oss_automation

3

Agenda• Einleitung

• Wofür benötigen wir Werkzeuge zur Automation um Agile zu werden?

• DV2.0 Solutions und OSS Tools• Requirements• Continuous Integration• Automation

• Zusammenfassung

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Page 4: Dv 20 sdlc_oss_automation

4

Einleitung – Was liefert DV 2.0

Methodik

Implementation

Architektur

Model

• Konsistent• Wiederholbar• Muster

• Automation• Skalierbarkeit• Fault-Tolerance

• Managed Self-Service-BI• De-Coupling• NoSQL Unterstützung

• Scale-free Architecture• Basiert auf Hub & Spoke• Set-Logik + MPP

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Page 5: Dv 20 sdlc_oss_automation

5

Einleitung – Was liefert DV 2.0

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Die Methodik • Requirements• Disciplined Agile Delivery als Vorgehensmodell• PPM, Six Sigma, TQM, CMMI, KPA und KPI• Technical Numbering, Function Point & Risk

Management

Die Implementierung• Generation und Automation• Einfache Muster für ETL• Optimiert für Ladeperformanz (MD5 hashes)• Datenvirtualisierung

Page 6: Dv 20 sdlc_oss_automation

6

Einleitung – Was ist DAD?

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Disciplined Agile Delivery• SCRUM +

• Verwertbare Ergebnisse anstatt „nur“ potentiell auslieferbar• Erweiterung des SCRUM Lifecycles um die Auslieferung von

Releases• Verallgemeinerung der Methoden – auch bezüglich des Vokabulars• Beinhaltet explizite Strategien zur Governance• Flexible Prozesse – „Process Goal Diagram“ – Anpassungen und

Skalierung

Unternehmensweite Methoden benötigen mehr Flexibilität und Robustheit

Scott Ambler, Disciplined Agile Consortium

http://DisciplinedAgileConsortium.org

http://DiscipinedAgileDelivery.com

Inception Construction Transition

Page 7: Dv 20 sdlc_oss_automation

7

Wofür SDLC? Wozu DAD? Warum OSS?

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

OSS• Lizenzkosten für BI-Tools sind hoch (oftmals auch gerade für

notwendige Features für Agilität)• Lizenzkosten sind eine Einstiegsbarriere – gerade für KMUs• Offene Systeme• Keine Abhängigkeit vom Support

DataVault 2.0 Methodik von Dan Linstedt liefert• Agile Vorgehensweise• Automatisches, generiertes ETL processing,

Wiederholbarkeit• Schnelle Anpassbarkeit bei Modelländerungen• Inkrementell Kostenkontrolle• 2 Wochen Iterationen• Vorhersagbare und messbare Ergebnisse

Page 8: Dv 20 sdlc_oss_automation

8

Wofür SDLC? Wozu DAD? Warum OSS?

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

SDLC• Methoden und Tools aus der Softwareentwicklung sind

verfügbar und erprobt• Continuous Integration, Unit Testing, Acceptance Testing• Diese Werkzeuge ermöglichen • EDWH und BI delivery liefert auch „nur“ Software

Backend 80% Frontend 20%

Frontend 50%Backend 50%Ziel:

IST:

Page 9: Dv 20 sdlc_oss_automation

9

Disclaimer

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

• DataVault != Agile• Werkzeuge != Agile• OSS != Agile• Prozesse != Agile

Das einzige, was zählt sind die Menschen

Werkzeuge, DataVault, DAD und OSS können dazu beitragen

Page 10: Dv 20 sdlc_oss_automation

10

Warum ist AgileBI schwierig?

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Sind zwei Wochen zu kurz?

Continuous Integration birgt Herausforderungen im EDWH• Test Automation – Datenmengen und Veränderung• Build Automation – klassische BI Tools liefern keine Versionierung Versionierung der Exportartefakte• Release Automation – klassische BI Tools liefern teileweise keine oder teure Automation für das

Deployment

Anforderungsaufnahme• Unbekannte Datenanforderungen• Business Keys unbekannt / ändern sich• Unternehmen kennt die eigenen Dateninhalte nicht• Scoping

Akzeptanz• SLAs definieren wer ist wofür verantwortlich• Dokumentation – was wird geliefert?

Datenprobleme können nur über EIM gelöst werden! Akzeptanz kann durch Transparenz im agilen Prozess erhöht werden Automation für SDLC und Test kann mit OSS Technologie und Vorarbeit verbessert werden

Inception Construction TransitionReady?

Deploy?Test?

Release?

Page 11: Dv 20 sdlc_oss_automation

11

AgileBI mit DV2.0 - DWA

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

RawVault

BusinessVault

Generator

MetadataData Model, Parameter, Templates

VirtualizationStar Schema View

Persisted Star Schema, Cube, …

ETL / ELTB(x)

Stage FrontendQuelle

View

Verwendung von • DWA - Data Warehouse Automatisierung und • Data Virtualisierung (Views)

Reduktion von ETL Aufwänden durch z.B. BIDSHelper und BIML Prototyping und Exploration erhöht Geschwindigkeit und Transparenz

Page 12: Dv 20 sdlc_oss_automation

12

AgileBI mit DV2.0 Testing

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

RawVault

BusinessVault

Generator

Metadata

VirtualizationStar Schema View

Persisted Star Schema, Cube, …

ETL / ELTB(x)

Stage FrontendQuelle

TestrepositoryQuelldatenTestdatenTestcases

ACIT

Quell-Target-Abgleich

ACIT – Automated, Continuous Integration Testing

View

Prototyping, Exploration

User Acceptance

Datenabgleich

Page 13: Dv 20 sdlc_oss_automation

13

AgileBI mit DV2.0 OSS Tools

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

RawVault

BusinessVault

Generator

Metadata

VirtualizationStar Schema View

Persisted Star Schema, Cube, …

ETL / ELTB(x)

Stage FrontendQuelle

TestrepositoryQuelldatenTestdatenTestcases

ACIT

Quell-Target-Abgleich

ACIT – Automated, Continuous Integration Testing

View

Prototyping, Exploration

User Acceptance

Datenabgleich

DBUnitFlywayJailer

Selenium

DBUnitFlywayJailer

JenkinsNächtl. Build

und Test

BIDSHelperBIML

(MSSQL)

Page 14: Dv 20 sdlc_oss_automation

14

OSS Werkzeuge für AgileBI

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

DWA – Data Warehouse Automation• BIDSHelper, BIMLScript https://bidshelper.codeplex.com/

Testautomation• Jailer (DBUnit, Liquibase) http://jailer.sourceforge.net/• DBUnit http://www.dbunit.org/• Flyway http://flywaydb.org/• Selenium http://docs.seleniumhq.org/

Continuous Integration / Build Automation• Jenkins http://jenkins-ci.org/

Release• Subversion https://subversion.apache.org/• GIT http://git-scm.com/download

Modeling• SQL Power Architect http://www.sqlpower.ca/page/architect

Transparenz und Akzeptanz• DataCleaner http://datacleaner.org/• Wiki z.B. https://www.mediawiki.org/wiki/MediaWiki

Page 15: Dv 20 sdlc_oss_automation

15

Delivery

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Inception

Iteration

1. Scoping Iteration

2. Modellierung / Anpassen der Metadaten

3. Generierung der DDL-Skripte

4. Generierung der ETL Prozesse in Stage und RawVault

5. Business Vault Implementations

6. Frontend Implementation

7. Testing

Transition

Page 16: Dv 20 sdlc_oss_automation

16

Erfahrungen mit AgileBI

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Erfahrung AgileBI• Grundvoraussetzung ist die Readyness der Organisation

• Offenheit im Umgang mit fehlerhaften Daten• Sichtbarkeit von Daten wird erhöht Gewünscht

• Erwartungshaltung managen Milestones • Was wird wann geliefert ohne konkreten, langwierigen Projektplan• Wieviel kann in zwei Wochen geliefert werden?• Wieviel Dokumentation wird geliefert?

• Bevor man agil liefern kann (Iteration-0) - Performance Baseline Tests für die Infrastruktur- Sourcecontrol, Test Automation, Build Automation, Deployment Automation

müssen fertig sein- Datengetrieben bedeutet dass Inhalte klar definiert/modelliert sein müssen

klare Vorgaben wie Anforderungen definiert werden Workshops

Future• DWH Automation mit Data Vault ermöglicht auch in komplexeren und schneller

verändebaren Umfeldern und mit hohen Datenmengen AgileBI erfolgreich zu etablieren

• Metadaten für Automatisierung und Informationen sollten zusammengefasst werden (CWM, BIML) Automatisierung der Automatisierung

Page 17: Dv 20 sdlc_oss_automation

17

Zusammenfassung

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014

Automation der SDLC Prozesse (Test, Lieferung, Release)• Wiederholbarkeit• Geschwindigkeit• Flexibilität durch Verwendung von Metadaten

Planung und Anforderungen• Scoping ist wichtig – wie schneide ich meine Anforderungen, so dass sie in 2 Wochen

passen• Virtualisierung von Rohdaten• Virtualisierung zur Reduktion von Beladungen im Anfang

Automation im Data Vault• reduziert Aufwände vor dem DataVault• Iteratives Prototyping wird vereinfacht

SDLC als standardisierte Produktauslieferung mit Automatisierung und kurzen Entwicklungszyklen

DV2.0 und quelloffene Werkzeuge befördern diese Entwicklung Technische Lösung ist noch mit Aufwand verbunden, der aber geringer wird je mehr

auf Metadaten gesetzt wird

Page 18: Dv 20 sdlc_oss_automation

18

Vielen Dank für Ihre Aufmerksamkeit!

Fragen?

@tglundeTorsten Glundemailto:t.glunde(at)alligator-company.de

Weitere Netzwerke:https://www.xing.com/profile/Torsten_Glundehttps://www.linkedin.com/pub/torsten-glunde/8/aba/97

Torsten Glunde, Alligator CompanyDDVUG, Juni 2014