itmoov 2012 - data governance en data quality

25
Kasteel van Brasschaat 29 Maart 2012 2 e editie

Upload: abc-groep

Post on 05-Dec-2014

715 views

Category:

Documents


3 download

DESCRIPTION

Filip Cuppens (DynApps, ABC-Groep) geeft u enkele tips en ideeën die u laten nadenken over datakwaliteit en data governance. Bedoeling is dat de presentatie de lezer aanzet tot nadenken om de nodige stappen te ondernemen om in het eigen bedrijf de kwaliteit van de data die gebruikt wordt voor het maken van beslissingen te verbeteren

TRANSCRIPT

Page 1: ITMoov 2012 - Data governance en data quality

Kasteel van Brasschaat

29 Maart 2012

2e editie

Page 2: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE & DATA QUALITY

TIPS & TRICKS

FILIP CUPPENS

Page 3: ITMoov 2012 - Data governance en data quality

AGENDA

• Biografie

• Wat verstaat men onder data governance en data kwaliteit

• Data governance workflow

• Data issues in een data warehouse

• Conclusies

Page 4: ITMoov 2012 - Data governance en data quality

BIOGRAFIE

• Business Intelligence Consultant sinds 2002

• Werk voor DynApps sinds mei 2011

• Carrière pad

• BI Developer

• BI Analyst

• BI Project Lead

• BI Unit Manager

• Projecten

• DHL Aviation

• Johnson & Johnson

• SD Worx

• Nutricia

Page 5: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE EN DATA KWALITEIT

• Data

• Gestructureerd: databases

• Ongestructureerd: mails, word-docs, PDF, internet

• Beslissingen op basis van data

• Kwaliteit van die data ?

• Is de data betrouwbaar genoeg om beslissingen te nemen ?

• Hoe kunnen we zeker zijn dat de data betrouwbaar is ?

• Data Governance

• Afspraken, tools, beslissingen die tot doel hebben de data kwaliteit te verbeteren

• Personen verantwoordelijk voor de kwaliteit van de data

Page 6: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE EN DATA KWALITEIT ?

• Data Kwaliteit

• Operationele data

• Negatieve connotatie

• Defecten, issues

• Slechte data kwaliteit

• Data stewards

• “Poor data quality is amongst Top 5 reasons why data warehouse projects fail”

• Data Governance

• BI Projecten

• Data warehouse projecten

Page 7: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE EN DATA KWALITEIT !

• Data Kwaliteit

• Data Definities

• Afspraken

• Meta data

• Verbeter processen

• Niet enkel in een data warehouse, maar voor alle data

• Ook operationele data

Page 8: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE WORKFLOW

Create Inventory

List of Defects

Data

Quality

Rules

Accurate

Create/Update

Meta Data

No

Yes

Give all issues

an Impact

Weight

Profile Data

Revisit

Documentation

and Weights

Report Findings

Decision on

solving the

defects

Address the

issues

Page 9: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE WORKFLOW

Create Inventory

List of Defects

Data

Quality

Rules

Accurate

Create/Update

Meta Data

No

Yes

Give all issues

an Impact

Weight

Profile Data

Revisit

Documentation

and Weights

Report Findings

Decision on

solving the

defects

Address the

issues

Page 10: ITMoov 2012 - Data governance en data quality

DATA DEFINITIES

• Data Definities

CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity

1 CAS CASA 2000 Antwerpen

2 BLO Blokker 1080 Brussel

3 AL Aldi 1040 Brussel

4 LID Lidl 2100 Deurne

5 KRF Krefel 3600 Genk

6 VDB Van den Borre 8000 Gent

7 KRE Krefel 3600 Genk

8 CAR Carrefour 10000 Brussel

CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity

1 CAS CASA 2000 Antwerpen

2 BLO Blokker 1080 Brussel

3 AL Aldi 1040 Brussel

4 LID Lidl 2100 Deurne

5 KRF Krefel 3600 Genk

6 VDB Van den Borre 8000 Gent

7 KRE Krefel 3600 Genk

8 CAR Carrefour 10000 Brussel

Page 11: ITMoov 2012 - Data governance en data quality

DATA DEFINITIES

• Data definitie tips

• Men kan enkel spreken over een defect indien er een regel bestaat omtrent de correctheid van de data

• Data kwaliteit regels dienen bepaald te worden door de business, NIET door IT

• Data kwaliteit wordt NIET gedefinieerd op data storage level

• Data kwaliteit wordt geïmplementeerd op data storage level

Page 12: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE WORKFLOW

Create Inventory

List of Defects

Data

Quality

Rules

Accurate

Create/Update

Meta Data

No

Yes

Give all issues

an Impact

Weight

Profile Data

Revisit

Documentation

and Weights

Report Findings

Decision on

solving the

defects

Address the

issues

Page 13: ITMoov 2012 - Data governance en data quality

DATA PROFILING

• Met behulp van specifieke tools een inzicht krijgen in de structuur en kwaliteit van de data

• Proces met als bedoeling informatie te krijgen over de data in plaats van informatie uit de data halen

• Voorbeeld: BE postcode pattern = ‘B-9999’

Page 14: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE WORKFLOW

Create Inventory

List of Defects

Data

Quality

Rules

Accurate

Create/Update

Meta Data

No

Yes

Give all issues

an Impact

Weight

Profile Data

Revisit

Documentation

and Weights

Report Findings

Decision on

solving the

defects

Address the

issues

Page 15: ITMoov 2012 - Data governance en data quality

DATA ISSUE OPLOSSEN ?

• Kost om issue op te lossen ?

• Kosten voor de business (als issue niet wordt opgelost)

• Kost om issue op te lossen

• Risico’s indien issue niet opgelost worden ?

• Waar het defect oplossen ?

• Business beslissingen, geen IT beslissingen

Page 16: ITMoov 2012 - Data governance en data quality

DATA ISSUE OPLOSSEN ?

• Een voorbeeld

Klanten

5 Warehouses

Gent

Brugge

Antwerpen

Hasselt

Leuven

Leverancier

Transport Transport

Page 17: ITMoov 2012 - Data governance en data quality

DATA ISSUE OPLOSSEN ?

• Een voorbeeld

10000 Brussel Operationele kost: extra transport kost = € 0,00

Analyse:

nieuw warehouse te openen in de regio Brussel

CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity

1 CAS CASA 2000 Antwerpen

2 BLO Blokker 1080 Brussel

3 AL Aldi 1040 Brussel

4 LID Lidl 2100 Deurne

5 KRF Krefel 3600 Genk

6 VDB Van den Borre 8000 Gent

7 KRE Krefel 3600 Genk

8 CAR Carrefour 10000 Brussel

Page 18: ITMoov 2012 - Data governance en data quality

DATA ISSUE OPLOSSEN ?

ZIP Subcity City Revenue/Year

10000 Brussel € 760.000,00

1040 Etterbeek Brussel € 299.600,00

1080 Sint-Jans-Molenbeek Brussel € 297.600,00

1070 Anderlecht Brussel € 160.000,00

1000 Brussel Brussel € 159.900,00

ZIP Subcity City Revenue/Year

1180 Ukkel Brussel € 760.000,00

1040 Etterbeek Brussel € 299.600,00

1080 Sint-Jans-Molenbeek Brussel € 297.600,00

1070 Anderlecht Brussel € 160.000,00

1000 Brussel Brussel € 159.900,00

Page 19: ITMoov 2012 - Data governance en data quality

DATA ISSUES IN EEN DATA WAREHOUSE

• Is per definitie data in een data warehouse niet ‘proper’ ?

• ETL: veel aandacht besteed aan data kwaliteit

• BI initiatieven gaan vaak gepaard met master data management initiatieven

• Maar toch …

Page 20: ITMoov 2012 - Data governance en data quality

DATA ISSUES IN EEN DATA WAREHOUSE

• Voorbeeld: tijdsregistratie

• Afwezigheid

• code 100

• Omschrijving: vrij tekst veld

• Guidelines voor omschrijving

• Vakantie

• Ziek

• Sociaal verlof

Datum Persoon Omschrijving

10/01/2012 Filip C. Vakantie

20/01/2012 Filip C. Ziek

07/02/2012 Filip C. Verlof

22/02/2012 Filip C. Sociaal Verlof

Key Omschrijving

1 Vakantie

2 Ziek

3 Sociaal Verlof

4 Verlof

Page 21: ITMoov 2012 - Data governance en data quality

DATA ISSUES IN EEN DATA WAREHOUSE

• Business voorstel voor oplossing

• ETL blokt nieuwe waarden

• Workflow voor creatie van nieuwe waarden

Zekerheid omtrent correctheid van maandelijks rapport ?

New

absence

value ? Request approval Approved ?

Request to enter

in dimTable

Typical Time Frame: 2 weeks

Workload + Follow-Up: manually

Page 22: ITMoov 2012 - Data governance en data quality

DATA GOVERNANCE WORKFLOW

Create Inventory

List of Defects

Data

Quality

Rules

Accurate

Create/Update

Meta Data

No

Yes

Give all issues

an Impact

Weight

Profile Data

Revisit

Documentation

and Weights

Report Findings

Decision on

solving the

defects

Address the

issues

Page 23: ITMoov 2012 - Data governance en data quality

WAAR DATA ISSUES OPLOSSEN ?

• In operationeel systeem ?

• In ETL ?

• In data warehouse ?

• Twee belangrijke factoren

• Kost

• Risico

Page 24: ITMoov 2012 - Data governance en data quality

WAAR DATA ISSUES OPLOSSEN ?

• Voorbeeld: afwezigheidsregistratie systeem

• ‘Eenvoudige’ oplossing

• Beschrijving = drop down met voorgedefinieerde velden

• Maar … externe applicatie

• Change duurt 3 maanden

• Kost voor change € 10K

• Alternatieve oplossing

• Interne ETL oplossing

• Zekerheid over correctheid van data ?

• Kosten / Risico’s indien rapporten niet correct zijn ?

• Andere ETL procedure nodig ?

Page 25: ITMoov 2012 - Data governance en data quality

CONCLUSIES

• Data kwaliteit en data governance zijn ook een Business issue

• Business neemt de beslissingen

• IT implementeert

• Data kwaliteit begint bij definities van hoe de data er moet uitzien

• Data issues komen ook en vaak voor in data warehouses.

• Beperk U bij data governance projecten dus niet tot monitoren van opeartionele systemen

• Bij elke onderkende issue is het nodig om te evalueren wat kost en risico’s zijn voor het fixen van de issue

• Kijk daarbij verder dan Uw neus lang is