itmoov 2012 - data governance en data quality
DESCRIPTION
Filip Cuppens (DynApps, ABC-Groep) geeft u enkele tips en ideeën die u laten nadenken over datakwaliteit en data governance. Bedoeling is dat de presentatie de lezer aanzet tot nadenken om de nodige stappen te ondernemen om in het eigen bedrijf de kwaliteit van de data die gebruikt wordt voor het maken van beslissingen te verbeterenTRANSCRIPT
Kasteel van Brasschaat
29 Maart 2012
2e editie
DATA GOVERNANCE & DATA QUALITY
TIPS & TRICKS
FILIP CUPPENS
AGENDA
• Biografie
• Wat verstaat men onder data governance en data kwaliteit
• Data governance workflow
• Data issues in een data warehouse
• Conclusies
BIOGRAFIE
• Business Intelligence Consultant sinds 2002
• Werk voor DynApps sinds mei 2011
• Carrière pad
• BI Developer
• BI Analyst
• BI Project Lead
• BI Unit Manager
• Projecten
• DHL Aviation
• Johnson & Johnson
• SD Worx
• Nutricia
DATA GOVERNANCE EN DATA KWALITEIT
• Data
• Gestructureerd: databases
• Ongestructureerd: mails, word-docs, PDF, internet
• Beslissingen op basis van data
• Kwaliteit van die data ?
• Is de data betrouwbaar genoeg om beslissingen te nemen ?
• Hoe kunnen we zeker zijn dat de data betrouwbaar is ?
• Data Governance
• Afspraken, tools, beslissingen die tot doel hebben de data kwaliteit te verbeteren
• Personen verantwoordelijk voor de kwaliteit van de data
DATA GOVERNANCE EN DATA KWALITEIT ?
• Data Kwaliteit
• Operationele data
• Negatieve connotatie
• Defecten, issues
• Slechte data kwaliteit
• Data stewards
• “Poor data quality is amongst Top 5 reasons why data warehouse projects fail”
• Data Governance
• BI Projecten
• Data warehouse projecten
DATA GOVERNANCE EN DATA KWALITEIT !
• Data Kwaliteit
• Data Definities
• Afspraken
• Meta data
• Verbeter processen
• Niet enkel in een data warehouse, maar voor alle data
• Ook operationele data
DATA GOVERNANCE WORKFLOW
Create Inventory
List of Defects
Data
Quality
Rules
Accurate
Create/Update
Meta Data
No
Yes
Give all issues
an Impact
Weight
Profile Data
Revisit
Documentation
and Weights
Report Findings
Decision on
solving the
defects
Address the
issues
DATA GOVERNANCE WORKFLOW
Create Inventory
List of Defects
Data
Quality
Rules
Accurate
Create/Update
Meta Data
No
Yes
Give all issues
an Impact
Weight
Profile Data
Revisit
Documentation
and Weights
Report Findings
Decision on
solving the
defects
Address the
issues
DATA DEFINITIES
• Data Definities
CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity
1 CAS CASA 2000 Antwerpen
2 BLO Blokker 1080 Brussel
3 AL Aldi 1040 Brussel
4 LID Lidl 2100 Deurne
5 KRF Krefel 3600 Genk
6 VDB Van den Borre 8000 Gent
7 KRE Krefel 3600 Genk
8 CAR Carrefour 10000 Brussel
CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity
1 CAS CASA 2000 Antwerpen
2 BLO Blokker 1080 Brussel
3 AL Aldi 1040 Brussel
4 LID Lidl 2100 Deurne
5 KRF Krefel 3600 Genk
6 VDB Van den Borre 8000 Gent
7 KRE Krefel 3600 Genk
8 CAR Carrefour 10000 Brussel
DATA DEFINITIES
• Data definitie tips
• Men kan enkel spreken over een defect indien er een regel bestaat omtrent de correctheid van de data
• Data kwaliteit regels dienen bepaald te worden door de business, NIET door IT
• Data kwaliteit wordt NIET gedefinieerd op data storage level
• Data kwaliteit wordt geïmplementeerd op data storage level
DATA GOVERNANCE WORKFLOW
Create Inventory
List of Defects
Data
Quality
Rules
Accurate
Create/Update
Meta Data
No
Yes
Give all issues
an Impact
Weight
Profile Data
Revisit
Documentation
and Weights
Report Findings
Decision on
solving the
defects
Address the
issues
DATA PROFILING
• Met behulp van specifieke tools een inzicht krijgen in de structuur en kwaliteit van de data
• Proces met als bedoeling informatie te krijgen over de data in plaats van informatie uit de data halen
• Voorbeeld: BE postcode pattern = ‘B-9999’
DATA GOVERNANCE WORKFLOW
Create Inventory
List of Defects
Data
Quality
Rules
Accurate
Create/Update
Meta Data
No
Yes
Give all issues
an Impact
Weight
Profile Data
Revisit
Documentation
and Weights
Report Findings
Decision on
solving the
defects
Address the
issues
DATA ISSUE OPLOSSEN ?
• Kost om issue op te lossen ?
• Kosten voor de business (als issue niet wordt opgelost)
• Kost om issue op te lossen
• Risico’s indien issue niet opgelost worden ?
• Waar het defect oplossen ?
• Business beslissingen, geen IT beslissingen
DATA ISSUE OPLOSSEN ?
• Een voorbeeld
Klanten
5 Warehouses
Gent
Brugge
Antwerpen
Hasselt
Leuven
Leverancier
Transport Transport
DATA ISSUE OPLOSSEN ?
• Een voorbeeld
10000 Brussel Operationele kost: extra transport kost = € 0,00
Analyse:
nieuw warehouse te openen in de regio Brussel
CustomerKey CustomerCode CustomerName CustomerZIP CustomerCity
1 CAS CASA 2000 Antwerpen
2 BLO Blokker 1080 Brussel
3 AL Aldi 1040 Brussel
4 LID Lidl 2100 Deurne
5 KRF Krefel 3600 Genk
6 VDB Van den Borre 8000 Gent
7 KRE Krefel 3600 Genk
8 CAR Carrefour 10000 Brussel
DATA ISSUE OPLOSSEN ?
ZIP Subcity City Revenue/Year
10000 Brussel € 760.000,00
1040 Etterbeek Brussel € 299.600,00
1080 Sint-Jans-Molenbeek Brussel € 297.600,00
1070 Anderlecht Brussel € 160.000,00
1000 Brussel Brussel € 159.900,00
ZIP Subcity City Revenue/Year
1180 Ukkel Brussel € 760.000,00
1040 Etterbeek Brussel € 299.600,00
1080 Sint-Jans-Molenbeek Brussel € 297.600,00
1070 Anderlecht Brussel € 160.000,00
1000 Brussel Brussel € 159.900,00
DATA ISSUES IN EEN DATA WAREHOUSE
• Is per definitie data in een data warehouse niet ‘proper’ ?
• ETL: veel aandacht besteed aan data kwaliteit
• BI initiatieven gaan vaak gepaard met master data management initiatieven
• Maar toch …
DATA ISSUES IN EEN DATA WAREHOUSE
• Voorbeeld: tijdsregistratie
• Afwezigheid
• code 100
• Omschrijving: vrij tekst veld
• Guidelines voor omschrijving
• Vakantie
• Ziek
• Sociaal verlof
Datum Persoon Omschrijving
10/01/2012 Filip C. Vakantie
20/01/2012 Filip C. Ziek
07/02/2012 Filip C. Verlof
22/02/2012 Filip C. Sociaal Verlof
Key Omschrijving
1 Vakantie
2 Ziek
3 Sociaal Verlof
4 Verlof
DATA ISSUES IN EEN DATA WAREHOUSE
• Business voorstel voor oplossing
• ETL blokt nieuwe waarden
• Workflow voor creatie van nieuwe waarden
Zekerheid omtrent correctheid van maandelijks rapport ?
New
absence
value ? Request approval Approved ?
Request to enter
in dimTable
Typical Time Frame: 2 weeks
Workload + Follow-Up: manually
DATA GOVERNANCE WORKFLOW
Create Inventory
List of Defects
Data
Quality
Rules
Accurate
Create/Update
Meta Data
No
Yes
Give all issues
an Impact
Weight
Profile Data
Revisit
Documentation
and Weights
Report Findings
Decision on
solving the
defects
Address the
issues
WAAR DATA ISSUES OPLOSSEN ?
• In operationeel systeem ?
• In ETL ?
• In data warehouse ?
• Twee belangrijke factoren
• Kost
• Risico
WAAR DATA ISSUES OPLOSSEN ?
• Voorbeeld: afwezigheidsregistratie systeem
• ‘Eenvoudige’ oplossing
• Beschrijving = drop down met voorgedefinieerde velden
• Maar … externe applicatie
• Change duurt 3 maanden
• Kost voor change € 10K
• Alternatieve oplossing
• Interne ETL oplossing
• Zekerheid over correctheid van data ?
• Kosten / Risico’s indien rapporten niet correct zijn ?
• Andere ETL procedure nodig ?
CONCLUSIES
• Data kwaliteit en data governance zijn ook een Business issue
• Business neemt de beslissingen
• IT implementeert
• Data kwaliteit begint bij definities van hoe de data er moet uitzien
• Data issues komen ook en vaak voor in data warehouses.
• Beperk U bij data governance projecten dus niet tot monitoren van opeartionele systemen
• Bij elke onderkende issue is het nodig om te evalueren wat kost en risico’s zijn voor het fixen van de issue
• Kijk daarbij verder dan Uw neus lang is