wprowadzenie do hurtowni danychmariuszrafalo.pl/sgh/hd/hd-04-modelowanie.pdf · 2018. 2. 3. ·...

35
Wprowadzenie do Hurtowni Danych Mariusz Rafało [email protected]

Upload: others

Post on 17-Mar-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Wprowadzenie do Hurtowni Danych

Mariusz Rafał[email protected]

Page 2: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

WARIANTY BUDOWY HURTOWNI DANYCH

Page 3: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Literatura

R. Kimball, The Data Warehouse Lifecycle, Wiley, 2013

W. Inmon, Building the Data Warehouse, Wiley, 2005

D. Linstedt, Super Charge your Data Warehouse. Dan Linstedt, 2010

Page 4: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Warianty budowy Hurtowni Danych

• Hurtownia Dwuwarstwowa (podejście Top-Down)• Najpierw, w oparciu o Korporacyjny Model Danych, budujemy Centralną

Hurtownię Danych, gromadzącą dane na poziomie detalicznym

• Następnie, budujemy kolejne hurtownie tematyczne (Datamarty), wspierające konkretne analizy

• Podejście proponowane przez Billa Inmona

• Hurtownia Jednowarstwowa (podejście Bottom-Up)• Budujemy od razu hurtownie tematyczne (Datamarty)

• Podejście proponowane przez Ralpha Kimballa

Page 5: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Hurtownia Dwuwarstwowa

Dane

źródłoweCentralna hurtownia danych (dane detaliczne)

OdbiorcyHurtownie tematyczne (datamarty)

Page 6: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Architektura Dwuwarstwowa: zalety i wady

• Zalety

• Udostępnienie zintegrowanego i elastycznego źródła danych dla wszelkich aktywności analitycznych:• Wszystkie hurtownie tematyczne są zbudowane w oparciu o te same dane

• Detaliczny poziom danych daje ogromną elastyczność możliwych analiz

• Udostępnienie zintegrowanego widoku danych w ramach całej organizacji

• Wady

• Budowa Centralnej Hurtowni Danych trwa długo i kosztuje dużo• Budowa CHD jest przedsięwzięciem globalnym w ramach organizacji – wymaga odpowiednich

struktur organizacyjnych• Wymaga dodatkowych nakładów na sprzęt

Page 7: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Hurtownia Jednowarstwowa

Dane źródłoweOdbiorcy

Hurtownie

tematyczne (data

marty)

Page 8: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Architektura Jednowarstwowa: zalety i wady

• Zalety• Skupienie się na konkretnych wymaganiach użytkowników i szybkie dostarczenie wartości.

• Hurtownie tematyczne zawierają zarówno dane zagregowane jak i szczegółowe – wszystko jest dostępne w jednej bazie danych.

• Ponieważ nie ma zintegrowanej warstwy danych detalicznych, budując kolejne hurtownie tematyczne wykorzystuje się już zaimplementowane wymiary i miary.

• Brak wydzielonej warstwy danych detalicznych skutkuje też mniejszymi wymaganiami sprzętowymi.

• Wady• Uzgadnianie hurtowni tematycznych budowanych niezależnie jest trudne

• Mała elastyczność rozwiązania – trudno realizować nowe wymagania użytkowników

• Brak jednego zintegrowanego źródła danych

• Duża redundancja danych

Page 9: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Podsumowanie

• W 1997 Kimball wskazał:• "...the data warehouse is nothing more than the union of all the data marts"

• W 1998 Inmon odpowiada:• "You can catch all the minnows in the ocean and stack them together and they still do not

make a whale"

Page 10: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

System 1 System n

Zbiór danych tymczasowych (STAGE)

Zbiór danych detalicznych (DETAIL)

Zbiór danych tematycznych(Data Marts)

Analityczne zbiory danych

(ADS)

Repozytorium danych

Systemy źródłowe

Modelowanie danych w hurtowni danych

▪ 3 postać normalna (3NF)▪ Gwiazda/płatek śniegu▪ Data Vault▪ Data mining (ADS)

System 2

Page 11: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

TRZECIA POSTAĆ NORMALNA

Page 12: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

3NF

FAKTURY KLIENT REGION

PRODUKT POZYCJE_FAKTUR

KATEGORIA

Page 13: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

MODELOWANIE WIELOWYMIAROWE

Page 14: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Przykłady faktów

• Sprzedaż produktu lub usługi

• Pobranie towaru z magazynu

• Wykonanie połączenia telefonicznego

• Wypełnienie ankiety przez respondenta

• Wykonanie operacji na koncie bankowym

Page 15: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Przykłady miar

• Ilość sprzedanego towaru

• Wartość sprzedaży

• Ilość towarów pobranych z magazynu

• Ilość respondentów, wskazujących jakąś odpowiedź w ankiecie

• Ilość połączeń telefonicznych

Page 16: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Przykłady wymiarów

• Produkt

• Czas

• Oddział

• Klient

• Ankieta

• Województwo

• Rodzaj operacji bankowej

Page 17: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Przykłady hierarchii

KRAJ

WOJEWÓDZTWO

POWIAT

ROK

MIESIĄC

DZIEŃ

Page 18: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Kostki wielowymiarowe - definicja

• Pozwalają na skupienie informacji w wielu różnych ujęciach

• Podstawowe komponenty kostki OLAP to fakty, wymiary, miary oraz hierarchie• Fakt jest opisem zdarzenia operacyjnego, które miało miejsce

• Miara jest wartością liczbową, która podlega analizie (np.: wielkość sprzedaży, ilość sprzedanychproduktów, itp.) – Ile?

• Wymiar jest elementem opisującym miarę(np.: miasto, w którym dokonano sprzedaży; produkt, którysprzedano, itp.) – Co? Kto? Gdzie? Kiedy?

• Hierarchia określa zależności pomiędzy elementami wymiaru – pozwala na drzewiaste budowaniepołączeń

Page 19: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Gwiazda

F_SPRZEDAZ

DIM_KLIENT

DIM_REGION

DIM_PRODUKT

DIM_CZAS

Page 20: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Płatek śniegu

F_SPRZEDAZ

DIM_KLIENT

DIM_REGION

DIM_PRODUKT

DIM_CZAS

Page 21: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

DATA VAULT

Page 22: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Data Vault - definicja

Data Vault – technika modelowania danych (w hurtowniach danych) zaprojektowana tak, aby zapewnić przechowywanie danych historycznych z wielorakich systemów operacyjnych (źródłowych). Data Vault oznacza również, obok aspektu modelowania, sposób patrzenia na dane historyczne, który zapewnia audytowalność, śledzenie danych, szybkość ładowania oraz odporność na zmiany biznesowe.

Źródło: wikipedia.pl

Page 23: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

http://www.GeneseeAcademy.com23

Data Vault - zasady

• Hub: unikalne klucze

• Link: unikalne połączenia pomiędzy Hubami (kluczami)

• Satellite: dane historyczne

Email ID

Sat

Sat

Sat

Link Bank ID

Sat

Sat

Sat

Passenger

ID

Sat

Sat

Sat

F(x)

Email Information Bank Transactions

Airline Reservations

Sat

Link

Records a history

of the interaction

** Dashed Line is a possible New Relationship

Hub

Satellite

Źródło: databaser.net

Page 24: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Data Vault - przykład

LINK_SPRZEDAZ

HUB_KLIENT

HUB_REGION

HUB_PRODUKTSAT_KLIENT

SAT_PRODUKT

SAT_REGION

Page 25: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

MODELOWANIE DM

Page 26: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Analytical Data Set - definicja (1)

• Analityczny zbiór danych jest uporządkowanym zestawem cech (zmiennych)

• Istotne cechy wskazywane są metodą ekspercką, na podstawie doświadczeń i najlepszych praktyk branżowych

• Przykładowe cechy klienta • Wartość zakupów w ciągu 36 miesięcy

• Liczba logowań do sklepu internetowego w ciągu 12 miesięcy

• Informacje demograficzne: wiek, płeć, zamieszkanie, itp.

Page 27: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

KLIENCI TRANSAKCJE PRODUKTY …

KLIENCI TRANSAKCJE PRODUKTY …CORE

ADS

Analytical Data Set - definicja(2)Obszary tematyczne – pochodzące z różnych źródeł informacje dotyczące klienta

CORE – zestaw podstawowych danych o kliencie (identyfikator, PESEL, itp.)

Page 28: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Analytical Data Set - definicja(3)

Page 29: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

System 1 System n

Zbiór danych tymczasowych (STAGE)

Zbiór danych detalicznych (DETAIL)

Zbiór danych tematycznych(Data Marts)

Analityczne zbiory danych

(ADS)

Repozytorium danych

Systemy źródłowe

Modelowanie danych w hurtowni danych

▪ 3 postać normalna (3NF)▪ Gwiazda/płatek śniegu▪ Data Vault▪ Data mining (ADS)

System 2

Page 30: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

PRZYKŁAD: MODELOWANIE HIERARCHII

Page 31: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Hierarchie – typy hierarchii

• Zbalansowana (ang. balanced) – stała liczba nazwanych poziomów, każde „dziecko” ma „rodzica” na poziomie bezpośrednio wyższym (struktura drzewa)

• Struktura drzewa o nieokreślonej liczbie poziomów – nieokreślona liczba poziomów, których nie da się nazwać

• Niezrównoważona (ang. ragged) – stała liczba nazwanych poziomów, „dziecko” może mieć „rodzica” na poziomie innym niż bezpośrednio wyższy

Page 32: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Hierarchie – przykład (1)

Czas Id Data Miesiąc Nazwa Miesiąca Kwartał Rok

1 01-01-2006 2006.01 Styczeń Q1.2006 2006

2 23-02-2006 2006.02 Luty Q1.2006 2006

3 18-05-2006 2006.05 Maj Q2.2006 2006

4 12-07-2006 2006.07 Lipiec Q3.2006 2006

5 09-11-2006 2006.11 Listopad Q4.2006 2006

6 … … … … …

• Przykład wymiaru czas

ROK

KWARTAŁ

MIESIĄC

DZIEŃ

Page 33: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Hierarchie – przykład (2)Pion Departament Dział

A B C

A B D

X ??? Y

Pion (A)

Departament (B)

Dział (C)

Dział (Y)

Dział (D)

Pion (X) Dział(Y)

Pion (X)

?

Page 34: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Hierarchie – przykład (2)Pion Departament Dział

A B C

A B D

X ??? Y

Pion Departament Dział

Sposób 1 X X Y

Sposób 2 X Y Y

Sposób 3 X BRAK Y

Pion (A)

Departament (B)

Dział (C)

Dział (Y)

Dział (D)

Pion (X) Dział(Y)

Pion (X)

?

Page 35: Wprowadzenie do Hurtowni Danychmariuszrafalo.pl/sgh/hd/HD-04-modelowanie.pdf · 2018. 2. 3. · Warianty budowy Hurtowni Danych •Hurtownia Dwuwarstwowa (podejście Top-Down) •Najpierw,

Dziękuję za uwagę