Kierunki rozwoju technologii informatycznych: Hurtownie Danych
dr inż. Piotr Muryjas
Wyższa Szkoła Przedsiębiorczości i AdministracjiWyższa Szkoła Przedsiębiorczości i Administracji
2/69
Plan wykładu
Problemy eksploatacji SIP
Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura
Punkty krytyczne HD
Projektowanie Hurtowni Danych
3/69
Systemy Informacyjne Przedsiębiorstw (SIP)
Transakcyjne
Wspomagania
Informowaniakierownictwa
Eksperckie
decyzji
Podmiot gospodarczy
Sfera procesów realnych
Sfera regulacji
Poziom strategiczny
Poziom taktyczny
Poziom operacyjny
4/69
Rodzaje SIP
Systemy transakcyjne (ST) Systemy informowania kierownictwa
(MIS) Systemy wspomagania podejmowania
decyzji (DSS) Systemy eksperckie (EIS)
5/69
Eksploracja danych w ST
Olbrzymia ilość rekordów
Ukryte zależności między danymi
Oczekiwanie na odpowiedź
Ciągły wzrost objętości zbiorów danych
Wiele tabel i relacji między nimi Opis rzeczywistości w wybranym obszarze
funkcjonowania przedsiębiorstwa
6/69
Systemy Informowania Kierownictwa (MIS)
Zasilane zagregowanymi danymiz transakcyjnych systemów dedykowanych
Źródło danych dla MIS znajduje się wewnątrz organizacji
Postać danych i stopień agregacji adekwatne do potrzeb informacyjnychi decyzji podejmowanych przez kierownictwo średniego szczebla
7/69
Systemy Wspomagania Decyzji (DSS)
Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych
Źródło danych to systemy transakcyjne Uwzględniają szerszy aspekt prowadzenia
biznesu Stopień agregacji danych uwzględnia różne
wymiary analiz Stosowane na szczeblu taktycznym
(kierownictwo wyższego szczebla np. dyrektorzy departamentów)
8/69
Systemy eksperckie (EIS)
Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu
Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu
Wykorzystują wewnętrzne i zewnętrzne źródła danych
Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)
9/69
Systemy DSS i EIS w procesach decyzyjnych
Wymagania: Całościowe spojrzenie na organizację Prawidłowa ocena aktualnej sytuacji
organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej
Możliwość przeprowadzania analizw dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji
10/69
Pojęcie Hurtowni Danych (HD)
Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji
Zintegrowany bank danych wspomagający procesy decyzyjne
Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa
11/69
Pojęcie Hurtowni Danych (HD)
Repozytorium danych z procedurami ich ładowania do HD
Repozytorium uzupełnione minihurtowniami danych
Repozytorium, minihurtownie danych oraz aplikacje analityczne
12/69
Hurtownia Danych - gdzie leży prawda?
Bill Inmon
13/69
Definicja HD
System baz danych zawierający dane: zorientowane tematycznie zintegrowane zorganizowane w czasie trwałe
do wspomagania podejmowania decyzji strategicznych.
14/69
Zorientowanie tematyczne HD
Zgromadzone dane opisują problemy
Lokalizacja danych uzależniona od ich treści ekonomicznych
Dane zorientowane na podejmowanie decyzji w różnych obszarach działania
15/69
Integralność danych w HD
Czystość - ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary)
Poprawność - kontrola danych pobieranychz systemów szczebla operacyjnego
Właściwa agregacja - wybór zmiennych agregujących
16/69
Element czasu w HD
Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat)
Czas jako wymiar innych danych
Dane tworzą szeregi czasowe
Dane załadowane do HD nie są w czasie aktualizowane
17/69
Trwałość danych w HD
W HD dopuszcza się operacje:– ładowania danych– dostępu do danych
W HD nie przeprowadza się operacji aktualizacji załadowanych danych
Dane analityczne przechowywane sąw postaci gotowych agregatów
18/69
Cele budowy HD
Realizacja misji przedsiębiorstwa
Zwiększenie konkurencyjności firmy
Osiąganie celów biznesowych
Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa
19/69
Zadania realizowane przy wykorzystaniu HD
Budowa modelu ekonomicznego Weryfikacja hipotez biznesowych Identyfikacja trendów i zależności Określanie ryzyka Alokacja zasobów
20/69
Przykłady celów biznesowych Badanie rentowności produktów, oddziałów,
współpracy z klientami, spółek zależnych Analiza ryzyka działalności Prognozowanie sprzedaży Wyznaczenie kosztu operacji handlowych Badanie struktury sprzedaży Budowa systemów sprawozdawczości
zarządczej
21/69
Hurtownie danych a CRM Lojalność klientów wobec organizacji Rezygnacje klientów ze współpracy
i powody takiej decyzji Rodzaj produktu czy usługi (mix-produkt)
oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej
Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych
22/69
Hurtownie danych w e-biznesie Średnia wartość transakcji w internetowym
biurze maklerskim Wartość kredytów zaciągniętych przez
Internet Rodzaje lokat zakładanych przez Internet,
ich średnia wysokość i czas lokaty Wartość przelewu bankowego dokonanego
drogą elektroniczną Średnia wartość transakcji przy użyciu kart
płatniczych
23/69
Dlaczego nie wykorzystać ST?
Brak właściwych danych Zapytania przekrojowe znacznie obciążają
bieżącą pracę ST Bazy danych w ST nie są zoptymalizowane
do analitycznego przetwarzania danych Uzyskanie informacji globalnych wymaga
złączenia wielu tabel baz danych Duża zmienność stanu baz danych
24/69
Różnice między HD i ST (1)
HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.:
Dane w HD mają charakter zagregowany, w ST - szczegółowy
HD zawiera wybrane dane, ST - wszystkie dane
ST zawierają zawsze dane aktualne, HD - archiwalne (obraz tych danych)
25/69
Różnice między HD i ST (2)Struktura i przetwarzanie danych: ST przechowują dane w postaci
znormalizowanej, HD - nadmiarowość danych ST oparte są na przetwarzaniu
transakcyjnym, w HD - brak transakcji ST pozwalają na zapis, odczyt, usuwanie
i modyfikację danych, w HD - tylko odczyt ST zasilane są stałym i równomiernym
strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu
26/69
4 powody separacji HD i ST
Wydajność
Dostęp do danych
Format danych
Jakość danych
27/69
Podobieństwa HD i ST
Oparte na bazach danych Posiadają wbudowane języki
przetwarzania danych Przechowywane dane można graficznie
prezentować
Możliwość wprowadzania danych
28/69
Hurtownie Danych a DSS/EIS
DSS/EIS posiadają rozbudowane narzędzia analizy danych
DSS/EIS nie są odpowiednio wyposażonew narzędzia organizacji danych
HD dostarczają dla DSS/EIS wsparciaw postaci baz danych
HD dostarczają danych niezbędnych dla DSS/EIS
29/69
Użytkownicy HD
Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze)
Analitycy biznesowi
Pracownicy merytoryczni
Informatycy
30/69
Wymagania użytkowników wobec HD
Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym)
Udzielanie szybkich odpowiedzi
Kompleksowa analiza danych
Właściwy sposób prezentowania informacji
Wiarygodność informacji zarządczej
31/69
Klasyczny model HD
ST 3
ST 2
ST 1
Hurtownia Danych
MHD 3
MHD 2
MHD 1
Wyniki
Wyniki
Wyniki
32/69
Architektura HDSystemy transakcyjne przedsiębiorstwa
SprzedażProdukcjaF-KOtoczenie
SZBD HURTOWNI DANYCH
Oprogramowanie zasilania HD
Oprogramowanie klienta
RaportMarketing
RaportFinanse
RaportZarządzanie
RaportSprzedaż
33/69
Elementy architektury HD
Dedykowane źródłowe systemy transakcyjne organizacji
Oprogramowanie zasilania danymi bazy danych hurtowni
Wielowymiarowa baza danych oraz system zarządzania bazą danych
Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych
34/69
Struktura funkcjonalna HD
Zarządzanie metadanymi
Ładowanie
Przekształacanie danych
Wybieranie danych
Metadane
Repozytorium
OLAPAnalizy
ZapytaniaRaportowanie
PrognozyData miningWizualizacja
Intranet
Użytkownik końcowy
35/69
Zarządzanie HD Sposoby dostępu do danych w ST:
– interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ...
– język SQL, 4GL
Walidacja, czyszczenie, formatowaniei agregacja danych
Zasilanie HD:– procedury analizy statystycznej– odświeżanie danych– metadane opisujące proces zasilania HD
36/69
Organizacja HD - metadane
Modele danych:– relacyjny model danych, – inne modele (np. hierarchiczny, gwiazdy, płatek
śniegu)
Sposób zasilania danymi
Architektura HD:– scentralizowana– rozproszona (data marts)
Dostęp użytkowników
37/69
Metadane - co jeszcze składa się na HD?
Struktura danych hurtowni uwzględniająca wymagania SWD
Sposób transformacji danych operacyjnych (algorytmy)
Relacje między modelem danychw systemach operacyjnych a HD
Historia zasilania HD danymi operacyjnymi
38/69
Organizacja metadanych
Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych
Kompletność Nadrzędna
kontrola Dokumentowanie
działań, odpowiedzialności
39/69
Eksploatacja HD Zapytania i raporty:
– filtrowanie danych, język 4GL i SQL
Techniki analizy danych:– MOLAP, ROLAP, HOLAP
Wizualizacja danych: – wykresy, drzewa decyzyjne, statystyka
Wspomaganie procesów decyzyjnych:– ekonometria, badania operacyjne, prognozowanie
Publikacja wyników w formacie HTML
40/69
Struktura danych w HD
Szczegółowe dane bieżące Archiwalne dane szczegółowe Dane częściowo zagregowane Silnie zagregowane dane Metadane
41/69
Zasilanie HD
Wybór danych Lokalizacja danych Transformacja danych do zunifikowanej
postaci Integracja danych Częstotliwość zasilania
Wprowadzanie danych do HD, opartych na danych operacyjnych.
42/69
Organizacja zasilania HD
Ludzie biznesu i informatycy Zespoły zadaniowe:
– projekt struktury hurtowni– analiza danych źródłowych– logika konwersji danych– budowa i generowanie procedur konwersji– zapewnienie jakości danych
Zrozumienie wymagań związanychz konwersją i przepływów danych
43/69
Projekt zasilania HD
Plan konwersji danych operacyjnych
Definicja specyfikacji konwersji
Ekstrakcja danych operacyjnych do postaci schematów pośrednich
Konwersja schematów pośrednich do postaci danych ładowanych
Agregacja danych
Ładowanie i indeksowanie danych
Zapewnienie jakości danych
44/69
Plan konwersji danych Określa najlepszy sposób migracji danych do hurtowni
Uwzględnia:
- dostępne zasoby danych, - liczność danych, - liczbę różnych schematów danych, - metody i platformy dostępu, - języki ekstrakcji danych,- strukturę hurtowni, - liczbę wymaganych agregacji
45/69
Specyfikacja konwersji danych
Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika)
Inne zewnętrzne źródła informacji
Opis procesów: – ekstrakcji danych do postaci schematu pośredniego, – konwersji schematu pośredniego,– agregacji danych,– migracji danych do baz danych hurtowni,– walidacji danych
46/69
Ekstrakcja danych w schematy pośrednie
Zwiększenie użyteczności programów do czyszczenia danych, transformacjii integracji
Zachodzi w środowisku systemów transakcyjnych
Procedury identyfikacji starychi nowych danych operacyjnych
Izolowanie niezbędnych danych
47/69
Konwersja schematów pośrednich Identyfikacja wzorców danych i liczby pól
Określenie kontekstu i przeznaczenia danych
Korekcja danych w oparciu o listy
Eliminacja nadmiarowych rekordów
Rezultat:– dane o wymaganym poziomie granulacji– dane dla tabel wymiarów i tabel faktów– klucze wybierania danych
48/69
Agregacja danych
Miejsce wykonania - poza serwerem hurtowni
Powody:– narzędzia agregacji są szybsze niż RDBMS– pewność wykonania– szybkość i skuteczność wbudowanych
procedur ładowania danych zagregowanych
49/69
Ładowanie i indeksowanie danych
Umieszczenie danych na serwerze hurtowni
Tworzenie tabel faktów i wymiarów
Indeksowanie: – natychmiastowe– z opóźnieniem
Koordynacja procesów
50/69
Zapewnienie jakości danych
Nadrzędny charakter kontroli etapów zasilania
Dokumentowanie działań
Aktywny udział użytkowników
Dobra znajomość strukturyi znaczenia danych źródłowych
Zrozumienie procesów zasilania
Zatwierdzanie etapów zasilania
51/69
Modelowanie danych w HD
Model korporacyjny danych jako punkt wyjścia
Oczyszczanie modelu danych Element czasu Denormalizacja Wybór modelu danych:
– star join (model gwiazdy)– snowflake (płatek śniegu)
52/69
Modele danych - gwiazda
Miejsce
CzasProdukt
Sprzedaż
Klient
Miejsce
Czas
Produkt Sprzedaż
Centrum gwiazdy - tablica faktów Otoczenie gwiazdy - tablice wymiarów (wskaźników
do tabeli faktów)
53/69
Modele danych - płatek śniegu
Miesiąc
Kwartał
Rok
Rodzaj
Czas
Płeć
Produkt
Sprzedaż
Klient
Wykształcenie
Cena
Miejsce
Wiek
Kraj
Region
Kontynent
54/69
OLAP - On-Line Analytical Processing
Aplikacje wspomagania interaktywnych analiz wykonywanych na bieżąco
Udostępnianie danych analitycznychw różnych przekrojach i w sposób przystępny dla użytkowników
Możliwość dynamicznego prowadzania analiz danych skonsolidowanych przedsiębiorstwa
55/69
Zadania realizowane w OLAP
Porównywanie dowolnych danych Analiza danych historycznych (trendy) Dostęp do danych na dowolnym poziomie Perspektywy dostosowane do
indywidualnych potrzeb użytkownika
Analizy typu „what-if” Tworzenie graficznej prezentacji danych
56/69
Przesłanki użycia OLAP
Dane niezbędne są do prowadzenia analiz (nie rejestracji zdarzeń)
Konieczność prowadzenia złożonych obliczeń i agregacji danych operacyjnych
Potrzeba przekrojowego spojrzenia na dane
Względna niezmienność danych w czasie
57/69
Wielowymiarowe BD w HD
Charakter danych Tylko odczyt danych Agregaty danych:
– agregat podstawowy– agregat częściowy
Krótki czas oczekiwania na odpowiedź Duża efektywność formułowania
zapytań ad-hoc
58/69
Budowa HD
Przedsięwzięcie informatycznei organizacyjne
Proces iteracyjny
Projekt, który nie kończy się
Możliwe zastosowanie metod inżynierii systemów
59/69
Etapy budowy HD Zakres projektu Wymagania biznesowe Korporacyjny model danych Koncepcyjny model HD Identyfikacja źródeł danych operacyjnych Architektura HD Technologia implementacji Implementacja HD
60/69
Inżynieria systemów w procesie budowy HD
Planowanie systemu Określenie wymagań i analiza Projekt systemu Integracja Weryfikacja i konserwacja
61/69
Spiralny model cyklu życia HD
Wymagania i analiza
Projekt systemu
Weryfikacja i konserwacja
Diagram przepływu
danych
Diagram E-R
Model metadanych
Integracja
Komponenty HD
Aplikacje OLAP Modyfikacja
metadanych
Określenie potrzeb
użytkowników
62/69
Faza planowania systemu
Wybór strategii budowy HD:– strategia Top Down – strategia Bottom Up
Wybór metodologii budowy:– model kaskadowy– model spirali
Cele biznesowe
Wstępna kolekcja metadanych
63/69
Wymagania i analiza - właściciel HD
Jakie problemy biznesowe będą rozwiązywane? Ile to kosztuje? Kiedy będą pierwsze efekty? Jaki będzie wpływ HD na pracowników, ich
umiejętności, organizację? Czy potrafimy podołać takiemu zadaniu? Jakie jest ryzyko zastosowania tej technologii?
64/69
Wymagania i analiza - analityk biznesowy
Jakie analizy można przeprowadzać? Jakie funkcje oferuje HD? Jaka jest ziarnistość danych? Jakie raporty można generować? Jakie są możliwości modyfikacji raportów? Jakie są możliwości budowy raportów od
podstaw? Jakie dodatkowe analizy można
samodzielnie definiować?
65/69
Wymagania i analiza - informatyk
Jaka jest platforma implementacji HD? Jakie są standardy i interfejsy? Czy architektura HD jest otwarta? Jakie są metody i narzędzia dostępu oraz
zasilania HD? Jaka jest struktura sieci, w której zostanie
osadzona HD? Jakie są możliwości optymalizacji działania
HD?
66/69
Projekt systemu
Określa sposób spełnienia wymagań odbiorców HD
Definicja specyfikacji kolejnych poziomów HD: modele logiczne i fizyczne
Identyfikacja procesów zasilania HDi procesów w HD
Identyfikacja procesów integracji danych źródłowych, HD i narzędzi dostępu do HD
67/69
Integracja
Osadzenie HD w platformach systemowej i sprzętowej (instalacja serwera bazy danych)
Implementacja modelu metadanych HD Instalacja oprogramowania klienta Realizacja procedur zasilania HD Realizacja procedur dostępu do HD
z poziomu aplikacji klienta
68/69
Weryfikacja i konserwacja
Zgodność z wymaganiami odbiorców Ocena zestawień analitycznych
generowanych z HD przez specjalistę Zarządzanie metadanymi
(np. modyfikacja istniejących źródeł, nowe źródła danych i kanały dystrybucji danych, zmiana reguł konwersji danych, nowe aplikacje analityczne lub prezentacji danych)
69/69
Warunki sukcesu HD Koncentracja uwagi na wybranym
obszarze funkcjonowania przedsiębiorstwa (najważniejszy jest biznes, nie technologia)
Zrozumienie danych analitycznychi operacyjnych
Małe, ale widoczne kroki w budowiei wdrażaniu HD
Korzystanie z pomocy konsultantóww fazie projektu
Współpraca z przyszłym użytkownikiem HD (definicja potrzeb, szkolenia)