doc. rndr. iveta mrázová, csc. - ksvi.mff.cuni.czmraz/datamining/lecture/dobyvani_znalosti... ·...
TRANSCRIPT
![Page 1: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/1.jpg)
Dobývání znalostí
Doc. RNDr. Iveta Mrázová, CSc.
Katedra teoretické
informatikyMatematicko-fyzikální
fakulta
Univerzity Karlovy v Praze
![Page 2: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/2.jpg)
Dobývání znalostí
Doc. RNDr. Iveta Mrázová, CSc.Katedra teoretické
informatiky
Matematicko-fyzikální
fakultaUniverzity Karlovy v Praze
– Úvod do problematiky –
![Page 3: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/3.jpg)
I. Mrázová: Dobývání znalostí 3
Dobývání znalostí - úvod
Dobývání
znalostí
z databází
(KDD):~
Netriviální
získávání
implicitních, dříve
neznámých a potenciálně
užitečných informací
z dat
Začátky v 90. letech 20. století:Knowledge discovery in databases (KDD)Data mining (DM)
![Page 4: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/4.jpg)
I. Mrázová: Dobývání znalostí 4
Dobývání znalostí - úvod (2)
Začátky, motivace a základy:Umělá inteligence
metody strojového učeníDatabázové technologie
uchovávání dat, vyhledávání informacíStatistika
modelování a analýza závislostí v datech+ potřeba používat (zpracované) údaje pro
podporu (strategického) rozhodování
ve firmě
![Page 5: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/5.jpg)
I. Mrázová: Dobývání znalostí 5
Dobývání znalostí: úvod (3)
~
interaktivní
a iterativní
proces:Příprava dat:-
Z dat uložených ve složité
struktuře (např. datový sklad)
se vytváří
(jedna) tabulka s relevantními údaji o zkoumaných objektech (klienti banky, zákazníci, …)SelekcePředzpracováníTransformace
Vlastní „dobývání znalostí“ ~ data miningInterpretace
Nalezené znalosti se hodnotí z pohledu koncového uživatele
![Page 6: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/6.jpg)
I. Mrázová: Dobývání znalostí 6
Dobývání znalostí - úvod (4)
~
interaktivní
a iterativní
proces:
![Page 7: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/7.jpg)
I. Mrázová: Dobývání znalostí 7
Manažerský pohled na proces dobývání znalostí z databází
Reálný problém:→
Impuls pro zahájení
procesu dobývání
znalostí
Cíl procesu dobývání
znalostí:Získat co nejvíce relevantních informací vhodných k řešenídaného problému
Příklad: Nalezení skupin zákazníků obchodního domu nebo skupin klientů banky, kterým lze nabídnout speciální službyNalezené skupiny se interpretují jako segmenty trhu v danéoblasti
![Page 8: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/8.jpg)
I. Mrázová: Dobývání znalostí 8
Manažerský pohled na proces dobývání znalostí z databází (1)
Řešení
problému:1.
Vytvořit řešitelský tým
2.
Specifikace problému3.
Získat všechna dostupná
data
4.
Výběr metody5.
Předzpracování
dat
6.
Data mining7.
Interpretace
![Page 9: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/9.jpg)
I. Mrázová: Dobývání znalostí 9
Manažerský pohled na proces dobývání znalostí z databází (2)
![Page 10: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/10.jpg)
I. Mrázová: Dobývání znalostí 10
Manažerský pohled na proces dobývání znalostí z databází (3)
Řešení
problému:1.
Vytvořit řešitelský tým
-
experti na řešenou problematiku, na data, na metody KDD2.
Specifikace problému
-
v kontextu dobývání
znalostí3.
Získat všechna dostupná
data
- může vést i k přeformulování
problému-
kvalita datové
základny (např. data archivovaná
v různých
systémech, …)-
externí
data
popisující
prostředí, v němž
se analyzované
děje odehrávají
(např. kalendářní
období, reklama, politické
události, počasí, …)
![Page 11: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/11.jpg)
I. Mrázová: Dobývání znalostí 11
Manažerský pohled na proces dobývání znalostí z databází (4)
Řešení
problému (pokračování):4.
Výběr metody pro analýzu dat
-
často je třeba kombinovat více různých metod:- klasifikační
metody, metody explorační
analýzy dat, metody
pro získávání
asociačních pravidel, rozhodovací
stromy,genetické
algoritmy, Bayesovské
sítě, neuronové
sítě, …
-
metody vizualizace
5.
Předzpracování
dat-
získaná
data se převedou do tvaru požadovaného pro
aplikaci zvolených metod- např. odstranění
odlehlých hodnot, doplnění
chybějících
hodnot, …- výpočetní
operace mohou být i značně
náročné
![Page 12: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/12.jpg)
I. Mrázová: Dobývání znalostí 12
Manažerský pohled na proces dobývání znalostí z databází (5)
Řešení
problému (pokračování):6.
Data mining
-
aplikace zvolených analytických metod pro vyhledávání
zajímavých vztahů
v datech
-
jednotlivé
metody mohou být aplikovány i vícekrát
-
hodnoty vstupních parametrů
jednotlivých běhůzávisí
na výsledcích předchozích běhů
-
jednotlivé
typy metod se kombinují
na základědílčích výsledků
![Page 13: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/13.jpg)
I. Mrázová: Dobývání znalostí 13
Manažerský pohled na proces dobývání znalostí z databází (6)
Řešení
problému (pokračování):7.
Interpretace
-
(nezbytné) zpracování
obvykle velkého množstvívýsledků
jednotlivých metod
- některé
výsledky jsou pro uživatele
nezajímavé
anebo samozřejmé
- některé
výsledky lze použít přímo, některé
je třeba vyjádřitpro uživatele srozumitelněji
-
výsledky je vhodné
uspořádat do analytické
zprávy-
výstupem může být i provedení
vhodné
akce
- např. spuštění
monitorovacího programu
![Page 14: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/14.jpg)
I. Mrázová: Dobývání znalostí 14
Úlohy pro dobývání znalostí
Tři typy úloh:Klasifikace, resp. predikceDeskripce (~ charakteristika, popis)Hledání „nugetů“
![Page 15: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/15.jpg)
I. Mrázová: Dobývání znalostí 15
Úlohy pro dobývání
znalostí
(2)
Klasifikace (resp. predikce)Cílem je nalézt znalosti použitelné pro klasifikaci nových vzorů (případů)Získané znalosti by měly co nejlépe odpovídat danému konceptu Dáváme přednost přesnosti pokrytí na úkor jednoduchostiVýsledkem je větší množství méněsrozumitelných dílčích znalostí
![Page 16: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/16.jpg)
I. Mrázová: Dobývání znalostí 16
Úlohy pro dobývání
znalostí
(3)
Predikce ze starších hodnot nějaké veličiny se pokoušíme odhadnout její vývoj v budoucnu
např. předpověď počasí, pohyb cen akcií, …
Koncept
Zi
Klasifikace, resp. predikce
![Page 17: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/17.jpg)
I. Mrázová: Dobývání znalostí 17
Úlohy pro dobývání
znalostí
(4)
Deskripce (~
popis)Cílem je nalézt dominantnístrukturu nebo vazby, kteréjsou obsažené v daných datechPožadujeme srozumitelnéznalosti pokrývající daný konceptVýsledkem je menšímnožství méně přesných znalostí
Koncept
Popis ~
deskripce
Zi
![Page 18: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/18.jpg)
I. Mrázová: Dobývání znalostí 18
Úlohy pro dobývání
znalostí
(5)
Hledání
nugetůHledáme zajímavé(nové, překvapivé)znalosti, které nemusíplně pokrývat daný koncept
Koncept
Nugety
Zi
![Page 19: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/19.jpg)
I. Mrázová: Dobývání znalostí 19
Úlohy pro dobývání
znalostí a jejich aplikace
Segmentace a klasifikace klientů bankynapř. rozpoznávání problémových anebo vysoce bonitních klientů
Predikce vývoje kurzu akciíPredikce spotřeby elektrické energieAnalýza příčin poruch v telekomunikačních sítíchAnalýza důvodů změny poskytovatele služeb
Internet, mobilní telefony, …
![Page 20: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/20.jpg)
I. Mrázová: Dobývání znalostí 20
Úlohy pro dobývání
znalostí a jejich aplikace (2)
Segmentace a klasifikace klientů pojišťovnyUrčení příčin poruch automobilůRozbor databáze pacientů v nemocniciAnalýza nákupního košíku
MBA ~ Market Basket AnalysisWalmart (u nás Delvita, Meinl, …)Řetězce supermarketů
![Page 21: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/21.jpg)
I. Mrázová: Dobývání znalostí 21
Úlohy pro dobývání
znalostí a jejich aplikace (3)
Analýza nákupního košíku (pokračování)Data tvoří např. charakteristiky zákazníků a údaje o jednotlivých nákupech Data předzpracovaná do relační tabulky
→
lze hledat souvislosti mezi jednotlivými typy zbožíExistují skupiny produktů, které si zákazníci kupujísoučasně?Čím se vyznačují jednotlivé skupiny zákazníků?- nízký příjem, …
![Page 22: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/22.jpg)
I. Mrázová: Dobývání znalostí 22
Metodiky pro dobývání
znalostí
Cíl:
poskytnout uživatelům jednotný rámec pro řešení
různých úloh z oblasti dobývání
znalostíMetodiky vyvinuté producenty programových systémů (5A, SEMMA)Metodiky vyvinuté ve spolupráci výzkumných a komerčních institucí jako „softwarově nezávislé“(CRISP-DM)
→
sdílení
a přenos zkušeností
z úspěšných projektů
![Page 23: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/23.jpg)
I. Mrázová: Dobývání znalostí 23
Metodika 5A
ASSESS – posouzení potřeb projektuStanovení kontextu – cílů, strategií a procesů
ACCESS – shromáždění potřebných dat a jejich přípravaANALYZE – provedení analýz
Data se přeměňují na informace a znalosti→
použít vícero metod a porovnat jejich výsledky a efektivitu
![Page 24: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/24.jpg)
I. Mrázová: Dobývání znalostí 24
Metodika 5A (pokračování)
ACT – přeměna znalostí na akční znalostiDoporučení, dodatečné otázky a následná rozhodnutí→
nalezené
výsledky by měly být prezentovány
jasně
a srozumitelněAUTOMATE – převedení výsledků analýzy do praxe
Může zahrnovat např. i vytvoření praktického rozhraní pro snadné použitíUmožnit aktualizaci modelů podle nových výsledků
![Page 25: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/25.jpg)
I. Mrázová: Dobývání znalostí 25
Metodika SEMMA (Enterprise Miner)
SAMPLE – výběr vhodných objektůEXPLORE – vizuální explorace a redukce datMODIFY – seskupování objektů a hodnot atributů, datové transformaceMODEL – analýza dat
Neuronové sítě, rozhodovací stromy, statistickétechniky, asociace a shlukování
ASSESS – porovnání modelů a interpretaceSrozumitelnost pro uživatele
![Page 26: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/26.jpg)
I. Mrázová: Dobývání znalostí 26
Metodika SEMMA (Enterprise Miner)
![Page 27: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/27.jpg)
I. Mrázová: Dobývání znalostí 27
Metodika CRISP-DM
~ CRoss-Industry
Standard Process
for
Data MiningVznik v rámci evropského výzkumného projektu
Cíl:Navrhnout univerzální postup použitelný v nejrůznějších komerčních aplikacích →
Standardní
model procesu dobývání
znalostí
(z databází)+ „průvodce“
možnými problémy a jejich řešením
v reálných aplikacích
![Page 28: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/28.jpg)
I. Mrázová: Dobývání znalostí 28
Metodika CRISP-DM (2)
Proces dobývání znalostí má 6 fázíX
pořadí
fází
není
přesně
určeno
Výsledky získané v jedné fázi ovlivňujívolbu dalších krokůNěkteré kroky a fáze je třeba provádět opakovaně
![Page 29: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/29.jpg)
I. Mrázová: Dobývání znalostí 29
Metodika CRISP-DM (3)
![Page 30: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/30.jpg)
I. Mrázová: Dobývání znalostí 30
Metodika CRISP-DM (4) (NCR, Daimler-Chrysler, ISL, OHRA)
Porozumění
problematice(~
Business understanding)Pochopení cílů úlohy a požadavků na řešení(formulovaných z pohledu manažera)Manažerskou formulaci je nutné převést na zadáníúlohy pro dobývání znalostí z databází„Revize“ zdrojů (datových, výpočetních i lidských)
Hodnotí se možná rizika, náklady a přínosStanoví se předběžný plán prací
![Page 31: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/31.jpg)
I. Mrázová: Dobývání znalostí 31
Metodika CRISP-DM (5)
Porozumění
datům(~
Data understanding)Prvotní sběr datZískání základní představy o datech
Posouzení kvality dat, vytipování zajímavých podmnožin záznamů v databázi, …
Výpočet deskriptivních charakteristik dat Četnost atributů, průměrné hodnoty, …
Výhodou jsou vizualizační techniky
![Page 32: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/32.jpg)
I. Mrázová: Dobývání znalostí 32
Metodika CRISP-DM (6)
Příprava dat(~
Data preparation)
Vytvoření datového souboru, který bude zpracováván jednotlivými analytickými metodamiData by měla obsahovat údaje podstatné pro danou úlohu a měla by být ve tvaru vyžadovaném algoritmy pro analýzuPříprava dat zahrnuje:
Selekci dat, čištění dat, transformaci dat, vytváření dat, integrovánídat, formátování dat, …
Jednotlivé úkony se obvykle provádějí opakovaně a v nejrůznějším pořadí
![Page 33: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/33.jpg)
I. Mrázová: Dobývání znalostí 33
Metodika CRISP-DM (7)
Modelování(~
Modeling)Použití analytických metod pro dobývání znalostí
Z možných metod vybrat ty nejvhodnější a adekvátněnastavit jejich parametry
Iterativní činnostOpakovaná aplikace algoritmů s různými parametry
Může vést k potřebě modifikovat data Ověření nalezených znalostí
![Page 34: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/34.jpg)
I. Mrázová: Dobývání znalostí 34
Metodika CRISP-DM (8)
Vyhodnocení
výsledků(~
Evaluation)
Z pohledu manažerůByly splněny cíle formulované při zadání úlohy?
Rozhodnutí o způsobu využití výsledků
![Page 35: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/35.jpg)
I. Mrázová: Dobývání znalostí 35
Metodika CRISP-DM (9)
Využití
výsledků(~
Deployment)
Upravit získané znalosti do podoby použitelné pro zákazníka (manažera, zadavatele)
Zákazník musí pochopit, co je třeba učinit pro efektivnívyužití dosažených výsledků!Implementace klasifikačního algoritmu v user-friendly podoběPříprava uživatelského manuálu Instalace programu na pobočkách banky a zaškolení uživatelůZměna metodiky poskytování úvěrů a příslušná změna vnitřních předpisů banky…..
![Page 36: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/36.jpg)
I. Mrázová: Dobývání znalostí 36
Databáze
Relační
databáze:Datový soubor je rozdělen do řady relací (tabulek)
Množina relacíRelace je reprezentovaná dvourozměrnou tabulkou (řádky odpovídají záznamům, sloupce odpovídají atributům)
Jednotlivé záznamy jsou jednoznačně identifikovány pomocí primárního klíče
![Page 37: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/37.jpg)
I. Mrázová: Dobývání znalostí 37
Databáze (2)
Relační
databáze (pokračování):Operace pro manipulaci s tabulkami
Selekce: slouží k výběru záznamů (~ řádků) tabulkyProjekce: slouží k výběru atributů (~ sloupců) tabulkySpojení: slouží k propojování tabulek – spojují se řádky se stejnou hodnotou atributu, obvykle klíče
Kladení dotazůQBE (~ Query By Example)SQL (~ Structured Query Language)
![Page 38: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/38.jpg)
I. Mrázová: Dobývání znalostí 38
Databáze (3)
QBE
–
uživatel vyplní
(vybere) ve formuláři, co ho zajímá→
zadá
„masku“, které
by měly odpovídat nalezené
záznamyRelativě jednoduchý, intuitivní způsob kladení dotazůVhodnější pro méně zkušené uživatele
SQL –
jednoduchý programovací
jazyk pro definování
data manipulaci s nimi
Určeno pro zkušenější uživatele
![Page 39: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/39.jpg)
I. Mrázová: Dobývání znalostí 39
Databáze (4)
Příklad relační
databáze
![Page 40: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/40.jpg)
I. Mrázová: Dobývání znalostí 40
Databáze (5)
Příklad dotazu v jazyce SQLSELECT
klient.jmeno, klient.prijmeni, klient.adresa_ulice,
klient.adresa_mesto,
ucet.cislo_uctu, transakce.zustatek
FROM klient, ucet, transakce
WHERE klient.id_klient = ucet.id_klient;
AND transakce.id_ucet
= ucet.id_ucet;
AND transakce.zustatek
<
100;
GROUP BY
klient.adresa_mesto
![Page 41: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/41.jpg)
I. Mrázová: Dobývání znalostí 41
Databáze (6)
EIS ~
Executive
Information
Systems:První pokus přiblížit dotazování do databáze manažerůmSnadné ovládáníAnalýzu provádí analytik sám
Uživatel vybere v menu dotazNásledně je dotaz převeden do jazyka SQLPoté je dotaz proveden standardním způsobem
Nevýhody: omezený počet předem připravených dotazůMalá flexibilita
![Page 42: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/42.jpg)
I. Mrázová: Dobývání znalostí 42
Databáze (7)
OLAP ~
On-Line Analytical
Processing:(E. F. Codd
–
80. léta 20. století)
Rychlost a flexibilitaIntuitivní ovládáníMožnost vizualizaceGrafické rozhraní
Nahlížení na data v numerické podobě i v podoběgrafů
![Page 43: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/43.jpg)
I. Mrázová: Dobývání znalostí 43
Databáze (8)
OLAP (pokračování):Multidimenzionální koncept ukládání i manipulace s datyIntuitivní manipulace s datyPráce s daty z heterogenních datových zdrojů
Provádí se konverze datPoužití analytických metod
Statistické přehledyWhat-if analýzy
![Page 44: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/44.jpg)
I. Mrázová: Dobývání znalostí 44
Databáze (9)
OLAP (pokračování):client/server architekturaPodpora multiuživatelského pohleduUkládání výsledků OLAP mimo zdrojová dataDynamická manipulace s řídkými maticemiZpracování chybějících hodnotNeomezený počet dimenzí a agregačních úrovní
![Page 45: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/45.jpg)
I. Mrázová: Dobývání znalostí 45
Databáze (10)OLAP (pokračování):
Základ OLAP ~
pohled na data jako na mnoharozměrnou
tabulku→ datová
krychle (~
data cube)
Příklad jednoduché
databáze:Údaje o prodeji různých výrobků
v jednotlivých měsících v
různých obchodech
objem prodeje
výrobek měsícoblast
obchod
![Page 46: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/46.jpg)
I. Mrázová: Dobývání znalostí 46
Databáze (11)
OLAP (pokračování):Převod databáze na datovou krychli
Sledované atributy tvoří dimenze krychleZáznamům v databázi odpovídají buňky krychle
→
různé
pohledy na dataX
plýtvá
se místem
-
řada buněk je prázdná
![Page 47: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/47.jpg)
I. Mrázová: Dobývání znalostí 47
Databáze (12)
OLAP (pokračování):Příklad –
záznamy v databázi PRODEJ:
Měsíc
výrobek
obchod
množství==============================================Leden
káva
Praha
23
Leden
čaj
Plzeň
18Leden
káva
Plzeň
27
Leden
čaj
Písek
4Únor
mléko
Praha
40
Únor
káva
Praha
27Únor
mléko
Plzeň
12
![Page 48: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/48.jpg)
I. Mrázová: Dobývání znalostí 48
Databáze (13)
OLAP (pokračování):Příklad –
záznamy v databázi PRODEJ:
⇒ Řídká
matice:
Praha
Plzeň
Písek
K Č
M K Č
M K Č
M
Leden 23
27 18
4
Únor
27 40
12
![Page 49: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/49.jpg)
I. Mrázová: Dobývání znalostí 49
Databáze (14)
OLAP (pokračování):Datová
krychle
Objem prodeje
Agregace pro oblastiAgregace pro výrobky
Agregace pro obchody
![Page 50: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/50.jpg)
I. Mrázová: Dobývání znalostí 50
Databáze (15)OLAP (pokračování):Datová
krychle (logický model)
Obsahuje data z operačních databází+ dílčí souhrny ~ agregace
= >
rychlá
odezva na „nové“
dotazy uživatele= >
flexibilita systému
Práce s krychlí:Natáčení (~ pivot)Provádění řezů (~ slice)Výběr určitých částí (~ dice)Zobrazování různých agregovaných hodnot
![Page 51: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/51.jpg)
I. Mrázová: Dobývání znalostí 51
Databáze (16)OLAP (pokračování):Hodnoty atributů
lze sdružovat do hierarchií:
Úrovní v hierarchii může být vícePř.: obchod → oblast → kraj → země
Operace:Roll-up
přechod na hierarchicky vyšší – obecnější – úroveňZobrazované údaje mají podobu souhrnů
Drill-downPodrobnější pohledRůzné úrovně - granularita
![Page 52: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/52.jpg)
I. Mrázová: Dobývání znalostí 52
Databáze (17)OLAP (pokračování):Implementace (datové
krychle):
Velmi řídká dataNerovnoměrně rozmístěná data
Hyperkrychle
(hypercube)Jedna velká krychlenástroje pro práci s řídkými datyJednoduchá struktura a srozumitelnost pro uži-vatele
Multikrychle
(multicube)Větší počet navzájem propojených menších krychlí (obsahujících jen několik dimenzí)Efektivní uložení dat
![Page 53: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/53.jpg)
I. Mrázová: Dobývání znalostí 53
Databáze (18)
OLAP (pokračování):Implementace (datové
krychle):
rychlý přístup k datům klade vysoké nároky na datový server (a jeho cenu)
→
Namísto OLAP
(~
MOLAP ~
MultidimenzionálníOLAP)
použít
ROLAP ~
Relační
OLAP
(založený na
klasické
relační
databázi)Dotazy OLAP se převádějí do klasických dotazů SQL
![Page 54: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/54.jpg)
I. Mrázová: Dobývání znalostí 54
Databáze (19)
Porovnání
MOLAP x ROLAP:
Sumarizovanádata Granulární
data
OLAP-engine
SQL-engine
Uživatelské
rozhraní
MOLAP ROLAP
![Page 55: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/55.jpg)
I. Mrázová: Dobývání znalostí 55
Databáze (20)
MOLAP ~
„klasický“
OLAP
+ vhodné
pro středně
velké, statiské
aplikace
- např. analýza historických dat o prodeji nějakého vý-robku
-
Nehodí
se pro dynamické aplikace s průběžnou
aktualizací
dat (výpočty souhrnů!)
ROLAP ~ relační
OLAP
+ vhodné
pro rozsáhlé aplikace využívající transakční
data
+ zpracování
rozsáhlých dat za použití
existujících
databázových technologií-
nepoužívá
se příliš
pro
obchodní
aplikace
MOLAP ~
„klasický“
OLAP
+ vhodné
pro středně
velké, statiské
aplikace
- např. analýza historických dat o prodeji nějakého vý-robku
-
Nehodí
se pro dynamické aplikace s průběžnou
aktualizací
dat (výpočty souhrnů!)
![Page 56: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/56.jpg)
I. Mrázová: Dobývání znalostí 56
Databáze (21)
Implementace ROLAP:Schéma hvězdy (star schema)Schéma sněhové vločky (snowflake schema)
Star schema
–
hvězda:Vychází z jedné centrální tabulky faktů, která obsahuje složený primární klíč (jeden segment klíče pro každou dimenzi) a detailní data (např. objem prodeje daného výrobku v daném obchodu za dané období)
Může obsahovat i agregovaná data
![Page 57: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/57.jpg)
I. Mrázová: Dobývání znalostí 57
Databáze (22)
Star schema
–
hvězda (pokračování):Pro každou dimenzi existuje jedna tabulka s údaji na různéúrovni příslušné hierarchie → tabulka dimenzíÚroveň v hierarchii (level) se zaznamenává jako dalšíindikátor do tabulky dimenzí→
nutná
při dotazování
do tabulky, která
obsahuje součas-
ně
data detailní
i agregovanáKlady:
srozumitelnost, snadné
definování
hierarchií,
jednoduchá
metadata, rychlý přístup k datůmNevýhody:
problémy s velkými tabulkami dimenzí, předpokládá
statická
data neaktualizovaná
on-line
![Page 58: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/58.jpg)
I. Mrázová: Dobývání znalostí 58
Databáze (23)
Snowflake
schema
–
sněhová
vločka:Normalizované tabulky dimenzí
Každá tabulka nějaké dimenze ukazuje na příslušnou agregovanou tabulku faktů
Tabulky dimenzí obsahují jediný primární klíč pro danou úroveň dimenze spolu s odkazem na nejbližšího rodiče v hierarchii dimenzíOdpadá nutnost používat indikátor úrovně v hierarchii (v každé tabulce údaje jen z jedné úrovně)
Klady:
dotazy na agregované
hodnotyNevýhody:
údržba, velký počet tabulek
![Page 59: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/59.jpg)
I. Mrázová: Dobývání znalostí 59
Databáze (24)
Příklad:Databáze má 3 dimenze: prodejna, výrobek, časDimenze prodejen je tvořena hierarchií:
obchod → okres → region
Dimenze výrobku je tvořena hierarchií:výrobek → značka → výrobce
Dimenze času je tvořena hierarchií:datum → měsíc → čtvrtletí → rok
![Page 60: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/60.jpg)
I. Mrázová: Dobývání znalostí 60
Databáze (25)
Příklad (pokračování):
hvězda
![Page 61: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/61.jpg)
I. Mrázová: Dobývání znalostí 61
Databáze (26)
Příklad (pokračování):sněhová
vločka
![Page 62: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/62.jpg)
I. Mrázová: Dobývání znalostí 62
Databáze (27)
Datové
sklady a datová
tržiště:OLAP ~ nástroj pro analýzu a vizualizaci dat o firmě
Datový sklad ~ místo, kde jsou analyzovaná data uložena
Orientován na subjekty, kterými se daná firma zabýváNapř.: zákazník, dodavatel, produkt, aktivita→
neuchovává
data, která
nejsou vhodná
pro podporu
rozhodování
na manažerské
úrovniIntegrace a sjednocení dat
Např.: názvů stejných ukazatelů, měřítek, kódování, …
![Page 63: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/63.jpg)
I. Mrázová: Dobývání znalostí 63
Databáze (28)
Datový sklad (pokračování)Časově proměnný
Zafixování dat z produkčních databázíOff-line aktualizace v určitých časových intervalech (měsíčně, ročně, …)Analýza odděleně od produkčních databází
Nešetrný zásah neovlivní operativní řízení firmyRychlejší odezva na položený dotazX nevýhodou je zastarávání dat
Časové údaje jsou v datovém skladu explicitně přítomny jako jedna z důležitých informací
Stálý ~ dotazy, které do datového skladu směřujíuživatelé, nezpůsobují změnu zde uložených dat
![Page 64: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/64.jpg)
I. Mrázová: Dobývání znalostí 64
Databáze (29)
Struktura datového skladu:
![Page 65: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/65.jpg)
I. Mrázová: Dobývání znalostí 65
Databáze (30)
Struktura datového skladu:Operační data uložená v daném okamžikuStarší operační data Souhrny na různých úrovních abstrakceMetadata ~ zachycují informace o datech
Vytvoření
datového skladu:Načtení datKonverze datČištění, transformace, …
+ datová
tržiště
(data mart)Přesun dat relevantních pro určitý typ analýzTřívrstvá architektura datového skladu
![Page 66: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/66.jpg)
I. Mrázová: Dobývání znalostí 66
Databáze (31)
Třívrstvá
architektura datového skladu
![Page 67: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/67.jpg)
I. Mrázová: Dobývání znalostí 67
Databáze (32)
Dotazovací
jazyky pro dobývání
znalostí
z databází:MINE RULE
Umožňuje klást dotazy na asociační pravidla:Implikace typu „Jestliže platí předpoklad, platí i závěr“doplněné o kvantitativní charakteristiky odvozené z počtu záznamů v databázi splňujících předpoklad, resp. závěr pravidla
Příkazy: FROM, WHERE, GROUP BY, CLUSTER BY,SELECT, EXTRACTING RULES
Příklad: IF produkt_1 & produkt_2 & … & produkt_n THEN produkt (SUPPORT, CONFIDENCE)
![Page 68: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/68.jpg)
I. Mrázová: Dobývání znalostí 68
Databáze (33)
Dotazovací
jazyky pro dobývání
znalostí
z databází:MINE RULE (pokračování)
SUPPORT (podpora)~
podíl počtu záznamů, ve kterých současně
platí
předpoklad
i závěr pravidla, a celkového počtu záznamů
vybraných na základě
podmínky WHERE
CONFIDENCE (spolehlivost)~
podíl počtu záznamů, ve kterých současně
platí
předpoklad
i závěr pravidla, a počtu záznamů, ve kterých platí
pouze předpoklad
![Page 69: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/69.jpg)
I. Mrázová: Dobývání znalostí 69
Databáze (34)
Dotazovací
jazyky pro dobývání
znalostí
z databází:Příklady dotazů
Dotaz v MINE RULE:MINE RULE Priklad
AS
SELECT DISTINCT 1..n produkt AS BODY, 1..1 produkt AS HEAD, SUPPORT, CONFIDENCE
FROM Prodej
WHERE BODY.město = HEAD.městoAND BODY.datum = HEAD.datum
EXTRACTING RULES WITH SUPPORT: 0.1, CONFIDENCE: 0.5
![Page 70: Doc. RNDr. Iveta Mrázová, CSc. - ksvi.mff.cuni.czmraz/datamining/lecture/Dobyvani_Znalosti... · Výpočet deskriptivních charakteristik dat ... Implementace klasifikačního algoritmu](https://reader030.vdocuments.site/reader030/viewer/2022040417/5d4fce1588c993ce438b9ef0/html5/thumbnails/70.jpg)
I. Mrázová: Dobývání znalostí 70
Databáze (35)
Dotazovací
jazyky pro dobývání
znalostí
z databází:Příklady dotazů
Dotaz v MSQL – hledání pravidel:(Odvodit podle věku a pohlaví, jaké
má
daný zaměstnanec auto.)
Emp(Id,Age,Sex,Salary,Position,Car)
GetRules(Emp)into
R
where
support >
0.1 and
confidence
>
0.9
SelectRules(R)where
body has {(Age=*),(Sex=*)}and
head
is
{(Car=*)}