Šušak hrvoje ip
DESCRIPTION
izrada projekta iz kolegija Upravljanje poslovnim podacimaTRANSCRIPT
SVEUČILIŠTE U MOSTARU
EKONOMSKI FAKULTET
Projekt izrade OLAP kocke za analizu natjecanja Formule1
Izrada projekta
Student: Hrvoje Šušak 740/DS
Mentor: prof.dr.sc. Dražena Gašpar
Mostar, listopad 2015.
Sadržaj1. Uvod...................................................................................................................................................3
2. Opis problema.........................................................................................................................4
3. E-R model...............................................................................................................................6
4. Izvori podataka........................................................................................................................8
5. ETL alat..................................................................................................................................9
6. Dimenzijski model podataka.................................................................................................10
7. Izvješća.................................................................................................................................12
8. Zaključak...............................................................................................................................18
2
1. Uvod
Upravljanje podacima, naročito onima poslovne prirode, u svijetu današnjice predstavlja
jedan od stupova kvalitetnog i dugotrajnog poslovanja. Ti podaci su obično spremljeni u
transakcijskim bazama podataka. Oni su jako bitni za svakodnevno funkcioniranje
organizacije koja se njima koristi, jer se u njima nalaze najbitnije informacije o svim
relevantnim stvarima vezanim za poslovanje, u trenutku kad su nastali. No, iako odražavaju
situaciju u trenutku nastajanja, vrlo brzo gube na važnosti uslijed promjena u poslovanju, kao
i zbog dolaska novih podataka. Ali to ne znači da postaju beskorisni. Upravo suprotno.
Njihova važnost se kasnije vidi u korištenju tih istih podataka u predviđanjima i procjenama
budućih stanja. No, te podatke se ne može koristiti u njihovom izvornom obliku, već ih je
potrebno provući kroz neki od ETL alata. ETL kratica stoji za Extraction, Transformation,
Loading, što u prijevodu znači izvlačenje, pretvaranje i punjenje. Nakon što ove podatke
provučemo kroz odabrani ETL alat, spremamo ih u skladišta podataka, gdje su ti podaci
sistematizirani, pročišćeni i iskoristivi u budućem poslovanju, prvenstveno za provedbu
različitih analiza i stvaranja različitih predviđanja, koje najviše služe top menadžmentu za
donošenje odluka.
U ovom radu ćemo pokazati neke od prednosti korištenja ETL alata pri upravljanju podacima,
a kao primjer ćemo uzeti jedno natjecanje, odnosno jednu sezonu Formule1. Kako bi se
opisao poslovni sustav, izrađuje se najprije ER model za transakcijsku bazu, zatim se podaci
iz te relacijske baze te jedne datoteke – vanjskog izvora, vade, transformiraju i zatim izvoze u
integriranu bazu korištenjem programa Datamartist. Integrirani podaci imaju dimenzijsku
strukturu i predstavljeni su dimenzijskim modelom podataka. Nad transformiranim i
integriranim podacima provode se analize OLAP kockom kroz program BI-Lite CUBE-it
Zero i izvješćima pokazuju rezultati.
3
2. Opis problema
FIA (Federation Interationale de l'automobile) ili Međunarodna automobilistička federacija je
zatražila da se informatičkim putem procesuiraju utrke prethodne dvije sezone prestižnog
natjecanja Formula 1, kao uvod u potpunu informatizaciju svih natjecanja koje ova
organizacija pokriva. Na ovaj postupak ih je najviše nagnala potreba za sistematizacijom i
većom preglednosti nad događanjima u sezoni, kao i lakšom pohranom podataka.
Naime, sa sve većim i bržim napretkom tehnologije, svaka pojedina utrka generira sve veću
količinu podataka, te postaje sve teže pratiti i pregledati sve podatke koji su prikupljeni.
Pretpostavlja se da će narednih nekoliko godina napretka rezultirati time da će svaki pojedini
bolid generirati i do nekoliko desetaka gigabajta podataka po utrci, stoga je od vitalne
važnosti da se odmah uhvate u koštac sa tim problemom i počnu privikavati na računalnu
podršku i obradu podataka. U skladu sa tim, odlučeno je da se napravi baza podataka i da se
unesu podaci iz zadnje dvije sezone.
Ovaj zadatak je povjeren dotičnoj informatičkoj službi, da se obavi u najkraćem mogućem
roku, kako bi se što prije podaci počeli računalno obrađivati i pohranjivati. Federacija je
dostavila sve potrebne podatke i dala ih na raspolaganje timu informatičara, čija je dužnost da
te podatke koji su im povjereni pretvore u elektronički oblik te nakon što završe, donesu na
uvid čelnicima FIA-e na procjenu kvalitete i funkcionalnosti.
Naziv dimenzijskog modela je „Analiza natjecanja Formule 1“. Entiteti koje će ovaj model
sadržavati su Ekipa, Pilot, Utrka, Staza i Sezona.
U prvom entitetu, Ekipa, navedeni su podaci o nazivu ekipe, broju članova, broju pobjeda
2013. i 2014. godine, te ukupnom broju pobjeda kroz cijelo analizirano razdoblje.
Drugi entitet je Pilot. U njemu su sadržane informacije o imenu, prezimenu pilota, njegovoj
nacionalnosti, spolu (iako su svi piloti mahom muškog spola) te o broju bodova koje je svaki
pojedini pilot osvojio svake pojedine sezone.
Treći entitet je Utrka, on sadrži informacije o lokaciji održavanja utrke, pobjedniku utrke,
pobjedničkom timu, rekordnom vremenu utrke te o broju posjetitelja koji su došli vidjeti
utrku.
4
Četvrti entitet je Staza, a tu se nalaze svi relevantni podaci vezani za stazu na kojoj se utrka
održava, kao što je naziv staze, grad u kojem se nalazi, država u kojoj se nalazi, broj krugova
te dužinu pojedinog kruga koji se vozi.
Peta i posljednja dimenzija je Sezona, a u ona sadržava informacije o sezoni u kojoj se
pojedina utrka održava, dakle to je vremenski okvir natjecanja.
5
3. E-R model
U E-R modelu imamo predstavljenu transakcijsku bazu podataka, u koju se unose svi podaci
bitni za sustav na koji se odnose, kao i na način na koji sve funkcionira. U nastavku se može
vidjeti kako izgleda E-R model u ovom specifičnom slučaju.
Slika 1. E-R model
6
U nastavku će se moći vidjeti izgled i transakcijske baze podataka, koja je kreirana u MS
Accessu. Ona sadrži sve podatke koje administratori sustava smatraju bitnim za optimalan rad
sustava.
Slika 2. Relacijski model
7
4. Izvori podataka
Za izvore podataka koristiti ćemo E-R model koji ćemo samostalno napuniti podacima, a
dodatno ćemo koristiti i neke vanjske izvore.
Vanjski izvori
Pošto je cilj ovog cijelog projekta dokumentirati događaje koji se događaju tijekom utrka na
stazama, tako smo odlučili za vanjski izvor podataka uzeti evidenciju nesreća koje su se
dogodile na utrkama i koje su fatalno završile.
Slika 3. Evidencija nesreća
8
5. ETL alat
ETL alat koji je korišten u ovom projektu je Datamartist. On je korišten za ekstrakciju,
transformaciju i pročišćavanje podataka koji su se nalazili u bazi podataka, kao i onih
podataka koje smo dobili iz vanjskih izvora.
U nastavku ćemo pokazati kako izgleda sučelje ovog ETL alata, te kako ga koristiti u našem
konkretnom primjeru.
Slika 4. Sučelje Datamartist-a
9
Konačni izgled našeg primjera u Datamartist-u će izgledati ovako:
Slika 5. Prikaz konkretnog primjera u Datamartist-u
6. Dimenzijski model podataka
Ovakav model podataka nam služi da prikažemo transformirane podatke iz baze i ostalih
vanjskih izvora. A dimenzijski model podataka za ovaj konkretni primjer izgleda ovako:
Slika 6. Dimenzijski model
10
Dimenzije u modelu su:
Ekipa (ID_ekipa, Naziv, Broj pobjeda 2011, Broj članova, Broj pobjeda 2012, Total,
Gume)
Utrka (ID_utrka, Staza, Sezona, Pobjednik utrke, Pobjednički tim, Maksimalan broj
posjetitelja, Rekordno vrijeme kruga)
Pilot (ID_Pilot, Ime, Prezime, Spol, Nacionalnost, Ekipa)
Staze (ID_staza, Naziv, Grad, Država, Dužina (u m), Broj krugova, Kapacitet, Broj
stajaćih mjesta, Broj sjedećih mjesta)
Sezona (ID_sezona, Godina)
11
7. Izvješća
U nastavku ćemo pokazati neka od izvješća, koja su rađena pomoću alata BI-Lite CUBE-it
Zero.
1. Svrdlanje (Drill down) – u ovom izvješću je pokazan broj bodova svakog pojedinog
pilota u obe sezone.
Slika 7. Primjer svrdlanja u Excel tablici
12
Slika 8. Grafički primjer svrdlanja
13
2. Pivotiranje – je vrsta izvješća koja nam omogućava da zamijenimo retke i stupce,
odnosno njihova mjesta u tablici. U nastavku ćemo dati primjer pivotiranja. Ovako
izgleda tablica prije pivotiranja:
Slika 9. Izgled Excel tablice prije pivotiranja
A ovako izgleda tablica nakon pivotiranja:
Slika 10. Izgled Excel tablice nakon pivotiranja
14
3. Slice – je izvješće koje prikazuje samo podatak koji taržimo, odnosno u ovom slučaju,
broj posjetitelja na određenoj stazi u određenoj sezoni.
Slika 11. Primjer slice izvješća
Slika 12. Grafički primjer slice izvješća
15
4. Dice – u ovom izvješću ćemo pokazati broj bodova koji su osvojile pojedine momčadi
vozeći na datoj vrsti guma, podijeljeno po sezonama te to grafički prikazati:
Slika 13. Primjer dice izvješća
Slika 14. Grafički primjer dice izvješća
16
5. Top 5- U ovom izvješću ćemo pokazati top 5 pilota sa najvećom prosječnom zaradom,
te to, dakako, grafički prikazati:
Slika 15. Primjer "top 5 najboljih" izvješća
Alonso Button Hamilton Rosberg Vettel0
20000000
40000000
60000000
80000000
100000000
1200000002012
2012
Slika 16. Grafički prikaz "top 5 najboljih" izvješća
17
Još jedan primjer top 5 izvješća je prikaz 5 najlošijih staza prema kriteriju posjećenosti :
Slika 17. Primjer "top 5 najgorih" izvješća
A to grafički izgleda ovako:
2011
Albert ParkAutodromo Jose Carlos PaceCircuit Gilles-VilleneuveHungaroringSilverstone
Slika 18. Grafički prikaz "top 5 najgorih" izvješća
18
8. Zaključak
Podaci koji se nalaze u svakojakim organizacijama predstavljaju veliko bogatstvo i izdašan
izvor informacija koje itekako mogu koristiti svim članovima te organizacije. Stoga se
nameće potreba za upravljanjem tim podacima, a najefektivniji način je pomoću softverske
podrške. Jedno rješenje je i korištenje ETL alata, koji predstavljaju vrhunac napretka u
upravljanju podacima.
Jedan od takvih ETL alata je Datamartist. To je program koji je korišten prilikom izrade ovog
projekta, gdje se pokazao kao nesumnjivo jedan od najkorisnijih ETL alata, koji su dostupni
širim masama. Korištenje ovog alata, kao i njemu sličnih alata, uvelike poboljšava efikasnost
organizacije koja se njime služi, te svima uključenima uvelike olakšava pristup iskoristivim
informacijama, koje je relativno lako izvući iz hrpe podataka koji se svakodnevno prikupljaju.
19