poslovna inteligencija

122
Uvod u Data Warehousing i OLAP OLTP sistemi Data Warehousing Razvoj skladišta podataka Arhitektura dimenzionog modela OLAP sistemi

Upload: darko1989

Post on 28-Dec-2015

57 views

Category:

Documents


3 download

DESCRIPTION

BI

TRANSCRIPT

Page 1: Poslovna inteligencija

Uvod u Data Warehousing i OLAP OLTP sistemi Data Warehousing Razvoj skladišta podataka Arhitektura dimenzionog modela OLAP sistemi

Page 2: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Pregled sadržaja Uvod u Data Warehousing

Razumevanje data warehouse sistema je veoma bitno kada se projektuju i implementiraju sistemi za podršku odlučivanju.

Projektovanje Data Warehouse Pre nego što se kreira OLAP baza podataka, neophodno je razumeti

komponente data warehouse-a koje se koriste pri izgradnji OLAP baze podataka.

Definisanje OLAP rešenja OLAP tehnologija predstavlja jednu alternativu tehnologiji relacione

baze podataka. OLAP nudi brzi i fleksibilan pregled podataka, analizu i navigaciju.

Razumevanje OLAP modela i primena OLAP kocke Kako primeniti koncepte projektovanja Data Warehouse-a da bi se

projektovali i kreirali OLAP modeli. Opisuju se osnove OLAP kocke demonstriranjem metoda za

vizuelizaciju multidimenzionalnih baza podataka.

Page 3: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Sirovi podaci vs. poslovne informacije Kompanija svakodnevno prikuplja velike količine podataka. Ti podaci su često sirove

činjenice koje odražavaju tekuće stanje poslovanja.

Sirov podatak: Maloprodajni lanac prodavnica internacionalne muzičke kuće prikuplja podatke

o prodaji za svaki kupljeni proizvod, podatke o obrtu kapitala i dr. Sirov podatak opisuje na primer, da lanac prodavnica u Beogradu prodaje 10000 evra vrednosti prodate robe u Junu 2003.

Finansijska institucija prikuplja podatke o svim računima i ušteđevinama klijenata. Sirov podatak na primer, može pokazati da je Sefan M. podigao 50 evra sa svog računa jutros u Amsterdamu.

Izvedene informacije: S obzirom da je vrednost prodate robe u 2002. godini iznosio 15.000 evra, a

postavljen cilj za 2003. godinu je bio 20.000 evra, očigledno je da lanac prodavnica u Beogradu nije ispunio željeni cilj. Analiza poslovanja treba da odredi posledice pada prodaje. Pitanja koja se postavljaju su: Koji se proizvodi prodaju, a koji ne?, Koji je efekat promocije proizvoda?.

Stefan živi u Beogradu, ali u proteklih pet meseci, Stefan je podizao novac u Londonu, Oslo-u, Stockolm-u, što dovodi do zaključka da on često putuje po Evropi. S toga bi možda on bio zainteresovan za specijalnu kreditnu karticu koji mu omogućava neograničen pristup svom računu u 16 različitih zemalja uz odgovarajuću godišnju članarinu. Pitanja koja se postavljaju nakon ove analize su: Koji je prosečan dnevni bilans njegovog računa?, Za koje proizvode bi bio zainteresovan?

Page 4: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

OLTP sistemi OLTP (on-line transaction processing) sistemi su operacioni sistemi

koji prikupljaju poslovne transakcije i snabdevaju podacima data warehouse ili data mart.

Skladište podataka (Data Warehouse – DW) je analitička baza podataka namenjena samo za čitanje i koristi se kao osnova sistema za podršku odlučivanju.

Primeri OLTP operacionih sistema: aplikacije praćenja porudžbina, aplikacije usluga klijenata (npr., otvaranje računa klijentima), bankarske funkcije (npr, depoziti) itd.

Jedna od karakteristika koja razdvaja transakcione sisteme od analitičkih jeste dizajn baze podataka: Transakcioni sistemi su dizajnirani tako da preuzimaju podatke, vrše

izmene nad postojećim podacima, daju izveštaje, održavaju integritet podataka i upravljaju transakcijama što je brže moguće.

Analitički sistemi nisu predviđeni da obavljaju ove poslove. Oni se dizajniraju za veliki broj podataka namenjenih samo za čitanje, obezbeđujući informacije koje se koriste za donošenje odluka.

Page 5: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Data Warehousing (DW) Skladištenje podataka - DW je proces integracije podataka u jedan

repozitorijum iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izveštaje.

Karakteristike DW:Organizacija. Podaci su organizovani po predmetu i sadrže relevantne informacije za podršku odlučivanju.Konzistentnost. Podaci u različitim operacionim bazama podataka se drugačije šifriraju. U DW ti podaci će biti šifrovani na konzistentan način.Vremenski. Podaci se čuvaju mnogo godina kako bi se iskoristili za praćenje trendova, prognoze i vremensko poređenje.Multidimenzionalni. Obično data warehouse koristi multidimenzionalnu strukturu.Web-zasnovani. Danas je DW dizajniran tako da obezbedi jedno efikasno okruženje za web zasnovane aplikacije.

Warehousing koncept je skladištenje agregiranih, ekstrahovanih i filtriranih podataka u meta baze, koje omogućavaju slojevit, multidimenzionalni pristup podacima, kakav je potreban za donošenje odluka najvišeg strateškog nivoa.

Skladište podataka je informaciona baza podataka dizajnirana za podršku jedne ili više klasa analitičkih zadataka, kao što su nadgledanje i izveštavanje, analiza i dijagnoza i simulacija i planiranje.

Page 6: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Komponente DW sistema DW sistem sadrži mnoge komponente koje prenose podatke sa izvornih

sistema do korisnika koji izvršavaju analizu podataka:

Izvori podataka – Izvorni sistemi su operacioni sistemi, npr. OLTP sistemi koji mogu biti relacioni.

Oblast za pripremu podataka – skup procesa koji čisti, transformiše, povezuje i priprema izvorne podatke za korišćenje u DW. Podaci se transformišu u konzistente formate. Oblast za pripremu podataka se nalazi na jednom ili nekoliko kompjutera, ne mora da bude zasnovana na relacionoj tehnologiji, ne podržava koristničke izveštaje.

Data Mart – je podskup DW koji sadrži podatke specifične za određenu poslovnu aktivnost kao što su finansije ili analiza klijenata. Data martovi mogu biti uključeni u DW, mogu se izgraditi u relacionim ili OLAP bazama podataka i mogu detaljne ili sumarne podatke koje se mogu ili ne deliti kroz data mart-ove.

Data Warehouse – može se definisati i kao virtuelna unija data mart-ova sa integrisanim informacijama koje su deljive kroz data mart-ove ili kao centralizovano, integrisano skladište podataka koje obezbeđuje podatke data mart-ovima.

Page 7: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Komponente DW sistemaData Warehouse

Pristup podacima

Korisnički pristup podacimaIzvori

podataka

Ulazni podaci

Oblast za pripremu podataka

Data Mart-ovi

Page 8: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Razvoj skladišta podataka Pri izgradnji skladišta podataka najbitniji su sami podaci, a ne

poslovni procesi i funkcije, kao što je to slučaj sa transakcionim sistemima.

Za razvoj skladišta podataka potrebno je:1. izvršiti analizu izvora podataka,2. pripremiti podatake,3. izgraditi skladište podataka.

Page 9: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Razvoj skladišta podataka

Analiza izvora podatakaAnaliza izvora podataka

Pripremanjepodataka Izgradnja

DW

Page 10: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

1. Analiza izvora podataka Osnovni izvori podataka za koncept skladišta podataka su

operativni (transakcioni), tzv. OLTP (On-Line Transaction Processing) podaci, kao i spoljne informacije nastale kao istorija poslovanja ili industrijski i demografski podaci uzeti iz velikih javnih baza podataka.

Analiza izvornih podataka se smatra ključnim elementom i oduzima 80% vremena, jer je potrebno definisati odgovarajuća pravila za preuzimanje podataka iz izvornih podataka. Znanja vezana za ovu oblast su najčešće u glavama onih koji treba da koriste skladište podataka.

Analiza izvora podataka prolazi kroz sledeće faze:1.1. Prikupljanje zahteva,1.2. Planiranje skladišta podataka,1.3. Izbor tehnike analize podataka.

Page 11: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

1.1. Prikupljanje zahteva U ovoj fazi razvoja skladišta podataka, razmatraju se poslovne potrebe i

zahtevi budućih korisnika sistema.

Prikupljanje izvornih (source-driven) zahteva Metoda bazirana na definisanju zahteva korišćenjem izvornih podataka u

proizvodno-operativnim sistemima. Ovo se radi analiziranjem ER-modela izvornih podataka.

Glavna prednost: podržavanje svih podataka, svođenje na minimum vreme potrebno korisniku u ranim fazama (stanjima)

projekta.

Nedostaci: umanjivanjem kosrisnikovog učešća povećava se rizik od promašaja ispunjenja

zahteva korisnika, oduzima dosta vremena.

Page 12: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

1.1. Prikupljanje zahteva (nastavak)Prikupljanje korisničkih (User-Driven) zahteva Prikupljanje korisničkih zahteva je metoda koja se bazira na definisanju

zahteva istraživanjem funkcija kojima korisnik teži, odnosno koje korisnik izvršava. Ovo se obično postiže kroz seriju sastanaka i/ili intervjua sa korisnikom.

Glavna prednost ovog pristupa je što se koncentriše na ono što je potrebno, a ne na ono što je dostupno.

Ovaj pristup proizvodi upotrebljivo skladište podataka u kraćem vremenskom periodu.

Postupak prikupljanja zahteva: Intervjuisanje ključnih ljudi u organizaciji, npr: analitičari, menadžeri i izvršioci. Utvrditi protok informacija u i iz svakog odelenja (koji izveštaji i dokumentacija

pristižu u odelenje, kako se koriste, ko ih koristi, koliko često pristižu itd. Dobijene podatke organizovati u nekoliko sekcija, kao što su:

Podaci o analizi (podaci o svim vrstama analiza koje se trentuno koriste) i Zahtevi vezani za podatke (opis svih polja podataka koja se koriste, novi detalja, izvori).

Organizovane podatke proslediti svim učesnicima intervjua radi mišljenja i eventualnih korekcija.

Page 13: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

1.2. Planiranje skladišta podataka Planiranje skladišta podataka sastoji se od sledećih zadataka:

• Definisanje obima projekta,• Kreiranje projektnog plana,• Definisanje tehničkih uslova,• Definisanje resursa, zadataka i vremenskih rokova.

Pre početka razvoja projekta treba da se razmotri arhitektura i infrastruktura skladišta podataka:

Tehnička infrastruktura – podrazumeva razne tehnologije, platforme, baze podataka i ostale komponente koje podržavaju izabranu arhitekturu skladišta podataka. Tehnička infrastruktura uključuje i izbor instalacije baze podataka, podešavanje mrežnog okruženja, kao i izbor i instalaciju alata za rad sa bazom podataka.

Page 14: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

1.3. Izbor tehnike analize podataka Skladište podataka se gradi da bi se obezbedio lako pristupačan izvor podataka

visokog kvaliteta.

Postoji nekoliko tehnika analize podataka:a. Upiti i izveštaji,b. Višedimenzionalne analize ic. Data mining.

a. Upiti i izveštaji - Tehnike analize podataka mogu uticati na tip odabranog modela podataka i njegov sadržaj. Na primer, ako je namera da se obezbedi jednostavna mogućnost upita i izveštaja, model podataka koji struktuira podatke na normalizovani način verovatno će obezbediti najbrži i nalakši pristup podacima. Mogućnost upita i izveštavanja se primarno sastoji od biranja povezanih elemenata podataka, eventualnog njihovog sumiranja i grupisanja u neku kategoriju i prezentovanja rezultata.

Page 15: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

b. Višedimenzionalna analiza Višedimezionalna analiza - je način da se prošire mogućnosti upita i

izveštaja. Ovo znači da se umesto izvršavanja višestrukih upita podaci struktuiraju da bi se omogućio brz i lak pristup odgovorima na pitanja koja se tipično postavljaju.

Na primer, interesuje vas koliko je određenih proizvoda prodato određenog dana, u određenoj prodavnici i u određenom rasponu cena. Onda za dalju analizu želite da znate koliko prodavnica je prodalo određeni proizvod, u određenom rasponu cena, određenog dana. Ova dva pitanja zahtevaju slične informacije, ali jedna posmatrane iz ugla proizvoda, a druga iz ugla prodavnice.

Višedimenzionalna analiza zahteva model podataka koji će omogućiti da se podaci lako i brzo mogu pogledati iz bilo koje moguće perspektive ili dimenzije.

Pošto se koristi više dimenzija, model mora da obezbedi način da se podacima brzo pristupa (ako se koriste visoko normalizovane strukture podataka, biće potrebno mnogo grupisanja između tabela koje sadrže različite dimenzije podataka i mogu značajno uticati na performanse).

Page 16: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

c. Tehnika analize podataka – Data mining Data mining je relativno nova tehnika analize podataka.

Tehnika otkrivanja - Veoma je različita od upita i izveštaja, kao i od višedimenzionalnih analiza, po tome što koristi tehniku otkrivanja. Ovo znači da ne pitate određeno pitanje već koristite određene algoritme koji analiziraju podatke i izveštavaju šta su otkrili.

Za razliku od upita, izveštaja i višedimenzionalnih analiza, gde je korisnik morao da kreira i izvršava upite zasnovane na hipotezama, data mining traži odgovore na pitanja koja ne moraju biti prethodno postavljana.

Otkrivanje može imati formu pronalaženja značaja u vezama između određenih elemenata podataka, klasterisanja određenih elemenata podataka ili neki drugi obrazac u korišćenju određenih skupova elemenata podataka. Nakon iznalaženja ovih obrazaca, algoritmi mogu da iz njih izvedu pravila. Ova pravila tada mogu biti korišćena da se generiše model koji ima željeno ponašanje, identifikuje veze među podacima, otkriva obrasce i grupiše klastere zapisa sa sličnim atributima.

Page 17: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

2. Priprema podataka U procesu razvoja skladišta podataka priprema podataka je jedna

od najbitnijih aktivnosti. Dalji proces razvoja skladišta podataka biće uspešan samo ako je ova aktivnost uspešno završena.

Priprema podataka se vrši na osnovu ranije određenog izvora podataka, pravila za preuzimanje tih podataka, procedure pripreme i zahteva korisnika. Priprema se vrši određenim ekstrakciono-transformacionim alatima kroz sledeće korake: Ekstrakcija i čišćenje podataka, Transformacija podataka.

Rezultat ovih aktivnosti treba da budu podaci koji će nam omogućiti generisanje meta podataka, na osnovu kojih se može pristupiti dizajnu skladišta podataka.

Page 18: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

2.1. Ekstrakcija i čišćenje podataka Ova faza se sastoji od sledećih zadataka:

a. razvoj procedura za ekstrakciju podataka,b. razvoj procedura za čišćenje podataka.

a. Razvoj procedura za ekstrakciju podataka Podaci koji će se koristiti u skladištu podataka moraju se ekstrahovati iz

transakcionih sistema (baza podataka u okviru nekog sistema) koji sadrže te podatke.

Podaci se inicijalno ekstrahuju u procesu kreiranja skladišta podataka, a kasnije se na osnovu određnih procedura vrši dodavanje novih podataka u skladište podataka.

Ekstrakcija podataka je vrlo jednostavna operacija, ako se potrebni podaci nalaze u jednoj relacionoj bazi, ali može da bude i veoma kompleksna operacija, ako su podaci smešteni u višestrukim heterogenim transakcionim sistemima. Cilj procesa ekstrakcije podataka je da sve potrebne podatke, u pogodnom i konzistentnom formatu, pripremi za učitavanje u skladište podataka.

Page 19: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

b. Razvoj procedura za čišćenje podataka Zbog problema koji se prilikom ekstrakcije podataka javljaju, podaci

dobijeni ekstrakcijom se moraju "čistiti". Čišćenje podataka podrazumeva: proveru postojanja logičkih grešaka, "poboljšanje" podataka i eliminisanje ostalih grešaka.

Provera logičkih grešaka uključuje proveru vrednosti atributa usled različitog označavanja pojmova, proveru atributa u kontekstu ostalih podataka u redu, proveru atributa u kontekstu redova druge tabele koja je povezana, proveru veza između redova iste ili povezanih tabela (provera prenesenih ključeva).

"Poboljšanje" podataka je proces čišćenja kojim se teži da podaci dobiju puno značenje. Primer za ovo su podaci o imenima i adresama.

Eliminisanje ostalih grešaka je proces u kome se odlučuje o sudbini podataka koji su nepotpuni ili nemaju veliko značenje. Ovi podaci se mogu odbaciti, privremeno smestiti i popraviti ili smestiti u skladište podataka sa tim svojim nesavršenostima.

Page 20: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

2.2. Transformacija podataka U ovoj fazi potrebno je:

definisati izvore podataka i tipove transformacija koje treba izvršiti nad podacima i

ostvariti mapiranje podataka iz izvorišta u odredišta.

Pre početka procesa transformacije podataka, tim stručnjaka koji radi na projektu dizajniranja skladišta podataka definiše fizički model podataka za skladište podataka i generiše šeme.

Faza mapiranja i transformacije podataka sastoji se od sledećih zadataka:a. kreiranje plana transformacije podataka,b. razvoj procedura za transformaciju podataka,c. razvoj procedura za učitavanje podataka,d. testiranje procedura,e. generisanje meta podataka.

Page 21: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

a. Kreiranje plana transformacije podataka Planom je potrebno odrediti najbolji put migracije izvornih podataka do

skladišta podataka. Analiziraju se raspoloživi resursi, količina izvornih podataka, različite izvorne šeme, različiti načini pristupanja podacima, struktura skladišta podataka i potreban broj agregacija. Planom se dokumentuju sve izvorne platforme, metode pristupa i programski jezik koji je potreban za ekstrakciju podataka.

Prelazne šeme - Obično se izvorni podaci prvo smeštaju u prelazne šeme. Prelazne šeme su zajednički interfejs za sve izvorne sisteme. One se ne podudaraju u potpunosti ni sa izvornim ni sa odredišnim šemama. Koriste se da bi se poboljšali procesi "čišćenja" i transformacije podataka.

Analiza izvora podataka - Nakon kreiranja plana transformacije podataka, prelazi se na analizu izvora podataka. Potrebno je odrediti koji će se podaci mapirati u odredišni sistem i koja je to logika potrebna da bi se izvršila migracija podataka.

Page 22: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

b. Razvoj procedura za transformaciju podataka Pod transformacijom podataka se podrazumeva proces kojim se usklađuju

različiti načini prikazivanja podataka različitih sistema u jedinstveni oblik. Na primer, neki sistemi mogu označavati pol ljudi sa 1 za muški pol i 2 za

ženski pol. Ako se u skladištu podataka ovo označavanje vrši sa M i Z, onda mora postojati proces koji će transformisati 1 u M i 2 u Z.

Transformacija podataka je kritičan korak u razvoju skladišta podataka. U okviru procesa transformacije vrši se poslednja priprema podataka pre učitavanja.

Tipična transformacija podataka uključuje: prevođenje polja sa više imena u jedno polje, razbijanje polja sa datumom u posebna polja za godinu, mesec i dan, prevođenje polja sa jednom reprezentacijom u drugu (npr. sa 1 i 0 u

DA i NE), kreiranje i dodavanje ključeva za tabele dimenzija.

Page 23: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

c. Razvoj procedura za učitavanje podataka Procedure za učitavanje podataka treba da izvršavaju sledeće aktivnosti:

Kreiranje formata podataka. Za sve podatke iz starijih sistema moraju se obezbediti formati pogodni za smeštanje u skladište podataka.

Prenošenje podataka iz starijih sistema u skladište podataka. Vrši se raspakivanje podataka, njihovo poređenje, kombinovanje i transformacija u oblik pogodan za skladište podataka.

Kreiranje agregacija (sumiranih podataka). Kreiranje agregacija je postupak sortiranja podataka po određenim atributima na osnovu kojih se, zatim, vrši sumiranje. Tako sumirani podaci se smeštaju u skladište podataka.

Kreiranje ključeva za agregacione zapise. Svi zapisi u tabelama, a samim tim i agregacije, moraju imati ključeve. Ovaj korak se razlikuje od prethodnog jer su ključevi za agregacione zapise u potpunosti veštački i ne smeju biti identični primarnim ključevima tabele činjenica. Prema tome, stručni tim mora dizajnirati aplikaciju koja će generisati takve ključeve.

Obrada neučitanih podataka. Pri procesu smeštanja podataka u skladište podataka često se dešava da se neki podaci ipak ne učitaju, najčešće zbog referencijalnog integriteta. Takvi podaci se moraju obraditi u posebnoj aplikaciji, koja će obezbeđivati referencijalni integritet podataka.

Indeksiranje podataka. Po završenom procesu smeštanja podataka u skladište podataka, svi indeksi se moraju ažurirati.

Page 24: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

d. Testiranje procedura Da bi se utvrdila ispravnost rada procedura za ekstrakciju i učitavanje

podataka, mora se izvršiti njihovo testiranje.

Provera kvaliteta podataka - Testiranje procedura se, najčešće, ostvaruje proverom kvaliteta podataka, tako što se zadaju upiti nad skladištem podataka koji prebrojavaju podatke ili ih prikazuju u vidu grafikona sa kojih se može utvrditi da li su podaci u rasponu koji je očekivan.

Po završenoj transformaciji, postoje svi uslovi da se pristupi generisanju meta podataka.

Page 25: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

e. Izrada meta baze podataka Meta baza podataka, odnosno rečnika podataka je baza podataka o bazi

podataka.

Meta baza podataka čuva sve podatke o podacima mapirajući izvorni u ciljni sistem i uspostavlja vezu između podataka sa izvora i cilja. Oni čuvaju informacije o transakcionim podacima, definiciju podataka u ciljnoj bazi i transformaciono-integracionu logiku.

Tek po postavci meta baze podataka može se krenuti dalje u izdvajanje podataka iz transakcione baze podataka, pa potom sumiranje, sortiranje i organizovanje pre punjenja DW.

Page 26: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

3. Izgradnja skladišta podataka Izgradnja skladišta podataka se sastoji od sledećih

zadataka:

a) denormalizacija podataka,b) definisanje hijerarhija,c) kreiranje agregacija,d) kreiranje fizičkog modela,e) generisanje baze podataka,f) učitavanje podataka.

Page 27: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

a) Denormalizacija podataka1. Prvi korak je identifikacija dimenzija i atributa koja podseća na klasično

projektovanje upotrebom ER modela i zove se dimenziono modeliranje.

Dimenziono modeliranje je tehnika logičkog dizajna čiji je cilj prezentacija podataka u obliku koji obezbeđuje visoke performanse sistema radi vršenja analize podataka.

2. U dimenzionom modeliranju, strukture podataka su tako organizovane da opisuju mere i dimenzije.

Mere su numerički podaci smešteni u centralnoj, takozvanoj tabeli činjenica (fakt tabela).

Dimenzije su standardni poslovni parametri koji definišu svaku transakciju.

Osnovu za izradu dimenzionog modela predstavljaju meta podaci, na osnovu kojih se vrši definisanje hijerarhija, elemenata i atributa, normalizacija i denormalizacija i definisanje agregacija.

3. Svaka dimenziona tabela ima svoj primarni ključ, a svi oni učestvuju u stvaranju primarnog ključa tabele činjenica. Ovakvi modeli se nazivaju šemama zvezde.

Tabele činjenica sadrže podatke koji su, najčešće, numeričkog tipa i mogu sadržati veliki broj zapisa.

Page 28: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Primeri dvodimenzionih i trodimenzionih modela podataka

MesecPro i zvod

Mesec

Grad

Pro i zvod

a) Dvodimenzioni model podataka b) Trodimenzioni model podataka

a) Podaci o prodaji za svaku oblast se nalaze u različitim tabelamab) Svi podaci smešteni su u trodimenzioni niz

Page 29: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Različiti pogledi na iste podatkeMesec

GradP r o i z v o d

Svi proizvodi i meseci za jedan grad

Svi proizvodi i gradovi za jedan mesec

Svi gradovi i meseci za jedan proizvod

Page 30: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Primer normalizovane i denormalizovane reprezentacije podataka Sve dimenzione tabele su denormalizovane, što znači da se isti podaci čuvaju

na više mesta da bi se obezbedila jednostavnost i poboljšale performanse.

Page 31: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Arhitektura dimenzionog modela Kod denormalizovanog modela dimenzije su organizovane u šemu zvezde, a

kod normalizovaog u šemu snežne pahuljice.

Postoje situacije u kojima šema zvezde nije pogodna za skladištenje podataka. Osnovni razlozi za to su: denormalizovana šema zvezde može zahtevati previše memorijskog kapaciteta, veoma velike dimenzione tabele mogu uticati na pad performansi sistema.

Ovi problemi se mogu rešiti normalizacijom dimenzija, čime se šema zvezde prevodi u šemu pahulje.

Glavni nedostatak šeme pahulje je njena složenost u odnosu na šemu zvezde, čime se otežava održavanje skladišta podataka. Zato je potrebno vršiti normalizaciju samo onih dimenzija koje sadrže mnogo redova podataka i koje imaju mnogo atributa.

Najčešće se postižu najbolji rezultati ako se izvrši normalizacija samo par dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj način se dolazi do delimične šeme pahulje.

Šema galaksije predstavlja kolekciju šema zvezda, tj. ako se ne može kreirati model koji bi imao samo jednu činjeničnu tabelu, tada je potrebno povezati dve šeme zvezde da bi se zadovoljile potrebe korisnika.

Page 32: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Šema zvezde Šema pahulje Galaksija

Šema zvezde, pahulje i galaksije

Page 33: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Šema zvezde Fizička arhitektura dimenzionog modela opisana je pomoću šeme zvezde

definisane sa dve vrste tabela – dimenzione tabele (dimension table) i tabele činjenica (fact table).

Tabela činjenica sadrži kvantitativne podatke o poslovima koji opisuju specifične događaje u poslovanju, kao što su bankarske transakcije ili prodaja proizvoda, a koje korisnici analiziraju. Može sadržati i agregirane podatke, kao što je npr., mesečna prodaja. Ovi podaci su najčešće numeričkog tipa i mogu se sastojati i od nekoliko miliona redova i kolona.

Dimenzione tabele su znatno manje i sadrže podatke koji opisuju dati posao, tj. one podatke po kojima se vrši analiziranje. Ti podaci se nazivaju atributi. Na primer, kod maloprodaje dimenzione tabele opisuju kako se izračunavaju podaci o prodaji.

Osnovne prednosti šeme zvezde su što omogućava definisanje složenih višedimenzionih podataka u vidu jednostavnog modela, smanjuje broj fizičkih veza koje se moraju procesirati pri zadavanju upita, čime se postiže poboljšanje performansi sistema i omogućava proširenje skladišta podataka uz relativno jednostavno održavanje.

Velika mana šeme zvezde je što se povećava redundantnost podataka.

Page 34: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Jednostavna šema zvezde Svaka tabela mora sadržati primarni ključ čiji sadržaj jedinstveno

identifikuje zapise.

Na primeru, primarni ključ tabele činjenica je sastavljen od tri spoljna ključa. Spoljni ključ je kolona jedne tabele, čija je vrednost definisana kao primarni ključ druge tabele.

DIMENZIJA3

IDdimenzije3

Atribut31Atribut32Atribut33

DIMENZIJA2

IDdimenzije2

Atribut21Atribut22Atribut23

DIMENZIJA1

IDdimenzije1

Atribut11Atribut12Atribut13

CINJENICE

IDdimenzije1 (FK)IDdimenzije2 (FK)IDdimenzije3 (FK)

Mera1Mera2Mera3

Page 35: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Šema zvezde

Tabela činjenica Dimenziona tabela

Zaposleni_DimZaposleni_DimZaposleni_DimZaposleni_DimZaposleniKljučZaposleniKljuč

ZaposleniID...ZaposleniID...

VremeVreme_Dim_DimVremeVreme_Dim_DimVremeKljučVremeKljuč

Datum...Datum...

ProizvodProizvod_Dim_DimProizvodProizvod_Dim_DimProizvodKljučProizvodKljuč

ProizvodID...ProizvodID...

KlijentKlijent_Dim_DimKlijentKlijent_Dim_DimKlijentKljučKlijentKljuč

KlijentID...KlijentID...

ŠpediterŠpediter_Dim_DimŠpediterŠpediter_Dim_DimŠpediterKljučŠpediterKljuč

ŠpediterID...ŠpediterID...

Prodaja_faktiProdaja_faktiVremeKljučZaposleniKljučProizvodKljučKlijentKljučŠpediterKljuč

VremeKljučZaposleniKljučProizvodKljučKlijentKljučŠpediterKljuč

IznosProdajeJediniceProdaje ...IznosProdajeJediniceProdaje ...

Page 36: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Komponente tabele činjenicaDimenzione

tabele

Dimenzione tabele

klijentklijent_dim_dimklijentklijent_dim_dim

201 ALFI Alfred201 ALFI Alfred

proizvodproizvod_dim_dimproizvodproizvod_dim_dim 25 123 TV 25 123 TV

Tabela činjenica Prodaje

MereMere

klijent_ključklijent_ključ proizvod_ključproizvod_ključ vreme_ključvreme_ključ količina_prodajekoličina_prodaje iznos_prodajeiznos_prodaje

Spoljni ključeviSpoljni ključevi

201 25 134 400 10,789

134 1/1/2000134 1/1/2000

vremevreme_dim_dimvremevreme_dim_dim

Mere predstavljaju analizirane vrednosti, kao što je jedinica prodaje ili broj zaposlenih. Mere su numeričke zbog toga da bi se mogla vršiti izračunavanja.

Page 37: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Karakteristike dimenzione tabele

Dimenziona tabela predstavlja poslovne entitete (npr. Prozvod, klijent) Sadrži atribute koji obezbeđuju kontekst za numeričke podatke koji su

uskladišteni u tabeli činjenica. Prikazuje podatke organizovane u hijerarhije – omogućava korisnicima

pregledanje detaljnih i zbirnih podataka. Svaka dimenziona tabela sadrži jednu ili više hijerarhija.

Page 38: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Šema zvezde na primeru EDIFACT fakture

Vreme

VremeID: Long Integer

Dan: Text(15)Mesec: Text(15)Godina: Integer

Valuta

ValutaID: Long Integer

NazivValute: Text(50)OznakaValute: Text(20)SifraValute: Text(20)

VrstaPakovanja

VrstaPakovanjaID: Long Integer

NazivVrstePakovanja: Text(50)

NacinPlacanja

NacinPlacanjaID: Long Integer

NazivNacinaPlacanja: Text(50)

VrstaPrevoza

VrstaPrevozaID: Long Integer

NazivVrstePrevoza: Text(50)

PredmetPoslovanja

PredmetPoslovanjaID: Long Integer

VrstaPakovanjaID: Long IntegerNazivPredmetaPoslovanja: Text(50)StariBoroj: Text(50)KlasifikacioniBroj: Text(20)

Partner

PartnerID: Long Integer

NazivPartnera: Text(50)Adresa: Text(50)Mesto: Text(50)Drzava: Text(50)Telefon: Text(50)

Faktura

FakturaID: Long IntegerVremeID: Long IntegerPartnerID: Long IntegerPredmetPoslovanjaID: Long IntegerValutaID: Long IntegerNacinPlacanjaID: Long IntegerVrstaPrevozaID: Long Integer

Kolicina: DoubleJedinicnaCena: CurrencyIznos: Currency

• Dimenzione tabele mogu sadržati i spoljne ključeve, koji referenciraju primarne ključeve drugih dimenzionih tabela. Takve tabele se nazivaju sekundarne dimenzione tabele (outrigger tables) (npr. VrstaPakovanja).

Page 39: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

b) Definisanje hijerarhija

Dimenzione tabele memorišu sledeće elemente: traženje hijerarhijskih relacija u svakoj dimenziji, definisanje opisnih atributa svake dimenzije.

Dimenzije veoma često mogu biti organizovane u hijerarhiji. Na primer, kod dimenzije proizvod, mogu postojati tri dimenziona elementa: prozvod, grupa i vrsta proizvoda. U ovom modelu možemo reći da dimenzioni element "proizvod" predstavlja najniži hijerarhijski nivo u dimenziji proizvod, dok vrsta proizvoda predstavlja najviši nivo.

Posmatranje podataka iz različitih, ali blisko povezanih perspektiva omogućava da korisnik analizira podatke na različitim nivoima detalja.

Drill-down - Postupak prelaska sa nivoa sa manjim brojem detalja na nivo sa većim brojem detalja naziva se spuštanje u dubinu (drill down) i predstavlja zahtev korisnika da mu se prikaže više detalja. Na primer, pošto se pronađe podatak o prodaji nekog regiona, spušta se naniže da bi se saznalo kako se prodaja odvija po opštinama. Geografski podaci vezani za prodaju mogli bi se organizovati u sledeću hijerarhiju: SVET –> KONTINENT –> DRŽAVA –> OBLAST –> GRAD

Drill-up - Postupak prelaska sa nivoa sa većim brojem detalja na nivo sa manjim brojem detalja, na tzv. sumarne podatke, naziva se dizanje naviše (drill up). Na primer, upit bi mogao prezentovati prodaju u odnosu na neke regione.

Drill across – koristi se za povezivanje dve ili više činjeničnih tabela na istom nivou hijerarhije.

Page 40: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Šema pahulje

Definiše hijerarhiju koristeći višedimenzione tabele - Šema pahulje je varijacija šeme zvezda u kojoj su hijerarhija dimenzije skladištene u višedimenzione tabele. Na primer, dimenzija Proizvod je skladištena u tri tabele: kategorija proizvoda, podkategorija proizvoda i proizvod.

Normalizovana je. Podržana je unutar analitičkih usluga. (samo jedna dimenziona tabela se

pridružuje tabeli činjenica, dok su ostale dimenzione tabele povezane sa spoljnim ključem).

Page 41: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

c) Kreiranje agregacija Agregacijama se sumiraju detalji podataka i smeštaju u posebne tabele. Na primer,

moguće je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajući ih iz svake prodavnice, tj. najnižeg nivoa detalja.

Glavni razlozi kreiranja agregacija su da se poboljšaju performanse upita, tj. da se smanji vreme odziva na upit, kao i da se smanji broj resursa potrebnih za izvršenje upita.

Agregacije zasnovane na SQL naredbama

Jedan od načina na koji se mogu kreirati agregacije jeste korišćenje SQL naredbi. Iako ovaj način nije najbolji po pitanju performansi sistema, on je najjednostavniji.

Agregacije koje nisu zasnovane na SQL naredbama

U slučaju kreiranja agregacija koje nisu zasnovane na SQL naredbama, potrebno je razviti specijalizovane programe, što usložnjava procese razvoja i održavanja skladišta podataka.

Na primer, ako se izvrši sortiranje redova podataka po dimenziji Vreme, u tabeli će se prvo nalaziti redovi podataka koji se odnose na Dan, iza njih će biti redovi podataka koji se odnose na Nedelju itd. Zatim se na svakom mestu prelaza sa jednog nivoa dimenzije na drugi (na primer, sa Dana na Nedelju) kreiraju podzbirovi za taj nivo dimenzije. Pri tome je moguće iskoristiti prednosti paralelnog procesiranja jer su podaci podeljeni po grupama (jedan proces može računati podzbirove vezane za nivo Dan, a drugi za nivo Nedelja). Tako dobijene podzbirove treba učitati i izvršiti agregaciju. Time je proces agregacije podataka završen.

Page 42: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

d) Kreiranje fizičkog modela U okviru kreiranja fizičkog modela baze podataka, izvodi se

postupak prevođenja logičkog modela u fizički model prikazan preko dijagrama entiteti – veze koji fokusira podatke.

Neposredno pre kreiranja modela treba izabrati sistem za upravljanje bazama podataka na kome će biti implementirana baza podataka.

Generisanje fizičkog modela treba da reši probleme: Multiplikativnosti - definiše broj instanci jednog entiteta (buduća

tabela u bazi) u relaciji sa jednom instancom drugog entiteta. Referencijalnog integriteta - zahteva da unesena vrednost

atributa odgovara vrednosti atributa koji je primarni ključ druge tabele. Referenacijalni integritet se definiše za operacije ubacivanja, brisanja i ažuriranja.

Kreiranja indeksa - je izvršeno automatski za sve primarne ključeve u entitetima i za prenesene ključeve u entitetu Ispit. Ovo se radi iz razloga što će se buduća pretraživanja u okviru skladišta podataka vršiti na osnovu ovih polja.

Page 43: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Fizički model šeme zvezde za primer EDIFACT fakture

Vreme

VremeID: Long Integer

Dan: Text(15)Mesec: Text(15)Godina: Integer

Valuta

ValutaID: Long Integer

NazivValute: Text(50)OznakaValute: Text(20)SifraValute: Text(20)

VrstaPakovanja

VrstaPakovanjaID: Long Integer

NazivVrstePakovanja: Text(50)

NacinPlacanja

NacinPlacanjaID: Long Integer

NazivNacinaPlacanja: Text(50)

VrstaPrevoza

VrstaPrevozaID: Long Integer

NazivVrstePrevoza: Text(50)

PredmetPoslovanja

PredmetPoslovanjaID: Long Integer

VrstaPakovanjaID: Long IntegerNazivPredmetaPoslovanja: Text(50)StariBoroj: Text(50)KlasifikacioniBroj: Text(20)

Partner

PartnerID: Long Integer

NazivPartnera: Text(50)Adresa: Text(50)Mesto: Text(50)Drzava: Text(50)Telefon: Text(50)

Faktura

FakturaID: Long IntegerVremeID: Long IntegerPartnerID: Long IntegerPredmetPoslovanjaID: Long IntegerValutaID: Long IntegerNacinPlacanjaID: Long IntegerVrstaPrevozaID: Long Integer

Kolicina: DoubleJedinicnaCena: CurrencyIznos: Currency

Page 44: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

e) Generisanje baze podataka Aktivnost generisanja baze podataka vrši se korišćenjem SQL jezika. Naime,

alat u kome je izvršeno kreiranje fizičkog modela (npr. ERWin) omogućava automatsko generisanje koda preko takozvanih DDL (Data Definition Language) datoteka.

U sledećem koraku se vrši izvršavanje DDL datoteka pomoću Query Analyzer-a, alata koji je sastavni deo SQL Servera 2005. Ovaj alat omogućava direktno zadavanje SQL naredbi i njihovo izvršavanje u cilju generisanja baze podataka.

Kada se svi ovi poslovi uspešno urade, baza (skladište) podataka je generisana.

f) Učitavanje podataka U toku učitavanja se mogu eventalno izvršiti još neke transformacije, mada

bi sa transformacijama podataka trebalo završiti pre učitavanja zbog problema konzistentnosti baze.

Za učitavanje podataka može se koristiti alat MS SQL Server-a DTS (Data Transformation Services) i njegova procedura učitavanja podataka pomoću takozvanih DTS paketa.

Page 45: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Pregled procesa razvoja skladišta podataka

Razvoj skladišta podataka

Analizaizvora podataka

Pripremanje podataka

Izgradnja skladištapodataka

Prikupljanje zahteva

Planiranje skladišta podataka

Izbor tehnikeanalize podataka

Prikupljanje izvornih zahteva

PrikupljanjeKorisničkih zahteva

Definisanje obima projekta

Kreiranje projektnog tima

Definisanje tehničkih uslova

Definisanje resursa, zadataka i vremenskih rokova

Upiti i izveštaji

Višedimenzionalneanalize

Data mining

Ekstrakcija i čišćenje podataka

Transformacija podataka

Razvoj procedura zaekstrakciju podataka

Razvoj procedura začišćenje podataka

Kreiranje plana transformacije podataka

Razvoj procedura zaTransformaciju podataka

Razvoj procedura zaučitavanje podataka

Testiranje procedura

Generisanje meta podataka

Dimenzionomodeliranje

Denormalizacijapodataka

Definisanje hijerarhija

Kreiranje agregacija

Kreiranje fizičkog modela

Generisanje baze podataka

Učitavanje podataka

Page 46: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Izgradnja Data Warehouse-a

11

Page 47: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

OLAP sistemi OLAP rešenja omogućavaju korisnicima brz i fleksibilan pristup

podacima i predstavljaju nadgradnju skladišta podataka.

Interaktivno analitičko procesiranje (On line Analytical Processing – OLAP) namenjeno je on-line analizama i izveštavanjima.

Krajnjem korisniku je neophodno sledeće: da može da postavi bilo koje poslovno pitanje, da bilo koji podatak iz preduzeća koristi za analizu, mogućnost neograničenog izveštavanja.

U tu svrhu se koriste analitički OLAP sistemi koji obezbeđuju informacije koje se koriste za analizu problema ili situacija.

Analitičko procesiranje se primarno vrši korišćenjem poređenja ili analiziranjem šablona i trendova. Na primer, analitički sistem bi mogao da prikaže kako se određena vrsta štampača prodaje u različitim delovima zemlje. Takođe, mogao bi da prikaže i kako se jedna vrsta proizvoda trenutno prodaje u odnosu na period kada se proizvod prvi put pojavio na tržištu.

Page 48: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

OLAP sistemi omogućavaju jednostavnu sintezu, analizu i konsolidaciju (agregacija podataka po zadatom kriterijumu) podataka.

Koriste se za intuitivnu, brzu i fleksibilnu manipulaciju transakcionim podacima.

OLAP sistemi podržavaju kompleksne analize koje sprovode analitičari i omogućavaju analizu podataka iz različitih perspektiva (poslovnih dimenzija).

OLAP sistemi kao skladišta podataka koriste multidimenzionalnost i denormalizaciju.

Osnovni elementi OLAP sistema su: baza podataka, koja služi kao osnova za analizu, OLAP server, za upravljanje i manipulaciju podacima, interfejs sistem, prema korisniku i prema drugim aplikacijama, alati za administriranje.

OLAP sistemi

Page 49: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

OLAP serveriOLAP pristup mora od hardvera da poseduje poseban računar, tzv. OLAP server, na koji se povezuju relacione BP, eksterni izvori podataka i ostali interni podaci, koji su podržani grafičkim interfejsima, radnim tabelama i ostalim PC alatima.

OLAP serveri koriste višedimenzione strukture za čuvanje podataka i veza između njih.

Višedimenzione strukture se najbolje vizuelizuju kao kocke podataka i kao kocke u kockama podataka. Svaka strana kocke se naziva dimenzijom. Dimenzija predstavlja kategoriju podataka, kao što su tip proizvoda, region, vreme itd. Svaka ćelija kocke sadrži agregirane podatke koji su u vezi sa dimenzijama. Na primer, jedna ćelija može sadržati podatke o ukupnoj prodaji za dati proizvod i region u toku jednog meseca.

OLAP serveri podržavaju tipične analitičke operacije: konsolidacija – ovom operacijom se vrši agregacija podataka po zadatom

kriterijumu, drill down/up – ove operacije omogućavaju prikazivanje više ili manje detalja

podataka, isecanje (slice & dice) – ove operacije obezbeđuju prikazivanje podataka iz

različitih perspektiva, pri čemu se isecanje najčešće vrši po vremenskoj dimenziji da bi se analizirali trendovi (na primer, jedan isečak kocke može prikazivati sve podatke o prodaji za zadati tip proizvoda za sve regione, a drugi isečak može prikazivati sve podatke o prodaji po kanalima za svaki tip proizvoda).

Page 50: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Zahtevi OLAP sistema

Interfejs OLAP sistema treba da omogući korisniku komforan rad, samostalno izvođenje analitičkih operacija i dobijanje pregleda i poslovne grafike, bez znanja programiranja i strukture baze podataka.

Zahtevi koje OLAP mora da ispuni su:

mogućnost rada sa velikim skupom podataka i velikim brojem korisnika,

kratko vreme odziva na upit, mogućnost rada sa podacima sa različitim nivoima detalja, sposobnost proračuna složenih matematičkih funkcija, podrška za šta-ako analizu, modelovanje i planiranje, jednostavnost uvođenja i održavanja sistema, zaštita podataka, mogućnost rada sa velikim brojema alata pomoću kojih će se

pristupati podacima, vršiti analiza i prikazivati podaci.

Page 51: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Komponente OLAP baze podataka OLAP baza podataka je definisana sledećim komponentama:

Numeričke mere – Mere su vrednosti podataka ili činjenice koje korisnici analiziraju. Primeri mera su Prodaja, Jedinice, Troškovi prodate robe itd.

Dimenzije – dimenzije predstavljaju poslovne kategorije koje obezbeđuju kontekst numeričkim merama. Dimenzijama OLAP je lakše navigirati nego dimenzijama šeme zvezde.

Kocke – Kocke kombinuju sve dimenzije i sve mere u jedan konceptualni model.

Page 52: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

RegionZapad CA ORIstok MA NY

RegionZapad CA ORIstok MA NY

RegionZapadIstok

Država RegionCA ZapadOR ZapadMA IstokNY Istok

RegionZapadIstok

Država RegionCA ZapadOR ZapadMA IstokNY Istok

OLAP dimenzije vs. Relacione dimenzije

OLAP

Relaciona

Page 53: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Osnove dimenzija OLAP dimenzije sadrže

sledeće hijerarhijske elemente:

1. Dimenzije – organizovani nivoi i članovi u strukturi drveta.

2. Nivo – grupa članova dimenzije koji imaju isto značenje.

3. Član – Svaka diskretna vrednost u dimenziji.

Page 54: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Definisanje kocke Kocka je logička struktura skladištenja OLAP baze podataka.

Kocka kombinuje dimenzije i mere kako bi korisnici mogli da prave upite.

Kocka definiše skup povezanih dimenzija koje formiraju jednu n-dimenzionalnu mrežu: Svaka ćelija kocke sadrži jednu vrednost; Vrednost svake ćelije je presek dimenzije.

Mere su numeričke vrednosti koje korisnici analiziraju.

Svaka kocka mora da sadrži barem jednu meru, ali ne može da ima više od 1024 mera.

Karakteristike mere su: Mere su numeričke; Mere odgovaraju činjenicama u tabeli činjenica. Samo jedna tabela činjenica se

može koristiti za kreiranje kocke; Mere su preseci svih dimenzija i nivoa ...

Page 55: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Definisanje kocke

Q4Q1 Q2 Q3Dimenzija Vreme Dim

enzij

e Pro

izvod

i

Beograd

Pariz

Bern

Dim

enzi

ja T

ržiš

te

Maline

PečurkePuževi

Milano

Kupine

Kocka skladišti vrednosti prodaje za svaki proizvod, svako tržište i za svaki period vremena. Da bi dobili ukupnu godišnju vrednost, korisnici biraju proizvod i tržište i sumiraju ćelije iz sva četiri

kvartala.

Page 56: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Q4Q1 Q2 Q3Dimenzija Vreme

Dimen

zija P

roizv

odi

Beograd

Pariz

Bern

Dim

enzi

ja T

ržiš

te

Maline

PečurkePuževi

MilanoFakti o prodaji

Kupine

Pravljenje upita nad kockom

Kocka “Prodaja” sadrži tri dimenzije: Vreme, Proizvodi i Tržišta. Činjenice o prodaji su skladištene u presecima svih dimenzija u kocki. Korisnik koji nadgleda prodaju malina u Milanu želi upit za Q4 prodajne vrednosti.

Page 57: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

MalineQ4Q1 Q2 Q3

Dimenzija Vreme

Dimen

zija P

roizv

odi

Beograd

Pariz

Bern

Milano

Dim

enzi

ja T

ržiš

te

KupinePečurke

Puževi

Definisanje “kriške” (engl. slice) ili podskupa kocke

Menadžer distribucije malina želi da pregleda podatke o pečurkama po svim periodima i za sva tržišta.

Page 58: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Rad sa dimenzijama i hijerarhijama

Glavna svrha OLAP baza podataka je da obezbede fleksibilne modele za pronalaženje podataka. Dimenzije i hijerarhije omogućavaju tu fleksibilnost.

Dimenzije omogućavaju slice i dice: Slice - izbor jednog člana iz dimenzije. Na primer: ukoliko želite da

se fokusirate na samo jedan proizvod, slice vam omogućava da ignorišete sve osim željenog proizvoda.

Dice – kada primenjujete dice na kocki, onda postavljate više članova iz jedne dimenzije na jednu osu i više članova druge dimenzije na drugu osu. Ovakav način vam omogućava da sagledate međuodnose članova različitih dimenzija.

Hijerarhija vam omogućava drill down i drill up: Drill Down - Sve dimenzije sadrže hijerarhiju i za većinu dimenzija

hijerarhija se sastoji od više nivoa. Više nivoa hijerarhije omogućava drill down po jednom članu hijerarhije. Drill down omogućava da se fokusirate samo na određene podatke ili oblast problema.

Drill Up – Vide se samo zbirne informacije članova. Omogućava da se sagleda opšta slika.

Page 59: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Rad sa dimenzijama i hijerarhijama

Dice Hijerarhije vam dozvoljavaju

Drill Down Drill Up

Dimenzije vam dozvoljavaju Slice

Page 60: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Arhitekture OLAP sistema Postoje sledeće arhitekture OLAP sistema:

a. višedimenzioni OLAP (MOLAP),b. relacioni OLAP (ROLAP),c. hibridni OLAP (HOLAP).

MOLAP i ROLAP se razlikuju po načinu fizičkog čuvanja podataka. Kod MOLAP sistema podaci se čuvaju u višedimenzionoj strukturi, a u slučaju ROLAP sistema podaci se čuvaju u relacionim bazama podataka.

Page 61: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

a. Višedimenzioni OLAP (MOLAP) MOLAP baze podataka imaju sledeća ograničenja:

ograničenje fizičke veličine skupa podataka sa kojima mogu da barataju.

ograničenje na broj dimenzija koje još uvek obezbeđuju dobre performanse sistema.

da bi se vršila bilo kakva analiza, potrebno je prvo učitati podatke u višedimenzione strukture. Pri tome se vrše razni proračuni da bi se kreirale agregacije i popunili podaci, što vremenski može trajati relativno dugo. Po završenom procesu, korisnik može započeti analizu.

Prednost MOLAP sistema je što obezbeđuju odlične performanse sistema kada se radi sa već sračunatim podacima (agregacijama).

Nedostatak MOLAP sistema je teškoća dodavanja novih dimenzija.

Page 62: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Arhitektura MOLAP sistema OLAP interfejs Višedimenziona

baza podataka Transakcioni

sistemi

Sloj prezentacije Sloj aplikacije Sloj baze podataka

- upiti - heširanje - indeksiranje

- predviđanja - traženje izuzetaka

- tabele - grafikoni - drill down - isecanje - štampanje

Podaci iz različitih transakcionih sistema učitavaju u višedimenzionu bazu podataka pomoću batch rutina. Kada se završi sa učitavanjem podataka atomskog nivoa, prelazi se na kreiranje agregacija, nakon čega je baza podataka spremna za rad. Korisnici zadaju svoje zahteve za OLAP izveštajima putem interfejsa.

Page 63: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

b. Relacioni OLAP (ROLAP) ROLAP sistemi pristupaju

podacima direktno iz skladišta podataka i rade sa relacionim bazama podataka.

ROLAP sistemi mogu da rade sa velikim skupovima podataka. Čim se odredi izvor podataka, korisnik može započeti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekući podaci.

Kod ROLAP sistema ne postoje ograničenja po pitanju broja dimenzija koja postoje u slučaju MOLAP sistema. Sloj baze podataka Sloj aplikacije Sloj prezentacije

Transakcionisistemi

Skladištepodataka(RSUBP)

RelacioniOLAP

OLAPinterfejs

- paralelni upiti- paralelno učitavanje- paralelno indeksiranje- bit-map indeksiranje- heširanje- veze zvezde- deljenje podataka- backup i recovery- optimizacija troškova- SMP i MPP podrška

- transformacije- dinamička

konsolidacija- složeno filtriranje- predviđanja- obrada izuzetaka- procesiranje u

pozadini- podela upita- raspoređivanje- upravljanje

tokovima- agregacije

- tabele- grafikoni- mape- upozorenja- drill down- isecanje

Page 64: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Karakteristike ROLAP i MOLAP sistema

Neke karakteristike MOLAP i ROLAP sistema:

ROLAP sistemi su optimizovani za pristupanje podacima, dok su MOLAP sistemi optimizovani za prikupljanje podataka.

Prednost ROLAP sistema je što su sumarne tabele kreirane direktno u RSUBP-u, čime se obezbeđuje kratko vreme odziva sistema na upit i što su tabele veoma čitljive.

Višedimenziona analiza moguća je korišćenjem ROLAP i MOLAP sistema,

Za manje količine podataka ROLAP sistemi imaju skoro iste performanse kao i MOLAP sistemi,

MOLAP sistemi nisu pogodni za rad sa velikim skupom podataka,

MOLAP sistemi su manji od ROLAP sistema, te je potrebno manje U/I operacija pri pribavljanju podataka, što uslovljava da su MOLAP sistemi brži.

Page 65: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

c. Hibridni OLAP (HOLAP) HOLAP alati mogu pristupati i relacionim i višedimenzionim bazama

podataka.

Cilj korišćenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vreme odziva sistema i analitičke mogućnosti) i ROLAP alata (dinamički pristup podacima).

Pri tome se ne može reći da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima mogućnost izvršavanja vrlo složenih SQL naredbi.

Cilj je bio da se zadrže sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogućnosti za rad sa višedimenzionim bazama podataka.

Potrebe korisnika su: višedimenzioni pogled na podatke – ovu mogućnost poseduju i MOLAP i ROLAP

alati, odlične performanse sistema – ovu mogućnost poseduju MOLAP alati, analitička fleksibilnost (za potrebe simulacija) – ovu mogućnost poseduju

MOLAP alati, pristup podacima u realnom vremenu – ovu mogućnost poseduju ROLAP alati, veliki kapacitet podataka – ovu mogućnost poseduju ROLAP alati.

Page 66: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Vendori OLAP-a

http://www.olapreport.com

Page 67: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Evaluacija 1. Koja je svrha oblasti za pripremu podataka kod Data Warehouse-a?

Oblast za pripremu podataka je skup procesa koji čisti, transformiše, kombinuje i priprema izvorne podatke za korišćenje u DW.

2. Koja je svrha OLAP-a?

Da obezbedi brz, fleksibilan pristup multidimenzionalnim podacima kako bi korisnici mogli da vrše analize i prave izveštaje.

3. Definišite glavne relacione komponente od kojih se gradi OLAP kocka.

Tabela činjenica – Centralna tabela u Data Warehouse-u koja predstavlja numeričke podatke u kontekstu koji opisuju određeni događaj u poslovanju.Mere – kvantitativna, numerička kolona u tabeli činjenica. Mere obično predstavljaju vrednosti koje korisnici analiziraju.Dimenzija tabele – Tabela u Data Warehouse-u koja predstavlja jedan poslovni objekat ili entitet.

Page 68: Poslovna inteligencija

Uvod u Data mining Otkrivanje znanja (Knowledge Discovering) Definisanje Data mininga Primene Data mininga Data mining modeli Koraci kod izgradnje DM modela OLAP data mining

Page 69: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Data mining i otkrivanje znanja Korisnici informacionih sistema s pravom zaključuju da su im uvođenjem

automatizovanog informacionog sistema obećavali sve i svašta, a dobili su samo gomilu podataka. Čak i najboljem analitičaru je teško da identifikuje ključne informacije koje su relevantne za upravljanje poslovanjem.

Data mining je automatski ili poluautomatski proces koji izvodi značajna pravila ili obrasce iz ogromne količine podataka. Data mining programi analiziraju delove podataka da bi identifikovali veze između naizgled "nepovezanih podataka".

Data mining je proces otkrivanja znanja (Knowledge Discovery in Databases - KDD). koji omogućuje korisnicima da shvate sisteme i veze između njihovih podataka.

Data mining otkriva oblike i trendove u sadržaju ove informacije.

Data mining otkriva relacije našeg svakodnevnog komuniciranja sa podacima.

Page 70: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Definisanje Data mininga Osnovna poruka data mininga jeste da je potrebno da iz ogromne

količine operativnih podataka i veza koje se ne mogu odmah sagledati definišu odgovarajuće relacije, obrasci ponašanja, što u krajnjem slučaju treba da od podataka da potrebne informacije.

Data mining se može definisati kao proces podrške odlučivanju u kojem se traže šabloni infomacija u podacima.

Osnovni cilj data mininga jeste otkrivanje skrivenih veza, predvidivih sekvenci i tačnih klasifikacija.

Ovo pretraživanje može vršiti korisnik, na primer izvođenjem upita (tada je to zaista teško) ili ga može vršiti neki "pametni" program koji automatski pretražuje bazu umesto korisnika i nalazi značajne šablone. Kada se ona nađe, informacija treba da se prezentuje na odgovarajući način, sa grafikonima, izveštajima itd.

Page 71: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Primene Data mininga Reklamiranje na Internetu

Data mining se može koristiti za klasifikovanje grupa klijenata sa sličnim informacijama, kako bi se ciljno reklamiralo.

Kada se korisnik na primer registruje na e-commerce Web sajt koji prodaje sportsku opremu tada DBMS prikuplja informacije o klijentu, kao što su pol, godine, omiljeni sport i dr. Korišćenjem tehnika data mininga, web sajt će prikazivati baner sa motivima golfa za muškarce i dr.

Kada kupujete putem Interneta, ponekad vam se ponude i dodatni proizvodi za koje je Web sajt predvideo da ćete možda biti zainteresovani. Takva preporuka se zasniva na tehnikama data mininga koji pretražuje obrasce klijenata koji su na primer kupili istu knjigu koju vi sada kupujete. Sistem preporučuje: “Ukoliko vam se dopada x knjiga, proverite i sledeće ponuđene knjige”.

Upravljanje kreditnim rizikom

Kada uzimate kredit, banka prikuplja širok opseg informacija o vama, kao na primer prihodi, godine staža, bračni status, kreditna sposobnost itd. Koriščenjem data mining tehnika, banka može da predvidi da li ste dobar ili rizičan klijent za davanje kredita i takva informacija će odlučivati o odobravanju kredita.

Page 72: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Data mining modeli Nekoliko tehnika data mininga vam omogućava identifikovanje obrazaca u ogromnim broju podataka.

Modeli Analysis Services SQL Servera su Drvo odlučivanja (Decision Trees) – popularan metod za klasifikaciju i predviđanje. Korišćenjem serije pitanja i pravila za

kategorizaciju podataka, mogu se predvideti da će izvesni tipovi imati specifične ishode. Na primer, osoba u starosnom dobu između 25-35 godina koja zarađuje 60.000€/godišnje, najverovatnije će biti zainteresovana da podigne kredit za stan nego neko u starosnoj grupi od 15-24 godina. Na osnovu godina, dohotka i dr. istorijskih činjenica, algoritam drveta odlučivanja će izračunati izglede da nekoj osobi trebaju neke određene usluge.

Pravila asocijacije (Association Rules) – ovaj algoritam pomaže u identifikovanju relacija između različitih elemenata. On grupiše po sličnosti, odnosno koristi se za pronalaženje grupe artikala koji se najčešće zajedno događaju u jednoj transakciji. Na primer, koristi se kod unakrsne prodaje gde se beleže veze između artikala i predviđa za koji proizvod će još biti zainteresovan da kupi. Ovaj algoritam može da radi sa enormno velikim katalozima. Bio je testiran na pola miliona artikala.

Naive Bayes – ovaj algoritam se koristi da jasno pokaže različitosti u određenim promenljivama kod različitih elemenata podataka. Na primer, promenljiva: dohodak jednog domaćinstva se razlikuje za svakog klijenta u bazi podataka i može da posluži kao predskazatelj za buduće kupovine.

Sequence Clustering – tehnika klasteringa omogućava grupisanje zapisa podataka koji su slični na osnovu sekvenci prethodnih događaja. Na primer, sa klasteringom možete segmentirati klijente sa sličnim karakteristikama u grupe. Korisnici Web aplikacije često prate različite putanje kroz sajt. Ovaj algoritam može da grupiše klijente prema njihovom redosledu otvaranja stranica na sajtu kako bi pomogli u analizi korisnika i u određivanju koje su putanje profitabilnije od drugih. Ovaj algoritam se takođe može koristiti u predviđanju koju će sledeću stranicu korisnik posetiti.

Vremenske serije (Time Series) – ovaj algoritam se koristi za analizu i prognozu vremenski zasnovanih podataka. Prodaje su najčešće analiziran i prognoziran podatak. Ovaj algoritam traži šablone prolazeći kroz višestruke serije podataka tako da poslovanje može da odredi kako različiti elementi utiču na analiziranu seriju.

Neuronske mreže (Neural Nets) – kao što čovek uči na osnovu iskustva tako može i računar. Neuronske mreže modeluju neuronske veze u ljudskom mozgu i na taj način simuliraju učenje. Ukoliko sastavljate podatke gde su ulazne i izlazne činjenice poznate, računar može da nauči iz tih obrazaca i postavi pravila i matematičke faktore kako bi npr., pomogao izračunavanje ili predvideo izlaznu vrednost. Pretpostavimo da želite da prodate kola, nekoliko faktora utiče na prodajnu cenu kao što su godine, stanje, proizvođač, model itd. Analizirajući cene kola, neuronske mreže mogu da kreiraju seriju ulaznih i izlaznih faktora kako bi predvideli cenu prodaje.

Text Mining – ovaj algoritam analizira nestruktuirane tekstualne podatke. Na primer, kompanije mogu da analiziraju nestruktuirani podatak kao što je deo za komentare gde klijenti unose svoje utiske, zadovoljstvo o proizvodu i druge komentare.

Memorijsko zasnovano prosuđivanje – Memory-based reasoning (MBR) je tehnika data mininga koja se koristi za predviđanje i klasifikaciju. Na primer, ukoliko pacijent ima nekoliko simptoma, doktor će na osnovu iskustva sa sličnim pacijentima dati dijagnozu. Doktor izvršava dijagnozu koristeći oblik MBR-a.

Page 73: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Algoritmi Data Mining-a

Decision Decision TreesTrees

ClusterinClusteringg

Time SeriesTime Series

Sequence Sequence ClusteringClustering

AssociationAssociation

Naïve Naïve BayesBayes

Neural Neural NetNet

Introduced in SQL Server 2000Introduced in SQL Server 2000

LogisticLogisticRegressionRegression

Linear Linear RegressionRegression

Text Mining

Page 74: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Uvodni primer Koji je ključni atribut za predviđanje

da li će svršeni srednjoškolci upisati fakultet ili ne?

Postavljana su im sledeća pitanja: Kog su pola? Koliki je prihod njihovih roditelja? Koliki im je IQ? Da li ih roditelji ohrabruju da nastave

studiranje ili ne? Da li planiraju da upišu fakultet?

Da bi na osnovu prikupljenih podataka utvrdili koliko studenata će nastaviti školovanje, neophodno je da se postavi upit koji broji zapise studenata koji žele i onih koji ne žele da nastave školovanje.

Page 75: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Pretpostavimo da ste zainteresovani da odredite koji atribut ili kombinacija atributa imaju najveći uticaj da predvidi verovatnoću studenata koji će upisati fakultet. Ovo je složeniji upit i zahteva korišćenje tehnika data mininga.

Primenjujući algoritam drveta odlučivanja otkrivene su sledeće relacije: Najuticajniji atribut je ohrabrivanje njihovih roditelja da upišu

fakultet. Oni studenti koje roditelji ohrabruju da upišu fakultet, 60 % planira da upiše fakultet i to uglavnom oni sa visokim IQ..

Uvodni primer (nastavak)

Page 76: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Drvo odlučivanjaUpisaće fakultet:

33% Da67% Ne

Svi studenti

Podsticajod strane roditelja ?

IQ IQ

Upisaće fakultet:57% Da43% Ne

Ohrabrenje roditelja = Da

Upisaće fakultet:6% Da

94% Ne

Ohrabrenje roditelja = Ne

Upisaće fakultet:74% Da26% Ne

Upisaće fakultet:29% Da71% Ne

Visok IQ Nizak IQ

Upisaće fakultet:18% Da82% Ne

Upisaće fakultet:9% Da

91% Ne

Upisaće fakultet:4% Da

96% Ne

Visok IQ

Srednji IQ

Nizak IQ

Page 77: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Koraci kod izgradnje DM modela1. Izbor tehnike data mininga2. Identifikovanje slučaja (case)3. Izbor entiteta koji treba da se predvidi4. Identifikovanje podataka za analizu5. Opciono kreiranje dimenzije i virtuelne kocke iz

rezultujućeg modela6. Obrada modela i prikupljanje rezultata.

Page 78: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Metodologija kreiranja Data Mining modela

Mining model

DMEngine

Podaci za predviđanje

DMEngine

Predvidljivi podaci

Podaci Mining model Da bi kreirali model morate da prikupite skup podatka, gde su atributi koji treba da se predvide unapred poznati.

Podaci se ubacuju u DM model koji ih analizira i traži pravila i obrasce koji bi se kasnije mogli iskoristiti za predviđanje.

Podaci koji se analiziraju su obično:

Istorijski podaci Statistički predstavnik

slučajeva (cases) za koje gradite model.

Slučaj (case) je element koji se koristi za klasifikaciju i grupisanje podataka.

DM engine procenjuje slučajeve i kreira model koji se zasniva na izabranom algoritmu.

Page 79: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Integracija data mininga sa skladištem podataka

Danas se radi na integraciji data mining alata sa skladištem podataka. Postoji više razloga za ovu integraciju.

Prvo, data mining alati zahtevaju postojanje "prečišćenih" i integrisanih podataka. Tradicionalni data mining alati bi iz tih razloga prvo izvršili transfer podataka (možda i stotine gigabajta) putem mreže. Nakon završenog rada često se javlja potreba za novim podacima, što bi značilo da bi se ceo proces transfera morao ponoviti. Pri ovome se neprestano moralo voditi računa o zaštiti podataka i greškama pri prenosu.

Drugi razlog za integraciju data mining alata sa skladištem podataka jeste poboljšani korisnički interfejs. Stariji data mining alati su zahtevali postojanje niza stručnjaka da bi se postigli zadovoljavajući rezultati. Danas, svaki poznavalac SQL jezika može koristiti mogućnosti data mininga.

Treći razlog za integraciju su performanse sistema i mogućnost proširivanja koje obezbeđuje skladište podataka, a koje su potrebne za data mining alate.

Page 80: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Tradicionalni i integrisani prilaz

ograničeni ispecijalizovani

alati

izvoripodataka

skladište podataka i data mining alati

a) tradicionalni prilaz b) integrisani prilaz

server strana

klijent strana

mreža

nestandardniinterfejsi

ODBC

SQL

bilo koji alatdata miningalati

ODBC

Jedan od načina da se ostvari integracija jeste da se kreiraju modeli koji se u bazama podataka predstavljaju tabelama. Na ovaj način se ovim modelima može pristupati upotrebom SQL naredbi. Nakon kreiranja ovih tabela, u njih treba smestiti podatke koje će data mining alati da pretražuju. Obradom podataka, data mining alati će kreirati nove tabele u kojima će smeštati rezultate i koji se mogu pregledati kao i sve ostale tabele (korišćenjem SQL naredbi).

Page 81: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

OLAP data mining OLAP i data mining ne bi trebalo razmatrati kao odvojene

procese već da ih treba u potpunosti spojiti.

Komponente OLAP data mininga su: relaciona baza podataka koja sadrži granularne podatke (ne

mora biti skladište podataka), OLAP koji obezbeđuje brz pristup sumarnim podacima između

više dimenzija, višedimenzioni proces otkrivanja koji će vršiti otkrivanje

između dimenzija i spajati rezultate.

Bez upotrebe OLAP data mininga, moguće je izostaviti ključne informacije ili se mogu dobiti netačni rezultati.

Page 82: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Izgradnja Data Mining modela sa OLAP podacima Uvod u scenario Članske kartice Izbor Data Mining tehnike Izbor slučaja (case) Selekcija entiteta za predviđanje Selekcija podataka za analizu (training data) Kreiranje dimenzije i virtuelne kocke Ispitivanje Data Mining modela

Page 83: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Uvod u scenario Članske kartice Direktor marketinga želi da oceni trenutni program članskih kartica.

Da bi zadržao postojeće klijente i ispunio njihova očekivanja, želi da identifikuje mogućnosti kako bi povećao nivo usluga kod svih kartica: zlatna, srebrna, bronzana i obična.

Raspoložive informacije od klijenata su pol, bračni status, godišnji prihodi, nivo obrazovanja.

Da bi predvideli faktore koji utiču na izbor odgovarajuće kartice koristićemo Data mining:

Koristićemo tehniku drveta odlučivanja da bi pronašli obrazac za izbor članske kartice.

Odabraćemo Klijente kao dimenziju slučaja (case dimension). Odabraćemo Člansku kartu kao informaciju koju će koristiti algoritam

DM da bi identifikovao obrasce. Iskoristiće se raspoložive informacije o klijentima kako bi se pronašao

obrazac. Ispitati drvo odlučivanja.

Page 84: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Izbor tehnike Data Mininga

Page 85: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Izbor slučaja (case)

Page 86: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Selektovanje entiteta za predviđanje

Page 87: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Selektovanje podataka za analizu (training data)

Page 88: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Kreiranje dimenzije i virtuelne kocke

Ukoliko želite na interaktivan ad-hoc način da isptujete drvo odlučivanja onda možete da uključite opciju kreiranja nove dimenzije i uključivanje iste u virtuelnu kocku..

Page 89: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Ispitivanje Data Mining modela

Content Detail – fokus DM modela

Content Navigator – kompletan pogled DM modela; koristi sei za navigaciju kroz drvo odlučivanja i menjanja sadržaja u Content Detail.

Atributi – Predstavlja numeričkeili grafičke prezentacije entiteta za predviđanje

za trenutno izabrani čvor.

Node Path

Page 90: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Ispitivanje zavisnosti mreže

Page 91: Poslovna inteligencija

Business Intelligence Pojam Business Intelligence Problemi postojećih BI sistema Izgradnja dugoročne BI strategije Uloga BICC centra Organizaciona struktura BICC centra Uloge zaposlenih u BICC centru BI framework

Page 92: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Pojam Business Intelligence Business Intelligence (BI) podrazumeva korišćenje tehnologija za

prikupljanje i efektivno korišćenje informacija kako bi se poboljšala poslovna efektivnost.

Idealni BI sistem omogućava zaposlenima, partnerima i dobavljačima lak pristup informacijama, analizu i međusobno deljenje informacija.

BI softver je opšti pojam koji opisuje DSS sisteme, ranije EIS sisteme, data warehouse softvere, ekspertne sisteme i data mining tehnike za interpretiranje podataka.

Danas, BI sistemi predstavljaju stratešku prednost preduzeća. BI su neophodni kako bi se izvukao maksimum iz ERP sistema. Demo na: http://

www.businessobjects.com/global/flash/products/xi_tour/index_flash.asp

Page 93: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Problemi postojećih BI sistema Mnoge današnje organizacije imaju fragmentirane implementacije BI sistema

usled toga što su često ugrađeni u softverske pakete kao što su na primer ERP ili CRM.

Obimni BI alati, sa preklapajućim funkcionalnostima su generalni problem u velikim organizacijama. Kako prosečan broj korisnika BI sistema raste, bez dosledne BI strategije, fragmentacija će nastaviti da raste.

Page 94: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Zašto Business Intelligence?Slaba vidljivost Slaba vidljivost

podataka i reakcija podataka i reakcija na događaje sa na događaje sa

tržištatržišta

Visoki poslovni i IT Visoki poslovni i IT operacioni troškovioperacioni troškovi

Siromašno razumevanje Siromašno razumevanje potreba klijenatapotreba klijenata

Neefikasni lanci Neefikasni lanci vrednosti i lanci tražnjevrednosti i lanci tražnje

Slabe poslovne Slabe poslovne performanseperformanse

Menadžment koristiMenadžment koristi SpreadsheetsSpreadsheets

Briga o privatnosti podataka i Briga o privatnosti podataka i preopterećenosti preopterećenosti

informacijamainformacijama

Današnja informaciona Današnja informaciona tehnologijatehnologija

80% IS 80% IS budžeta ide budžeta ide na poslovanje koje se na poslovanje koje se odvija “kao i obično”odvija “kao i obično”

Page 95: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Data MartData Mart-ovi-oviData Data

WarehousesWarehouses

CRMCRM

LOBLOB

ERPERP

IzvorniIzvornisistemisistemi

Analiza podatakaAnaliza podataka(OLAP, Data Mining)(OLAP, Data Mining)

Zašto je teško postići veći Return Of Information danas…

Unos od strane zaposlenihUnos od strane zaposlenih… … sklon greškamasklon greškama

Višestruka Višestruka rešenjarešenja… … skuplje, skuplje, frustrirani frustrirani korisnicikorisnici

Mnogi diskonektovani sistemiMnogi diskonektovani sistemi……nekompletni podacinekompletni podaci……višestruke verzije istine višestruke verzije istine

Visoko IT uticajVisoko IT uticaj……duže vreme za duže vreme za vrednovanjevrednovanje

Mnoge tačke integracije podatakaMnoge tačke integracije podataka……slab integritet i pouzdanost podatakaslab integritet i pouzdanost podatakaVisok stepen čišćenja podataka i Visok stepen čišćenja podataka i

ponovnog unosa ...ponovnog unosa ...intenzivan radintenzivan rad

Ručno Ručno kodiranjekodiranje

TeTekskst t MiningMining

ETLETL

Page 96: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Obezbeđivanjem uvida u Obezbeđivanjem uvida u poslovanje svim poslovanje svim zaposlenima dovodi do zaposlenima dovodi do donošenja boljih, bržih i donošenja boljih, bržih i relevantnijih odlukarelevantnijih odluka

Business Intelligence

Page 97: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Izgradnja dugoročne BI strategije Rešenje problema je standardizacija BI sistema u organizaciji. BI je često oblast sukobljavanja između IT-a (koji obezbeđuju informacije) i

poslovnih korisnika (koji koriste te informacije za obavljaje svojih poslova). Stoga, je izgradnja međusobnog poverenja na prvom mestu kod standardizacije BI sistema.

Standardizovani interfejs za pristup informacijama bi omogućio: brže odgovore na pitanja korisnika lakšu unakrsnu analizu podataka smanjene troškove bolji risk management veću kokurentnu prednost ...

Drugi korak kod standardizacije BI sistema je otvaranje BI kompententnog centra (BI competency center - BICC) koji bi predstavljao oličenje najbolje poslovne i tehničke prakse u organizaciji. Dosadašnja praksa je pokazala da ukoliko se ne uvede BICC centar, BI standardizacija bi bila samo jedno kratkoročno rešenje koja bi rezultiralo visokim troškovima, frustracijama kod krajnih korisnika i padom poverenja koje bi posle još teže bilo povratiti.

Page 98: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Uloga BICC centra Uloga BICC centra unutar organizacije treba da osigurava dugoročni uspeh BI

standardizacije i strateško korišćenje BI sistema. Organizacija sa BICC može da očekuje:

poboljšanje problema fragmentiranih podataka; bolju kontrolu troškova smanjenjem redundantnosti osoblja, podataka, obrade podataka

i dr.; poboljšanje kvaliteta podataka usklađivanjem različitih projekata koji koriste slične

podatke i poboljšanje sveukupne efikasnosti analize podataka ... Primarne funkcije BICC centra su:

Portfolio menadžment – BICC osigurava da svi novi BI projekti budu u skladu sa sveukupnim BI framework-om.

Standardizacija – osigurava konzistentni analitički pristup korišćenjem BI metodlogija i alata, obezbeđenjem poslovnih inputa u data warehousing projekte i sveukupne arhitekture podataka preduzeća.

Obuka i edukacija Podrška važnim korisnicima – BICC pomaže razvoju kompleksnih analiza. Knowledge menadžment – BICC osigurava najbolju BI praksu i kontinualni proces

poboljšanja BI sistema. Podrška dobavljačima – BICC pruža podršku ključnim dobavljačima (vendor)

deljenjem informacija, upgrade-ovanje softverskih verzija i dr.

Page 99: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Organizaciona struktura BICC centra U zavisnosti od tipa organizacije i BI strategije, org. struktura BICC

centra može da bude: centralizovana – dobija se celokupna slika BI implementacija, ali se

može suviše udaljiti od poslovanja distribuirana – može se izgubiti celina virtuelna – ne postoji univerzalno rešenje, treba izvagati prednosti i

mane jednih i drugih.

Page 100: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Uloge zaposlenih u BICC centru

Centar mora da sadrži eksperte za analitiku, biznis i IT: Biznis eksperti razumeju potrebe poslovnih korisnika i imaju

njihovo potpuno popoverenje. Oni treba da razumeju potrebe poslovnih jedinica kao što su prodaja i marketing, ljudski resursi, upravljanje lancem vrednosti i dr., da povežu BI sa strategijskim ciljevima preduzeća i da su sposobni da pomognu menadžerima da postave prioritete kod analiza odluka, ROI modela i poslovnih scenarija.

Analitičari treba da znaju da istražuju poslovne probleme, da kreiraju modele koji pomažu u analizi tih problema, istražuju podatke kako bi pronašli šablone, značajne relacije između podataka, anomalije i trendove, da rade sa IT odelenjem kako bi identifikovali podatke za analize ili aplikacije, da koriste niz tehnika od jednostavnih agregacija do statističkih analiza i kompleksnih tehnika data mining-a, da razvijaju i održavaju lakoću korišćenja analitičkih alata, da izvode zaključke o relevantnim informacijama i preporuče rešenje i da obučavaju korisnike kako da koriste podatke.

IT stručnjaci treba da shvate kakav će uticaj imati BI infrastruktura na poslovanje i analitičke zahteve, da razumeju BI alate i tehnologije i data warehouse i način pristupa i upavljanja podacima neophodnih za podršku poslovanju i analizu.

BICC centar mora da zna kako se informacija koristi, kako izvršiti analize i kako se te analize koriste da bi se olakšalo donošenje odluka i pokretanje akcija.

Page 101: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

BI Framework Primarna funkcija BICC centra je da se kreira BI framework koji će

uskladiti različite BI inicijative na različitim nivoima u organizaciji.

informacioni nivo

nivo znanja

nivo profita

Page 102: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

BI framework Najniži “informacioni” nivo je osnova BI framework-a i zahteva tehničku i organizacionu

spremnost. Tehnička spremnost (technical readiness) – predstavljaju tehničke kriterijume za uspešan BI,

uključuju: operacione sisteme – BI analize su često ograničene kvantitetom i kvalitetom podataka koji su

skladišteni u ovim sistemima. Infrastrukturu za prevođenje podataka iz operacionih sistema u podatke pogodne za BI. Infrastrukturu skladištenja – skladištenje detaljnog nivoa podataka iz višestrukih sistema i data

warehouse-a/data mart-ova koji skladište istorijske podatke u formatu optimizovane za vršenje upita.Cilj tehničke spremnosti je balansiranje efikasnosti i fleksibilnosti.

Organizaciona spremnost (organizational readiness) – efektivno korišćenje informacija zahteva nešto više od tehničke arhitekture. Ovaj deo famework-a ističe kako najbolje uvesti BI sistem, uzima u obzir sledeće kriterijume: Strateške ciljeve kompanije – Da li su vaši korporativni ciljevi u skladu sa BI strategijom? Stilove odlučivanja – Kako se donose odluke u vašoj organizaciji? Da li BI podržava i olakšava

dogovor oko podataka? Raspoloživost analitičkih sposobnosti – da li organizacija poseduje analitičke veštine kako bi

iskoristila sve prednosti BI sistema? Ukoliko ne sadrži, ko bi se trenirao ili zaposlio i u kojim oblastima? Preovlađujuća informaciona kultura – Da li postoji kultura koja omogućava deljenje informacija i sa

poslovnim partnerima i klijentima?

Page 103: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Nasatavak kriterijuma organizacione spremnosti Tipove korisnika – koji su tipovi BI korisnika u organizaciji? Konkurentno okruženje – Kako vaši konkurenti koriste BI? Da li oni bolje razumeju

ponašanje klijenata? Da li oni podstiču odnose sa klijentima tako što dele BI informacije sa njima?

Ekonomsko okruženje – u današnjoj globalnoj ekonomiji, prioriteti u poslovanju se rapidno menjaju. Kako to utiče na sposobnost organizacije da koristi BI? Da li se može koristiti za dobijanje brze, tačne procene finansijskih akcija u različitim regionima ili tržištima? Da li može da upozori na efekte neočekivanih promena u tražnji? Može li pomoći u strateškom planiranju?

Postojeća globalizacija – Sa trendom globalizacije, da li je vaša organizacija spremna da iznese BI sa infrastrukturom koja će biti prilagođena podršci korisnika i klijenata širom sveta, različitim jezicima i sa mnogim ne standardnim okruženjima?

Proširena organizacija – da li vaša organizacija sarađuje sa partnerima kako bi obezbedila robu i usluge klijentima? Kako delite informacije sa njima? Da li obezbeđujete informacije klijentima?

Drugi sloj na BI framework-u je nivo znanja koji se bavi efektivnim uvođenjem BI sistema. Ovo će u mnogome zavisiti od BI aplikacija i implementacije najbolje prakse BI projekata.

Treći i finalni sloj je nivo profita koji se bavi korišćenjem informacija kako bi se uticalo na promene načina poslovanja.

Page 104: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Implementacija BI metodologije BI model je rezultat rada analitičara iz kompanije Gartner Group* i organizacija koje su uspešno

implementirale BI sisteme. Korišćenje Bi metodologije pruža jedan koristan alat za razumevanje i unapređenje koraka za uspešan

razvoj i implementaciju BI sistema. Metodologija identifikuje 5 koraka u razvoju BI sistema.

*Gartner, Inc. je najveća svetska kompanija za istraživanje i konsalting u oblasti inormacionih tehnologija.

Page 105: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Faze BI metodologije Oblast (Scope) – često zanemaren aspekt BI projekata. Za svaki predloženi projekat treba sagledati tehničke i

organizacione zahteve i ciljeve preduzeća. Na osnovu ovoga se određuje da li su adekvatno određene granice projekta i da li odgovaraju trenutnim prioritetnim ciljevima organizacije.

Projektovanje (Design) - u fazi projektovanja se procenjuju potrebe korisnika i uključuje predefinisani set ključnih indikatora performansi (Key performance indicators – KPIs) koje zahteva krajnji korisnik. KPI treba da se formulišu bez obzira na raspoloživost informacija – cilj je prikupiti poslovne zahteve iako je podrška istih trenutno nepraktična. Faza dizajna obuhvata i izbor odgovarajuće BI tehnologije, kao i određivanje koji su neophodni informacioni izvori, uključujući kvalitet informacija i transformacije neophodne da bi informacije bile pogodne za analizu.

Izgradnja (Build) – Izgraditi prototip ili testirati okruženje. Celokupan proces protoka informacija unutar organizacije treba da se modeluje. Faza dizajna i izgradnje oduzimaju najviše vremena i resursa.

Uvođenje (Deploy) – uvođenje rešenja kod krajnjih korisnika. Bez obzira na korišćenu tehnologiju, uspeh projekta će u mnogome zavisiti od kvalitetne obuke i podrške krajnjim korisnicima. Ova faza zahteva jedan iterativni pristup obučavanja i izlaženja u susret potrebama korisnika. Ova faza će uključiti i razvoj predefinisanih izveštaja i analize.

Proširivanje (Evolve) – cilj ovog koraka je merenje uspešnosti projekta, odnosno koliko su raspoložive informacije korisne za donošenje odluka, zatim povećanje eksternog i internog deljenja informacija. Otkrivanje (Discovery) – obično organizacija ne shvata svrhu centra sve dok se ne postavi. Kooperativnim radom krajnji

korisnik i BICC centar izgrađuju okruženje za kreiranje rešenja. Pristupanje (Access) – Identifikovanjem indikatora i vrednosnih informacija tokom prethodnog koraka, krajnji korisnik

počinje da prati, razume i upravlja informacijama koje ga vode ka dubljim pogledima. Odlučivanje (Decide) – Krajnji korisnik odlučuje na osnovu novih informacija. Deljenje (Share) – Odluke i analize se dele sa drugima unutar organizacije. Promene (Change) – Permanentne promene mogu dovesti do fundamentalnog reinženjeringa.

Nakon što je ciklus završen, treba početi nanovo od prvog koraka, ali sa metodologijom koja radi na novom nivou fokusa i to analiza, reevaluacija, modifikacija, optimizacija i podešavanje.

Page 106: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Razmatranje potreba korisnika Pažljivo razmatranje potreba korisnika je ključno kod bilo kog BI projekta.

Analizirati svaki segment korišćenjem brojnih kriterijuma: Funkcionalna kompleksnost – Potreba za naprednim BI funkiconalnostima kao što su

segmentacija, statističke analize, predviđanje, vizuelizacija i mapiranje. Dubina podataka – Potreba za pristupom detaljnim informacijama. Širina podataka – Potreba za pristupom i poređenjem informacija iz nekoliko

različitih sistema. Lakoća korišćenja Kastimizacija – potreba za visoko kastimiziranim interfejsom.

Korisnici BI sistema su: analitičari – BI je fokusiran na ove ljude, pojedince čija je glavna uloga da prati,

razumeju i upravljaju informacijama kako bi ih prosledili drugima u organizaciji. radnici opšteg znanja – uloga ovih pojedinaca je da odlučuju i u poređenju sa

analitičarima, njima je uglavnom potreban interfejs koji je lak za korišćenje i koji je fokusiran na posebnu oblast podataka.

izvršioci i menadžeri – uglavnom žele da vide informacije koje se zasnivaju na ključnim indikatorima performansi, očekivanjima i trendovima pre nego da se fokusiraju na detaljnu analizu.

klijenti i partneri – web interfejs je kastimiziran i pokazuje limitiran skup informacija.

Page 107: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Edukacija i transfer znanja Edukacija je vitalni deo BICC centra. Za svaki definisani segment korisnika, treba da se sprovede strategija

edukacije koja uključuje: Obučavanje za korišćenje alata – Obučavanje kako na najbolji način koristiti

izabrane BI standarde. BI softveri su obično vrlo fleksibilni. Obuka za korišćenje podataka – Ovo je najvažniji deo gde se korinik obučava

da koristi raspoložive podakte i da analizira njihov uticaj na poslovanje. Deljenje znanja – treba da se kreira zajednica samoukih korisnika koji će

međusobno deliti najbolje prakse.

BICC centar treba da sarađuje sa vendorima koji treba da izađu u susret kriterijumima BI framework-a, da pruže teničke usluge za implementaciju i održavanje BI infrastrukture i da pruže strateški konsalting za pomoć u implementaciji BICC.

Page 108: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Data acquisition Data acquisition from source from source systems and systems and integrationintegrationData Data transformation transformation and synthesisand synthesis

Data Data enrichment, enrichment, with business with business logic, logic, hierarchical hierarchical viewsviewsData discovery Data discovery via data miningvia data mining

Data Data presentation presentation and and distributiondistributionData access Data access for for everyoneeveryone

IntegrateIntegrate AnalyzeAnalyze ReportReport

Microsoft Business Intelligence

Delivering the CompleteDelivering the CompleteBusiness Intelligence ToolsetBusiness Intelligence Toolset

Page 109: Poslovna inteligencija

Servisi integracije Zašto je bitan ETL Arhitektura integracije podataka

Page 110: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Spaja podatke iz heterogenih skladišta podataka: tekst fajlovi spreadsheets RDBMS ...

Osvežava podatke iz data warehouses i data mart-ova

Čisti podatke pre punjenja Brzinsko punjenje podataka u online

transaction processing (OLTP) i online analytical processing (OLAP) baze podataka

Šalje status uspešno/neuspešno Izgradnja BI bez potrebe za

redundatnom fazom tranformacije podataka

Automatske funkcije administriranja podataka

Zašto je bitan ETL?

Page 111: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Arhitektura integracije podatakaPre servisa integracije

Call centre data: semi structured

Legacy data: binary files

Application database

ETL Warehouse

Reports

Mobiledata

Data mining

Alerts and escalation

Integracija i warehousing zahtevaju odvojene operacije. Pripremanje podataka zahteva različite, često nekompatibilne alate. Izveštavanje je spor proces, usporava pametne odgovore.

Handcoding

StagingText Mining

ETL Staging

Cleansing &

ETL

Staging

ETL

Page 112: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Call centre: Semi-structured data

Legacy data: Binary files

Application database

Alerts and escalation

Pripremanje i punjenje podataka se odvija u jednom procesu. Izveštavanje se odvija paralelno sa punjenjem warehouse-a.

SQL Server Integration Services

Text miningcomponents

Customsource

Standardsources

Data cleansingcomponents

Merges

Data miningcomponents

Warehouse

Reports

Mobiledata

Arhitektura integracije podatakaSa servisima integracije

Page 113: Poslovna inteligencija

Analitički servisi Zašto su bitni OLAP i Data Mining Vrednosti Data Mining-a Algoritmi

Page 114: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Zašto su OLAP i Data Mining bitni? Jedna verzija istine Moćno modeliranje poslovnih informacija Integrisani pogledi Relacionog & OLAP-a Najbolje od MOLAP-a do ROLAP-a Obogaćeni podaci i napredna analitika Key Performance Indicators Visoke performanse

Podaci u realnom vremenu u OLAP kockama Vrlo brze i fleksibilne analitike

XML standardi za pristup podacima i integracija sa Web servisima

Ušteda u vremenu i troškovima kod integracije sa drugim sistemima

Page 115: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

SQL Server 2005SQL Server 2005

OLAP

Reports (Ad Hoc)

Reports (Static)

Data Mining

Easy Difficult

Usability

Rel

ativ

e B

us

ine

ss V

alu

eVrednosti Data Mining-a

Page 116: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Algoritmi

Decision Decision TreesTrees

ClusterinClusteringg

Time SeriesTime Series

Sequence Sequence ClusteringClustering

AssociationAssociation

Naïve Naïve BayesBayes

Neural Neural NetNet

Introduced in SQL Server 2000Introduced in SQL Server 2000

LogisticLogisticRegressionRegression

Linear Linear RegressionRegression

Text Mining

Page 117: Poslovna inteligencija

Servisi izveštavanja Zašto je bitno izveštavanje Arhitektura

Page 118: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Bolje odlučivanje u čitavoj organizaciji

Izgradnja izveštaja nad višestrukim izvorima podataka

Omogućava interaktivni pristup podacima

Omogućava krajnjem korisniku da napravi sopstveni ili modifikuje postojeći izveštaj

Obezbeđuje izveštaje u formatu koje korisnik želi

Sa lakoćom integriše izveštaje u aplikacije

Zašto je bitno izveštavanje?

Page 119: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Arhitektura

SQL Server CatalogSQL Server Catalog

Report ServerReport Server

Programmatic InterfacesProgrammatic Interfaces

DeliveryDelivery

Delivery ChannelsDelivery Channels(E-mail, SharePoint,(E-mail, SharePoint,

Custom)Custom)

Security ServicesSecurity Services(NT, Passport, (NT, Passport,

Custom)Custom)

SecuritySecurityData ProcessingData Processing

Data SourcesData Sources(SQL, OLE DB, XML/A, (SQL, OLE DB, XML/A, ODBC, Oracle, Custom)ODBC, Oracle, Custom)

RenderingRendering

Output Formats Output Formats (HTML, Excel, (HTML, Excel, TIFF, Custom)TIFF, Custom)

BrowserBrowser

Web UIWeb UI

Report ProcessingReport Processing

OfficeOffice Custom AppCustom AppBuilderBuilder

Report ModelReport Model

Page 120: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

BI sa Office “12”Analyze data in Excel and Create Office documents based on business data

Publish spreadsheets and documents to SharePoint

Reuse spreadsheets, reports,and documents in dashboards and business applications

Access and explore data in spreadsheets, reports, and

documents in the Portal

Best with SQLBest with SQL

Page 121: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Secure bySecure byDefaultDefault

Secure by Secure by DesignDesign

Secure inSecure inDeploymeDeployme

ntnt

Business Intelligence

Trustworthy Computing is built on three pillars:Trustworthy Computing is built on three pillars:SecuritySecurityPrivacyPrivacyReliabilityReliability

http://www.microsoft.com/twc

SecuritySecurityPrivacyPrivacy

ReliabilityReliability

Page 122: Poslovna inteligencija

Projektovanje informacionih sistema Doc. dr Angelina Njeguš

Realni projekti BI u praksi

Project REAL Technical Overview

Project REAL: Analysis Services Technical Drilldown

SQL Server 2005 Integration Services: Lessons from Project REAL

Business Intelligence ETL Design Practices

Analysis Services 2005 Migration

Project REAL: Data Lifecycle – Partitioning

Inventory Predictive Modeling via Microsoft SQL Server 2005 Analysis Services

Developing Custom Components in SQL Server Integration Services for Project REAL

http://www.microsoft.com/SQL/BI/ProjectREAL