poslovna inteligencija
DESCRIPTION
BITRANSCRIPT
Uvod u Data Warehousing i OLAP OLTP sistemi Data Warehousing Razvoj skladišta podataka Arhitektura dimenzionog modela OLAP sistemi
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Pregled sadržaja Uvod u Data Warehousing
Razumevanje data warehouse sistema je veoma bitno kada se projektuju i implementiraju sistemi za podršku odlučivanju.
Projektovanje Data Warehouse Pre nego što se kreira OLAP baza podataka, neophodno je razumeti
komponente data warehouse-a koje se koriste pri izgradnji OLAP baze podataka.
Definisanje OLAP rešenja OLAP tehnologija predstavlja jednu alternativu tehnologiji relacione
baze podataka. OLAP nudi brzi i fleksibilan pregled podataka, analizu i navigaciju.
Razumevanje OLAP modela i primena OLAP kocke Kako primeniti koncepte projektovanja Data Warehouse-a da bi se
projektovali i kreirali OLAP modeli. Opisuju se osnove OLAP kocke demonstriranjem metoda za
vizuelizaciju multidimenzionalnih baza podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Sirovi podaci vs. poslovne informacije Kompanija svakodnevno prikuplja velike količine podataka. Ti podaci su često sirove
činjenice koje odražavaju tekuće stanje poslovanja.
Sirov podatak: Maloprodajni lanac prodavnica internacionalne muzičke kuće prikuplja podatke
o prodaji za svaki kupljeni proizvod, podatke o obrtu kapitala i dr. Sirov podatak opisuje na primer, da lanac prodavnica u Beogradu prodaje 10000 evra vrednosti prodate robe u Junu 2003.
Finansijska institucija prikuplja podatke o svim računima i ušteđevinama klijenata. Sirov podatak na primer, može pokazati da je Sefan M. podigao 50 evra sa svog računa jutros u Amsterdamu.
Izvedene informacije: S obzirom da je vrednost prodate robe u 2002. godini iznosio 15.000 evra, a
postavljen cilj za 2003. godinu je bio 20.000 evra, očigledno je da lanac prodavnica u Beogradu nije ispunio željeni cilj. Analiza poslovanja treba da odredi posledice pada prodaje. Pitanja koja se postavljaju su: Koji se proizvodi prodaju, a koji ne?, Koji je efekat promocije proizvoda?.
Stefan živi u Beogradu, ali u proteklih pet meseci, Stefan je podizao novac u Londonu, Oslo-u, Stockolm-u, što dovodi do zaključka da on često putuje po Evropi. S toga bi možda on bio zainteresovan za specijalnu kreditnu karticu koji mu omogućava neograničen pristup svom računu u 16 različitih zemalja uz odgovarajuću godišnju članarinu. Pitanja koja se postavljaju nakon ove analize su: Koji je prosečan dnevni bilans njegovog računa?, Za koje proizvode bi bio zainteresovan?
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
OLTP sistemi OLTP (on-line transaction processing) sistemi su operacioni sistemi
koji prikupljaju poslovne transakcije i snabdevaju podacima data warehouse ili data mart.
Skladište podataka (Data Warehouse – DW) je analitička baza podataka namenjena samo za čitanje i koristi se kao osnova sistema za podršku odlučivanju.
Primeri OLTP operacionih sistema: aplikacije praćenja porudžbina, aplikacije usluga klijenata (npr., otvaranje računa klijentima), bankarske funkcije (npr, depoziti) itd.
Jedna od karakteristika koja razdvaja transakcione sisteme od analitičkih jeste dizajn baze podataka: Transakcioni sistemi su dizajnirani tako da preuzimaju podatke, vrše
izmene nad postojećim podacima, daju izveštaje, održavaju integritet podataka i upravljaju transakcijama što je brže moguće.
Analitički sistemi nisu predviđeni da obavljaju ove poslove. Oni se dizajniraju za veliki broj podataka namenjenih samo za čitanje, obezbeđujući informacije koje se koriste za donošenje odluka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Data Warehousing (DW) Skladištenje podataka - DW je proces integracije podataka u jedan
repozitorijum iz kojeg krajnji korisnici mogu sprovoditi ad-hock analize podataka i praviti izveštaje.
Karakteristike DW:Organizacija. Podaci su organizovani po predmetu i sadrže relevantne informacije za podršku odlučivanju.Konzistentnost. Podaci u različitim operacionim bazama podataka se drugačije šifriraju. U DW ti podaci će biti šifrovani na konzistentan način.Vremenski. Podaci se čuvaju mnogo godina kako bi se iskoristili za praćenje trendova, prognoze i vremensko poređenje.Multidimenzionalni. Obično data warehouse koristi multidimenzionalnu strukturu.Web-zasnovani. Danas je DW dizajniran tako da obezbedi jedno efikasno okruženje za web zasnovane aplikacije.
Warehousing koncept je skladištenje agregiranih, ekstrahovanih i filtriranih podataka u meta baze, koje omogućavaju slojevit, multidimenzionalni pristup podacima, kakav je potreban za donošenje odluka najvišeg strateškog nivoa.
Skladište podataka je informaciona baza podataka dizajnirana za podršku jedne ili više klasa analitičkih zadataka, kao što su nadgledanje i izveštavanje, analiza i dijagnoza i simulacija i planiranje.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Komponente DW sistema DW sistem sadrži mnoge komponente koje prenose podatke sa izvornih
sistema do korisnika koji izvršavaju analizu podataka:
Izvori podataka – Izvorni sistemi su operacioni sistemi, npr. OLTP sistemi koji mogu biti relacioni.
Oblast za pripremu podataka – skup procesa koji čisti, transformiše, povezuje i priprema izvorne podatke za korišćenje u DW. Podaci se transformišu u konzistente formate. Oblast za pripremu podataka se nalazi na jednom ili nekoliko kompjutera, ne mora da bude zasnovana na relacionoj tehnologiji, ne podržava koristničke izveštaje.
Data Mart – je podskup DW koji sadrži podatke specifične za određenu poslovnu aktivnost kao što su finansije ili analiza klijenata. Data martovi mogu biti uključeni u DW, mogu se izgraditi u relacionim ili OLAP bazama podataka i mogu detaljne ili sumarne podatke koje se mogu ili ne deliti kroz data mart-ove.
Data Warehouse – može se definisati i kao virtuelna unija data mart-ova sa integrisanim informacijama koje su deljive kroz data mart-ove ili kao centralizovano, integrisano skladište podataka koje obezbeđuje podatke data mart-ovima.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Komponente DW sistemaData Warehouse
Pristup podacima
Korisnički pristup podacimaIzvori
podataka
Ulazni podaci
Oblast za pripremu podataka
Data Mart-ovi
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Razvoj skladišta podataka Pri izgradnji skladišta podataka najbitniji su sami podaci, a ne
poslovni procesi i funkcije, kao što je to slučaj sa transakcionim sistemima.
Za razvoj skladišta podataka potrebno je:1. izvršiti analizu izvora podataka,2. pripremiti podatake,3. izgraditi skladište podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Razvoj skladišta podataka
Analiza izvora podatakaAnaliza izvora podataka
Pripremanjepodataka Izgradnja
DW
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
1. Analiza izvora podataka Osnovni izvori podataka za koncept skladišta podataka su
operativni (transakcioni), tzv. OLTP (On-Line Transaction Processing) podaci, kao i spoljne informacije nastale kao istorija poslovanja ili industrijski i demografski podaci uzeti iz velikih javnih baza podataka.
Analiza izvornih podataka se smatra ključnim elementom i oduzima 80% vremena, jer je potrebno definisati odgovarajuća pravila za preuzimanje podataka iz izvornih podataka. Znanja vezana za ovu oblast su najčešće u glavama onih koji treba da koriste skladište podataka.
Analiza izvora podataka prolazi kroz sledeće faze:1.1. Prikupljanje zahteva,1.2. Planiranje skladišta podataka,1.3. Izbor tehnike analize podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
1.1. Prikupljanje zahteva U ovoj fazi razvoja skladišta podataka, razmatraju se poslovne potrebe i
zahtevi budućih korisnika sistema.
Prikupljanje izvornih (source-driven) zahteva Metoda bazirana na definisanju zahteva korišćenjem izvornih podataka u
proizvodno-operativnim sistemima. Ovo se radi analiziranjem ER-modela izvornih podataka.
Glavna prednost: podržavanje svih podataka, svođenje na minimum vreme potrebno korisniku u ranim fazama (stanjima)
projekta.
Nedostaci: umanjivanjem kosrisnikovog učešća povećava se rizik od promašaja ispunjenja
zahteva korisnika, oduzima dosta vremena.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
1.1. Prikupljanje zahteva (nastavak)Prikupljanje korisničkih (User-Driven) zahteva Prikupljanje korisničkih zahteva je metoda koja se bazira na definisanju
zahteva istraživanjem funkcija kojima korisnik teži, odnosno koje korisnik izvršava. Ovo se obično postiže kroz seriju sastanaka i/ili intervjua sa korisnikom.
Glavna prednost ovog pristupa je što se koncentriše na ono što je potrebno, a ne na ono što je dostupno.
Ovaj pristup proizvodi upotrebljivo skladište podataka u kraćem vremenskom periodu.
Postupak prikupljanja zahteva: Intervjuisanje ključnih ljudi u organizaciji, npr: analitičari, menadžeri i izvršioci. Utvrditi protok informacija u i iz svakog odelenja (koji izveštaji i dokumentacija
pristižu u odelenje, kako se koriste, ko ih koristi, koliko često pristižu itd. Dobijene podatke organizovati u nekoliko sekcija, kao što su:
Podaci o analizi (podaci o svim vrstama analiza koje se trentuno koriste) i Zahtevi vezani za podatke (opis svih polja podataka koja se koriste, novi detalja, izvori).
Organizovane podatke proslediti svim učesnicima intervjua radi mišljenja i eventualnih korekcija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
1.2. Planiranje skladišta podataka Planiranje skladišta podataka sastoji se od sledećih zadataka:
• Definisanje obima projekta,• Kreiranje projektnog plana,• Definisanje tehničkih uslova,• Definisanje resursa, zadataka i vremenskih rokova.
Pre početka razvoja projekta treba da se razmotri arhitektura i infrastruktura skladišta podataka:
Tehnička infrastruktura – podrazumeva razne tehnologije, platforme, baze podataka i ostale komponente koje podržavaju izabranu arhitekturu skladišta podataka. Tehnička infrastruktura uključuje i izbor instalacije baze podataka, podešavanje mrežnog okruženja, kao i izbor i instalaciju alata za rad sa bazom podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
1.3. Izbor tehnike analize podataka Skladište podataka se gradi da bi se obezbedio lako pristupačan izvor podataka
visokog kvaliteta.
Postoji nekoliko tehnika analize podataka:a. Upiti i izveštaji,b. Višedimenzionalne analize ic. Data mining.
a. Upiti i izveštaji - Tehnike analize podataka mogu uticati na tip odabranog modela podataka i njegov sadržaj. Na primer, ako je namera da se obezbedi jednostavna mogućnost upita i izveštaja, model podataka koji struktuira podatke na normalizovani način verovatno će obezbediti najbrži i nalakši pristup podacima. Mogućnost upita i izveštavanja se primarno sastoji od biranja povezanih elemenata podataka, eventualnog njihovog sumiranja i grupisanja u neku kategoriju i prezentovanja rezultata.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
b. Višedimenzionalna analiza Višedimezionalna analiza - je način da se prošire mogućnosti upita i
izveštaja. Ovo znači da se umesto izvršavanja višestrukih upita podaci struktuiraju da bi se omogućio brz i lak pristup odgovorima na pitanja koja se tipično postavljaju.
Na primer, interesuje vas koliko je određenih proizvoda prodato određenog dana, u određenoj prodavnici i u određenom rasponu cena. Onda za dalju analizu želite da znate koliko prodavnica je prodalo određeni proizvod, u određenom rasponu cena, određenog dana. Ova dva pitanja zahtevaju slične informacije, ali jedna posmatrane iz ugla proizvoda, a druga iz ugla prodavnice.
Višedimenzionalna analiza zahteva model podataka koji će omogućiti da se podaci lako i brzo mogu pogledati iz bilo koje moguće perspektive ili dimenzije.
Pošto se koristi više dimenzija, model mora da obezbedi način da se podacima brzo pristupa (ako se koriste visoko normalizovane strukture podataka, biće potrebno mnogo grupisanja između tabela koje sadrže različite dimenzije podataka i mogu značajno uticati na performanse).
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
c. Tehnika analize podataka – Data mining Data mining je relativno nova tehnika analize podataka.
Tehnika otkrivanja - Veoma je različita od upita i izveštaja, kao i od višedimenzionalnih analiza, po tome što koristi tehniku otkrivanja. Ovo znači da ne pitate određeno pitanje već koristite određene algoritme koji analiziraju podatke i izveštavaju šta su otkrili.
Za razliku od upita, izveštaja i višedimenzionalnih analiza, gde je korisnik morao da kreira i izvršava upite zasnovane na hipotezama, data mining traži odgovore na pitanja koja ne moraju biti prethodno postavljana.
Otkrivanje može imati formu pronalaženja značaja u vezama između određenih elemenata podataka, klasterisanja određenih elemenata podataka ili neki drugi obrazac u korišćenju određenih skupova elemenata podataka. Nakon iznalaženja ovih obrazaca, algoritmi mogu da iz njih izvedu pravila. Ova pravila tada mogu biti korišćena da se generiše model koji ima željeno ponašanje, identifikuje veze među podacima, otkriva obrasce i grupiše klastere zapisa sa sličnim atributima.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
2. Priprema podataka U procesu razvoja skladišta podataka priprema podataka je jedna
od najbitnijih aktivnosti. Dalji proces razvoja skladišta podataka biće uspešan samo ako je ova aktivnost uspešno završena.
Priprema podataka se vrši na osnovu ranije određenog izvora podataka, pravila za preuzimanje tih podataka, procedure pripreme i zahteva korisnika. Priprema se vrši određenim ekstrakciono-transformacionim alatima kroz sledeće korake: Ekstrakcija i čišćenje podataka, Transformacija podataka.
Rezultat ovih aktivnosti treba da budu podaci koji će nam omogućiti generisanje meta podataka, na osnovu kojih se može pristupiti dizajnu skladišta podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
2.1. Ekstrakcija i čišćenje podataka Ova faza se sastoji od sledećih zadataka:
a. razvoj procedura za ekstrakciju podataka,b. razvoj procedura za čišćenje podataka.
a. Razvoj procedura za ekstrakciju podataka Podaci koji će se koristiti u skladištu podataka moraju se ekstrahovati iz
transakcionih sistema (baza podataka u okviru nekog sistema) koji sadrže te podatke.
Podaci se inicijalno ekstrahuju u procesu kreiranja skladišta podataka, a kasnije se na osnovu određnih procedura vrši dodavanje novih podataka u skladište podataka.
Ekstrakcija podataka je vrlo jednostavna operacija, ako se potrebni podaci nalaze u jednoj relacionoj bazi, ali može da bude i veoma kompleksna operacija, ako su podaci smešteni u višestrukim heterogenim transakcionim sistemima. Cilj procesa ekstrakcije podataka je da sve potrebne podatke, u pogodnom i konzistentnom formatu, pripremi za učitavanje u skladište podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
b. Razvoj procedura za čišćenje podataka Zbog problema koji se prilikom ekstrakcije podataka javljaju, podaci
dobijeni ekstrakcijom se moraju "čistiti". Čišćenje podataka podrazumeva: proveru postojanja logičkih grešaka, "poboljšanje" podataka i eliminisanje ostalih grešaka.
Provera logičkih grešaka uključuje proveru vrednosti atributa usled različitog označavanja pojmova, proveru atributa u kontekstu ostalih podataka u redu, proveru atributa u kontekstu redova druge tabele koja je povezana, proveru veza između redova iste ili povezanih tabela (provera prenesenih ključeva).
"Poboljšanje" podataka je proces čišćenja kojim se teži da podaci dobiju puno značenje. Primer za ovo su podaci o imenima i adresama.
Eliminisanje ostalih grešaka je proces u kome se odlučuje o sudbini podataka koji su nepotpuni ili nemaju veliko značenje. Ovi podaci se mogu odbaciti, privremeno smestiti i popraviti ili smestiti u skladište podataka sa tim svojim nesavršenostima.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
2.2. Transformacija podataka U ovoj fazi potrebno je:
definisati izvore podataka i tipove transformacija koje treba izvršiti nad podacima i
ostvariti mapiranje podataka iz izvorišta u odredišta.
Pre početka procesa transformacije podataka, tim stručnjaka koji radi na projektu dizajniranja skladišta podataka definiše fizički model podataka za skladište podataka i generiše šeme.
Faza mapiranja i transformacije podataka sastoji se od sledećih zadataka:a. kreiranje plana transformacije podataka,b. razvoj procedura za transformaciju podataka,c. razvoj procedura za učitavanje podataka,d. testiranje procedura,e. generisanje meta podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
a. Kreiranje plana transformacije podataka Planom je potrebno odrediti najbolji put migracije izvornih podataka do
skladišta podataka. Analiziraju se raspoloživi resursi, količina izvornih podataka, različite izvorne šeme, različiti načini pristupanja podacima, struktura skladišta podataka i potreban broj agregacija. Planom se dokumentuju sve izvorne platforme, metode pristupa i programski jezik koji je potreban za ekstrakciju podataka.
Prelazne šeme - Obično se izvorni podaci prvo smeštaju u prelazne šeme. Prelazne šeme su zajednički interfejs za sve izvorne sisteme. One se ne podudaraju u potpunosti ni sa izvornim ni sa odredišnim šemama. Koriste se da bi se poboljšali procesi "čišćenja" i transformacije podataka.
Analiza izvora podataka - Nakon kreiranja plana transformacije podataka, prelazi se na analizu izvora podataka. Potrebno je odrediti koji će se podaci mapirati u odredišni sistem i koja je to logika potrebna da bi se izvršila migracija podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
b. Razvoj procedura za transformaciju podataka Pod transformacijom podataka se podrazumeva proces kojim se usklađuju
različiti načini prikazivanja podataka različitih sistema u jedinstveni oblik. Na primer, neki sistemi mogu označavati pol ljudi sa 1 za muški pol i 2 za
ženski pol. Ako se u skladištu podataka ovo označavanje vrši sa M i Z, onda mora postojati proces koji će transformisati 1 u M i 2 u Z.
Transformacija podataka je kritičan korak u razvoju skladišta podataka. U okviru procesa transformacije vrši se poslednja priprema podataka pre učitavanja.
Tipična transformacija podataka uključuje: prevođenje polja sa više imena u jedno polje, razbijanje polja sa datumom u posebna polja za godinu, mesec i dan, prevođenje polja sa jednom reprezentacijom u drugu (npr. sa 1 i 0 u
DA i NE), kreiranje i dodavanje ključeva za tabele dimenzija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
c. Razvoj procedura za učitavanje podataka Procedure za učitavanje podataka treba da izvršavaju sledeće aktivnosti:
Kreiranje formata podataka. Za sve podatke iz starijih sistema moraju se obezbediti formati pogodni za smeštanje u skladište podataka.
Prenošenje podataka iz starijih sistema u skladište podataka. Vrši se raspakivanje podataka, njihovo poređenje, kombinovanje i transformacija u oblik pogodan za skladište podataka.
Kreiranje agregacija (sumiranih podataka). Kreiranje agregacija je postupak sortiranja podataka po određenim atributima na osnovu kojih se, zatim, vrši sumiranje. Tako sumirani podaci se smeštaju u skladište podataka.
Kreiranje ključeva za agregacione zapise. Svi zapisi u tabelama, a samim tim i agregacije, moraju imati ključeve. Ovaj korak se razlikuje od prethodnog jer su ključevi za agregacione zapise u potpunosti veštački i ne smeju biti identični primarnim ključevima tabele činjenica. Prema tome, stručni tim mora dizajnirati aplikaciju koja će generisati takve ključeve.
Obrada neučitanih podataka. Pri procesu smeštanja podataka u skladište podataka često se dešava da se neki podaci ipak ne učitaju, najčešće zbog referencijalnog integriteta. Takvi podaci se moraju obraditi u posebnoj aplikaciji, koja će obezbeđivati referencijalni integritet podataka.
Indeksiranje podataka. Po završenom procesu smeštanja podataka u skladište podataka, svi indeksi se moraju ažurirati.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
d. Testiranje procedura Da bi se utvrdila ispravnost rada procedura za ekstrakciju i učitavanje
podataka, mora se izvršiti njihovo testiranje.
Provera kvaliteta podataka - Testiranje procedura se, najčešće, ostvaruje proverom kvaliteta podataka, tako što se zadaju upiti nad skladištem podataka koji prebrojavaju podatke ili ih prikazuju u vidu grafikona sa kojih se može utvrditi da li su podaci u rasponu koji je očekivan.
Po završenoj transformaciji, postoje svi uslovi da se pristupi generisanju meta podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
e. Izrada meta baze podataka Meta baza podataka, odnosno rečnika podataka je baza podataka o bazi
podataka.
Meta baza podataka čuva sve podatke o podacima mapirajući izvorni u ciljni sistem i uspostavlja vezu između podataka sa izvora i cilja. Oni čuvaju informacije o transakcionim podacima, definiciju podataka u ciljnoj bazi i transformaciono-integracionu logiku.
Tek po postavci meta baze podataka može se krenuti dalje u izdvajanje podataka iz transakcione baze podataka, pa potom sumiranje, sortiranje i organizovanje pre punjenja DW.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
3. Izgradnja skladišta podataka Izgradnja skladišta podataka se sastoji od sledećih
zadataka:
a) denormalizacija podataka,b) definisanje hijerarhija,c) kreiranje agregacija,d) kreiranje fizičkog modela,e) generisanje baze podataka,f) učitavanje podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
a) Denormalizacija podataka1. Prvi korak je identifikacija dimenzija i atributa koja podseća na klasično
projektovanje upotrebom ER modela i zove se dimenziono modeliranje.
Dimenziono modeliranje je tehnika logičkog dizajna čiji je cilj prezentacija podataka u obliku koji obezbeđuje visoke performanse sistema radi vršenja analize podataka.
2. U dimenzionom modeliranju, strukture podataka su tako organizovane da opisuju mere i dimenzije.
Mere su numerički podaci smešteni u centralnoj, takozvanoj tabeli činjenica (fakt tabela).
Dimenzije su standardni poslovni parametri koji definišu svaku transakciju.
Osnovu za izradu dimenzionog modela predstavljaju meta podaci, na osnovu kojih se vrši definisanje hijerarhija, elemenata i atributa, normalizacija i denormalizacija i definisanje agregacija.
3. Svaka dimenziona tabela ima svoj primarni ključ, a svi oni učestvuju u stvaranju primarnog ključa tabele činjenica. Ovakvi modeli se nazivaju šemama zvezde.
Tabele činjenica sadrže podatke koji su, najčešće, numeričkog tipa i mogu sadržati veliki broj zapisa.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Primeri dvodimenzionih i trodimenzionih modela podataka
MesecPro i zvod
Mesec
Grad
Pro i zvod
a) Dvodimenzioni model podataka b) Trodimenzioni model podataka
a) Podaci o prodaji za svaku oblast se nalaze u različitim tabelamab) Svi podaci smešteni su u trodimenzioni niz
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Različiti pogledi na iste podatkeMesec
GradP r o i z v o d
Svi proizvodi i meseci za jedan grad
Svi proizvodi i gradovi za jedan mesec
Svi gradovi i meseci za jedan proizvod
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Primer normalizovane i denormalizovane reprezentacije podataka Sve dimenzione tabele su denormalizovane, što znači da se isti podaci čuvaju
na više mesta da bi se obezbedila jednostavnost i poboljšale performanse.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Arhitektura dimenzionog modela Kod denormalizovanog modela dimenzije su organizovane u šemu zvezde, a
kod normalizovaog u šemu snežne pahuljice.
Postoje situacije u kojima šema zvezde nije pogodna za skladištenje podataka. Osnovni razlozi za to su: denormalizovana šema zvezde može zahtevati previše memorijskog kapaciteta, veoma velike dimenzione tabele mogu uticati na pad performansi sistema.
Ovi problemi se mogu rešiti normalizacijom dimenzija, čime se šema zvezde prevodi u šemu pahulje.
Glavni nedostatak šeme pahulje je njena složenost u odnosu na šemu zvezde, čime se otežava održavanje skladišta podataka. Zato je potrebno vršiti normalizaciju samo onih dimenzija koje sadrže mnogo redova podataka i koje imaju mnogo atributa.
Najčešće se postižu najbolji rezultati ako se izvrši normalizacija samo par dimenzija, a da se ostale ostave onakve kakve su i bile. Na taj način se dolazi do delimične šeme pahulje.
Šema galaksije predstavlja kolekciju šema zvezda, tj. ako se ne može kreirati model koji bi imao samo jednu činjeničnu tabelu, tada je potrebno povezati dve šeme zvezde da bi se zadovoljile potrebe korisnika.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Šema zvezde Šema pahulje Galaksija
Šema zvezde, pahulje i galaksije
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Šema zvezde Fizička arhitektura dimenzionog modela opisana je pomoću šeme zvezde
definisane sa dve vrste tabela – dimenzione tabele (dimension table) i tabele činjenica (fact table).
Tabela činjenica sadrži kvantitativne podatke o poslovima koji opisuju specifične događaje u poslovanju, kao što su bankarske transakcije ili prodaja proizvoda, a koje korisnici analiziraju. Može sadržati i agregirane podatke, kao što je npr., mesečna prodaja. Ovi podaci su najčešće numeričkog tipa i mogu se sastojati i od nekoliko miliona redova i kolona.
Dimenzione tabele su znatno manje i sadrže podatke koji opisuju dati posao, tj. one podatke po kojima se vrši analiziranje. Ti podaci se nazivaju atributi. Na primer, kod maloprodaje dimenzione tabele opisuju kako se izračunavaju podaci o prodaji.
Osnovne prednosti šeme zvezde su što omogućava definisanje složenih višedimenzionih podataka u vidu jednostavnog modela, smanjuje broj fizičkih veza koje se moraju procesirati pri zadavanju upita, čime se postiže poboljšanje performansi sistema i omogućava proširenje skladišta podataka uz relativno jednostavno održavanje.
Velika mana šeme zvezde je što se povećava redundantnost podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Jednostavna šema zvezde Svaka tabela mora sadržati primarni ključ čiji sadržaj jedinstveno
identifikuje zapise.
Na primeru, primarni ključ tabele činjenica je sastavljen od tri spoljna ključa. Spoljni ključ je kolona jedne tabele, čija je vrednost definisana kao primarni ključ druge tabele.
DIMENZIJA3
IDdimenzije3
Atribut31Atribut32Atribut33
DIMENZIJA2
IDdimenzije2
Atribut21Atribut22Atribut23
DIMENZIJA1
IDdimenzije1
Atribut11Atribut12Atribut13
CINJENICE
IDdimenzije1 (FK)IDdimenzije2 (FK)IDdimenzije3 (FK)
Mera1Mera2Mera3
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Šema zvezde
Tabela činjenica Dimenziona tabela
Zaposleni_DimZaposleni_DimZaposleni_DimZaposleni_DimZaposleniKljučZaposleniKljuč
ZaposleniID...ZaposleniID...
VremeVreme_Dim_DimVremeVreme_Dim_DimVremeKljučVremeKljuč
Datum...Datum...
ProizvodProizvod_Dim_DimProizvodProizvod_Dim_DimProizvodKljučProizvodKljuč
ProizvodID...ProizvodID...
KlijentKlijent_Dim_DimKlijentKlijent_Dim_DimKlijentKljučKlijentKljuč
KlijentID...KlijentID...
ŠpediterŠpediter_Dim_DimŠpediterŠpediter_Dim_DimŠpediterKljučŠpediterKljuč
ŠpediterID...ŠpediterID...
Prodaja_faktiProdaja_faktiVremeKljučZaposleniKljučProizvodKljučKlijentKljučŠpediterKljuč
VremeKljučZaposleniKljučProizvodKljučKlijentKljučŠpediterKljuč
IznosProdajeJediniceProdaje ...IznosProdajeJediniceProdaje ...
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Komponente tabele činjenicaDimenzione
tabele
Dimenzione tabele
klijentklijent_dim_dimklijentklijent_dim_dim
201 ALFI Alfred201 ALFI Alfred
proizvodproizvod_dim_dimproizvodproizvod_dim_dim 25 123 TV 25 123 TV
Tabela činjenica Prodaje
MereMere
klijent_ključklijent_ključ proizvod_ključproizvod_ključ vreme_ključvreme_ključ količina_prodajekoličina_prodaje iznos_prodajeiznos_prodaje
Spoljni ključeviSpoljni ključevi
201 25 134 400 10,789
134 1/1/2000134 1/1/2000
vremevreme_dim_dimvremevreme_dim_dim
Mere predstavljaju analizirane vrednosti, kao što je jedinica prodaje ili broj zaposlenih. Mere su numeričke zbog toga da bi se mogla vršiti izračunavanja.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Karakteristike dimenzione tabele
Dimenziona tabela predstavlja poslovne entitete (npr. Prozvod, klijent) Sadrži atribute koji obezbeđuju kontekst za numeričke podatke koji su
uskladišteni u tabeli činjenica. Prikazuje podatke organizovane u hijerarhije – omogućava korisnicima
pregledanje detaljnih i zbirnih podataka. Svaka dimenziona tabela sadrži jednu ili više hijerarhija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Šema zvezde na primeru EDIFACT fakture
Vreme
VremeID: Long Integer
Dan: Text(15)Mesec: Text(15)Godina: Integer
Valuta
ValutaID: Long Integer
NazivValute: Text(50)OznakaValute: Text(20)SifraValute: Text(20)
VrstaPakovanja
VrstaPakovanjaID: Long Integer
NazivVrstePakovanja: Text(50)
NacinPlacanja
NacinPlacanjaID: Long Integer
NazivNacinaPlacanja: Text(50)
VrstaPrevoza
VrstaPrevozaID: Long Integer
NazivVrstePrevoza: Text(50)
PredmetPoslovanja
PredmetPoslovanjaID: Long Integer
VrstaPakovanjaID: Long IntegerNazivPredmetaPoslovanja: Text(50)StariBoroj: Text(50)KlasifikacioniBroj: Text(20)
Partner
PartnerID: Long Integer
NazivPartnera: Text(50)Adresa: Text(50)Mesto: Text(50)Drzava: Text(50)Telefon: Text(50)
Faktura
FakturaID: Long IntegerVremeID: Long IntegerPartnerID: Long IntegerPredmetPoslovanjaID: Long IntegerValutaID: Long IntegerNacinPlacanjaID: Long IntegerVrstaPrevozaID: Long Integer
Kolicina: DoubleJedinicnaCena: CurrencyIznos: Currency
• Dimenzione tabele mogu sadržati i spoljne ključeve, koji referenciraju primarne ključeve drugih dimenzionih tabela. Takve tabele se nazivaju sekundarne dimenzione tabele (outrigger tables) (npr. VrstaPakovanja).
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
b) Definisanje hijerarhija
Dimenzione tabele memorišu sledeće elemente: traženje hijerarhijskih relacija u svakoj dimenziji, definisanje opisnih atributa svake dimenzije.
Dimenzije veoma često mogu biti organizovane u hijerarhiji. Na primer, kod dimenzije proizvod, mogu postojati tri dimenziona elementa: prozvod, grupa i vrsta proizvoda. U ovom modelu možemo reći da dimenzioni element "proizvod" predstavlja najniži hijerarhijski nivo u dimenziji proizvod, dok vrsta proizvoda predstavlja najviši nivo.
Posmatranje podataka iz različitih, ali blisko povezanih perspektiva omogućava da korisnik analizira podatke na različitim nivoima detalja.
Drill-down - Postupak prelaska sa nivoa sa manjim brojem detalja na nivo sa većim brojem detalja naziva se spuštanje u dubinu (drill down) i predstavlja zahtev korisnika da mu se prikaže više detalja. Na primer, pošto se pronađe podatak o prodaji nekog regiona, spušta se naniže da bi se saznalo kako se prodaja odvija po opštinama. Geografski podaci vezani za prodaju mogli bi se organizovati u sledeću hijerarhiju: SVET –> KONTINENT –> DRŽAVA –> OBLAST –> GRAD
Drill-up - Postupak prelaska sa nivoa sa većim brojem detalja na nivo sa manjim brojem detalja, na tzv. sumarne podatke, naziva se dizanje naviše (drill up). Na primer, upit bi mogao prezentovati prodaju u odnosu na neke regione.
Drill across – koristi se za povezivanje dve ili više činjeničnih tabela na istom nivou hijerarhije.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Šema pahulje
Definiše hijerarhiju koristeći višedimenzione tabele - Šema pahulje je varijacija šeme zvezda u kojoj su hijerarhija dimenzije skladištene u višedimenzione tabele. Na primer, dimenzija Proizvod je skladištena u tri tabele: kategorija proizvoda, podkategorija proizvoda i proizvod.
Normalizovana je. Podržana je unutar analitičkih usluga. (samo jedna dimenziona tabela se
pridružuje tabeli činjenica, dok su ostale dimenzione tabele povezane sa spoljnim ključem).
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
c) Kreiranje agregacija Agregacijama se sumiraju detalji podataka i smeštaju u posebne tabele. Na primer,
moguće je kreirati sumarne podatke o prodaji po regionu i oblasti skupljajući ih iz svake prodavnice, tj. najnižeg nivoa detalja.
Glavni razlozi kreiranja agregacija su da se poboljšaju performanse upita, tj. da se smanji vreme odziva na upit, kao i da se smanji broj resursa potrebnih za izvršenje upita.
Agregacije zasnovane na SQL naredbama
Jedan od načina na koji se mogu kreirati agregacije jeste korišćenje SQL naredbi. Iako ovaj način nije najbolji po pitanju performansi sistema, on je najjednostavniji.
Agregacije koje nisu zasnovane na SQL naredbama
U slučaju kreiranja agregacija koje nisu zasnovane na SQL naredbama, potrebno je razviti specijalizovane programe, što usložnjava procese razvoja i održavanja skladišta podataka.
Na primer, ako se izvrši sortiranje redova podataka po dimenziji Vreme, u tabeli će se prvo nalaziti redovi podataka koji se odnose na Dan, iza njih će biti redovi podataka koji se odnose na Nedelju itd. Zatim se na svakom mestu prelaza sa jednog nivoa dimenzije na drugi (na primer, sa Dana na Nedelju) kreiraju podzbirovi za taj nivo dimenzije. Pri tome je moguće iskoristiti prednosti paralelnog procesiranja jer su podaci podeljeni po grupama (jedan proces može računati podzbirove vezane za nivo Dan, a drugi za nivo Nedelja). Tako dobijene podzbirove treba učitati i izvršiti agregaciju. Time je proces agregacije podataka završen.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
d) Kreiranje fizičkog modela U okviru kreiranja fizičkog modela baze podataka, izvodi se
postupak prevođenja logičkog modela u fizički model prikazan preko dijagrama entiteti – veze koji fokusira podatke.
Neposredno pre kreiranja modela treba izabrati sistem za upravljanje bazama podataka na kome će biti implementirana baza podataka.
Generisanje fizičkog modela treba da reši probleme: Multiplikativnosti - definiše broj instanci jednog entiteta (buduća
tabela u bazi) u relaciji sa jednom instancom drugog entiteta. Referencijalnog integriteta - zahteva da unesena vrednost
atributa odgovara vrednosti atributa koji je primarni ključ druge tabele. Referenacijalni integritet se definiše za operacije ubacivanja, brisanja i ažuriranja.
Kreiranja indeksa - je izvršeno automatski za sve primarne ključeve u entitetima i za prenesene ključeve u entitetu Ispit. Ovo se radi iz razloga što će se buduća pretraživanja u okviru skladišta podataka vršiti na osnovu ovih polja.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Fizički model šeme zvezde za primer EDIFACT fakture
Vreme
VremeID: Long Integer
Dan: Text(15)Mesec: Text(15)Godina: Integer
Valuta
ValutaID: Long Integer
NazivValute: Text(50)OznakaValute: Text(20)SifraValute: Text(20)
VrstaPakovanja
VrstaPakovanjaID: Long Integer
NazivVrstePakovanja: Text(50)
NacinPlacanja
NacinPlacanjaID: Long Integer
NazivNacinaPlacanja: Text(50)
VrstaPrevoza
VrstaPrevozaID: Long Integer
NazivVrstePrevoza: Text(50)
PredmetPoslovanja
PredmetPoslovanjaID: Long Integer
VrstaPakovanjaID: Long IntegerNazivPredmetaPoslovanja: Text(50)StariBoroj: Text(50)KlasifikacioniBroj: Text(20)
Partner
PartnerID: Long Integer
NazivPartnera: Text(50)Adresa: Text(50)Mesto: Text(50)Drzava: Text(50)Telefon: Text(50)
Faktura
FakturaID: Long IntegerVremeID: Long IntegerPartnerID: Long IntegerPredmetPoslovanjaID: Long IntegerValutaID: Long IntegerNacinPlacanjaID: Long IntegerVrstaPrevozaID: Long Integer
Kolicina: DoubleJedinicnaCena: CurrencyIznos: Currency
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
e) Generisanje baze podataka Aktivnost generisanja baze podataka vrši se korišćenjem SQL jezika. Naime,
alat u kome je izvršeno kreiranje fizičkog modela (npr. ERWin) omogućava automatsko generisanje koda preko takozvanih DDL (Data Definition Language) datoteka.
U sledećem koraku se vrši izvršavanje DDL datoteka pomoću Query Analyzer-a, alata koji je sastavni deo SQL Servera 2005. Ovaj alat omogućava direktno zadavanje SQL naredbi i njihovo izvršavanje u cilju generisanja baze podataka.
Kada se svi ovi poslovi uspešno urade, baza (skladište) podataka je generisana.
f) Učitavanje podataka U toku učitavanja se mogu eventalno izvršiti još neke transformacije, mada
bi sa transformacijama podataka trebalo završiti pre učitavanja zbog problema konzistentnosti baze.
Za učitavanje podataka može se koristiti alat MS SQL Server-a DTS (Data Transformation Services) i njegova procedura učitavanja podataka pomoću takozvanih DTS paketa.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Pregled procesa razvoja skladišta podataka
Razvoj skladišta podataka
Analizaizvora podataka
Pripremanje podataka
Izgradnja skladištapodataka
Prikupljanje zahteva
Planiranje skladišta podataka
Izbor tehnikeanalize podataka
Prikupljanje izvornih zahteva
PrikupljanjeKorisničkih zahteva
Definisanje obima projekta
Kreiranje projektnog tima
Definisanje tehničkih uslova
Definisanje resursa, zadataka i vremenskih rokova
Upiti i izveštaji
Višedimenzionalneanalize
Data mining
Ekstrakcija i čišćenje podataka
Transformacija podataka
Razvoj procedura zaekstrakciju podataka
Razvoj procedura začišćenje podataka
Kreiranje plana transformacije podataka
Razvoj procedura zaTransformaciju podataka
Razvoj procedura zaučitavanje podataka
Testiranje procedura
Generisanje meta podataka
Dimenzionomodeliranje
Denormalizacijapodataka
Definisanje hijerarhija
Kreiranje agregacija
Kreiranje fizičkog modela
Generisanje baze podataka
Učitavanje podataka
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Izgradnja Data Warehouse-a
11
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
OLAP sistemi OLAP rešenja omogućavaju korisnicima brz i fleksibilan pristup
podacima i predstavljaju nadgradnju skladišta podataka.
Interaktivno analitičko procesiranje (On line Analytical Processing – OLAP) namenjeno je on-line analizama i izveštavanjima.
Krajnjem korisniku je neophodno sledeće: da može da postavi bilo koje poslovno pitanje, da bilo koji podatak iz preduzeća koristi za analizu, mogućnost neograničenog izveštavanja.
U tu svrhu se koriste analitički OLAP sistemi koji obezbeđuju informacije koje se koriste za analizu problema ili situacija.
Analitičko procesiranje se primarno vrši korišćenjem poređenja ili analiziranjem šablona i trendova. Na primer, analitički sistem bi mogao da prikaže kako se određena vrsta štampača prodaje u različitim delovima zemlje. Takođe, mogao bi da prikaže i kako se jedna vrsta proizvoda trenutno prodaje u odnosu na period kada se proizvod prvi put pojavio na tržištu.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
OLAP sistemi omogućavaju jednostavnu sintezu, analizu i konsolidaciju (agregacija podataka po zadatom kriterijumu) podataka.
Koriste se za intuitivnu, brzu i fleksibilnu manipulaciju transakcionim podacima.
OLAP sistemi podržavaju kompleksne analize koje sprovode analitičari i omogućavaju analizu podataka iz različitih perspektiva (poslovnih dimenzija).
OLAP sistemi kao skladišta podataka koriste multidimenzionalnost i denormalizaciju.
Osnovni elementi OLAP sistema su: baza podataka, koja služi kao osnova za analizu, OLAP server, za upravljanje i manipulaciju podacima, interfejs sistem, prema korisniku i prema drugim aplikacijama, alati za administriranje.
OLAP sistemi
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
OLAP serveriOLAP pristup mora od hardvera da poseduje poseban računar, tzv. OLAP server, na koji se povezuju relacione BP, eksterni izvori podataka i ostali interni podaci, koji su podržani grafičkim interfejsima, radnim tabelama i ostalim PC alatima.
OLAP serveri koriste višedimenzione strukture za čuvanje podataka i veza između njih.
Višedimenzione strukture se najbolje vizuelizuju kao kocke podataka i kao kocke u kockama podataka. Svaka strana kocke se naziva dimenzijom. Dimenzija predstavlja kategoriju podataka, kao što su tip proizvoda, region, vreme itd. Svaka ćelija kocke sadrži agregirane podatke koji su u vezi sa dimenzijama. Na primer, jedna ćelija može sadržati podatke o ukupnoj prodaji za dati proizvod i region u toku jednog meseca.
OLAP serveri podržavaju tipične analitičke operacije: konsolidacija – ovom operacijom se vrši agregacija podataka po zadatom
kriterijumu, drill down/up – ove operacije omogućavaju prikazivanje više ili manje detalja
podataka, isecanje (slice & dice) – ove operacije obezbeđuju prikazivanje podataka iz
različitih perspektiva, pri čemu se isecanje najčešće vrši po vremenskoj dimenziji da bi se analizirali trendovi (na primer, jedan isečak kocke može prikazivati sve podatke o prodaji za zadati tip proizvoda za sve regione, a drugi isečak može prikazivati sve podatke o prodaji po kanalima za svaki tip proizvoda).
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Zahtevi OLAP sistema
Interfejs OLAP sistema treba da omogući korisniku komforan rad, samostalno izvođenje analitičkih operacija i dobijanje pregleda i poslovne grafike, bez znanja programiranja i strukture baze podataka.
Zahtevi koje OLAP mora da ispuni su:
mogućnost rada sa velikim skupom podataka i velikim brojem korisnika,
kratko vreme odziva na upit, mogućnost rada sa podacima sa različitim nivoima detalja, sposobnost proračuna složenih matematičkih funkcija, podrška za šta-ako analizu, modelovanje i planiranje, jednostavnost uvođenja i održavanja sistema, zaštita podataka, mogućnost rada sa velikim brojema alata pomoću kojih će se
pristupati podacima, vršiti analiza i prikazivati podaci.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Komponente OLAP baze podataka OLAP baza podataka je definisana sledećim komponentama:
Numeričke mere – Mere su vrednosti podataka ili činjenice koje korisnici analiziraju. Primeri mera su Prodaja, Jedinice, Troškovi prodate robe itd.
Dimenzije – dimenzije predstavljaju poslovne kategorije koje obezbeđuju kontekst numeričkim merama. Dimenzijama OLAP je lakše navigirati nego dimenzijama šeme zvezde.
Kocke – Kocke kombinuju sve dimenzije i sve mere u jedan konceptualni model.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
RegionZapad CA ORIstok MA NY
RegionZapad CA ORIstok MA NY
RegionZapadIstok
Država RegionCA ZapadOR ZapadMA IstokNY Istok
RegionZapadIstok
Država RegionCA ZapadOR ZapadMA IstokNY Istok
OLAP dimenzije vs. Relacione dimenzije
OLAP
Relaciona
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Osnove dimenzija OLAP dimenzije sadrže
sledeće hijerarhijske elemente:
1. Dimenzije – organizovani nivoi i članovi u strukturi drveta.
2. Nivo – grupa članova dimenzije koji imaju isto značenje.
3. Član – Svaka diskretna vrednost u dimenziji.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Definisanje kocke Kocka je logička struktura skladištenja OLAP baze podataka.
Kocka kombinuje dimenzije i mere kako bi korisnici mogli da prave upite.
Kocka definiše skup povezanih dimenzija koje formiraju jednu n-dimenzionalnu mrežu: Svaka ćelija kocke sadrži jednu vrednost; Vrednost svake ćelije je presek dimenzije.
Mere su numeričke vrednosti koje korisnici analiziraju.
Svaka kocka mora da sadrži barem jednu meru, ali ne može da ima više od 1024 mera.
Karakteristike mere su: Mere su numeričke; Mere odgovaraju činjenicama u tabeli činjenica. Samo jedna tabela činjenica se
može koristiti za kreiranje kocke; Mere su preseci svih dimenzija i nivoa ...
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Definisanje kocke
Q4Q1 Q2 Q3Dimenzija Vreme Dim
enzij
e Pro
izvod
i
Beograd
Pariz
Bern
Dim
enzi
ja T
ržiš
te
Maline
PečurkePuževi
Milano
Kupine
Kocka skladišti vrednosti prodaje za svaki proizvod, svako tržište i za svaki period vremena. Da bi dobili ukupnu godišnju vrednost, korisnici biraju proizvod i tržište i sumiraju ćelije iz sva četiri
kvartala.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Q4Q1 Q2 Q3Dimenzija Vreme
Dimen
zija P
roizv
odi
Beograd
Pariz
Bern
Dim
enzi
ja T
ržiš
te
Maline
PečurkePuževi
MilanoFakti o prodaji
Kupine
Pravljenje upita nad kockom
Kocka “Prodaja” sadrži tri dimenzije: Vreme, Proizvodi i Tržišta. Činjenice o prodaji su skladištene u presecima svih dimenzija u kocki. Korisnik koji nadgleda prodaju malina u Milanu želi upit za Q4 prodajne vrednosti.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
MalineQ4Q1 Q2 Q3
Dimenzija Vreme
Dimen
zija P
roizv
odi
Beograd
Pariz
Bern
Milano
Dim
enzi
ja T
ržiš
te
KupinePečurke
Puževi
Definisanje “kriške” (engl. slice) ili podskupa kocke
Menadžer distribucije malina želi da pregleda podatke o pečurkama po svim periodima i za sva tržišta.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Rad sa dimenzijama i hijerarhijama
Glavna svrha OLAP baza podataka je da obezbede fleksibilne modele za pronalaženje podataka. Dimenzije i hijerarhije omogućavaju tu fleksibilnost.
Dimenzije omogućavaju slice i dice: Slice - izbor jednog člana iz dimenzije. Na primer: ukoliko želite da
se fokusirate na samo jedan proizvod, slice vam omogućava da ignorišete sve osim željenog proizvoda.
Dice – kada primenjujete dice na kocki, onda postavljate više članova iz jedne dimenzije na jednu osu i više članova druge dimenzije na drugu osu. Ovakav način vam omogućava da sagledate međuodnose članova različitih dimenzija.
Hijerarhija vam omogućava drill down i drill up: Drill Down - Sve dimenzije sadrže hijerarhiju i za većinu dimenzija
hijerarhija se sastoji od više nivoa. Više nivoa hijerarhije omogućava drill down po jednom članu hijerarhije. Drill down omogućava da se fokusirate samo na određene podatke ili oblast problema.
Drill Up – Vide se samo zbirne informacije članova. Omogućava da se sagleda opšta slika.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Rad sa dimenzijama i hijerarhijama
Dice Hijerarhije vam dozvoljavaju
Drill Down Drill Up
Dimenzije vam dozvoljavaju Slice
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Arhitekture OLAP sistema Postoje sledeće arhitekture OLAP sistema:
a. višedimenzioni OLAP (MOLAP),b. relacioni OLAP (ROLAP),c. hibridni OLAP (HOLAP).
MOLAP i ROLAP se razlikuju po načinu fizičkog čuvanja podataka. Kod MOLAP sistema podaci se čuvaju u višedimenzionoj strukturi, a u slučaju ROLAP sistema podaci se čuvaju u relacionim bazama podataka.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
a. Višedimenzioni OLAP (MOLAP) MOLAP baze podataka imaju sledeća ograničenja:
ograničenje fizičke veličine skupa podataka sa kojima mogu da barataju.
ograničenje na broj dimenzija koje još uvek obezbeđuju dobre performanse sistema.
da bi se vršila bilo kakva analiza, potrebno je prvo učitati podatke u višedimenzione strukture. Pri tome se vrše razni proračuni da bi se kreirale agregacije i popunili podaci, što vremenski može trajati relativno dugo. Po završenom procesu, korisnik može započeti analizu.
Prednost MOLAP sistema je što obezbeđuju odlične performanse sistema kada se radi sa već sračunatim podacima (agregacijama).
Nedostatak MOLAP sistema je teškoća dodavanja novih dimenzija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Arhitektura MOLAP sistema OLAP interfejs Višedimenziona
baza podataka Transakcioni
sistemi
Sloj prezentacije Sloj aplikacije Sloj baze podataka
- upiti - heširanje - indeksiranje
- predviđanja - traženje izuzetaka
- tabele - grafikoni - drill down - isecanje - štampanje
Podaci iz različitih transakcionih sistema učitavaju u višedimenzionu bazu podataka pomoću batch rutina. Kada se završi sa učitavanjem podataka atomskog nivoa, prelazi se na kreiranje agregacija, nakon čega je baza podataka spremna za rad. Korisnici zadaju svoje zahteve za OLAP izveštajima putem interfejsa.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
b. Relacioni OLAP (ROLAP) ROLAP sistemi pristupaju
podacima direktno iz skladišta podataka i rade sa relacionim bazama podataka.
ROLAP sistemi mogu da rade sa velikim skupovima podataka. Čim se odredi izvor podataka, korisnik može započeti analizu. S obzirom da se radi direktno nad bazom podataka, korisniku su uvek na raspolaganju tekući podaci.
Kod ROLAP sistema ne postoje ograničenja po pitanju broja dimenzija koja postoje u slučaju MOLAP sistema. Sloj baze podataka Sloj aplikacije Sloj prezentacije
Transakcionisistemi
Skladištepodataka(RSUBP)
RelacioniOLAP
OLAPinterfejs
- paralelni upiti- paralelno učitavanje- paralelno indeksiranje- bit-map indeksiranje- heširanje- veze zvezde- deljenje podataka- backup i recovery- optimizacija troškova- SMP i MPP podrška
- transformacije- dinamička
konsolidacija- složeno filtriranje- predviđanja- obrada izuzetaka- procesiranje u
pozadini- podela upita- raspoređivanje- upravljanje
tokovima- agregacije
- tabele- grafikoni- mape- upozorenja- drill down- isecanje
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Karakteristike ROLAP i MOLAP sistema
Neke karakteristike MOLAP i ROLAP sistema:
ROLAP sistemi su optimizovani za pristupanje podacima, dok su MOLAP sistemi optimizovani za prikupljanje podataka.
Prednost ROLAP sistema je što su sumarne tabele kreirane direktno u RSUBP-u, čime se obezbeđuje kratko vreme odziva sistema na upit i što su tabele veoma čitljive.
Višedimenziona analiza moguća je korišćenjem ROLAP i MOLAP sistema,
Za manje količine podataka ROLAP sistemi imaju skoro iste performanse kao i MOLAP sistemi,
MOLAP sistemi nisu pogodni za rad sa velikim skupom podataka,
MOLAP sistemi su manji od ROLAP sistema, te je potrebno manje U/I operacija pri pribavljanju podataka, što uslovljava da su MOLAP sistemi brži.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
c. Hibridni OLAP (HOLAP) HOLAP alati mogu pristupati i relacionim i višedimenzionim bazama
podataka.
Cilj korišćenja HOLAP alata jeste da se iskoriste prednosti MOLAP alata (kratko vreme odziva sistema i analitičke mogućnosti) i ROLAP alata (dinamički pristup podacima).
Pri tome se ne može reći da je HOLAP prost zbir MOLAP-a i ROLAP-a. To je zapravo ROLAP koji ima mogućnost izvršavanja vrlo složenih SQL naredbi.
Cilj je bio da se zadrže sve prednosti ROLAP-a, ali da se pri tome dodaju i neke nove mogućnosti za rad sa višedimenzionim bazama podataka.
Potrebe korisnika su: višedimenzioni pogled na podatke – ovu mogućnost poseduju i MOLAP i ROLAP
alati, odlične performanse sistema – ovu mogućnost poseduju MOLAP alati, analitička fleksibilnost (za potrebe simulacija) – ovu mogućnost poseduju
MOLAP alati, pristup podacima u realnom vremenu – ovu mogućnost poseduju ROLAP alati, veliki kapacitet podataka – ovu mogućnost poseduju ROLAP alati.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Vendori OLAP-a
http://www.olapreport.com
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Evaluacija 1. Koja je svrha oblasti za pripremu podataka kod Data Warehouse-a?
Oblast za pripremu podataka je skup procesa koji čisti, transformiše, kombinuje i priprema izvorne podatke za korišćenje u DW.
2. Koja je svrha OLAP-a?
Da obezbedi brz, fleksibilan pristup multidimenzionalnim podacima kako bi korisnici mogli da vrše analize i prave izveštaje.
3. Definišite glavne relacione komponente od kojih se gradi OLAP kocka.
Tabela činjenica – Centralna tabela u Data Warehouse-u koja predstavlja numeričke podatke u kontekstu koji opisuju određeni događaj u poslovanju.Mere – kvantitativna, numerička kolona u tabeli činjenica. Mere obično predstavljaju vrednosti koje korisnici analiziraju.Dimenzija tabele – Tabela u Data Warehouse-u koja predstavlja jedan poslovni objekat ili entitet.
Uvod u Data mining Otkrivanje znanja (Knowledge Discovering) Definisanje Data mininga Primene Data mininga Data mining modeli Koraci kod izgradnje DM modela OLAP data mining
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Data mining i otkrivanje znanja Korisnici informacionih sistema s pravom zaključuju da su im uvođenjem
automatizovanog informacionog sistema obećavali sve i svašta, a dobili su samo gomilu podataka. Čak i najboljem analitičaru je teško da identifikuje ključne informacije koje su relevantne za upravljanje poslovanjem.
Data mining je automatski ili poluautomatski proces koji izvodi značajna pravila ili obrasce iz ogromne količine podataka. Data mining programi analiziraju delove podataka da bi identifikovali veze između naizgled "nepovezanih podataka".
Data mining je proces otkrivanja znanja (Knowledge Discovery in Databases - KDD). koji omogućuje korisnicima da shvate sisteme i veze između njihovih podataka.
Data mining otkriva oblike i trendove u sadržaju ove informacije.
Data mining otkriva relacije našeg svakodnevnog komuniciranja sa podacima.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Definisanje Data mininga Osnovna poruka data mininga jeste da je potrebno da iz ogromne
količine operativnih podataka i veza koje se ne mogu odmah sagledati definišu odgovarajuće relacije, obrasci ponašanja, što u krajnjem slučaju treba da od podataka da potrebne informacije.
Data mining se može definisati kao proces podrške odlučivanju u kojem se traže šabloni infomacija u podacima.
Osnovni cilj data mininga jeste otkrivanje skrivenih veza, predvidivih sekvenci i tačnih klasifikacija.
Ovo pretraživanje može vršiti korisnik, na primer izvođenjem upita (tada je to zaista teško) ili ga može vršiti neki "pametni" program koji automatski pretražuje bazu umesto korisnika i nalazi značajne šablone. Kada se ona nađe, informacija treba da se prezentuje na odgovarajući način, sa grafikonima, izveštajima itd.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Primene Data mininga Reklamiranje na Internetu
Data mining se može koristiti za klasifikovanje grupa klijenata sa sličnim informacijama, kako bi se ciljno reklamiralo.
Kada se korisnik na primer registruje na e-commerce Web sajt koji prodaje sportsku opremu tada DBMS prikuplja informacije o klijentu, kao što su pol, godine, omiljeni sport i dr. Korišćenjem tehnika data mininga, web sajt će prikazivati baner sa motivima golfa za muškarce i dr.
Kada kupujete putem Interneta, ponekad vam se ponude i dodatni proizvodi za koje je Web sajt predvideo da ćete možda biti zainteresovani. Takva preporuka se zasniva na tehnikama data mininga koji pretražuje obrasce klijenata koji su na primer kupili istu knjigu koju vi sada kupujete. Sistem preporučuje: “Ukoliko vam se dopada x knjiga, proverite i sledeće ponuđene knjige”.
Upravljanje kreditnim rizikom
Kada uzimate kredit, banka prikuplja širok opseg informacija o vama, kao na primer prihodi, godine staža, bračni status, kreditna sposobnost itd. Koriščenjem data mining tehnika, banka može da predvidi da li ste dobar ili rizičan klijent za davanje kredita i takva informacija će odlučivati o odobravanju kredita.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Data mining modeli Nekoliko tehnika data mininga vam omogućava identifikovanje obrazaca u ogromnim broju podataka.
Modeli Analysis Services SQL Servera su Drvo odlučivanja (Decision Trees) – popularan metod za klasifikaciju i predviđanje. Korišćenjem serije pitanja i pravila za
kategorizaciju podataka, mogu se predvideti da će izvesni tipovi imati specifične ishode. Na primer, osoba u starosnom dobu između 25-35 godina koja zarađuje 60.000€/godišnje, najverovatnije će biti zainteresovana da podigne kredit za stan nego neko u starosnoj grupi od 15-24 godina. Na osnovu godina, dohotka i dr. istorijskih činjenica, algoritam drveta odlučivanja će izračunati izglede da nekoj osobi trebaju neke određene usluge.
Pravila asocijacije (Association Rules) – ovaj algoritam pomaže u identifikovanju relacija između različitih elemenata. On grupiše po sličnosti, odnosno koristi se za pronalaženje grupe artikala koji se najčešće zajedno događaju u jednoj transakciji. Na primer, koristi se kod unakrsne prodaje gde se beleže veze između artikala i predviđa za koji proizvod će još biti zainteresovan da kupi. Ovaj algoritam može da radi sa enormno velikim katalozima. Bio je testiran na pola miliona artikala.
Naive Bayes – ovaj algoritam se koristi da jasno pokaže različitosti u određenim promenljivama kod različitih elemenata podataka. Na primer, promenljiva: dohodak jednog domaćinstva se razlikuje za svakog klijenta u bazi podataka i može da posluži kao predskazatelj za buduće kupovine.
Sequence Clustering – tehnika klasteringa omogućava grupisanje zapisa podataka koji su slični na osnovu sekvenci prethodnih događaja. Na primer, sa klasteringom možete segmentirati klijente sa sličnim karakteristikama u grupe. Korisnici Web aplikacije često prate različite putanje kroz sajt. Ovaj algoritam može da grupiše klijente prema njihovom redosledu otvaranja stranica na sajtu kako bi pomogli u analizi korisnika i u određivanju koje su putanje profitabilnije od drugih. Ovaj algoritam se takođe može koristiti u predviđanju koju će sledeću stranicu korisnik posetiti.
Vremenske serije (Time Series) – ovaj algoritam se koristi za analizu i prognozu vremenski zasnovanih podataka. Prodaje su najčešće analiziran i prognoziran podatak. Ovaj algoritam traži šablone prolazeći kroz višestruke serije podataka tako da poslovanje može da odredi kako različiti elementi utiču na analiziranu seriju.
Neuronske mreže (Neural Nets) – kao što čovek uči na osnovu iskustva tako može i računar. Neuronske mreže modeluju neuronske veze u ljudskom mozgu i na taj način simuliraju učenje. Ukoliko sastavljate podatke gde su ulazne i izlazne činjenice poznate, računar može da nauči iz tih obrazaca i postavi pravila i matematičke faktore kako bi npr., pomogao izračunavanje ili predvideo izlaznu vrednost. Pretpostavimo da želite da prodate kola, nekoliko faktora utiče na prodajnu cenu kao što su godine, stanje, proizvođač, model itd. Analizirajući cene kola, neuronske mreže mogu da kreiraju seriju ulaznih i izlaznih faktora kako bi predvideli cenu prodaje.
Text Mining – ovaj algoritam analizira nestruktuirane tekstualne podatke. Na primer, kompanije mogu da analiziraju nestruktuirani podatak kao što je deo za komentare gde klijenti unose svoje utiske, zadovoljstvo o proizvodu i druge komentare.
Memorijsko zasnovano prosuđivanje – Memory-based reasoning (MBR) je tehnika data mininga koja se koristi za predviđanje i klasifikaciju. Na primer, ukoliko pacijent ima nekoliko simptoma, doktor će na osnovu iskustva sa sličnim pacijentima dati dijagnozu. Doktor izvršava dijagnozu koristeći oblik MBR-a.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Algoritmi Data Mining-a
Decision Decision TreesTrees
ClusterinClusteringg
Time SeriesTime Series
Sequence Sequence ClusteringClustering
AssociationAssociation
Naïve Naïve BayesBayes
Neural Neural NetNet
Introduced in SQL Server 2000Introduced in SQL Server 2000
LogisticLogisticRegressionRegression
Linear Linear RegressionRegression
Text Mining
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Uvodni primer Koji je ključni atribut za predviđanje
da li će svršeni srednjoškolci upisati fakultet ili ne?
Postavljana su im sledeća pitanja: Kog su pola? Koliki je prihod njihovih roditelja? Koliki im je IQ? Da li ih roditelji ohrabruju da nastave
studiranje ili ne? Da li planiraju da upišu fakultet?
Da bi na osnovu prikupljenih podataka utvrdili koliko studenata će nastaviti školovanje, neophodno je da se postavi upit koji broji zapise studenata koji žele i onih koji ne žele da nastave školovanje.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Pretpostavimo da ste zainteresovani da odredite koji atribut ili kombinacija atributa imaju najveći uticaj da predvidi verovatnoću studenata koji će upisati fakultet. Ovo je složeniji upit i zahteva korišćenje tehnika data mininga.
Primenjujući algoritam drveta odlučivanja otkrivene su sledeće relacije: Najuticajniji atribut je ohrabrivanje njihovih roditelja da upišu
fakultet. Oni studenti koje roditelji ohrabruju da upišu fakultet, 60 % planira da upiše fakultet i to uglavnom oni sa visokim IQ..
Uvodni primer (nastavak)
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Drvo odlučivanjaUpisaće fakultet:
33% Da67% Ne
Svi studenti
Podsticajod strane roditelja ?
IQ IQ
Upisaće fakultet:57% Da43% Ne
Ohrabrenje roditelja = Da
Upisaće fakultet:6% Da
94% Ne
Ohrabrenje roditelja = Ne
Upisaće fakultet:74% Da26% Ne
Upisaće fakultet:29% Da71% Ne
Visok IQ Nizak IQ
Upisaće fakultet:18% Da82% Ne
Upisaće fakultet:9% Da
91% Ne
Upisaće fakultet:4% Da
96% Ne
Visok IQ
Srednji IQ
Nizak IQ
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Koraci kod izgradnje DM modela1. Izbor tehnike data mininga2. Identifikovanje slučaja (case)3. Izbor entiteta koji treba da se predvidi4. Identifikovanje podataka za analizu5. Opciono kreiranje dimenzije i virtuelne kocke iz
rezultujućeg modela6. Obrada modela i prikupljanje rezultata.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Metodologija kreiranja Data Mining modela
Mining model
DMEngine
Podaci za predviđanje
DMEngine
Predvidljivi podaci
Podaci Mining model Da bi kreirali model morate da prikupite skup podatka, gde su atributi koji treba da se predvide unapred poznati.
Podaci se ubacuju u DM model koji ih analizira i traži pravila i obrasce koji bi se kasnije mogli iskoristiti za predviđanje.
Podaci koji se analiziraju su obično:
Istorijski podaci Statistički predstavnik
slučajeva (cases) za koje gradite model.
Slučaj (case) je element koji se koristi za klasifikaciju i grupisanje podataka.
DM engine procenjuje slučajeve i kreira model koji se zasniva na izabranom algoritmu.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Integracija data mininga sa skladištem podataka
Danas se radi na integraciji data mining alata sa skladištem podataka. Postoji više razloga za ovu integraciju.
Prvo, data mining alati zahtevaju postojanje "prečišćenih" i integrisanih podataka. Tradicionalni data mining alati bi iz tih razloga prvo izvršili transfer podataka (možda i stotine gigabajta) putem mreže. Nakon završenog rada često se javlja potreba za novim podacima, što bi značilo da bi se ceo proces transfera morao ponoviti. Pri ovome se neprestano moralo voditi računa o zaštiti podataka i greškama pri prenosu.
Drugi razlog za integraciju data mining alata sa skladištem podataka jeste poboljšani korisnički interfejs. Stariji data mining alati su zahtevali postojanje niza stručnjaka da bi se postigli zadovoljavajući rezultati. Danas, svaki poznavalac SQL jezika može koristiti mogućnosti data mininga.
Treći razlog za integraciju su performanse sistema i mogućnost proširivanja koje obezbeđuje skladište podataka, a koje su potrebne za data mining alate.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Tradicionalni i integrisani prilaz
ograničeni ispecijalizovani
alati
izvoripodataka
skladište podataka i data mining alati
a) tradicionalni prilaz b) integrisani prilaz
server strana
klijent strana
mreža
nestandardniinterfejsi
ODBC
SQL
bilo koji alatdata miningalati
ODBC
Jedan od načina da se ostvari integracija jeste da se kreiraju modeli koji se u bazama podataka predstavljaju tabelama. Na ovaj način se ovim modelima može pristupati upotrebom SQL naredbi. Nakon kreiranja ovih tabela, u njih treba smestiti podatke koje će data mining alati da pretražuju. Obradom podataka, data mining alati će kreirati nove tabele u kojima će smeštati rezultate i koji se mogu pregledati kao i sve ostale tabele (korišćenjem SQL naredbi).
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
OLAP data mining OLAP i data mining ne bi trebalo razmatrati kao odvojene
procese već da ih treba u potpunosti spojiti.
Komponente OLAP data mininga su: relaciona baza podataka koja sadrži granularne podatke (ne
mora biti skladište podataka), OLAP koji obezbeđuje brz pristup sumarnim podacima između
više dimenzija, višedimenzioni proces otkrivanja koji će vršiti otkrivanje
između dimenzija i spajati rezultate.
Bez upotrebe OLAP data mininga, moguće je izostaviti ključne informacije ili se mogu dobiti netačni rezultati.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Izgradnja Data Mining modela sa OLAP podacima Uvod u scenario Članske kartice Izbor Data Mining tehnike Izbor slučaja (case) Selekcija entiteta za predviđanje Selekcija podataka za analizu (training data) Kreiranje dimenzije i virtuelne kocke Ispitivanje Data Mining modela
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Uvod u scenario Članske kartice Direktor marketinga želi da oceni trenutni program članskih kartica.
Da bi zadržao postojeće klijente i ispunio njihova očekivanja, želi da identifikuje mogućnosti kako bi povećao nivo usluga kod svih kartica: zlatna, srebrna, bronzana i obična.
Raspoložive informacije od klijenata su pol, bračni status, godišnji prihodi, nivo obrazovanja.
Da bi predvideli faktore koji utiču na izbor odgovarajuće kartice koristićemo Data mining:
Koristićemo tehniku drveta odlučivanja da bi pronašli obrazac za izbor članske kartice.
Odabraćemo Klijente kao dimenziju slučaja (case dimension). Odabraćemo Člansku kartu kao informaciju koju će koristiti algoritam
DM da bi identifikovao obrasce. Iskoristiće se raspoložive informacije o klijentima kako bi se pronašao
obrazac. Ispitati drvo odlučivanja.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Izbor tehnike Data Mininga
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Izbor slučaja (case)
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Selektovanje entiteta za predviđanje
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Selektovanje podataka za analizu (training data)
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Kreiranje dimenzije i virtuelne kocke
Ukoliko želite na interaktivan ad-hoc način da isptujete drvo odlučivanja onda možete da uključite opciju kreiranja nove dimenzije i uključivanje iste u virtuelnu kocku..
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Ispitivanje Data Mining modela
Content Detail – fokus DM modela
Content Navigator – kompletan pogled DM modela; koristi sei za navigaciju kroz drvo odlučivanja i menjanja sadržaja u Content Detail.
Atributi – Predstavlja numeričkeili grafičke prezentacije entiteta za predviđanje
za trenutno izabrani čvor.
Node Path
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Ispitivanje zavisnosti mreže
Business Intelligence Pojam Business Intelligence Problemi postojećih BI sistema Izgradnja dugoročne BI strategije Uloga BICC centra Organizaciona struktura BICC centra Uloge zaposlenih u BICC centru BI framework
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Pojam Business Intelligence Business Intelligence (BI) podrazumeva korišćenje tehnologija za
prikupljanje i efektivno korišćenje informacija kako bi se poboljšala poslovna efektivnost.
Idealni BI sistem omogućava zaposlenima, partnerima i dobavljačima lak pristup informacijama, analizu i međusobno deljenje informacija.
BI softver je opšti pojam koji opisuje DSS sisteme, ranije EIS sisteme, data warehouse softvere, ekspertne sisteme i data mining tehnike za interpretiranje podataka.
Danas, BI sistemi predstavljaju stratešku prednost preduzeća. BI su neophodni kako bi se izvukao maksimum iz ERP sistema. Demo na: http://
www.businessobjects.com/global/flash/products/xi_tour/index_flash.asp
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Problemi postojećih BI sistema Mnoge današnje organizacije imaju fragmentirane implementacije BI sistema
usled toga što su često ugrađeni u softverske pakete kao što su na primer ERP ili CRM.
Obimni BI alati, sa preklapajućim funkcionalnostima su generalni problem u velikim organizacijama. Kako prosečan broj korisnika BI sistema raste, bez dosledne BI strategije, fragmentacija će nastaviti da raste.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Zašto Business Intelligence?Slaba vidljivost Slaba vidljivost
podataka i reakcija podataka i reakcija na događaje sa na događaje sa
tržištatržišta
Visoki poslovni i IT Visoki poslovni i IT operacioni troškovioperacioni troškovi
Siromašno razumevanje Siromašno razumevanje potreba klijenatapotreba klijenata
Neefikasni lanci Neefikasni lanci vrednosti i lanci tražnjevrednosti i lanci tražnje
Slabe poslovne Slabe poslovne performanseperformanse
Menadžment koristiMenadžment koristi SpreadsheetsSpreadsheets
Briga o privatnosti podataka i Briga o privatnosti podataka i preopterećenosti preopterećenosti
informacijamainformacijama
Današnja informaciona Današnja informaciona tehnologijatehnologija
80% IS 80% IS budžeta ide budžeta ide na poslovanje koje se na poslovanje koje se odvija “kao i obično”odvija “kao i obično”
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Data MartData Mart-ovi-oviData Data
WarehousesWarehouses
CRMCRM
LOBLOB
ERPERP
IzvorniIzvornisistemisistemi
Analiza podatakaAnaliza podataka(OLAP, Data Mining)(OLAP, Data Mining)
Zašto je teško postići veći Return Of Information danas…
Unos od strane zaposlenihUnos od strane zaposlenih… … sklon greškamasklon greškama
Višestruka Višestruka rešenjarešenja… … skuplje, skuplje, frustrirani frustrirani korisnicikorisnici
Mnogi diskonektovani sistemiMnogi diskonektovani sistemi……nekompletni podacinekompletni podaci……višestruke verzije istine višestruke verzije istine
Visoko IT uticajVisoko IT uticaj……duže vreme za duže vreme za vrednovanjevrednovanje
Mnoge tačke integracije podatakaMnoge tačke integracije podataka……slab integritet i pouzdanost podatakaslab integritet i pouzdanost podatakaVisok stepen čišćenja podataka i Visok stepen čišćenja podataka i
ponovnog unosa ...ponovnog unosa ...intenzivan radintenzivan rad
Ručno Ručno kodiranjekodiranje
TeTekskst t MiningMining
ETLETL
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Obezbeđivanjem uvida u Obezbeđivanjem uvida u poslovanje svim poslovanje svim zaposlenima dovodi do zaposlenima dovodi do donošenja boljih, bržih i donošenja boljih, bržih i relevantnijih odlukarelevantnijih odluka
Business Intelligence
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Izgradnja dugoročne BI strategije Rešenje problema je standardizacija BI sistema u organizaciji. BI je često oblast sukobljavanja između IT-a (koji obezbeđuju informacije) i
poslovnih korisnika (koji koriste te informacije za obavljaje svojih poslova). Stoga, je izgradnja međusobnog poverenja na prvom mestu kod standardizacije BI sistema.
Standardizovani interfejs za pristup informacijama bi omogućio: brže odgovore na pitanja korisnika lakšu unakrsnu analizu podataka smanjene troškove bolji risk management veću kokurentnu prednost ...
Drugi korak kod standardizacije BI sistema je otvaranje BI kompententnog centra (BI competency center - BICC) koji bi predstavljao oličenje najbolje poslovne i tehničke prakse u organizaciji. Dosadašnja praksa je pokazala da ukoliko se ne uvede BICC centar, BI standardizacija bi bila samo jedno kratkoročno rešenje koja bi rezultiralo visokim troškovima, frustracijama kod krajnih korisnika i padom poverenja koje bi posle još teže bilo povratiti.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Uloga BICC centra Uloga BICC centra unutar organizacije treba da osigurava dugoročni uspeh BI
standardizacije i strateško korišćenje BI sistema. Organizacija sa BICC može da očekuje:
poboljšanje problema fragmentiranih podataka; bolju kontrolu troškova smanjenjem redundantnosti osoblja, podataka, obrade podataka
i dr.; poboljšanje kvaliteta podataka usklađivanjem različitih projekata koji koriste slične
podatke i poboljšanje sveukupne efikasnosti analize podataka ... Primarne funkcije BICC centra su:
Portfolio menadžment – BICC osigurava da svi novi BI projekti budu u skladu sa sveukupnim BI framework-om.
Standardizacija – osigurava konzistentni analitički pristup korišćenjem BI metodlogija i alata, obezbeđenjem poslovnih inputa u data warehousing projekte i sveukupne arhitekture podataka preduzeća.
Obuka i edukacija Podrška važnim korisnicima – BICC pomaže razvoju kompleksnih analiza. Knowledge menadžment – BICC osigurava najbolju BI praksu i kontinualni proces
poboljšanja BI sistema. Podrška dobavljačima – BICC pruža podršku ključnim dobavljačima (vendor)
deljenjem informacija, upgrade-ovanje softverskih verzija i dr.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Organizaciona struktura BICC centra U zavisnosti od tipa organizacije i BI strategije, org. struktura BICC
centra može da bude: centralizovana – dobija se celokupna slika BI implementacija, ali se
može suviše udaljiti od poslovanja distribuirana – može se izgubiti celina virtuelna – ne postoji univerzalno rešenje, treba izvagati prednosti i
mane jednih i drugih.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Uloge zaposlenih u BICC centru
Centar mora da sadrži eksperte za analitiku, biznis i IT: Biznis eksperti razumeju potrebe poslovnih korisnika i imaju
njihovo potpuno popoverenje. Oni treba da razumeju potrebe poslovnih jedinica kao što su prodaja i marketing, ljudski resursi, upravljanje lancem vrednosti i dr., da povežu BI sa strategijskim ciljevima preduzeća i da su sposobni da pomognu menadžerima da postave prioritete kod analiza odluka, ROI modela i poslovnih scenarija.
Analitičari treba da znaju da istražuju poslovne probleme, da kreiraju modele koji pomažu u analizi tih problema, istražuju podatke kako bi pronašli šablone, značajne relacije između podataka, anomalije i trendove, da rade sa IT odelenjem kako bi identifikovali podatke za analize ili aplikacije, da koriste niz tehnika od jednostavnih agregacija do statističkih analiza i kompleksnih tehnika data mining-a, da razvijaju i održavaju lakoću korišćenja analitičkih alata, da izvode zaključke o relevantnim informacijama i preporuče rešenje i da obučavaju korisnike kako da koriste podatke.
IT stručnjaci treba da shvate kakav će uticaj imati BI infrastruktura na poslovanje i analitičke zahteve, da razumeju BI alate i tehnologije i data warehouse i način pristupa i upavljanja podacima neophodnih za podršku poslovanju i analizu.
BICC centar mora da zna kako se informacija koristi, kako izvršiti analize i kako se te analize koriste da bi se olakšalo donošenje odluka i pokretanje akcija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
BI Framework Primarna funkcija BICC centra je da se kreira BI framework koji će
uskladiti različite BI inicijative na različitim nivoima u organizaciji.
informacioni nivo
nivo znanja
nivo profita
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
BI framework Najniži “informacioni” nivo je osnova BI framework-a i zahteva tehničku i organizacionu
spremnost. Tehnička spremnost (technical readiness) – predstavljaju tehničke kriterijume za uspešan BI,
uključuju: operacione sisteme – BI analize su često ograničene kvantitetom i kvalitetom podataka koji su
skladišteni u ovim sistemima. Infrastrukturu za prevođenje podataka iz operacionih sistema u podatke pogodne za BI. Infrastrukturu skladištenja – skladištenje detaljnog nivoa podataka iz višestrukih sistema i data
warehouse-a/data mart-ova koji skladište istorijske podatke u formatu optimizovane za vršenje upita.Cilj tehničke spremnosti je balansiranje efikasnosti i fleksibilnosti.
Organizaciona spremnost (organizational readiness) – efektivno korišćenje informacija zahteva nešto više od tehničke arhitekture. Ovaj deo famework-a ističe kako najbolje uvesti BI sistem, uzima u obzir sledeće kriterijume: Strateške ciljeve kompanije – Da li su vaši korporativni ciljevi u skladu sa BI strategijom? Stilove odlučivanja – Kako se donose odluke u vašoj organizaciji? Da li BI podržava i olakšava
dogovor oko podataka? Raspoloživost analitičkih sposobnosti – da li organizacija poseduje analitičke veštine kako bi
iskoristila sve prednosti BI sistema? Ukoliko ne sadrži, ko bi se trenirao ili zaposlio i u kojim oblastima? Preovlađujuća informaciona kultura – Da li postoji kultura koja omogućava deljenje informacija i sa
poslovnim partnerima i klijentima?
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Nasatavak kriterijuma organizacione spremnosti Tipove korisnika – koji su tipovi BI korisnika u organizaciji? Konkurentno okruženje – Kako vaši konkurenti koriste BI? Da li oni bolje razumeju
ponašanje klijenata? Da li oni podstiču odnose sa klijentima tako što dele BI informacije sa njima?
Ekonomsko okruženje – u današnjoj globalnoj ekonomiji, prioriteti u poslovanju se rapidno menjaju. Kako to utiče na sposobnost organizacije da koristi BI? Da li se može koristiti za dobijanje brze, tačne procene finansijskih akcija u različitim regionima ili tržištima? Da li može da upozori na efekte neočekivanih promena u tražnji? Može li pomoći u strateškom planiranju?
Postojeća globalizacija – Sa trendom globalizacije, da li je vaša organizacija spremna da iznese BI sa infrastrukturom koja će biti prilagođena podršci korisnika i klijenata širom sveta, različitim jezicima i sa mnogim ne standardnim okruženjima?
Proširena organizacija – da li vaša organizacija sarađuje sa partnerima kako bi obezbedila robu i usluge klijentima? Kako delite informacije sa njima? Da li obezbeđujete informacije klijentima?
Drugi sloj na BI framework-u je nivo znanja koji se bavi efektivnim uvođenjem BI sistema. Ovo će u mnogome zavisiti od BI aplikacija i implementacije najbolje prakse BI projekata.
Treći i finalni sloj je nivo profita koji se bavi korišćenjem informacija kako bi se uticalo na promene načina poslovanja.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Implementacija BI metodologije BI model je rezultat rada analitičara iz kompanije Gartner Group* i organizacija koje su uspešno
implementirale BI sisteme. Korišćenje Bi metodologije pruža jedan koristan alat za razumevanje i unapređenje koraka za uspešan
razvoj i implementaciju BI sistema. Metodologija identifikuje 5 koraka u razvoju BI sistema.
*Gartner, Inc. je najveća svetska kompanija za istraživanje i konsalting u oblasti inormacionih tehnologija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Faze BI metodologije Oblast (Scope) – često zanemaren aspekt BI projekata. Za svaki predloženi projekat treba sagledati tehničke i
organizacione zahteve i ciljeve preduzeća. Na osnovu ovoga se određuje da li su adekvatno određene granice projekta i da li odgovaraju trenutnim prioritetnim ciljevima organizacije.
Projektovanje (Design) - u fazi projektovanja se procenjuju potrebe korisnika i uključuje predefinisani set ključnih indikatora performansi (Key performance indicators – KPIs) koje zahteva krajnji korisnik. KPI treba da se formulišu bez obzira na raspoloživost informacija – cilj je prikupiti poslovne zahteve iako je podrška istih trenutno nepraktična. Faza dizajna obuhvata i izbor odgovarajuće BI tehnologije, kao i određivanje koji su neophodni informacioni izvori, uključujući kvalitet informacija i transformacije neophodne da bi informacije bile pogodne za analizu.
Izgradnja (Build) – Izgraditi prototip ili testirati okruženje. Celokupan proces protoka informacija unutar organizacije treba da se modeluje. Faza dizajna i izgradnje oduzimaju najviše vremena i resursa.
Uvođenje (Deploy) – uvođenje rešenja kod krajnjih korisnika. Bez obzira na korišćenu tehnologiju, uspeh projekta će u mnogome zavisiti od kvalitetne obuke i podrške krajnjim korisnicima. Ova faza zahteva jedan iterativni pristup obučavanja i izlaženja u susret potrebama korisnika. Ova faza će uključiti i razvoj predefinisanih izveštaja i analize.
Proširivanje (Evolve) – cilj ovog koraka je merenje uspešnosti projekta, odnosno koliko su raspoložive informacije korisne za donošenje odluka, zatim povećanje eksternog i internog deljenja informacija. Otkrivanje (Discovery) – obično organizacija ne shvata svrhu centra sve dok se ne postavi. Kooperativnim radom krajnji
korisnik i BICC centar izgrađuju okruženje za kreiranje rešenja. Pristupanje (Access) – Identifikovanjem indikatora i vrednosnih informacija tokom prethodnog koraka, krajnji korisnik
počinje da prati, razume i upravlja informacijama koje ga vode ka dubljim pogledima. Odlučivanje (Decide) – Krajnji korisnik odlučuje na osnovu novih informacija. Deljenje (Share) – Odluke i analize se dele sa drugima unutar organizacije. Promene (Change) – Permanentne promene mogu dovesti do fundamentalnog reinženjeringa.
Nakon što je ciklus završen, treba početi nanovo od prvog koraka, ali sa metodologijom koja radi na novom nivou fokusa i to analiza, reevaluacija, modifikacija, optimizacija i podešavanje.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Razmatranje potreba korisnika Pažljivo razmatranje potreba korisnika je ključno kod bilo kog BI projekta.
Analizirati svaki segment korišćenjem brojnih kriterijuma: Funkcionalna kompleksnost – Potreba za naprednim BI funkiconalnostima kao što su
segmentacija, statističke analize, predviđanje, vizuelizacija i mapiranje. Dubina podataka – Potreba za pristupom detaljnim informacijama. Širina podataka – Potreba za pristupom i poređenjem informacija iz nekoliko
različitih sistema. Lakoća korišćenja Kastimizacija – potreba za visoko kastimiziranim interfejsom.
Korisnici BI sistema su: analitičari – BI je fokusiran na ove ljude, pojedince čija je glavna uloga da prati,
razumeju i upravljaju informacijama kako bi ih prosledili drugima u organizaciji. radnici opšteg znanja – uloga ovih pojedinaca je da odlučuju i u poređenju sa
analitičarima, njima je uglavnom potreban interfejs koji je lak za korišćenje i koji je fokusiran na posebnu oblast podataka.
izvršioci i menadžeri – uglavnom žele da vide informacije koje se zasnivaju na ključnim indikatorima performansi, očekivanjima i trendovima pre nego da se fokusiraju na detaljnu analizu.
klijenti i partneri – web interfejs je kastimiziran i pokazuje limitiran skup informacija.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Edukacija i transfer znanja Edukacija je vitalni deo BICC centra. Za svaki definisani segment korisnika, treba da se sprovede strategija
edukacije koja uključuje: Obučavanje za korišćenje alata – Obučavanje kako na najbolji način koristiti
izabrane BI standarde. BI softveri su obično vrlo fleksibilni. Obuka za korišćenje podataka – Ovo je najvažniji deo gde se korinik obučava
da koristi raspoložive podakte i da analizira njihov uticaj na poslovanje. Deljenje znanja – treba da se kreira zajednica samoukih korisnika koji će
međusobno deliti najbolje prakse.
BICC centar treba da sarađuje sa vendorima koji treba da izađu u susret kriterijumima BI framework-a, da pruže teničke usluge za implementaciju i održavanje BI infrastrukture i da pruže strateški konsalting za pomoć u implementaciji BICC.
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Data acquisition Data acquisition from source from source systems and systems and integrationintegrationData Data transformation transformation and synthesisand synthesis
Data Data enrichment, enrichment, with business with business logic, logic, hierarchical hierarchical viewsviewsData discovery Data discovery via data miningvia data mining
Data Data presentation presentation and and distributiondistributionData access Data access for for everyoneeveryone
IntegrateIntegrate AnalyzeAnalyze ReportReport
Microsoft Business Intelligence
Delivering the CompleteDelivering the CompleteBusiness Intelligence ToolsetBusiness Intelligence Toolset
Servisi integracije Zašto je bitan ETL Arhitektura integracije podataka
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Spaja podatke iz heterogenih skladišta podataka: tekst fajlovi spreadsheets RDBMS ...
Osvežava podatke iz data warehouses i data mart-ova
Čisti podatke pre punjenja Brzinsko punjenje podataka u online
transaction processing (OLTP) i online analytical processing (OLAP) baze podataka
Šalje status uspešno/neuspešno Izgradnja BI bez potrebe za
redundatnom fazom tranformacije podataka
Automatske funkcije administriranja podataka
Zašto je bitan ETL?
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Arhitektura integracije podatakaPre servisa integracije
Call centre data: semi structured
Legacy data: binary files
Application database
ETL Warehouse
Reports
Mobiledata
Data mining
Alerts and escalation
Integracija i warehousing zahtevaju odvojene operacije. Pripremanje podataka zahteva različite, često nekompatibilne alate. Izveštavanje je spor proces, usporava pametne odgovore.
Handcoding
StagingText Mining
ETL Staging
Cleansing &
ETL
Staging
ETL
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Call centre: Semi-structured data
Legacy data: Binary files
Application database
Alerts and escalation
Pripremanje i punjenje podataka se odvija u jednom procesu. Izveštavanje se odvija paralelno sa punjenjem warehouse-a.
SQL Server Integration Services
Text miningcomponents
Customsource
Standardsources
Data cleansingcomponents
Merges
Data miningcomponents
Warehouse
Reports
Mobiledata
Arhitektura integracije podatakaSa servisima integracije
Analitički servisi Zašto su bitni OLAP i Data Mining Vrednosti Data Mining-a Algoritmi
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Zašto su OLAP i Data Mining bitni? Jedna verzija istine Moćno modeliranje poslovnih informacija Integrisani pogledi Relacionog & OLAP-a Najbolje od MOLAP-a do ROLAP-a Obogaćeni podaci i napredna analitika Key Performance Indicators Visoke performanse
Podaci u realnom vremenu u OLAP kockama Vrlo brze i fleksibilne analitike
XML standardi za pristup podacima i integracija sa Web servisima
Ušteda u vremenu i troškovima kod integracije sa drugim sistemima
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
SQL Server 2005SQL Server 2005
OLAP
Reports (Ad Hoc)
Reports (Static)
Data Mining
Easy Difficult
Usability
Rel
ativ
e B
us
ine
ss V
alu
eVrednosti Data Mining-a
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Algoritmi
Decision Decision TreesTrees
ClusterinClusteringg
Time SeriesTime Series
Sequence Sequence ClusteringClustering
AssociationAssociation
Naïve Naïve BayesBayes
Neural Neural NetNet
Introduced in SQL Server 2000Introduced in SQL Server 2000
LogisticLogisticRegressionRegression
Linear Linear RegressionRegression
Text Mining
Servisi izveštavanja Zašto je bitno izveštavanje Arhitektura
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Bolje odlučivanje u čitavoj organizaciji
Izgradnja izveštaja nad višestrukim izvorima podataka
Omogućava interaktivni pristup podacima
Omogućava krajnjem korisniku da napravi sopstveni ili modifikuje postojeći izveštaj
Obezbeđuje izveštaje u formatu koje korisnik želi
Sa lakoćom integriše izveštaje u aplikacije
Zašto je bitno izveštavanje?
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Arhitektura
SQL Server CatalogSQL Server Catalog
Report ServerReport Server
Programmatic InterfacesProgrammatic Interfaces
DeliveryDelivery
Delivery ChannelsDelivery Channels(E-mail, SharePoint,(E-mail, SharePoint,
Custom)Custom)
Security ServicesSecurity Services(NT, Passport, (NT, Passport,
Custom)Custom)
SecuritySecurityData ProcessingData Processing
Data SourcesData Sources(SQL, OLE DB, XML/A, (SQL, OLE DB, XML/A, ODBC, Oracle, Custom)ODBC, Oracle, Custom)
RenderingRendering
Output Formats Output Formats (HTML, Excel, (HTML, Excel, TIFF, Custom)TIFF, Custom)
BrowserBrowser
Web UIWeb UI
Report ProcessingReport Processing
OfficeOffice Custom AppCustom AppBuilderBuilder
Report ModelReport Model
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
BI sa Office “12”Analyze data in Excel and Create Office documents based on business data
Publish spreadsheets and documents to SharePoint
Reuse spreadsheets, reports,and documents in dashboards and business applications
Access and explore data in spreadsheets, reports, and
documents in the Portal
Best with SQLBest with SQL
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Secure bySecure byDefaultDefault
Secure by Secure by DesignDesign
Secure inSecure inDeploymeDeployme
ntnt
Business Intelligence
Trustworthy Computing is built on three pillars:Trustworthy Computing is built on three pillars:SecuritySecurityPrivacyPrivacyReliabilityReliability
http://www.microsoft.com/twc
SecuritySecurityPrivacyPrivacy
ReliabilityReliability
Projektovanje informacionih sistema Doc. dr Angelina Njeguš
Realni projekti BI u praksi
Project REAL Technical Overview
Project REAL: Analysis Services Technical Drilldown
SQL Server 2005 Integration Services: Lessons from Project REAL
Business Intelligence ETL Design Practices
Analysis Services 2005 Migration
Project REAL: Data Lifecycle – Partitioning
Inventory Predictive Modeling via Microsoft SQL Server 2005 Analysis Services
Developing Custom Components in SQL Server Integration Services for Project REAL
http://www.microsoft.com/SQL/BI/ProjectREAL