john adeyanju alao - core · seznam tabel 38 literatura 39. povzetek na podro cju strojnega u cenja...

UNIVERZA V LJUBLJANIFAKULTETA ZA RACUNALNISTVO IN INFORMATIKO

John Adeyanju Alao

Vizualizacija drevesnih modelov innakljucnih gozdov

DIPLOMSKO DELONA UNIVERZITETNEM STUDIJU

Mentor: prof. dr. Marko Robnik Sikonja

Ljubljana, 2011

Rezultati diplomskega dela so intelektualna lastnina Fakultete za racunalnistvo in

informatiko Univerze v Ljubljani in avtorja. Za objavljanje ali izkoriscanje rezultatov

diplomskega dela je potrebno pisno soglasje Fakultete za racunalnistvo in informatiko

ter mentorja.

Besedilo je oblikovano z urejevalnikom besedil LATEX.

IZJAVA O AVTORSTVU

diplomskega dela

Spodaj podpisani John Adeyanju Alao,

z vpisno stevilko 63990022,

sem avtor diplomskega dela z naslovom:

Vizualizacija drevesnih modelov in nakljucnih gozdov

S svojim podpisom zagotavljam, da:

• sem diplomsko delo izdelal samostojno pod mentorstvom

prof. dr. Marko Robnik Sikonja

• so elektronska oblika diplomskega dela, naslov (slov., angl.), povzetek(slov., angl.) ter kljucne besede (slov., angl.) identicni s tiskano oblikodiplomskega dela

• soglasam z javno objavo elektronske oblike diplomskega dela v zbirki”Dela FRI”.

V Ljubljani, dne 6.6.2011 Podpis avtorja:

Kazalo

Povzetek 1

Abstract 2

1 Uvod 3

2 Uvod v programsko okolje R 5

3 Vizualizacija odlocitvenih in regresijskih dreves 93.1 Vizualizacija odlocitvenih dreves . . . . . . . . . . . . . . . . . . 103.2 Vizualizacija regresijskih dreves . . . . . . . . . . . . . . . . . . 133.3 Implementacija vizualizacije . . . . . . . . . . . . . . . . . . . . 14

4 Vizualizacija nakljucnih gozdov 154.1 Kratek opis nakljucnih gozdov . . . . . . . . . . . . . . . . . . . 154.2 Orodja za razlago nakljucnih gozdov . . . . . . . . . . . . . . . 16

4.2.1 Pomembnost atributov . . . . . . . . . . . . . . . . . . . 174.2.2 Sosednost primerov . . . . . . . . . . . . . . . . . . . . . 174.2.3 Odkrivanje izjem . . . . . . . . . . . . . . . . . . . . . . 184.2.4 Zmanjsevanje dimenzij prostora s sosednostjo . . . . . . 194.2.5 Razvrscanje na podlagi sosednosti . . . . . . . . . . . . . 214.2.6 Vpliv atributov na napoved . . . . . . . . . . . . . . . . 22

5 Zakljucek 25

Dodatki 27

A Podatkovne zbirke 27A.1 Podatkovna zbirka iris . . . . . . . . . . . . . . . . . . . . . . 27A.2 Podatkovna zbirka adult sample . . . . . . . . . . . . . . . . . 28

B Pregled ukazov za prikaz izdelanih slik 33

Seznam slik 37

Seznam tabel 38

Literatura 39

Povzetek

Na podrocju strojnega ucenja se za predstavitev znanja uporabljajo razlicniformalizmi. Zelo priljubljen formalizem so odlocitvena in regresijska drevesa.CORElearn je paket orodij za strojno ucenje, ki uporablja odlocitvena in regre-sijska drevesa, knn, naivni Bayesov klasifikator in nakljucne gozdove (modelsestavljen iz mnozice dreves). V diplomskem delu vizualiziramo nekaj modelovCORElearn paketa. Za odlocitvena in regresijska drevesa lahko naucene modeleneposredno prikazemo, za nakljucne gozdove pa je prikaz posreden, kajti priteh modelih je znanje razprseno v veliki mnozici dreves, mi pa uporabljamoprikaze, s katerimi obravnavamo gozd dreves kot celoto. Iz mnozice drevestako dobimo matriko sosednosti, ki predstavlja povezanost ucnih primerov vcelotni mnozici. Podobno velja za pomembnost atributov, ki se ocenjuje napodlagi klasifikacijske tocnosti, kot prispevka napovedi vseh dreves v gozdu.Predstavljena orodja za razumevanje nakljucnih gozdov so: pomembnost atrib-utov, sosednost primerov, odkrivanje izjem, zmanjsevanje dimenzij prostora,razvrscanje in vpliv atributov na napoved. Vizualizacijo dreves in gozdovlahko enacimo z vidika sposobnosti prikaza njihovega delovanja. Interpretacijadrevesa je enostavnejsa, ker je zajeta na eni sliki, pri nakljucnih gozdovih pamoramo preuciti vec razlicnih vidikov, zaradi cesar je prikaz bolj informativen.

Kljucne besede:

strojno ucenje, odlocitvena drevesa, regresijska drevesa, nakljucni gozdovi,vizualizacija, programsko okolje R, paket rpart, matrika sosednosti, paketCORElearn

1

Abstract

In the field of machine learning there are several knowledge representation tech-niques, for example decision and regression trees are very popular. CORElearnis a machine learning package that generates desision and regression trees, knnmodels, naive Bayesian model and random forests (that is a model comprisedof a set of trees). Our aim is to visually present the CORElearn models. Inthe case of decision and regression trees we present them directly. This is notpossible for random forests where the knowledge is dispersed among severaltrees. We need methods capable of considering every single tree in the forest.For example, we compute a proximity matrix from all the trees in a forest. Wecan also use a sum of classification accuracies per tree to represent the predic-tion of the whole forest. The tools for random forest comprehension presentedin this work are: variable importance, proximity measure, outlier detection,multi-dimensional scaling, clustering and variables effect on class. Both directand indirect visualization methods are comparable. The interpretation of treesis simpler because there is only one image to investigate. On the other handrandom forest methods are more complete.

Key words:

machine learning, decision tree, regression tree, random forest, vizualization, Rprogramming language, rpart package, proximity matrix, CORElearn package

2

Poglavje 1

Uvod

Osnovno nacelo strojnega ucenja je samodejno odkrivanje zakonitosti iz razpo-lozljivih podatkov. Rezultat ucenja so pravila, funkcije ipd., ki so predstavljenaz razlicnimi formalizmi. V tem delu bomo obravnavali formalizme, kot soodlocitvena in regresijska drevesa ter nakljucni gozdovi. Nauceni modeli seuporabljajo za odlocanje in napovedovanje obnasanja modeliranega procesa vprihodnosti.

Metode strojnega ucenja delimo po nacinu uporabe naucenega znanja naklasifikacijo, regesijo in razvrscanje (clustering). Ena najbolj uporabljenihmetod strojnega ucenja je klasifikacija ali uvrscanje. Naloga klasifikatorja jedolociti, kateremu izmed razredov pripada nek objekt. Ta objekt ali primer jeopisan z mnozico atributov (znacilk, lastnosti). Atributi so neodvisne zvezneali diskretne spremenljivke, razred pa je odvisna spremenljivka. Mnozica ucnihprimerov predstavlja v preteklosti resene probleme. Klasifikator je funkcija,ki preslika prostor atributov v razred. Klasifikatorje locimo po nacinu pred-stavitve te funkcije.

Algoritmi za gradnjo odlocitvenih dreves izbirajo atribute glede na ocenoprimernosti atributov in podmnozico njihovih vrednosti. Za napovedovanje jepogojni del pravila sestavljen iz konjuktivno povezanih pogojev v notranjihvozliscih, na poti od korena do lista. Sklepni del pravila sestavlja napovedanirazred, ki se nahaja v listu. Listu pripadajo vsi ucni primeri, ki izpolnujejodano pravilo.

Razlika pri regresijskem prediktorju je, da je odvisna spremenljivka ste-vilska vrednost. Regresijski prediktor je torej funkcija, ki preslika prostoratributov v stevilsko vrednost. Ce predstavimo regresijsko funkcijo z drevesom,dobimo regresijsko drevo. Vozlisca v drevesu predstavljajo atribute, veje pavrednosti atributov. V listih imamo zvezno funkcijo, ki izracuna vrednost

3

4 Poglavje 1: Uvod

odvisne spremenljivke.Nakljucni gozdovi so sestavljeni iz mnozice dreves. Gradnjo dreves us-

merja nakljucen postopek. Nakljucni gozdovi so v splosnem bolj zanesljivi odposameznega drevesa.

CORElearn je paket strojnega ucenja, ki deluje v okolju R [6] in pred-stavi pridobljeno znanje z odlocitvenimi in regresijskimi drevesi ter nakljucnimigozdovi. Dober programski paket strojnega ucenja zna prikazati pridobljenoznanje na cim bolj razumljiv nacin. Slika je za cloveka eden boljsih nacinovrazlage obseznih in zapletenih podatkov. V tem delu bomo implementirali inpredstavili dodatek za paket CORElearn, ki zna vizualizirati odlocitvena in re-gresijska drevesa ter nakljucne gozdove.

Drevo prikazemo tako, da je koren drevesa predstavljen z navpicno crto.Iz koncne tocke te crte izhajata dve premici z naklonom 45o, ki predstavljatalevo in desno vejo. Ta vzorec rekurzivno ponavljamo v globino. Vozlisca sopredstavljena s presekom treh premic. Vozisce vsebuje pogoj v obliki A ={V1, V2, ...Vn} za diskretne atribute ali A < V ali A >= V za zvezne atribute,kjer so Vi mozne vrednosti atributa A, medtem ko je V stevilska konstanta.Ce je pogoj v vozliscu izpolnjen, se premaknemo v levo poddrevo, sicer pa vdesno. Vse probleme, povezane s prikazom drevesa, prepustimo paketu rpart,ki ima tako vizualizacijo ze implementirano. Pri nasem delu se posvetimoprilagoditvi modela, ki ga vrne CORElearn, v obliko, ki jo rpart razume.

Nakljucni gozdovi so skupek tudi vec sto dreves. Vsako od teh drevesje pri svoji izgradnji upostevalo samo podmnozico ucnih primerov. Prikazposameznih enega dreves nam zato ne nudi koristne razlage naucenih zakoni-tosti, prikaz vec dreves pa je tezko obvladljiv in zato neprimeren. Obstajajometode, ki se ne ukvarjajo s posameznim drevesom in so sposobne obravnavatiin prikazati delovanje nakljucnega gozda kot celote. Implementirali smo sesttakih metod in v tem delu pokazemo njihovo prakticno uporabo.

V naslednjem poglavju na kratko opisemo programsko okolje R. V 3. po-glavju predstavimo resitve, ki omogocajo prikaz odlocitvenih in regresijskihdreves. V 4. poglavju obravnavamo orodja, ki omogocajo graficni prikaz last-nosti nakljucnih gozdov, ki so povsem primerljive z vizualizacijo odlocitvenegain regresijskega drevesa. Sklepne misli so zapisane v 5. poglavju. V dodatkuA predstavimo se nekaj primerov, ki dodatno pojasnjujejo implementiraneresitve. V dodatku B prikazemo primere klicev implementiranih funkcij.

Poglavje 2

Uvod v programsko okolje R

V tem poglavju predstavimo glavne znacilnosti programskega okolja R. Zacne-mo s predstavitvijo operatorjev in nekaterih funkcij, nadaljujemo z vektorji,matrikami in drugimi podatkovnimi strukturami.

R je programsko okolje namenjeno statisticnemu racunanju, omogoca ucin-kovito rokovanje s podatki ter vsebuje mnogo orodij za analizo podatkov, medkaterimi je tudi veliko razlicnih graficnih funkcij. Na R lahko gledamo kotna mozno implementacijo jezika S, ki ga je ustvaril Rick Becker v laboratori-jih Bell-a. V S-u izvedemo statisticno analizo z zaporedjem korakov, vmesnekorake pa shranjujemo v objekte. Medtem, ko funkcije drugih statisticnihorodij, npr. SAS in SPSS, izpisujejo rezultate, jih R shrani v objekte, kjer sona voljo drugim funkcijam. Ukazi programskega jezika R se delijo na izrazein prirejanja. Ce okolju R podamo izraz, se ta izracuna in izpise, izracunanavrednost pa se ne shrani. Pri prirejanju se rezultat shrani v spremenljivko,rezultat pa se ne izpise. Ukaze locujemo s podpicjem ali z novo vrstico in jihzdruzujemo v sklope z zavitima oklepajema. Vrsticni komentarji se zacnejo zznakom lojtra (#). Zaporedje ukazov, shranjenih v datoteko, preberemo v de-lovno okolje z ukazom source("datoteka.r"). Preusmerjanje izpisa z zaslonav datoteko opravimo z ukazom sink("datoteka"). Ce ukaz sink uporabimobrez argumenta, se izpis ponovno preusmeri na zaslon. V vsakem okolju je edenpomembnejsih ukazov ukaz za pomoc (help), ki je ekvivalenten operatorju ”?”.

R ustvarja in upravlja entitete, ki jih imenujemo objekti. Objekti so lahkospremenljivke, stevilska ali znakovna polja, funkcije in strukture, sestavljeneiz teh elementov. Vsebino delovnega okolja, kjer so shranjeni vsi objekti,prikazemo s funkcijo ls(). Iz delovnega okolja brisemo posamezne elemente sfunkcijo rm().

5

6 Poglavje 2: Uvod v programsko okolje R

Najbolj preprost objekt je stevilski vektor. Vektor najhitreje ustvarimoz nastevanjem in funkcijo c, ki nastete komponente zdruzi v vektor, npr.x<-c(1.3, 5). Operator za prirejanje je ”<-”. Prirejamo lahko tudi v na-sprotno smer z operatorjem ”->”. Zaporedje stevil dobimo z izrazom 1:4,ki je ekvivalenten izrazu c(1,2,3,4). Funkcija, ki se ukvarja z zaporedji,je seq. Pozorni moramo biti na prioriteto operatorja dvopicje (:), ker jeta visja od ostalih operatorjev. Pri zaporedjih stevil nam je v pomoc tudifunkcija rep(x, n), ki reproducira n krat objekt x. Aritmeticne operacije medstevilskimi vektorji se izvajajo po komponentah. Pri aritmeticnih operacijahni nujno, da sta operanda enake dolzine. Krajsi vektor se ”reciklira”tako, da sepodaljsa s ponavljanjem lastnih vrednosti. Operatorji za obicajne aritmeticneoperacije so +, -, *, /, ^. Matematicne funkcije pa so log, exp, sin, cos,tan, sqrt. Uporabne so tudi min, max in range(x), length, sum, prod, sort,mean, var.

Logicni vektorji so rezultat pogojnih izrazov. Logicne vrednosti so lahkoTRUE, FALSE, NA. Logicni operatorji so <, <=, >, >=, == in !=. Operator”&”predstavlja presek, operator pa ”|”unijo dveh logicnih vektorjev. Oper-ator ! predstavlja negacijo.

Znakovni vektor je zaporedje znakov med enojnimi ali dvojnimi narekovaji.V nizih se uporablja C-jeva konvencija za posebne znake. Nize zdruzujemo zukazom paste, ki sprejme poljubno stevilo argumentov.

Pri vseh vektorjih je znacilno, da lahko izberemo podmnozico njihovih el-ementov, kar naredimo z vektorjem indeksov in operatorjem ”[]”. Vektor in-deksov je lahko logicni vektor, vektor pozitivnih celih stevil, vektor negativnihcelih stevil in vektor znakovnih nizov. Ce imamo npr. izraz a[b], vektor b

je logicni vektor, dolzini a in b pa sta enaki, bodo izpisane vse komponentea-ja, za katere je istolezna komponenta b-ja resnicna. Ce je b stevilski vektor,je njegova dolzina poljubna. V takem primeru pozitivna stevila predstavljajoindekse, ki bodo vkljuceni v rezultat, negativnih indeksov pa v rezultatu ne bo.V stevilskem vektorju indeksov b ni dovoljeno mesati pozitivnih in negativnihstevil. Cetrta moznost nastopi, ce je b vektor znakovnih nizov. To moznostbomo opisali pri obravnavi seznamov.

Kompleksnejsi podatkovni objekti so matrike (matrix), seznami (list),objekti tip data.frame in funkcije.

Vsak objekt ima osnovni tip, ki mu v R-ju recemo mode. To je eden odosnovnih atributov. Med osnovne atribute sodi tudi atribut length, ki dolocadolzino vektorja. Za spreminjanje tipa objekta uporabljamo funkcije vrsteas.tip(), kjer je tip vrednost atributa mode, ki jo zelimo (npr. as.numeric).

7

Funkcija attributes(x) vrne seznam neosnovnih atributov, ki so trenutnodefinirani na objektu x. S funkcijo attr(x, y) pa spreminjamo vrednostatributa y na objektu x. Vsi objekti imajo poseben atribut, imenovan razred.S klicem funkcije class izpisemo vrednost tega atributa. Pri enostavnih vek-torjih je razred enak osnovnemu tipu (npr. numeric, logical, character, os-tale moznosti pa so list, matrix, array, factor in data.frame). Ta atributomogoca uporabo objektno orientiranega programiranja.

Seznam v R-ju predatavlja objekt, sestavljen iz urejene mnozice drugihobjektov, ki jim recemo komponente. Seznam se razlikuje od vektorja, kerlahko vsebuje elemente razlicnih osnovnih tipov. Primer seznama je

lst<-list(name="Fred", child.ages=c(4,7,9)).

Do komponent lahko dostopamo z indeksi, npr. do prve dostopamo z lst[[1]],do prvega elementa druge komponente pa z lst[[2]][1]. Do komponentlahko dostopamo tudi z imenom komponente, podanem kot indeks(npr. lst["name"]). Pri dostopu do komponent lahko uporabimo tudi dolar($) notacijo, npr. lst$name. Imena komponent so shranjena kot vektorznakovnih nizov v atributu names. Za lazji dostop do podatkov lahko vsakemuobjektu dodamo atribut z imeni njegovih komponent.

Objekt tipa data.frame je seznam, ki ima atribut razred nastavljen nadata.frame. Ta tip se pogosto uporablja za opis mnozice meritev, opravljenihmed nekim poskusom. Vse zbirke podatkov, ki sestavljajo podatkovni paketdatasets, so predstavljene s tipom data.frame. Seznam teh zbirk dobimo zukazom library(help="datasets"). Obstajajo omejitve, ki narekujejo, ka-teri seznami lahko postanejo tipa data.frame.

Funkcije so objekti tipa function. Funkcijo definiramo s prirejanjemoblike name <- function(p1, p2) expression, klic funkcije pa ima oblikoname(e1, e2). Uporabnik lahko definira nove binarne operatorje tako, da za-menja ime funkcije z nizom ”%operator%”. Pri klicu funkcije lahko dolocimovrednost parametru tudi imensko, tako da argument povezemo z imenomparametra (npr. ime_parametra=izraz.) Ta lastnost omogoca podajanje ar-gumentov v poljubnem vrstnem redu. Privzeta vrednost parametra je lahkopoljuben izraz, ki lahko vkljucuje tudi druge parametre iste funkcije. Ar-gumenti se lahko iz ene funkcije v drugo prenasajo s parametrom ”...”.Funkcije so vezane na okolje (angl. environment), v katerem so definirane.Okolje, v katerem je funkcija definirana, lahko preverimo in nastavimo z uka-

8 Poglavje 2: Uvod v programsko okolje R

zom environment. Funkcije lahko gnezdimo, zato problem dosegljivosti spre-menljivk izenacimo s problemom iskanja poti v grafu dosegljivosti. Spre-menljivke, ki se pojavljajo znotraj telesa funkcije, so parametri, lokalne spre-menljivke ali proste spremenljivke. Proste spremenljivke se nanasajo na spre-menljivke, deklarirane v predhodnih vozliscih grafa dosegljivosti. Proste spre-menljivke postanejo lokalne, ko jim priredimo neko vrednost. V tej tocki se Rrazlikuje od drugih implementacij jezika S (npr. S-Plus), ker slednji izenaciglobalne spremenljivke s prostimi. Vrednost proste spremenljivke spremenimoz operatorjem ”<<-”. Operator se pomika po grafu dosegljivosti, dokler nenajde vozlisca, v katerem je bila prosta spremenljivka lokalna. Ce take spre-menljivke v grafu ni, se definira globalna spremenljivka in se ji priredi ustreznavrednost.

S pregledom okolja R smo zeleli predstaviti glavne lastnosti, ki smo jihuporabili pri izdelavi nasih metod.

Poglavje 3

Vizualizacija odlocitvenih inregresijskih dreves

Odlocitvena in regresijska drevesa so ucni modeli, ki omogocajo razumljivprikaz naucenih zakonitosti. Postopek njihove izgradnje je naslednji: na za-cetku so vsi ucni primeri v vozliscu, imenovanem koren drevesa. Izberemoatribut, ki zagotavlja najboljso delitev na dve podvozlisci. Postopek pona-vljamo, dokler ne dobimo dovolj cistih vozlisc. Cisto vozlisce vsebuje primereenega samega razreda. Napako zmanjsujemo tako, da po potrebi poddrevesaporezemo.

Prikaz dreves v programskem okolju R izvedemo s paketom rpart. Rpartvrne objekt z natancno doloceno strukturo, ki je opisana v [5]. Z ukazom

model<-rpart(as.formula("Plant ∼ ."), CO2);

dobimo rpart model, ki zna iz zbirke primerov CO2 napovedati razred Plant.Enacba ”Plant∼.”nam pove, da je razred Plant odvisen od vseh ostalih atrib-utov. Z ukazom attributes(model) si lahko pogledamo lastnosti rpart ob-jekta. Podatkovna struktura je sestavljena iz treh sklopov: frame, splits incsplit, ki so prikazani v tabeleh 3.1, 3.2 in 3.3. Z ukazom class preverimopodatkovni tip. Komponenta frame je tipa data.frame, ostali dve pa sta ma-tricnega (matrix) tipa. Tip matrika ima lastnost dim, ki vsebuje podatke onjenih dimenzijah. Vsi elementi matrike morajo biti enakega osnovnega tipa.To je pogosto omejitev, zato lahko matriko nadgradimo z dodatnima atribu-toma, ki opisujeta pomen vrstic in stolpcev. Ta dva atributa sta row.names

in names. Tako spremenjeni tip se imenuje data.frame. Tip data.frame jeprimeren za predstavitev podatkovnih zbirk, kadar zelimo shraniti vrednosti

9

10 Poglavje 3: Vizualizacija odlocitvenih in regresijskih dreves

atributov - stolpcev, ki so na splosno razlicnih osnovnih tipov.Ena od podatkovnih zbirk, ki jih bomo uporabili v nadaljevanju, je CO2.

CO2 zbirka vsebuje podatke o absorpciji ogljikovega dioksida razlicnih rastlin vrazlicnih vremenskih pogojih. V R-ju jo prikazemo z ukazom CO2. Zbirka ima5 atributov, trije so imenski, dva pa stevilska. Stolpec Plant je urejen seznamz dvanajstimi vrednostmi, ki predstavljajo vrste rastlin. Stolpec Type imadve vrednosti Quebec in Mississippi, ki predstavljata kraj izvora rastline.Stolpec Treatment ima dve vrednosti nonchilledin in chilled, ki predstavl-jata vremenske pogoje. Stolpca uptake in conc vsebujeta stevilske vrednosti,ki predstavljajo absorpcijo in koncentracijo ogljikovega dioksida.

V podpoglavju 3.1 bomo zgradili drevo, ki napove vrednosti stolpca Plant,v podpoglavju 3.2 pa regresijsko drevo, ki napove vrednosti stolpec uptake.

3.1 Vizualizacija odlocitvenih dreves

Cilj tega podpoglavja je opisati strukturo rpart objekta, oziroma prikazati inrazloziti tabele 3.1, 3.2 in 3.3. Vsak R objekt ima svoje atirbute. Posebnomesto ima atribut names, ki je tipa seznam (list) in vsebuje seznam imenkomponent, ki so dostopna z dolar ($) sintakso. V tem seznamu so med drugimiprisotna imena treh komponente frame, splits in csplit. Dostop do prvekomponente izvedemo z ukazom model$frame. Na tem mestu nas zanimajo

var n wt dev yval1 Type 84 84 77 12 Treatment 42 42 35 14 <leaf> 21 21 14 15 <leaf> 21 21 14 43 Treatment 42 42 35 76 <leaf> 21 21 14 77 uptake 21 21 14 1014 <leaf> 9 9 2 1015 <leaf> 12 12 6 11

Tabela 3.1: Vsebina atributa frame pri objektu tipa rpart.

samo stolpci, ki so prikazane v tabeli 3.1, ceprav jih R izpise vec.Prvi stolpec, ki nima oznake, predstavlja zaporedno stevilo vozlisca v bi-

narnem drevesu. Ker je drevo binarno, so vrednosti prvega stolpca omenjene

3.1 Vizualizacija odlocitvenih dreves 11

navzgor z izrazom 2d − 1, kjer je d globina drevesa. V prikazani tabeli 3.1je globina drevesa 4, ker velja 24 − 1 = 15. Koren drevesa dobi oznako 1.Pri ostevilcenju ostalih vozlisc se pomikamo od leve proti desni. Do vozliscas stevilko 7 pridemo tako, da se iz korena drevesa pomaknemo dvakrat desno.Enostavno je tudi ugotoviti katero vozlisce je predhodnik vozlisca 7. To je 3,kar nam pove izraz (3.1). Z izrazom (3.2) je mozno priti tudi do levega oziromadesnega sina, to sta 14 in 15.

prednik(i) =

{(i− 1)/2 , i je lih

i/2 , i je sod(3.1)

naslednjik(i) =

{2i za levo poddrevo

2i + 1 za desno poddrevo(3.2)

Stolpec z oznako var vsebuje seznam atributov v notranjih vozliscih, oziromaniz <leaf>, kar predstavlja list drevesa. Stolpca n in wt predstavljata steviloprimerov v vozliscu in vsoto utezi vseh primerov vozlisca. V nasi imple-mentaciji sta oba stolpca enaka. Utez ima tudi implicitni graficni pomen, kerje dolzina veje sorazmerna stevilu primerov. Stolpec dev opisuje razprsenostposameznega vozlisca. Razprsenost izracunamo tako, da prestejemo primerevozlisca, ki ne spadajo v vecinski razred trenutnega vozlisca. Tudi ta stolpecima graficni pomen, ker je razprsenost povezana z zaupanjem in ta z naklonomveje drevesa. Manjsi kot je naklon, vecja je cistost vozlisca in vecje je zau-panje v njegovo odlocitev. Zadnji stolpec je yval, ki vsebuje indeks vecinskegarazreda.

Ce za primer preucimo vrstico z oznako 7 opazimo, da je odlocitev pre-puscena atributu uptake in da ima vecinski razred indeks 10. Iz te tabeleni razvidno, kaksna je mejna vrednost, ki jo ima ta stevilcni atribut, je pata podatek zapisan v tabeli 3.2, ki jo dobimo z ukazom model$splits. Tudi

count ncat indexType 42 2 1.00

Treatment 21 2 2.00Treatment 21 2 3.00

uptake 9 -1 14.65

Tabela 3.2: Vsebina atributa splits pri objektu tipa rpart.


v tej tabeli so nekateri stolpci izpusceni. Prvi stolpec vsebuje ime atributa.Stolpec count poda stevilo primerov, ki jih atribut usmeri v levo poddrevo.Razlika med stolpcema count in n (iz tabele frame) so primeri, ki gredo vdesno poddrevo. Stolpec ncat poda stevilo vrednosti atributov. Ce atributpredstavlja stevilske vrednosti, potem uporabljamo oznako ±1. Pri uporabioznake −1 bo v prikazu uporabljen znak manjse (<), v nasprotnem primerupa znak vecje ali enako (≥). Stolpec index v primeru atributa s stevilskimivrednostmi poda mejno vrednost, medtem ko za diskretne vrednosti vsebujeindeks v model$csplit tabeli, kot to prikazuje tabela 3.3.

Zadnja podatkovna komponenta pomembna za graficni prikaz je prikazanav tabeli 3.3. Ta tabela je prisotna samo, ce drevo vsebuje vsaj eno vozliscez diskretnimi vrednostmi. V tej tabeli so obravnavane vrednosti diskretnih

vrednost1 vrednost2

1 31 31 32 2

Tabela 3.3: Vsebina atributa csplit pri objektu tipa rpart.

atributov. Stevilo stolpcev je enako maksimalnemu stevilu vrednosti. Zaradienostavnosti je stevilo vrstic enako stevilu vrstic splits tabele, ceprav le-tavsebuje tudi stevilske atribute. To dejstvo ne povzroca tezav, ker stolpec ncat

filtrira odvecne vrstice. V nasem primeru imta oba atributa dve vrednosti, kista v tabeli oznacena kot vrednosti1 in vrednosti2. Zaloga vrednosti tehstolpcev je {1, 2, 3}. Oznaka 1 pomeni, da ja vrednost prisotna v levem vo-zliscu, 3 da je prisotna v desnem in oznaka 2, da ta vrednost ni prisotna priodlocanju.

Graficni rezultat je drevo prikazano na sliki 3.1. Ukaz za risanje slike jeplot. Pri generiranju smo uporabili dodatni parameter branch=0.5, ki zago-tavlja, da je kot pod katerim so veje prikazane vsaj 45o. Glede na razprsenostse lahko ta kot poveca. To se dogaja pri nekaterih koncnih vozliscih, ki imajomanj primerov, in pride vsak nevecinski primer bolj do izraza. Krajse veje sorezultat manjsega stevila primerov. Iz tega sledi, da je na sliki 3.1 mogocesmiselno rezanje pri vozliscih 2 in 5. To moznost rpart paket ponuja, vendarje nismo uporabili. To je tudi razlog za izpuscene stolpce, saj ti opisujejo alter-

3.2 Vizualizacija regresijskih dreves 13

nativna vozlisca, ki se uporabljajo med postopkom rezanja drevesa. Ce zelimopri izrisu drevesa izpisati se tekstovne oznake, uporabimo ukaz text. Dodatenargument za to funkcijo je pretty=0, ki doloca izpis para atribut-vrednost. Ceje pretty>0, se vrednosti atributov pokrajsajo.

Slika 3.1: Odlocitveno drevo za problem CO2, razred je atribut Plant.

V naslednjem podpoglavju si bomo ogledali razlike pri vizualizaciji odloci-tvenega in regresijskega drevesa.

3.2 Vizualizacija regresijskih dreves

Ce zelimo napovedati stevilski atribut uptake potrebujemo regresijsko drevo.Primer takega drevesa je na sliki 3.2. Sliko smo dobili z enacbo

uptake ∼ Type+Treatment+conc

(v tem primeru primeru predvidevamo, da atribut uptake ni odvisen od atri-buta Plant). Razlika je pri koncnih vozliscih, kjer imamo namesto imenarazreda stevilsko vrednost. S podatkovnega vidika rpart modela nimamo nenovih tabel ne dodatnih stolpcev. Razlika je samo v pomenu stolpcev yval in


polja dev iz tabele frame. Indeks razreda je zamenjan s povprecno vrednostjouptake spremenljivke vseh primerov v vozliscu. Razprsenost se izracuna kotpovprecje kvadratnih napak vseh primerov v vozliscu.

Slika 3.2: Regresijsko drevo za problem CO2, razred je atribut uptake.

V naslednjem podpoglavju se bomo na kratko osredotocili na postopekprilagajanja CORElearn modela zgoraj predstavljeni podatkovni strukturi.

3.3 Implementacija vizualizacije

Implementacija je razdeljena na dva dela. Prvi del poteka v C okolju in poskrbi,da iz CORElearn modela pridobimo vse podatke in jih zapakiramo v R po-datkovno strukturo. Uporabljene strukure so VECSXP za predstavitev vektorjevin matrik, STRSXP za predstavitev nizov ter REALSXP in INTSXP za predstavitevstevil. Drugi del, ki poteka znotraj okolja R, pa preoblikuje vrnjene podatke vobjekte tipa data.frame in matrix z vsemi potrebnimi atributi.

Poglavje 4

Vizualizacija nakljucnih gozdov

Nakljucni gozdovi so sestavljeni iz mnozice T dreves, kjer je T stevilo odvisnood zahtevnosti ucnega problema in je lahko zelo veliko. Zaradi tega spadajonakljucni gozdovi med klasifikatorje, ki so tezje razumljivi. Tezko razlozimonaucene zakonitosti na podlagi nekaj deset dreves, zato je vizualizacija to-liksnega stevila dreves vecinoma nesmiselna. Kjub temu pa nakljucni gozdovinudijo dodatna orodja za razumevanje in vizualizacijo. Nakaj takih orodijje prikazanih v podpoglavju 4.2. V nadaljevanju si ogledamo nakaj lastnostinakljucnih gozdov, ki smo jih povzeli po [1] in [3].

4.1 Kratek opis nakljucnih gozdov

Eden od moznih nacinov izgradnje drevesa je naslednji. V korenu drevesaimamo ucno mnozico, ki je podmnozica vseh primerov. Ta podmnozica je povelikosti enaka mnozici vseh primerov, sestavljena pa je iz nakljucno izbranihprimerov, kjer se isti primeri lahko veckrat ponovijo. Tak postopek izbirepodmnozice je izbira s ponavljanjem (v anglescini booststrap). Ta postopek vpovprecju izpusti eno tretjino primerov. Izpuscene primere imenujemo v an-glescini out-of-bag (oob) in jih lahko uporabimo za oceno napake, ki jo imenu-jemo oob ocena napake. Kot bomo videli v razdelku 4.2.1, lahko ta ocenalocuje pomembne spremenljivke od nepomembnih. Za vsako drevo se ustvarinova podmnozica primerov.V vsakem vozliscu nakljucno izberemo F spremenljivk, s katerimi zgradimodrevo. Stevilo F je lahko poljubno, pogosto pa se uporabljata vrednosti

√M

ali blog2(M)+1c, kjer je M stevilo atributov. V posameznem vozliscu se lahkoodlocamo tudi na podlagi linearne kombinacije L atributov, izbrane atributeobtezimo z realnim stevilom iz intervala [−1, 1]. V tem primeru je F stevilo ra-

15

16 Poglavje 4: Vizualizacija nakljucnih gozdov

zlicnih kombinacij L atributov. Zanimivo je, da ze F = 1 daje dobre rezultate,pa se postopek je bistveno hitrejsi. Pri velikih ucnih mnozicah je za F > 1klasifikacijska tocnost ponavadi nekaj vecja.

Z dodajanjem dreves se klasifikacijska napaka ustali. Zgornjo mejo napakedobimo, ce upostevamo dva parametra, in sicer tocnost posameznega drevesain odvisnost med drevesi. Za posamezno drevo zahtevamo vsaj tocnost, ki jevecja od nakljucne in majhno podobnost z drugimi drevesi. Nakljucna izbiraprimerov in atributov zmanjsuje podobnost med drevesi.

Gradnje drevesa ne omejujemo v globino in ga ne rezemo, saj pri nakljucnihgozdovih ni nevarnosti prevelikega prileganja ucnim podatkom. Izboljsavatocnosti klasifikacije je posledica mnozice dreves, ki glasujejo. Klasifikacijapoteka tako, da vsako od N dreves samostojno klasificira primer v nek razred.Koncni razred, ki ga izbere gozd, je tisti, ki je dobil najvec glasov. Pri regresijije skupna napovedana vrednost povprecje posameznih napovedi. Prostorska incasovna kompleksnost gradnje gozdov sta linearno odvisni od stevila primerov.Ce potrebujemo matriko sosednosti, ki jo opisujemo v razdelku 4.2.2, postaneprostorska kompleksnost kvadratna. Postopek izgradnje dreves je mozno enos-tavno paralelizirati.

4.2 Orodja za razlago nakljucnih gozdov

Orodja, ki nam omogocajo proucevanje in vizualizacijo mnozice dreves somogoca, ker so nakljucni gozdovi odlicen klasifikator in imajo nepristranskooceno napake. S pomocjo tega lahko:

1. izdelamo ucinkovite metode za ocenjevanje manjkajocih podatkov, s ka-terimi lahko ohranimo tocnost tudi, ko primanjkuje do 80% podatkov,

2. izravnamo napako pri neuravnotezenih razredih,

3. podamo uporabne ocene napake, korelacije in pomembnosti atributov,

4. izracunamo sosednost med primeri, kar lahko uporabimo za razvrscanjeprimerov v skupine, detekcijo izjem (anglesko outliers) in suma v ucnimnozici, ter vizualizacijo podatkov.

Podrobneje si te metode ogledamo v nadaljevanju.

4.2 Orodja za razlago nakljucnih gozdov 17

4.2.1 Pomembnost atributov

Pri odlocitvenem drevesu na sliki 3.1 je enostavno razbrati, kateri atributi sokoristni. To so atributi, ki so uporabljeni v notranjih vozliscih drevesa. Primnozici dreves je tezje razbrati pomembnost atributov, lahko pa jo ocenimotako, da za vsako drevo pri klasifikaciji izpuscenih primerov nakljucno permuti-ramo vrednosti vsakega atributa posebej. Opazimo razlicno zmanjsanje klasi-fikacijske tocnosti. Ce je atribut nepomemben, spreminjanje njegovih vred-nosti ne bo vplivalo na klasifikacijo in obratno. Primer je na sliki 4.1. Kerpostopek temelji na nakljucnem zbiranju vrednosti, smo ga ponovili 100 kratin upostevali povprecno vrednost. Iz slike je razvidno, da je najbolj pomem-ben atribut Treatment, sledi pa mu atribut Type. Najmanjsi vpliv ima atributconc. To sovpada s sliko odlocitvenega drevesa na sliki 3.1, kjer sta Treatment

in Type na vrhu drevesa, atribut conc pa ni prisoten.

Slika 4.1: Pomembnost atributov za problem CO2.

4.2.2 Sosednost primerov

Matrika sosednosti ima veliko prakticnih aplikacij. Med drugim jo uporabl-jamo za detekcijo izjem, nadomescanje manjkajocih vrednosti in razvrscanje.


Postopek izracuna matrike je naslednji. Z drevesom klasificiramo ucne primereoob mnozice. Ce primera k in n koncata v istem listu, povecamo sosednostpr(k, n) med njima za ena. Sosednost vsakega primera samim s seboj pr(k, k)je 1. Na koncu sosednosti delimo z dvakratnim stevilom dreves. Sosednostnam da oceno podobnosti med dvema primeroma. Lahko jo izkoristimo zanadomescanje manjkajocih vrednosti. Vsako manjkajoco vrednost ocenimo zutezeno vsoto vseh prisotnih vrednosti. Kot utez uporabimo matriko sosed-nosti. Znova izracunamo sosednost za nove vrednosti in postopek iterativnoponavljamo. Prostorska kompleksnost matrike pr je N2, kjer je N stevilo vsehprimerov. V nadaljevanju si bomo pogledali, za kaj vse lahko se izkoristimomatriko sosednosti.

4.2.3 Odkrivanje izjem

Slika 4.2: Izracunane vrednosti out(i) za adult sample.

Odkrivanje izjem temelji na matriki sosednosti in izrazu (4.1). Sosednostlahko uporabimo, ce izjeme definiramo kot primere, ki imajo majhno podob-


nost z ostalimi primeri znotraj enakega razreda.

out(i) = [(∑Mi

j pr(i, j)2)−1 −mediani]/devi

N = {vsi primeri}Mi = {k|k ∈ N ∧ class(k) = class(i)}

(4.1)

Kjer je mediani mediana i-te vrstice matrike sosednosti pr(i, j) in upostevamosamo elemente iz istega razreda, pri katerih je j ∈ Mi. Enako velja za stan-dardno deviacijo i-te vrstice devi. Odstopajoci primeri so tisti, ki imajo vred-nost out(i) > 10.Poglejmo si, kdaj bo ta pogoj izpolnjen. Ce predpostavimo, da je primer ipodoben samo samemu sebi, velja pr(i, j) = 0 za vsak j 6= i. Po izrazu (4.1) bovsota enaka 1, mediana pa 0. Ce poenostavimo, dobimo 1/devi > 10. Koliksnoje minimalno stevilo primerov iz istega razreda, potrebnih, da bo standardnadeviacija vecja od 1/10? Z nekaj poskusi ugotovimo, da je |Mi| = 100. Todosezemo z ukazom 1/sd(c(rep(0,99),1)).Vrednosti out(i) za zbirko CO2 so vse pod 10. Iskanje izjem je lazje pri velikihmnozicah, zato smo pri izdelavi slike 4.2 uporabili zbirko adult_sample, ki jeopisana v dodatku A.2.

Ker v zbirki CO2 ni izjem, lahko predpostavimo, da vsi primeri v nakljucnemgozdu pripadajo koncnemu vozliscu, v katerem niso sami. Porazdelitev prime-rov v prostoru obravnavamo v naslednjem razdelku.

4.2.4 Zmanjsevanje dimenzij prostora s sosednostjo

V osnovi imamo z matriko sosednosti N dimenzijski prostor. Matrika sosed-nosti je pozitivno semidefinitna in navzgor omejena z 1. Vrednost (4.2) pred-stavlja euklidsko razdaljo v vecdimenzionalnem prostoru. Ce gledamo na prkot na podobnost, lahko gledamo na (4.2) kot na razlicnost med primeri. Taizraz je osnova za metode zmanjsevanja vecdimenzijskega prostora (angl. MDS– multi-dimensional scaling). Kompleksnost prostora lahko zmanjsamo tako,da naredimo dekompozicijo na lastne vektorje in vrednosti. Lastne vrednostiuredimo padajoce. Vzamemo prvih l lastnih vektorjev, ki pripadajo l najvecjimlastnim vrednostim, in tako dobimo l dimenjziski prostor.√

1− pr(i, j) (4.2)

Dekompozicijo dosezemo z ukazom cmdscale(cv, d, add=TRUE). Argumentcv predstavlja vrednosti iz izraza (4.2), d pa je stevilo dimenzij novega pros-tora.


Slika 4.3: Prikaz prve in druge komponente novega podprostora za problemCO2.

Na sliki 4.3 opazimo stiri glavne skupine. Te stiri skupine pridobimo tako,da izpustimo numericne oznake iz imena rezreda (glej legendo). Torej imamoQn, Qc, Mn, Mc, ki jih bomo v nadaljevanju obravnavali kot razrede. Ce seponovno vrnemo k tabeli 3.1 in sliki drevesa 3.1, vidimo, da je odlocitvenodrevo sposobno napovedati pet razredov in da je v treh od teh vec kot 60%napacnih primerov. Ti odstotki so zapisani v tabeli 4.1. Razred Mc2 bi lahkoostal samostojen, ostale pa je potrebno drugace razvrstiti. V naslednjemrazdelku bomo poskusili prikazati boljso razvrstivev.

Qn1 Qc2 Mn3 Mc2 Mc3

0.667 0.667 0.667 0.222 0.5

Tabela 4.1: Razmerje med vsemi primeri (n) in primeri, ki niso v vecinskemrazredu (dev).


4.2.5 Razvrscanje na podlagi sosednosti

Na podlagi matrike sosednosti lahko razvrstimo primere v G skupin. Primeri,ki so si blizu, se zdruzijo v eno skupino. Ukaz, ki ga potrebujemo, je pam izpaketa cluster:

cluster::pam(cv, s, diss=TRUE, cluster.only=TRUE).

Argument cv predstavlja vrednosti izraza (4.2), s pa je stevilo skupin, ki namjih je ukaz vrnil. Na sliki 4.4 sta prikazana podprostora dimenzije 5, pri-dobljena iz dekompozicije prvotnega prostora. Tako kot na sliki 4.3 so tudi

Slika 4.4: Dekompozicija prostora za problem CO2 na 5 skupin.

tu prisotne stiri vecje skupine. Na levi sliki sta skupini ena in dva zdruzeni.Na desni sliki opazimo, da ju je mozno lociti z neenakostjo 0.0 < x < 0.2 in zmejo med njima y = 0.0. Izgradnja nakljucnih gozdov je stohasticen proces,zato se slike med razdelki razlikujejo. V tem poskusu podobnost med elementiomogoca delitev razreda Qn na dva dela. Druga skupina (2. sk. - glej legendo)vsebuje stiri elemente Qn2 in 5 elementov Qn3, prva skupina (1. sk.) pa vseostale. Vsak od 12-ih razredov ima 7 primerov. Napaka vozlisca, kjer staskupini 1 in 2 zdruzeni, je 14/21 = 0, 667 (enako kot v tabeli 4.1), medtemko je napaka locenih skupin 12/21 ∗ 5/12 + 9/21 ∗ 4/9 = 0, 428. Tako kot je


na sliki 4.4 prikazana delitev razreda Qn, je mozna tudi delitev razreda Mn.Ce povecamo stevilo skupin na 7, dobimo tudi delitev Mc razreda. Vcasihzelimo vecje stevilo skupin, ker nam to omogoca boljse razumevanje podatkov.Povecevanje stevila skupin zmanjsuje stevilo primerov v koncnih vozliscih, karzmanjsa upravicenost do nadaljne delitve. V primeru podatkovne zbirke CO2

je najbolj smiselna delitev na sedem skupin. To nam potrdi kalasifikacijskodrevo na sliki 4.5. Klasifikacijska tocnost tega drevesa je 100%. Drevo smodobili tako, da smo zamenjali vsebino stolpca Plant z vektorjem, ki nam gavrne ukaz pam. Vidimo, da lahko z razvrscanjem in dekompozicijo prostorapreucimo morebitne povezave in odvisnosti med primeri.

Slika 4.5: Odlocitveno drevo za problem CO2 s sedmimi razredi.

Razvrscanje je koristno tudi pri izracunu pomembnih atributov, ker lahkoobravnavamo vsako skupino posebej. Primer je prikazan v dodatku na slikiA.4.

4.2.6 Vpliv atributov na napoved

Cilj te metode je graficni prikaz lastnosti n najboljsih primerov. Primere ocen-imo s pomocjo nakljucnega gozda, tako da vzamemo tiste z najvisjo verjetnos-tjo napovedanega razreda. Atribute normaliziramo in jih omejimo na interval


[0, 1]. Imenske atribute preslikamo na ta interval z izrazom (|Ai| − 1)−1, kjerje Ai = {vrednosti atributa i}. Rezultat postopka je prikazan na sliki 4.6.Slika je izdelana na podlagi podatkovne zbirke iris, ki je na kratko opisana

Slika 4.6: Prikaz 10 najboljse klasificiranih primerov iz mnozice iris.

v dodatku A.1. Zbirka ima 4 atribute in 3 razrede, kar je razvidno iz slike4.6. Ostale podrobnosti so za razumevanje tega razdelka nepomembne. Slikaprikazuje podobno informacijo kot tista, ki prikazuje pomembnost atributovin je prikazana v dodatku A.3. Atributa, ki dobro locita med primeri, staPetal.Length in Petal.Width. Vidimo, da atribut Petal.Length jasno locirazred setosa od drugih razredov, atribut Petal.Width pa dobro locuje vsetri razrede. Atribut Sepal.Width je neuporaben in ga lahko izpustimo. Takosliko lahko neposredno uporabimo za klasifikacijo novih primerov. Pri tempotrebujemo parametre za normalizacijo, ki jih metoda vrne. Iz n primerov znajvisjo verjetnostjo napovedi razreda, bi lahko zgradili odlocitveno oziromaregresijsko drevo, s katerim napovedujemo razred novih primerov.

Ta metoda je bolj smiselna za atribute z mnogo vrednostmi in za stevilskeatribute. Pri atributih z binarnimi vrednostmi se primeri med seboj prekrivajo,kar otezuje oceno pomembnosti atributa.

Poglavje 5

Zakljucek

V tem delu smo izdelali programsko opremo, ki v okolju R prikaze odlocitvenain regresijska drevesa ter nakljucne gozdove. V tem okolju drevesa prikazemoz uporabo paketa rpart, zato pri odlocitvenih in regresijskih drevesih zgoljpretvorimo CORElearn model v rpart model. Za predstavitev strukture na-kljucnih gozdov smo izdelali vec orodij. V primeru orodij za ”odkrivanje iz-jem”in ”vpliv atributov na napoved”ter izracunu matrike sosednosti smo izde-lali resitve, opisane v literaturi, medtem ko smo pri ostalih orodjih podatkesamo graficno prikazali. Predstavljena orodja nam omogocajo razumeti, kakonakljucni gozd obravnava ucne primere. Odstopajoci primeri so tisti, ki sov drevesih izolirani. To zagotavlja, da bo njihov glas redko upostevan. Pridekompoziciji prostora vidimo, kako in kateri primeri so povezani. Skupekinformacij, pridobljenih z vsakim od omenjenih orodij, lahko enacimo z in-formacijo na slikah odlocitvenih dreves, zaradi cesar tudi nakljucni gozdovipostanejo bolj razumljivi.

Na splosno govorimo o dveh vrstah ucenja. Pri prvi usmerjamo ucenjena podlagi posebnega atributa, ki mu pravimo razred. Pri drugem nacinuucenja pa takega atributa ni. V tem primeru govorimo o ucenju brez razreda(v anglescini unsupervised learning). Predstavljene metode za vizualizacijonakljucnih gozdov so bile izdelane z modeli, ki temeljijo na ucenju z razre-dom. Obstaja postopek za pretvorbo ucenja z razredom v ucenje brez njega.Postopek je naslednji: vzamemo vse ucne primere in jih oznacimo kot pripad-nike skupine A. Za vsak primer iz skupine A dodamo en primer v skupinoB. Vrednosti atributov tega primera so izbrane nakljucno. Tako pridobljenomnozico primerov uporabimo kot ucno mnozico z razredom. Ce ima pri-dobljeni model visoko klasifikacijsko napako pomeni, da prvotna mnozica ucnih

25

26 Poglavje 5: Zakljucek

primerov ni dovolj dobro opisana, ker ne locuje med skupinama A in B. Med de-janskimi in nakljucno izbranimi vrednostmi ni razlike. V nasprotnem primerupa ucenje brez razreda omogoca natancnejso oziroma manj pristransko analizoproblema.

V nadaljnjem delu bi bilo zanimivo prikazati razlike pri vizualizaciji na-kljucnih gozdov na podlagi modela, pridobljenega z ucenjem brez razredov.

Dodatek A

Podatkovne zbirke

A.1 Podatkovna zbirka iris

Podatkovna zbirka iris je zbirka podatkov o treh vrstah petunik, opisanih zatributi, ki predstavljajo dolzino in sirino cvetov. Atributi, so: Sepal.Length,Sepal.Width, Petal.Length in Petal.Width. Razred se imenuje Species.Zbirka je sestavljena iz 150 primerov. Prvih 50 primerov je iz razreda setosa,

Slika A.1: Dekompozicija prostora za podatkovno zbirko iris.

27

28 Poglavje A: Podatkovne zbirke

drugih 50 iz razreda versicolor in zadnjih 50 iz razreda virginica. Problemje dokaj enostaven, kar je razvidno iz dvodimenzionalne projekcije na slikiA.1. V novem prostoru obstaja jasna locnica med razredi. Razred setosa

Slika A.2: Odlocitveno drevo za iris, razred Species.

lahko dolocimo kot x < −0.2. Za razred versicolor oziroma virginica pa jemejna vrednost y=0.0. To se pokaze tudi v preprostem odlocitvenem drevesuna sliki A.2, kjer je potrebno le eno pravilo za razred setosa, in dve pravili zarazreda versicolor oziroma virginica. Tudi v tem primeru slika pomembnihatributov A.3 sovpada zodlocitvenim drevesom. Najbolj pomemben atribut jePetal.Length, ki se nahaja v korenu drevesa. Sledi mu atribut Petal.Width.Ostala dva sta nepomembna, kot je razvidno iz odlocitvenega drevesa, kjer juni.

A.2 Podatkovna zbirka adult sample

Za prikaz izjem v razdelku 4.2.3 smo potrebovali kompleksnejso zbirko po-datkov. Zbirka adult_sample ima 14 atrirbutov, s katerimi opisuje odrasle za-poslene osebe. Primeri so razdeljeni v dva razreda. Prvi ima oznako ”<=50K”,medtem ko ima druga oznako ”>50K”. Oznaki pomenita letni zasluzek v tisocih

A.2 Podatkovna zbirka adult sample 29

Slika A.3: Pomembnost atributov za podatkovno zbirko iris.

dolarjev. Razmerje med skupinama je 741 proti 236 primerov. To razmerje nepreseneca, kajti v vsaki druzbi je vec revnih kot bogatih.

Odlocitveno drevo, ki nastane, je nepregledno in tezko razumljivo. Nepre-gledno je tudi zato, ker rpart ni sposoben izpisati drevesa na vec straneh.Na kompleksnost problema kaze tudi klasifikacijska tocnost nakljucnega gozdas sto drevesi, ki je 0.878. To je samo 12% boljse od zastopanosti vecinskegarazreda, ki je 741/(236+741) = 0.758. Kompleksnost problema bomo zmanjsa-li z metodo ”deli in vladaj”. Prostor primerov razdelimo na 10 skupin, takokot to naredimo v razdelku 4.2.5. Slika A.4 prikazuje pomembnost atributovza vsako skupino posebej. Skupini 4 in 6 iztopata. Za skupino 4 je pomembenatribut 11 (capital.gain), madtem ko je za skupino 6 pomemben atribut12 (capital.loss). Skupini 4 in 6 vsebujeta 122 in 48 primerov. Drevo, kinapove zasluzek primerov iz skupin 4 in 6, je prikazano na sliki A.5. Sedajimamo enostavno drevo, ki za skupini 4 in 6 napove zasluzek. To je le delnaresitev, kajti se vedno ne znamo lociti teh dveh skupin od ostalih. Z novimodlocitvenim drevesom se naucimo se tega. To naredimo tako, da dodamonov atribut, ki za vsak primer pove, kateri skupini pripada. Odlocitvenodrevo, ki locuje med skupinami ”4”, ”6”in ”1-3,5,7-10”je prikazano na sliki A.6.Podobno lahko naredimo za ostale skupine. Sliko A.4, ki prikazuje pomem-


Slika A.4: Pomembnost atributov za adult sample, loceno po skupinah.

bne atirbute, izboljsamo tako, da sestejemo premice, ki nas ne zanimajo. Takprimer je prikazan na sliki A.7. Pri drevesu A.5 ni bilo potrebno spreminjatifunkcije, ki povezuje neodvisne atribute z razredom. Pri drevesu A.6 pa smouporabili izraz

y ∼ workclass+capital.gain+capital.loss,

kot izhodisce smo uporabili sliko A.7.Predstavljeni primer prikazuje prepletenost orodij za razlago nakljucnih

gozdov in odlocitvenih dreves. Predvsem pri kompleksnejsih problemih si zorodji nakljucnih gozdov pridobimo dodatno znanje, ki ga lahko uporabimo zalazjo predstavitev problema.

A.2 Podatkovna zbirka adult sample 31

Slika A.5: Odlocitveno drevo za podmnozico adult sample nad primeri izskupine 4 in 6. Razred je zasluzek.

Slika A.6: Odlocitveno drevo za adult sample. Razred je dodan atribut, kiopisuje skupino.


Slika A.7: Pomembnost atributov za adult sample, loceno po skupinah.Skupina ”1-3,5,7-10”je pridobljena z zdruzitvijo razredov 1-3,5 ter 7-10.

Dodatek B

Pregled ukazov za prikazizdelanih slik

V razdelku 3.1 prikazemo odlocitveno drevo za podatkovno zbirko CO2 innapovedan razred Plant. To nastavimo v spremenljivkah set in learn. Odlo-citveno drevo je rezultat ukaza CoreModel, ce nastavimo parameter model

na vrednost tree. Pridobljeni model pretvorimo v rpart objekt z ukazomgetRpartModel. Na koncu se izrisemo drevo v zeljeni obliki.

set <- CO2;

learn<-"Plant~.";

md<-CoreModel(as.formula(learn), set, model="tree");

rmodel<-getRpartModel(md, set);

#kot med vozliscem in veji sinov je tan(0.5)=45 (stopinj)

#dolzina veje je vsaj 5 enot

plot(rmodel, branch=0.5, minbranch=5);

#(pretty=0) ne krajsamo imenskih vrednosti atributov

#pri stevilskih vrednostih izpisemo 3 decimalke

text(rmodel,pretty=0, digits=3);

Postopek izrisa regresijskega drevesa, iz razdelka 3.2 je podoben. Spre-meniti moramo samo razred (spremenljivka learn) in model (spremenljivkamodel), ki dobi vrednost regTree.

V nadaljevanju prikazani ukazi opisujejo nakljucne gozdove. Nakljucni gozddobimo z ukazom CoreModel, ce nastavimo parameter model na vrednost rf.Dodatni parameter doloca stevilo dreves v gozd.

#set <- iris;

33

34 Poglavje B: Pregled ukazov za prikaz izdelanih slik

#learn<-"Species~.";

#stevilo dreves v gozdu je 30

md<-CoreModel(as.formula(learn), set, model="rf", rfNoTrees=30);

V razdelku 4.2.2 prikazemo pomembnost atributov, kar naredimo s klicemfunkcije getVarImportance. Rezultat je vektor dolzine n, kjer je n steviloatributov. Za lepsi izpis namesto ukaza plot uporabimo ukaz plotRFStats.

imp<-getVarImportance(md);

#na x osi izpisemo samo imen atributov

#izpustimo razred, ki je na polozaju 5

plotRFStats(imp, plotLine=TRUE, myAxes=attr(set,"names")[-5]);

V razdelku 4.2.3 poiscemo izjeme med podatki. Za tak prikaz potrebujemomero podobnosti med primeri. Podobnost izracuna funkcija getProximity, ceje parameter dist enak 0. Na osnovi te kolicine pa klic getOutliers najdeprimere, ki odstopajo. Sliko izrisemo s klicem plotRFStats.

pr<-getProximity(md, dist=0);

out<-getOutliers(md, set, pr);

#razvrscamo po razredu, ki je v 5. stolpcu

plotRFStats(abs(out), cluster=as.character(set[,5]));

V razdelku 4.2.4 zmanjsamo problemski prostor. Prostor poenostavimos uporabo razdalje med primeri. Razdaljo izracuna funkcija getProximity,ce ji podamo parameter dist enak 1. Dekompozicijo prostora izvedemo sfunkcijo spaceScale, ki je enakovredna R-jevi funkciji cmdscale. S ukazomplotRFStats prikazemo prvo in drugo komponento (spremenljivka subDim).Razlicno obarvani primeri in legenda so doloceni v spremenljivki cluster.

dis<-getProximity(md, dist=1);

#iz prostora razdalj "dis" pridobimo 4

#naj bolj pomembne komponente

space<-spaceScale(dis, 4);

#prikazemo 1. in 2. komponento

subDim<-c(space$points[,1], space$points[,2]);

dim(subDim)<-c(length(space$points[,1]),2);

#ime razreda je shranjeno v 2. komponenti atributa "variables"

setClass <- attr(md$terms, "variables")[[2]];

cluster<-set[as.character(setClass)];

plotRFStats(subDim, t(cluster));

35

V razdelku 4.2.5 predstavimo razvrscanje primerov na podlagi njihove med-sebojne razdalje. Razvrscanje v pet skupin dosezemo s klicem getCluster.

dis<-getProximity(md, dist=1);

#zelimo imeti 5 skupin

mdCluster<-getCluster(md, 5, dis);

V razdelku 4.2.6 prikazemo deset najboljsih primerov za vsako vrednostrazreda. Boljsi primeri so tisti z visjo verjetnostjo napovedanega razreda. In-dekse teh primerov dobimo z ukazom impPredictedExample. Nato jih nor-maliziramo na interval med nic in ena s funkcijo varNormalization. Slikoizrisemo s klicem plotRFNorm.

#10 primerov z najvisjo napovedano verjetnostjo

#razreda iz zbirke "set"

#napoved je na podlagi modela "md"

best<-impPredictedExample(md, set, 10);

vnorm<-varNormalization(md, set[best$examples,]);

#zamik legende za 0.15 enot



plotRFNorm(vnorm, best$cluster, best$levels, 0.15,

myHoriz=TRUE, myAxes=attr(set,"names")[-5]);

Na sliki A.4 pomembnost atributov prikazemo loceno po skupinah. Tonaredimo z ukazom importanceByCluster. Ker spremenljivka cluster nidolocena, zdruzujemo primere na podlagi razreda. Za prikaz uporabimo klicplotRFMulti.

impc<-importanceByCluster(md, set, cluster=FALSE);



plotRFMulti(impc$imp, impc$levels, myAxes=attr(set,"names")[-5]);

36 Poglavje B: Pregled ukazov za prikaz izdelanih slik

Slike

3.1 Odlocitveno drevo za problem CO2, razred je atribut Plant. . . 133.2 Regresijsko drevo za problem CO2, razred je atribut uptake. . . 14

4.1 Pomembnost atributov za problem CO2. . . . . . . . . . . . . . 174.2 Izracunane vrednosti out(i) za adult sample. . . . . . . . . . . . 184.3 Prikaz prve in druge komponente novega podprostora za prob-

lem CO2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.4 Dekompozicija prostora za problem CO2 na 5 skupin. . . . . . . 214.5 Odlocitveno drevo za problem CO2 s sedmimi razredi. . . . . . . 224.6 Prikaz 10 najboljse klasificiranih primerov iz mnozice iris. . . . 23

A.1 Dekompozicija prostora za podatkovno zbirko iris. . . . . . . . 27A.2 Odlocitveno drevo za iris, razred Species. . . . . . . . . . . . 28A.3 Pomembnost atributov za podatkovno zbirko iris. . . . . . . . 29A.4 Pomembnost atributov za adult sample, loceno po skupinah. . 30A.5 Odlocitveno drevo za podmnozico adult sample nad primeri iz

skupine 4 in 6. Razred je zasluzek. . . . . . . . . . . . . . . . . 31A.6 Odlocitveno drevo za adult sample. Razred je dodan atribut,

ki opisuje skupino. . . . . . . . . . . . . . . . . . . . . . . . . . 31A.7 Pomembnost atributov za adult sample, loceno po skupinah.

Skupina ”1-3,5,7-10”je pridobljena z zdruzitvijo razredov 1-3,5ter 7-10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

37

Tabele

3.1 Vsebina atributa frame pri objektu tipa rpart. . . . . . . . . . 103.2 Vsebina atributa splits pri objektu tipa rpart. . . . . . . . . . 113.3 Vsebina atributa csplit pri objektu tipa rpart. . . . . . . . . . 12

4.1 Razmerje med vsemi primeri (n) in primeri, ki niso v vecinskemrazredu (dev). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

38

Literatura

[1] Leo Breiman. Random forests. Machine Learning, 45:5–32, 2001.

[2] Marko Robnik Sikonja and Petr Savicky. CORElearn, 2010, http://cran.r-project.org/package=CORElearn.

[3] Adel Cutler Leo Breiman. Manual: Setting Up, Using, And UnderstandingRandom Forests V4.0, 2003.

[4] Igor Kononenko Marko Robnik Sikonja. Inteligentni sistemi. Zalozba FEin FRI, Ljubljana, 2010.

[5] Terry M Therneau and Beth Atkinson. R port by Brian Ripley. rpart:Recursive Partitioning, 2011. R package version 3.1-45, http://cran.r-project.org/package=rpart.

[6] D. M. Smith W. N. Venables and the R Development Core Team. 2011.Version 2.10.1, http://www.r-project.org/.

39

john adeyanju alao - core · seznam tabel 38 literatura 39. povzetek na podro cju strojnega u cenja...

Documents