John Adeyanju Alao - CORE ? Seznam tabel 38 Literatura 39. Povzetek Na podro cju strojnega u cenja

Download John Adeyanju Alao - CORE ? Seznam tabel 38 Literatura 39. Povzetek Na podro cju strojnega u cenja

Post on 11-Mar-2019

212 views

Category:

Documents

0 download

TRANSCRIPT

UNIVERZA V LJUBLJANIFAKULTETA ZA RACUNALNISTVO IN INFORMATIKOJohn Adeyanju AlaoVizualizacija drevesnih modelov innakljucnih gozdovDIPLOMSKO DELONA UNIVERZITETNEM STUDIJUMentor: prof. dr. Marko Robnik SikonjaLjubljana, 2011Rezultati diplomskega dela so intelektualna lastnina Fakultete za racunalnistvo ininformatiko Univerze v Ljubljani in avtorja. Za objavljanje ali izkoriscanje rezultatovdiplomskega dela je potrebno pisno soglasje Fakultete za racunalnistvo in informatikoter mentorja.Besedilo je oblikovano z urejevalnikom besedil LATEX.IZJAVA O AVTORSTVUdiplomskega delaSpodaj podpisani John Adeyanju Alao,z vpisno stevilko 63990022,sem avtor diplomskega dela z naslovom:Vizualizacija drevesnih modelov in nakljucnih gozdovS svojim podpisom zagotavljam, da: sem diplomsko delo izdelal samostojno pod mentorstvomprof. dr. Marko Robnik Sikonja so elektronska oblika diplomskega dela, naslov (slov., angl.), povzetek(slov., angl.) ter kljucne besede (slov., angl.) identicni s tiskano oblikodiplomskega dela soglasam z javno objavo elektronske oblike diplomskega dela v zbirkiDela FRI.V Ljubljani, dne 6.6.2011 Podpis avtorja:KazaloPovzetek 1Abstract 21 Uvod 32 Uvod v programsko okolje R 53 Vizualizacija odlocitvenih in regresijskih dreves 93.1 Vizualizacija odlocitvenih dreves . . . . . . . . . . . . . . . . . . 103.2 Vizualizacija regresijskih dreves . . . . . . . . . . . . . . . . . . 133.3 Implementacija vizualizacije . . . . . . . . . . . . . . . . . . . . 144 Vizualizacija nakljucnih gozdov 154.1 Kratek opis nakljucnih gozdov . . . . . . . . . . . . . . . . . . . 154.2 Orodja za razlago nakljucnih gozdov . . . . . . . . . . . . . . . 164.2.1 Pomembnost atributov . . . . . . . . . . . . . . . . . . . 174.2.2 Sosednost primerov . . . . . . . . . . . . . . . . . . . . . 174.2.3 Odkrivanje izjem . . . . . . . . . . . . . . . . . . . . . . 184.2.4 Zmanjsevanje dimenzij prostora s sosednostjo . . . . . . 194.2.5 Razvrscanje na podlagi sosednosti . . . . . . . . . . . . . 214.2.6 Vpliv atributov na napoved . . . . . . . . . . . . . . . . 225 Zakljucek 25Dodatki 27A Podatkovne zbirke 27A.1 Podatkovna zbirka iris . . . . . . . . . . . . . . . . . . . . . . 27A.2 Podatkovna zbirka adult sample . . . . . . . . . . . . . . . . . 28B Pregled ukazov za prikaz izdelanih slik 33Seznam slik 37Seznam tabel 38Literatura 39PovzetekNa podrocju strojnega ucenja se za predstavitev znanja uporabljajo razlicniformalizmi. Zelo priljubljen formalizem so odlocitvena in regresijska drevesa.CORElearn je paket orodij za strojno ucenje, ki uporablja odlocitvena in regre-sijska drevesa, knn, naivni Bayesov klasifikator in nakljucne gozdove (modelsestavljen iz mnozice dreves). V diplomskem delu vizualiziramo nekaj modelovCORElearn paketa. Za odlocitvena in regresijska drevesa lahko naucene modeleneposredno prikazemo, za nakljucne gozdove pa je prikaz posreden, kajti priteh modelih je znanje razprseno v veliki mnozici dreves, mi pa uporabljamoprikaze, s katerimi obravnavamo gozd dreves kot celoto. Iz mnozice drevestako dobimo matriko sosednosti, ki predstavlja povezanost ucnih primerov vcelotni mnozici. Podobno velja za pomembnost atributov, ki se ocenjuje napodlagi klasifikacijske tocnosti, kot prispevka napovedi vseh dreves v gozdu.Predstavljena orodja za razumevanje nakljucnih gozdov so: pomembnost atrib-utov, sosednost primerov, odkrivanje izjem, zmanjsevanje dimenzij prostora,razvrscanje in vpliv atributov na napoved. Vizualizacijo dreves in gozdovlahko enacimo z vidika sposobnosti prikaza njihovega delovanja. Interpretacijadrevesa je enostavnejsa, ker je zajeta na eni sliki, pri nakljucnih gozdovih pamoramo preuciti vec razlicnih vidikov, zaradi cesar je prikaz bolj informativen.Kljucne besede:strojno ucenje, odlocitvena drevesa, regresijska drevesa, nakljucni gozdovi,vizualizacija, programsko okolje R, paket rpart, matrika sosednosti, paketCORElearn1AbstractIn the field of machine learning there are several knowledge representation tech-niques, for example decision and regression trees are very popular. CORElearnis a machine learning package that generates desision and regression trees, knnmodels, naive Bayesian model and random forests (that is a model comprisedof a set of trees). Our aim is to visually present the CORElearn models. Inthe case of decision and regression trees we present them directly. This is notpossible for random forests where the knowledge is dispersed among severaltrees. We need methods capable of considering every single tree in the forest.For example, we compute a proximity matrix from all the trees in a forest. Wecan also use a sum of classification accuracies per tree to represent the predic-tion of the whole forest. The tools for random forest comprehension presentedin this work are: variable importance, proximity measure, outlier detection,multi-dimensional scaling, clustering and variables effect on class. Both directand indirect visualization methods are comparable. The interpretation of treesis simpler because there is only one image to investigate. On the other handrandom forest methods are more complete.Key words:machine learning, decision tree, regression tree, random forest, vizualization, Rprogramming language, rpart package, proximity matrix, CORElearn package2Poglavje 1UvodOsnovno nacelo strojnega ucenja je samodejno odkrivanje zakonitosti iz razpo-lozljivih podatkov. Rezultat ucenja so pravila, funkcije ipd., ki so predstavljenaz razlicnimi formalizmi. V tem delu bomo obravnavali formalizme, kot soodlocitvena in regresijska drevesa ter nakljucni gozdovi. Nauceni modeli seuporabljajo za odlocanje in napovedovanje obnasanja modeliranega procesa vprihodnosti.Metode strojnega ucenja delimo po nacinu uporabe naucenega znanja naklasifikacijo, regesijo in razvrscanje (clustering). Ena najbolj uporabljenihmetod strojnega ucenja je klasifikacija ali uvrscanje. Naloga klasifikatorja jedolociti, kateremu izmed razredov pripada nek objekt. Ta objekt ali primer jeopisan z mnozico atributov (znacilk, lastnosti). Atributi so neodvisne zvezneali diskretne spremenljivke, razred pa je odvisna spremenljivka. Mnozica ucnihprimerov predstavlja v preteklosti resene probleme. Klasifikator je funkcija,ki preslika prostor atributov v razred. Klasifikatorje locimo po nacinu pred-stavitve te funkcije.Algoritmi za gradnjo odlocitvenih dreves izbirajo atribute glede na ocenoprimernosti atributov in podmnozico njihovih vrednosti. Za napovedovanje jepogojni del pravila sestavljen iz konjuktivno povezanih pogojev v notranjihvozliscih, na poti od korena do lista. Sklepni del pravila sestavlja napovedanirazred, ki se nahaja v listu. Listu pripadajo vsi ucni primeri, ki izpolnujejodano pravilo.Razlika pri regresijskem prediktorju je, da je odvisna spremenljivka ste-vilska vrednost. Regresijski prediktor je torej funkcija, ki preslika prostoratributov v stevilsko vrednost. Ce predstavimo regresijsko funkcijo z drevesom,dobimo regresijsko drevo. Vozlisca v drevesu predstavljajo atribute, veje pavrednosti atributov. V listih imamo zvezno funkcijo, ki izracuna vrednost34 Poglavje 1: Uvododvisne spremenljivke.Nakljucni gozdovi so sestavljeni iz mnozice dreves. Gradnjo dreves us-merja nakljucen postopek. Nakljucni gozdovi so v splosnem bolj zanesljivi odposameznega drevesa.CORElearn je paket strojnega ucenja, ki deluje v okolju R [6] in pred-stavi pridobljeno znanje z odlocitvenimi in regresijskimi drevesi ter nakljucnimigozdovi. Dober programski paket strojnega ucenja zna prikazati pridobljenoznanje na cim bolj razumljiv nacin. Slika je za cloveka eden boljsih nacinovrazlage obseznih in zapletenih podatkov. V tem delu bomo implementirali inpredstavili dodatek za paket CORElearn, ki zna vizualizirati odlocitvena in re-gresijska drevesa ter nakljucne gozdove.Drevo prikazemo tako, da je koren drevesa predstavljen z navpicno crto.Iz koncne tocke te crte izhajata dve premici z naklonom 45o, ki predstavljatalevo in desno vejo. Ta vzorec rekurzivno ponavljamo v globino. Vozlisca sopredstavljena s presekom treh premic. Vozisce vsebuje pogoj v obliki A ={V1, V2, ...Vn} za diskretne atribute ali A < V ali A >= V za zvezne atribute,kjer so Vi mozne vrednosti atributa A, medtem ko je V stevilska konstanta.Ce je pogoj v vozliscu izpolnjen, se premaknemo v levo poddrevo, sicer pa vdesno. Vse probleme, povezane s prikazom drevesa, prepustimo paketu rpart,ki ima tako vizualizacijo ze implementirano. Pri nasem delu se posvetimoprilagoditvi modela, ki ga vrne CORElearn, v obliko, ki jo rpart razume.Nakljucni gozdovi so skupek tudi vec sto dreves. Vsako od teh drevesje pri svoji izgradnji upostevalo samo podmnozico ucnih primerov. Prikazposameznih enega dreves nam zato ne nudi koristne razlage naucenih zakoni-tosti, prikaz vec dreves pa je tezko obvladljiv in zato neprimeren. Obstajajometode, ki se ne ukvarjajo s posameznim drevesom in so sposobne obravnavatiin prikazati delovanje nakljucnega gozda kot celote. Implementirali smo sesttakih metod in v tem delu pokazemo njihovo prakticno uporabo.V naslednjem poglavju na kratko opisemo programsko okolje R. V 3. po-glavju predstavimo resitve, ki omogocajo prikaz odlocitvenih in regresijskihdreves. V 4. poglavju obravnavamo orodja, ki omogocajo graficni prikaz last-nosti nakljucnih gozdov, ki so povsem primerljive z vizualizacijo odlocitvenegain regresijskega drevesa. Sklepne misli so zapisane v 5. poglavju. V dodatkuA predstavimo se nekaj primerov, ki dodatno pojasnjujejo implementiraneresitve. V dodatku B prikazemo primere klicev implementiranih funkcij.Poglavje 2Uvod v programsko okolje RV tem poglavju predstavimo glavne znacilnosti programskega okolja R. Zacne-mo s predstavitvijo operatorjev in nekaterih funkcij, nadaljujemo z vektorji,matrikami in drugimi podatkovnimi strukturami.R je programsko okolje namenjeno statisticnemu racunanju, omogoca ucin-kovito rokovanje s podatki ter vsebuje mnogo orodij za analizo podatkov, medkaterimi je tudi veliko razlicnih graficnih funkcij. Na R lahko gledamo kotna mozno implementacijo jezika S, ki ga je ustvaril Rick Becker v laboratori-jih Bell-a. V S-u izvedemo statisticno analizo z zaporedjem korakov, vmesnekorake pa shranjujemo v objekte. Medtem, ko funkcije drugih statisticnihorodij, npr. SAS in SPSS, izpisujejo rezultate, jih R shrani v objekte, kjer sona voljo drugim funkcijam. Ukazi programskega jezika R se delijo na izrazein prirejanja. Ce okolju R podamo izraz, se ta izracuna in izpise, izracunanavrednost pa se ne shrani. Pri prirejanju se rezultat shrani v spremenljivko,rezultat pa se ne izpise. Ukaze locujemo s podpicjem ali z novo vrstico in jihzdruzujemo v sklope z zavitima oklepajema. Vrsticni komentarji se zacnejo zznakom lojtra (#). Zaporedje ukazov, shranjenih v datoteko, preberemo v de-lovno okolje z ukazom source("datoteka.r"). Preusmerjanje izpisa z zaslonav datoteko opravimo z ukazom sink("datoteka"). Ce ukaz sink uporabimobrez argumenta, se izpis ponovno preusmeri na zaslon. V vsakem okolju je edenpomembnejsih ukazov ukaz za pomoc (help), ki je ekvivalenten operatorju ?.R ustvarja in upravlja entitete, ki jih imenujemo objekti. Objekti so lahkospremenljivke, stevilska ali znakovna polja, funkcije in strukture, sestavljeneiz teh elementov. Vsebino delovnega okolja, kjer so shranjeni vsi objekti,prikazemo s funkcijo ls(). Iz delovnega okolja brisemo posamezne elemente sfunkcijo rm().56 Poglavje 2: Uvod v programsko okolje RNajbolj preprost objekt je stevilski vektor. Vektor najhitreje ustvarimoz nastevanjem in funkcijo c, ki nastete komponente zdruzi v vektor, npr.x7Funkcija attributes(x) vrne seznam neosnovnih atributov, ki so trenutnodefinirani na objektu x. S funkcijo attr(x, y) pa spreminjamo vrednostatributa y na objektu x. Vsi objekti imajo poseben atribut, imenovan razred.S klicem funkcije class izpisemo vrednost tega atributa. Pri enostavnih vek-torjih je razred enak osnovnemu tipu (npr. numeric, logical, character, os-tale moznosti pa so list, matrix, array, factor in data.frame). Ta atributomogoca uporabo objektno orientiranega programiranja.Seznam v R-ju predatavlja objekt, sestavljen iz urejene mnozice drugihobjektov, ki jim recemo komponente. Seznam se razlikuje od vektorja, kerlahko vsebuje elemente razlicnih osnovnih tipov. Primer seznama jelst8 Poglavje 2: Uvod v programsko okolje Rzom environment. Funkcije lahko gnezdimo, zato problem dosegljivosti spre-menljivk izenacimo s problemom iskanja poti v grafu dosegljivosti. Spre-menljivke, ki se pojavljajo znotraj telesa funkcije, so parametri, lokalne spre-menljivke ali proste spremenljivke. Proste spremenljivke se nanasajo na spre-menljivke, deklarirane v predhodnih vozliscih grafa dosegljivosti. Proste spre-menljivke postanejo lokalne, ko jim priredimo neko vrednost. V tej tocki se Rrazlikuje od drugih implementacij jezika S (npr. S-Plus), ker slednji izenaciglobalne spremenljivke s prostimi. Vrednost proste spremenljivke spremenimoz operatorjem Poglavje 3Vizualizacija odlocitvenih inregresijskih drevesOdlocitvena in regresijska drevesa so ucni modeli, ki omogocajo razumljivprikaz naucenih zakonitosti. Postopek njihove izgradnje je naslednji: na za-cetku so vsi ucni primeri v vozliscu, imenovanem koren drevesa. Izberemoatribut, ki zagotavlja najboljso delitev na dve podvozlisci. Postopek pona-vljamo, dokler ne dobimo dovolj cistih vozlisc. Cisto vozlisce vsebuje primereenega samega razreda. Napako zmanjsujemo tako, da po potrebi poddrevesaporezemo.Prikaz dreves v programskem okolju R izvedemo s paketom rpart. Rpartvrne objekt z natancno doloceno strukturo, ki je opisana v [5]. Z ukazommodel10 Poglavje 3: Vizualizacija odlocitvenih in regresijskih drevesatributov - stolpcev, ki so na splosno razlicnih osnovnih tipov.Ena od podatkovnih zbirk, ki jih bomo uporabili v nadaljevanju, je CO2.CO2 zbirka vsebuje podatke o absorpciji ogljikovega dioksida razlicnih rastlin vrazlicnih vremenskih pogojih. V R-ju jo prikazemo z ukazom CO2. Zbirka ima5 atributov, trije so imenski, dva pa stevilska. Stolpec Plant je urejen seznamz dvanajstimi vrednostmi, ki predstavljajo vrste rastlin. Stolpec Type imadve vrednosti Quebec in Mississippi, ki predstavljata kraj izvora rastline.Stolpec Treatment ima dve vrednosti nonchilledin in chilled, ki predstavl-jata vremenske pogoje. Stolpca uptake in conc vsebujeta stevilske vrednosti,ki predstavljajo absorpcijo in koncentracijo ogljikovega dioksida.V podpoglavju 3.1 bomo zgradili drevo, ki napove vrednosti stolpca Plant,v podpoglavju 3.2 pa regresijsko drevo, ki napove vrednosti stolpec uptake.3.1 Vizualizacija odlocitvenih drevesCilj tega podpoglavja je opisati strukturo rpart objekta, oziroma prikazati inrazloziti tabele 3.1, 3.2 in 3.3. Vsak R objekt ima svoje atirbute. Posebnomesto ima atribut names, ki je tipa seznam (list) in vsebuje seznam imenkomponent, ki so dostopna z dolar ($) sintakso. V tem seznamu so med drugimiprisotna imena treh komponente frame, splits in csplit. Dostop do prvekomponente izvedemo z ukazom model$frame. Na tem mestu nas zanimajovar n wt dev yval1 Type 84 84 77 12 Treatment 42 42 35 14 21 21 14 15 21 21 14 43 Treatment 42 42 35 76 21 21 14 77 uptake 21 21 14 1014 9 9 2 1015 12 12 6 11Tabela 3.1: Vsebina atributa frame pri objektu tipa rpart.samo stolpci, ki so prikazane v tabeli 3.1, ceprav jih R izpise vec.Prvi stolpec, ki nima oznake, predstavlja zaporedno stevilo vozlisca v bi-narnem drevesu. Ker je drevo binarno, so vrednosti prvega stolpca omenjene3.1 Vizualizacija odlocitvenih dreves 11navzgor z izrazom 2d 1, kjer je d globina drevesa. V prikazani tabeli 3.1je globina drevesa 4, ker velja 24 1 = 15. Koren drevesa dobi oznako 1.Pri ostevilcenju ostalih vozlisc se pomikamo od leve proti desni. Do vozliscas stevilko 7 pridemo tako, da se iz korena drevesa pomaknemo dvakrat desno.Enostavno je tudi ugotoviti katero vozlisce je predhodnik vozlisca 7. To je 3,kar nam pove izraz (3.1). Z izrazom (3.2) je mozno priti tudi do levega oziromadesnega sina, to sta 14 in 15.prednik(i) ={(i 1)/2 , i je lihi/2 , i je sod(3.1)naslednjik(i) ={2i za levo poddrevo2i + 1 za desno poddrevo(3.2)Stolpec z oznako var vsebuje seznam atributov v notranjih vozliscih, oziromaniz , kar predstavlja list drevesa. Stolpca n in wt predstavljata steviloprimerov v vozliscu in vsoto utezi vseh primerov vozlisca. V nasi imple-mentaciji sta oba stolpca enaka. Utez ima tudi implicitni graficni pomen, kerje dolzina veje sorazmerna stevilu primerov. Stolpec dev opisuje razprsenostposameznega vozlisca. Razprsenost izracunamo tako, da prestejemo primerevozlisca, ki ne spadajo v vecinski razred trenutnega vozlisca. Tudi ta stolpecima graficni pomen, ker je razprsenost povezana z zaupanjem in ta z naklonomveje drevesa. Manjsi kot je naklon, vecja je cistost vozlisca in vecje je zau-panje v njegovo odlocitev. Zadnji stolpec je yval, ki vsebuje indeks vecinskegarazreda.Ce za primer preucimo vrstico z oznako 7 opazimo, da je odlocitev pre-puscena atributu uptake in da ima vecinski razred indeks 10. Iz te tabeleni razvidno, kaksna je mejna vrednost, ki jo ima ta stevilcni atribut, je pata podatek zapisan v tabeli 3.2, ki jo dobimo z ukazom model$splits. Tudicount ncat indexType 42 2 1.00Treatment 21 2 2.00Treatment 21 2 3.00uptake 9 -1 14.65Tabela 3.2: Vsebina atributa splits pri objektu tipa rpart.12 Poglavje 3: Vizualizacija odlocitvenih in regresijskih drevesv tej tabeli so nekateri stolpci izpusceni. Prvi stolpec vsebuje ime atributa.Stolpec count poda stevilo primerov, ki jih atribut usmeri v levo poddrevo.Razlika med stolpcema count in n (iz tabele frame) so primeri, ki gredo vdesno poddrevo. Stolpec ncat poda stevilo vrednosti atributov. Ce atributpredstavlja stevilske vrednosti, potem uporabljamo oznako 1. Pri uporabioznake 1 bo v prikazu uporabljen znak manjse (3.2 Vizualizacija regresijskih dreves 13nativna vozlisca, ki se uporabljajo med postopkom rezanja drevesa. Ce zelimopri izrisu drevesa izpisati se tekstovne oznake, uporabimo ukaz text. Dodatenargument za to funkcijo je pretty=0, ki doloca izpis para atribut-vrednost. Ceje pretty>0, se vrednosti atributov pokrajsajo.Slika 3.1: Odlocitveno drevo za problem CO2, razred je atribut Plant.V naslednjem podpoglavju si bomo ogledali razlike pri vizualizaciji odloci-tvenega in regresijskega drevesa.3.2 Vizualizacija regresijskih drevesCe zelimo napovedati stevilski atribut uptake potrebujemo regresijsko drevo.Primer takega drevesa je na sliki 3.2. Sliko smo dobili z enacbouptake Type+Treatment+conc(v tem primeru primeru predvidevamo, da atribut uptake ni odvisen od atri-buta Plant). Razlika je pri koncnih vozliscih, kjer imamo namesto imenarazreda stevilsko vrednost. S podatkovnega vidika rpart modela nimamo nenovih tabel ne dodatnih stolpcev. Razlika je samo v pomenu stolpcev yval in14 Poglavje 3: Vizualizacija odlocitvenih in regresijskih drevespolja dev iz tabele frame. Indeks razreda je zamenjan s povprecno vrednostjouptake spremenljivke vseh primerov v vozliscu. Razprsenost se izracuna kotpovprecje kvadratnih napak vseh primerov v vozliscu.Slika 3.2: Regresijsko drevo za problem CO2, razred je atribut uptake.V naslednjem podpoglavju se bomo na kratko osredotocili na postopekprilagajanja CORElearn modela zgoraj predstavljeni podatkovni strukturi.3.3 Implementacija vizualizacijeImplementacija je razdeljena na dva dela. Prvi del poteka v C okolju in poskrbi,da iz CORElearn modela pridobimo vse podatke in jih zapakiramo v R po-datkovno strukturo. Uporabljene strukure so VECSXP za predstavitev vektorjevin matrik, STRSXP za predstavitev nizov ter REALSXP in INTSXP za predstavitevstevil. Drugi del, ki poteka znotraj okolja R, pa preoblikuje vrnjene podatke vobjekte tipa data.frame in matrix z vsemi potrebnimi atributi.Poglavje 4Vizualizacija nakljucnih gozdovNakljucni gozdovi so sestavljeni iz mnozice T dreves, kjer je T stevilo odvisnood zahtevnosti ucnega problema in je lahko zelo veliko. Zaradi tega spadajonakljucni gozdovi med klasifikatorje, ki so tezje razumljivi. Tezko razlozimonaucene zakonitosti na podlagi nekaj deset dreves, zato je vizualizacija to-liksnega stevila dreves vecinoma nesmiselna. Kjub temu pa nakljucni gozdovinudijo dodatna orodja za razumevanje in vizualizacijo. Nakaj takih orodijje prikazanih v podpoglavju 4.2. V nadaljevanju si ogledamo nakaj lastnostinakljucnih gozdov, ki smo jih povzeli po [1] in [3].4.1 Kratek opis nakljucnih gozdovEden od moznih nacinov izgradnje drevesa je naslednji. V korenu drevesaimamo ucno mnozico, ki je podmnozica vseh primerov. Ta podmnozica je povelikosti enaka mnozici vseh primerov, sestavljena pa je iz nakljucno izbranihprimerov, kjer se isti primeri lahko veckrat ponovijo. Tak postopek izbirepodmnozice je izbira s ponavljanjem (v anglescini booststrap). Ta postopek vpovprecju izpusti eno tretjino primerov. Izpuscene primere imenujemo v an-glescini out-of-bag (oob) in jih lahko uporabimo za oceno napake, ki jo imenu-jemo oob ocena napake. Kot bomo videli v razdelku 4.2.1, lahko ta ocenalocuje pomembne spremenljivke od nepomembnih. Za vsako drevo se ustvarinova podmnozica primerov.V vsakem vozliscu nakljucno izberemo F spremenljivk, s katerimi zgradimodrevo. Stevilo F je lahko poljubno, pogosto pa se uporabljata vrednostiMali blog2(M)+1c, kjer je M stevilo atributov. V posameznem vozliscu se lahkoodlocamo tudi na podlagi linearne kombinacije L atributov, izbrane atributeobtezimo z realnim stevilom iz intervala [1, 1]. V tem primeru je F stevilo ra-1516 Poglavje 4: Vizualizacija nakljucnih gozdovzlicnih kombinacij L atributov. Zanimivo je, da ze F = 1 daje dobre rezultate,pa se postopek je bistveno hitrejsi. Pri velikih ucnih mnozicah je za F > 1klasifikacijska tocnost ponavadi nekaj vecja.Z dodajanjem dreves se klasifikacijska napaka ustali. Zgornjo mejo napakedobimo, ce upostevamo dva parametra, in sicer tocnost posameznega drevesain odvisnost med drevesi. Za posamezno drevo zahtevamo vsaj tocnost, ki jevecja od nakljucne in majhno podobnost z drugimi drevesi. Nakljucna izbiraprimerov in atributov zmanjsuje podobnost med drevesi.Gradnje drevesa ne omejujemo v globino in ga ne rezemo, saj pri nakljucnihgozdovih ni nevarnosti prevelikega prileganja ucnim podatkom. Izboljsavatocnosti klasifikacije je posledica mnozice dreves, ki glasujejo. Klasifikacijapoteka tako, da vsako od N dreves samostojno klasificira primer v nek razred.Koncni razred, ki ga izbere gozd, je tisti, ki je dobil najvec glasov. Pri regresijije skupna napovedana vrednost povprecje posameznih napovedi. Prostorska incasovna kompleksnost gradnje gozdov sta linearno odvisni od stevila primerov.Ce potrebujemo matriko sosednosti, ki jo opisujemo v razdelku 4.2.2, postaneprostorska kompleksnost kvadratna. Postopek izgradnje dreves je mozno enos-tavno paralelizirati.4.2 Orodja za razlago nakljucnih gozdovOrodja, ki nam omogocajo proucevanje in vizualizacijo mnozice dreves somogoca, ker so nakljucni gozdovi odlicen klasifikator in imajo nepristranskooceno napake. S pomocjo tega lahko:1. izdelamo ucinkovite metode za ocenjevanje manjkajocih podatkov, s ka-terimi lahko ohranimo tocnost tudi, ko primanjkuje do 80% podatkov,2. izravnamo napako pri neuravnotezenih razredih,3. podamo uporabne ocene napake, korelacije in pomembnosti atributov,4. izracunamo sosednost med primeri, kar lahko uporabimo za razvrscanjeprimerov v skupine, detekcijo izjem (anglesko outliers) in suma v ucnimnozici, ter vizualizacijo podatkov.Podrobneje si te metode ogledamo v nadaljevanju.4.2 Orodja za razlago nakljucnih gozdov 174.2.1 Pomembnost atributovPri odlocitvenem drevesu na sliki 3.1 je enostavno razbrati, kateri atributi sokoristni. To so atributi, ki so uporabljeni v notranjih vozliscih drevesa. Primnozici dreves je tezje razbrati pomembnost atributov, lahko pa jo ocenimotako, da za vsako drevo pri klasifikaciji izpuscenih primerov nakljucno permuti-ramo vrednosti vsakega atributa posebej. Opazimo razlicno zmanjsanje klasi-fikacijske tocnosti. Ce je atribut nepomemben, spreminjanje njegovih vred-nosti ne bo vplivalo na klasifikacijo in obratno. Primer je na sliki 4.1. Kerpostopek temelji na nakljucnem zbiranju vrednosti, smo ga ponovili 100 kratin upostevali povprecno vrednost. Iz slike je razvidno, da je najbolj pomem-ben atribut Treatment, sledi pa mu atribut Type. Najmanjsi vpliv ima atributconc. To sovpada s sliko odlocitvenega drevesa na sliki 3.1, kjer sta Treatmentin Type na vrhu drevesa, atribut conc pa ni prisoten.Slika 4.1: Pomembnost atributov za problem CO2.4.2.2 Sosednost primerovMatrika sosednosti ima veliko prakticnih aplikacij. Med drugim jo uporabl-jamo za detekcijo izjem, nadomescanje manjkajocih vrednosti in razvrscanje.18 Poglavje 4: Vizualizacija nakljucnih gozdovPostopek izracuna matrike je naslednji. Z drevesom klasificiramo ucne primereoob mnozice. Ce primera k in n koncata v istem listu, povecamo sosednostpr(k, n) med njima za ena. Sosednost vsakega primera samim s seboj pr(k, k)je 1. Na koncu sosednosti delimo z dvakratnim stevilom dreves. Sosednostnam da oceno podobnosti med dvema primeroma. Lahko jo izkoristimo zanadomescanje manjkajocih vrednosti. Vsako manjkajoco vrednost ocenimo zutezeno vsoto vseh prisotnih vrednosti. Kot utez uporabimo matriko sosed-nosti. Znova izracunamo sosednost za nove vrednosti in postopek iterativnoponavljamo. Prostorska kompleksnost matrike pr je N2, kjer je N stevilo vsehprimerov. V nadaljevanju si bomo pogledali, za kaj vse lahko se izkoristimomatriko sosednosti.4.2.3 Odkrivanje izjemSlika 4.2: Izracunane vrednosti out(i) za adult sample.Odkrivanje izjem temelji na matriki sosednosti in izrazu (4.1). Sosednostlahko uporabimo, ce izjeme definiramo kot primere, ki imajo majhno podob-4.2 Orodja za razlago nakljucnih gozdov 19nost z ostalimi primeri znotraj enakega razreda.out(i) = [(Mij pr(i, j)2)1 mediani]/deviN = {vsi primeri}Mi = {k|k N class(k) = class(i)}(4.1)Kjer je mediani mediana i-te vrstice matrike sosednosti pr(i, j) in upostevamosamo elemente iz istega razreda, pri katerih je j Mi. Enako velja za stan-dardno deviacijo i-te vrstice devi. Odstopajoci primeri so tisti, ki imajo vred-nost out(i) > 10.Poglejmo si, kdaj bo ta pogoj izpolnjen. Ce predpostavimo, da je primer ipodoben samo samemu sebi, velja pr(i, j) = 0 za vsak j 6= i. Po izrazu (4.1) bovsota enaka 1, mediana pa 0. Ce poenostavimo, dobimo 1/devi > 10. Koliksnoje minimalno stevilo primerov iz istega razreda, potrebnih, da bo standardnadeviacija vecja od 1/10? Z nekaj poskusi ugotovimo, da je |Mi| = 100. Todosezemo z ukazom 1/sd(c(rep(0,99),1)).Vrednosti out(i) za zbirko CO2 so vse pod 10. Iskanje izjem je lazje pri velikihmnozicah, zato smo pri izdelavi slike 4.2 uporabili zbirko adult_sample, ki jeopisana v dodatku A.2.Ker v zbirki CO2 ni izjem, lahko predpostavimo, da vsi primeri v nakljucnemgozdu pripadajo koncnemu vozliscu, v katerem niso sami. Porazdelitev prime-rov v prostoru obravnavamo v naslednjem razdelku.4.2.4 Zmanjsevanje dimenzij prostora s sosednostjoV osnovi imamo z matriko sosednosti N dimenzijski prostor. Matrika sosed-nosti je pozitivno semidefinitna in navzgor omejena z 1. Vrednost (4.2) pred-stavlja euklidsko razdaljo v vecdimenzionalnem prostoru. Ce gledamo na prkot na podobnost, lahko gledamo na (4.2) kot na razlicnost med primeri. Taizraz je osnova za metode zmanjsevanja vecdimenzijskega prostora (angl. MDS multi-dimensional scaling). Kompleksnost prostora lahko zmanjsamo tako,da naredimo dekompozicijo na lastne vektorje in vrednosti. Lastne vrednostiuredimo padajoce. Vzamemo prvih l lastnih vektorjev, ki pripadajo l najvecjimlastnim vrednostim, in tako dobimo l dimenjziski prostor.1 pr(i, j) (4.2)Dekompozicijo dosezemo z ukazom cmdscale(cv, d, add=TRUE). Argumentcv predstavlja vrednosti iz izraza (4.2), d pa je stevilo dimenzij novega pros-tora.20 Poglavje 4: Vizualizacija nakljucnih gozdovSlika 4.3: Prikaz prve in druge komponente novega podprostora za problemCO2.Na sliki 4.3 opazimo stiri glavne skupine. Te stiri skupine pridobimo tako,da izpustimo numericne oznake iz imena rezreda (glej legendo). Torej imamoQn, Qc, Mn, Mc, ki jih bomo v nadaljevanju obravnavali kot razrede. Ce seponovno vrnemo k tabeli 3.1 in sliki drevesa 3.1, vidimo, da je odlocitvenodrevo sposobno napovedati pet razredov in da je v treh od teh vec kot 60%napacnih primerov. Ti odstotki so zapisani v tabeli 4.1. Razred Mc2 bi lahkoostal samostojen, ostale pa je potrebno drugace razvrstiti. V naslednjemrazdelku bomo poskusili prikazati boljso razvrstivev.Qn1 Qc2 Mn3 Mc2 Mc30.667 0.667 0.667 0.222 0.5Tabela 4.1: Razmerje med vsemi primeri (n) in primeri, ki niso v vecinskemrazredu (dev).4.2 Orodja za razlago nakljucnih gozdov 214.2.5 Razvrscanje na podlagi sosednostiNa podlagi matrike sosednosti lahko razvrstimo primere v G skupin. Primeri,ki so si blizu, se zdruzijo v eno skupino. Ukaz, ki ga potrebujemo, je pam izpaketa cluster:cluster::pam(cv, s, diss=TRUE, cluster.only=TRUE).Argument cv predstavlja vrednosti izraza (4.2), s pa je stevilo skupin, ki namjih je ukaz vrnil. Na sliki 4.4 sta prikazana podprostora dimenzije 5, pri-dobljena iz dekompozicije prvotnega prostora. Tako kot na sliki 4.3 so tudiSlika 4.4: Dekompozicija prostora za problem CO2 na 5 skupin.tu prisotne stiri vecje skupine. Na levi sliki sta skupini ena in dva zdruzeni.Na desni sliki opazimo, da ju je mozno lociti z neenakostjo 0.0 < x < 0.2 in zmejo med njima y = 0.0. Izgradnja nakljucnih gozdov je stohasticen proces,zato se slike med razdelki razlikujejo. V tem poskusu podobnost med elementiomogoca delitev razreda Qn na dva dela. Druga skupina (2. sk. - glej legendo)vsebuje stiri elemente Qn2 in 5 elementov Qn3, prva skupina (1. sk.) pa vseostale. Vsak od 12-ih razredov ima 7 primerov. Napaka vozlisca, kjer staskupini 1 in 2 zdruzeni, je 14/21 = 0, 667 (enako kot v tabeli 4.1), medtemko je napaka locenih skupin 12/21 5/12 + 9/21 4/9 = 0, 428. Tako kot je22 Poglavje 4: Vizualizacija nakljucnih gozdovna sliki 4.4 prikazana delitev razreda Qn, je mozna tudi delitev razreda Mn.Ce povecamo stevilo skupin na 7, dobimo tudi delitev Mc razreda. Vcasihzelimo vecje stevilo skupin, ker nam to omogoca boljse razumevanje podatkov.Povecevanje stevila skupin zmanjsuje stevilo primerov v koncnih vozliscih, karzmanjsa upravicenost do nadaljne delitve. V primeru podatkovne zbirke CO2je najbolj smiselna delitev na sedem skupin. To nam potrdi kalasifikacijskodrevo na sliki 4.5. Klasifikacijska tocnost tega drevesa je 100%. Drevo smodobili tako, da smo zamenjali vsebino stolpca Plant z vektorjem, ki nam gavrne ukaz pam. Vidimo, da lahko z razvrscanjem in dekompozicijo prostorapreucimo morebitne povezave in odvisnosti med primeri.Slika 4.5: Odlocitveno drevo za problem CO2 s sedmimi razredi.Razvrscanje je koristno tudi pri izracunu pomembnih atributov, ker lahkoobravnavamo vsako skupino posebej. Primer je prikazan v dodatku na slikiA.4.4.2.6 Vpliv atributov na napovedCilj te metode je graficni prikaz lastnosti n najboljsih primerov. Primere ocen-imo s pomocjo nakljucnega gozda, tako da vzamemo tiste z najvisjo verjetnos-tjo napovedanega razreda. Atribute normaliziramo in jih omejimo na interval4.2 Orodja za razlago nakljucnih gozdov 23[0, 1]. Imenske atribute preslikamo na ta interval z izrazom (|Ai| 1)1, kjerje Ai = {vrednosti atributa i}. Rezultat postopka je prikazan na sliki 4.6.Slika je izdelana na podlagi podatkovne zbirke iris, ki je na kratko opisanaSlika 4.6: Prikaz 10 najboljse klasificiranih primerov iz mnozice iris.v dodatku A.1. Zbirka ima 4 atribute in 3 razrede, kar je razvidno iz slike4.6. Ostale podrobnosti so za razumevanje tega razdelka nepomembne. Slikaprikazuje podobno informacijo kot tista, ki prikazuje pomembnost atributovin je prikazana v dodatku A.3. Atributa, ki dobro locita med primeri, staPetal.Length in Petal.Width. Vidimo, da atribut Petal.Length jasno locirazred setosa od drugih razredov, atribut Petal.Width pa dobro locuje vsetri razrede. Atribut Sepal.Width je neuporaben in ga lahko izpustimo. Takosliko lahko neposredno uporabimo za klasifikacijo novih primerov. Pri tempotrebujemo parametre za normalizacijo, ki jih metoda vrne. Iz n primerov znajvisjo verjetnostjo napovedi razreda, bi lahko zgradili odlocitveno oziromaregresijsko drevo, s katerim napovedujemo razred novih primerov.Ta metoda je bolj smiselna za atribute z mnogo vrednostmi in za stevilskeatribute. Pri atributih z binarnimi vrednostmi se primeri med seboj prekrivajo,kar otezuje oceno pomembnosti atributa.24 Poglavje 4: Vizualizacija nakljucnih gozdovPoglavje 5ZakljucekV tem delu smo izdelali programsko opremo, ki v okolju R prikaze odlocitvenain regresijska drevesa ter nakljucne gozdove. V tem okolju drevesa prikazemoz uporabo paketa rpart, zato pri odlocitvenih in regresijskih drevesih zgoljpretvorimo CORElearn model v rpart model. Za predstavitev strukture na-kljucnih gozdov smo izdelali vec orodij. V primeru orodij za odkrivanje iz-jemin vpliv atributov na napovedter izracunu matrike sosednosti smo izde-lali resitve, opisane v literaturi, medtem ko smo pri ostalih orodjih podatkesamo graficno prikazali. Predstavljena orodja nam omogocajo razumeti, kakonakljucni gozd obravnava ucne primere. Odstopajoci primeri so tisti, ki sov drevesih izolirani. To zagotavlja, da bo njihov glas redko upostevan. Pridekompoziciji prostora vidimo, kako in kateri primeri so povezani. Skupekinformacij, pridobljenih z vsakim od omenjenih orodij, lahko enacimo z in-formacijo na slikah odlocitvenih dreves, zaradi cesar tudi nakljucni gozdovipostanejo bolj razumljivi.Na splosno govorimo o dveh vrstah ucenja. Pri prvi usmerjamo ucenjena podlagi posebnega atributa, ki mu pravimo razred. Pri drugem nacinuucenja pa takega atributa ni. V tem primeru govorimo o ucenju brez razreda(v anglescini unsupervised learning). Predstavljene metode za vizualizacijonakljucnih gozdov so bile izdelane z modeli, ki temeljijo na ucenju z razre-dom. Obstaja postopek za pretvorbo ucenja z razredom v ucenje brez njega.Postopek je naslednji: vzamemo vse ucne primere in jih oznacimo kot pripad-nike skupine A. Za vsak primer iz skupine A dodamo en primer v skupinoB. Vrednosti atributov tega primera so izbrane nakljucno. Tako pridobljenomnozico primerov uporabimo kot ucno mnozico z razredom. Ce ima pri-dobljeni model visoko klasifikacijsko napako pomeni, da prvotna mnozica ucnih2526 Poglavje 5: Zakljucekprimerov ni dovolj dobro opisana, ker ne locuje med skupinama A in B. Med de-janskimi in nakljucno izbranimi vrednostmi ni razlike. V nasprotnem primerupa ucenje brez razreda omogoca natancnejso oziroma manj pristransko analizoproblema.V nadaljnjem delu bi bilo zanimivo prikazati razlike pri vizualizaciji na-kljucnih gozdov na podlagi modela, pridobljenega z ucenjem brez razredov.Dodatek APodatkovne zbirkeA.1 Podatkovna zbirka irisPodatkovna zbirka iris je zbirka podatkov o treh vrstah petunik, opisanih zatributi, ki predstavljajo dolzino in sirino cvetov. Atributi, so: Sepal.Length,Sepal.Width, Petal.Length in Petal.Width. Razred se imenuje Species.Zbirka je sestavljena iz 150 primerov. Prvih 50 primerov je iz razreda setosa,Slika A.1: Dekompozicija prostora za podatkovno zbirko iris.2728 Poglavje A: Podatkovne zbirkedrugih 50 iz razreda versicolor in zadnjih 50 iz razreda virginica. Problemje dokaj enostaven, kar je razvidno iz dvodimenzionalne projekcije na slikiA.1. V novem prostoru obstaja jasna locnica med razredi. Razred setosaSlika A.2: Odlocitveno drevo za iris, razred Species.lahko dolocimo kot x < 0.2. Za razred versicolor oziroma virginica pa jemejna vrednost y=0.0. To se pokaze tudi v preprostem odlocitvenem drevesuna sliki A.2, kjer je potrebno le eno pravilo za razred setosa, in dve pravili zarazreda versicolor oziroma virginica. Tudi v tem primeru slika pomembnihatributov A.3 sovpada zodlocitvenim drevesom. Najbolj pomemben atribut jePetal.Length, ki se nahaja v korenu drevesa. Sledi mu atribut Petal.Width.Ostala dva sta nepomembna, kot je razvidno iz odlocitvenega drevesa, kjer juni.A.2 Podatkovna zbirka adult sampleZa prikaz izjem v razdelku 4.2.3 smo potrebovali kompleksnejso zbirko po-datkov. Zbirka adult_sample ima 14 atrirbutov, s katerimi opisuje odrasle za-poslene osebe. Primeri so razdeljeni v dva razreda. Prvi ima oznako 50K. Oznaki pomenita letni zasluzek v tisocihA.2 Podatkovna zbirka adult sample 29Slika A.3: Pomembnost atributov za podatkovno zbirko iris.dolarjev. Razmerje med skupinama je 741 proti 236 primerov. To razmerje nepreseneca, kajti v vsaki druzbi je vec revnih kot bogatih.Odlocitveno drevo, ki nastane, je nepregledno in tezko razumljivo. Nepre-gledno je tudi zato, ker rpart ni sposoben izpisati drevesa na vec straneh.Na kompleksnost problema kaze tudi klasifikacijska tocnost nakljucnega gozdas sto drevesi, ki je 0.878. To je samo 12% boljse od zastopanosti vecinskegarazreda, ki je 741/(236+741) = 0.758. Kompleksnost problema bomo zmanjsa-li z metodo deli in vladaj. Prostor primerov razdelimo na 10 skupin, takokot to naredimo v razdelku 4.2.5. Slika A.4 prikazuje pomembnost atributovza vsako skupino posebej. Skupini 4 in 6 iztopata. Za skupino 4 je pomembenatribut 11 (capital.gain), madtem ko je za skupino 6 pomemben atribut12 (capital.loss). Skupini 4 in 6 vsebujeta 122 in 48 primerov. Drevo, kinapove zasluzek primerov iz skupin 4 in 6, je prikazano na sliki A.5. Sedajimamo enostavno drevo, ki za skupini 4 in 6 napove zasluzek. To je le delnaresitev, kajti se vedno ne znamo lociti teh dveh skupin od ostalih. Z novimodlocitvenim drevesom se naucimo se tega. To naredimo tako, da dodamonov atribut, ki za vsak primer pove, kateri skupini pripada. Odlocitvenodrevo, ki locuje med skupinami 4, 6in 1-3,5,7-10je prikazano na sliki A.6.Podobno lahko naredimo za ostale skupine. Sliko A.4, ki prikazuje pomem-30 Poglavje A: Podatkovne zbirkeSlika A.4: Pomembnost atributov za adult sample, loceno po skupinah.bne atirbute, izboljsamo tako, da sestejemo premice, ki nas ne zanimajo. Takprimer je prikazan na sliki A.7. Pri drevesu A.5 ni bilo potrebno spreminjatifunkcije, ki povezuje neodvisne atribute z razredom. Pri drevesu A.6 pa smouporabili izrazy workclass+capital.gain+capital.loss,kot izhodisce smo uporabili sliko A.7.Predstavljeni primer prikazuje prepletenost orodij za razlago nakljucnihgozdov in odlocitvenih dreves. Predvsem pri kompleksnejsih problemih si zorodji nakljucnih gozdov pridobimo dodatno znanje, ki ga lahko uporabimo zalazjo predstavitev problema.A.2 Podatkovna zbirka adult sample 31Slika A.5: Odlocitveno drevo za podmnozico adult sample nad primeri izskupine 4 in 6. Razred je zasluzek.Slika A.6: Odlocitveno drevo za adult sample. Razred je dodan atribut, kiopisuje skupino.32 Poglavje A: Podatkovne zbirkeSlika A.7: Pomembnost atributov za adult sample, loceno po skupinah.Skupina 1-3,5,7-10je pridobljena z zdruzitvijo razredov 1-3,5 ter 7-10.Dodatek BPregled ukazov za prikazizdelanih slikV razdelku 3.1 prikazemo odlocitveno drevo za podatkovno zbirko CO2 innapovedan razred Plant. To nastavimo v spremenljivkah set in learn. Odlo-citveno drevo je rezultat ukaza CoreModel, ce nastavimo parameter modelna vrednost tree. Pridobljeni model pretvorimo v rpart objekt z ukazomgetRpartModel. Na koncu se izrisemo drevo v zeljeni obliki.set 34 Poglavje B: Pregled ukazov za prikaz izdelanih slik#learn35V razdelku 4.2.5 predstavimo razvrscanje primerov na podlagi njihove med-sebojne razdalje. Razvrscanje v pet skupin dosezemo s klicem getCluster.dis36 Poglavje B: Pregled ukazov za prikaz izdelanih slikSlike3.1 Odlocitveno drevo za problem CO2, razred je atribut Plant. . . 133.2 Regresijsko drevo za problem CO2, razred je atribut uptake. . . 144.1 Pomembnost atributov za problem CO2. . . . . . . . . . . . . . 174.2 Izracunane vrednosti out(i) za adult sample. . . . . . . . . . . . 184.3 Prikaz prve in druge komponente novega podprostora za prob-lem CO2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204.4 Dekompozicija prostora za problem CO2 na 5 skupin. . . . . . . 214.5 Odlocitveno drevo za problem CO2 s sedmimi razredi. . . . . . . 224.6 Prikaz 10 najboljse klasificiranih primerov iz mnozice iris. . . . 23A.1 Dekompozicija prostora za podatkovno zbirko iris. . . . . . . . 27A.2 Odlocitveno drevo za iris, razred Species. . . . . . . . . . . . 28A.3 Pomembnost atributov za podatkovno zbirko iris. . . . . . . . 29A.4 Pomembnost atributov za adult sample, loceno po skupinah. . 30A.5 Odlocitveno drevo za podmnozico adult sample nad primeri izskupine 4 in 6. Razred je zasluzek. . . . . . . . . . . . . . . . . 31A.6 Odlocitveno drevo za adult sample. Razred je dodan atribut,ki opisuje skupino. . . . . . . . . . . . . . . . . . . . . . . . . . 31A.7 Pomembnost atributov za adult sample, loceno po skupinah.Skupina 1-3,5,7-10je pridobljena z zdruzitvijo razredov 1-3,5ter 7-10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3237Tabele3.1 Vsebina atributa frame pri objektu tipa rpart. . . . . . . . . . 103.2 Vsebina atributa splits pri objektu tipa rpart. . . . . . . . . . 113.3 Vsebina atributa csplit pri objektu tipa rpart. . . . . . . . . . 124.1 Razmerje med vsemi primeri (n) in primeri, ki niso v vecinskemrazredu (dev). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2038Literatura[1] Leo Breiman. Random forests. Machine Learning, 45:532, 2001.[2] Marko Robnik Sikonja and Petr Savicky. CORElearn, 2010, http://cran.r-project.org/package=CORElearn.[3] Adel Cutler Leo Breiman. Manual: Setting Up, Using, And UnderstandingRandom Forests V4.0, 2003.[4] Igor Kononenko Marko Robnik Sikonja. Inteligentni sistemi. Zalozba FEin FRI, Ljubljana, 2010.[5] Terry M Therneau and Beth Atkinson. R port by Brian Ripley. rpart:Recursive Partitioning, 2011. R package version 3.1-45, http://cran.r-project.org/package=rpart.[6] D. M. Smith W. N. Venables and the R Development Core Team. 2011.Version 2.10.1, http://www.r-project.org/.39john adeyanju alaoAdeyanju_alaoPovzetekAbstractUvodUvod v programsko okolje RVizualizacija odlocitvenih in regresijskih drevesVizualizacija odlocitvenih drevesVizualizacija regresijskih drevesImplementacija vizualizacijeVizualizacija nakljucnih gozdovKratek opis nakljucnih gozdovOrodja za razlago nakljucnih gozdovPomembnost atributovSosednost primerovOdkrivanje izjemZmanjevanje dimenzij prostora s sosednostjoRazvrcanje na podlagi sosednostiVpliv atributov na napovedZakljucekDodatkiPodatkovne zbirkePodatkovna zbirka irisPodatkovna zbirka adult_samplePregled ukazov za prikaz izdelanih slikSeznam slikSeznam tabelLiteratura

Recommended

View more >