new ohjaamaton oppiminen - university of helsinki · 2008. 11. 25. · ohjaamaton vs. ohjattu...
TRANSCRIPT
![Page 1: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/1.jpg)
Ohjaamaton oppiminen
Marko Salmenkivi
Johdatus koneoppimiseen, syksy 2008
![Page 2: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/2.jpg)
Luentorunko keskiviikolle 26.11.2008
I Ohjaamaton oppiminenI Mikä erottaa ohjatusta oppimisesta?I Esimerkkejä
I Johdattelua ryvästämiseen eli klusterointiin
I Aineiston esikäsittely ja esitysmuodot
Luentomateriaali perustuu huomattavassa määrin Jarmo Hurrin ja Juho
Rousun kurssimateriaaliin kahtena edellisenä lukuvuonna luennoidulle
kurssille Laskennallinen data-analyysi I
![Page 3: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/3.jpg)
I Tähän mennessä kurssilla on käsitelty ohjattua oppimista:tavoitteena ennustaa piirrettä y , annettuna x .
I Tämä asetelma ei kuitenkaan sovi kaikkiindata-analyysitehtäviin
I Usein on tarpeen määritellä data-analyysitehtävä siten, ettädatajoukossa ei ole erikseen annettua ennustettavaa piirrettä→ ohjaamaton oppiminen
![Page 4: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/4.jpg)
Ohjaamaton vs. ohjattu oppiminen
I ohjaamattomassa oppimisessa sana �ohjaamaton� viittaasiihen, ettei ole määritelty ennustettavaa piirrettä
I ohjaamaton oppiminen on hyvin heterogeeninen kategoria
I ohjaamattomassa oppimisessa pyritään kuvaamaan aineistonrakennetta oppimalla jokin aineistoon sopiva malli
I malli tässä hyvin yleinen käsite
I mallin tarkoitus kuvata aineiston oleellisia piirteitä (eikä esim.kohinaa, vrt. ylisovittaminen)
I ohjaamattomassa oppimisessa (välittömänä) tavoitteena eiyleensä ole ennustaminen
![Page 5: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/5.jpg)
Ohjaamattomuudesta
I sananmukaisesti täysin ohjaamaton oppiminen on käytännössämahdotonta
I vaikka ennustettavaa piirrettä ei ole kiinnitetty etukäteen,joudutaan moniin muihin asioihin ottamaan kantaa
![Page 6: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/6.jpg)
Ohjaamaton vs. ohjattu oppiminen
Ohjaamaton oppiminen:
1. (tietyn piirteen) ennustamisen sijasta ollaan kiinnostuneitakuvaamaan aineiston rakennetta
2. ohjatun oppimisen vaatimien opetusesimerkkien hankkiminenon liian kallista / vaivalloista / haitallista / vaarallista.
3. ennustettava piirre on vaikeasti formalisoitavissa ja sitenennustustehtävä on vaikea määritellä, esim. mikä on relevanttidokumentti Google-haussa
4. aineistossa voi olla lukuisia piirteitä ja niiden yhdistelmiä,joiden ennustamisesta voidaan periaatteessa olla kiinnostuneita→ aineistoa pitää tutkia, ennen kuin tiedetään tarkalleen, mikäennustustehtävä halutaan ratkaista
![Page 7: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/7.jpg)
Esimerkki: prosessinvalvonta
I Tarkastellaan tuotantoprosessia, jota valvotaan jatkuvillamittauksilla
I Haluttaisiin rakentaa työkalu, joka mittauksien perusteellaantaisi varoituksen prosessin ajatumisesta pois halutustatoimintatilasta
I Luokittelijan oppiminen edellyttäisi esimerkkejä normaalista jaepänormaalista toimintatilasta.
I Epänormaalia toimintatilaa edustavien esimerkkiengeneroiminen tarkoittaa tuotantomenetyksiä eli kallista hintaa
I Olisi suotavaa rakentaa työkalu pelkästään normaalitilaakuvaavien esimerkkien perusteella
![Page 8: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/8.jpg)
Esimerkki: prosessinvalvonta
I Prosessinvalvontatehtävävoidaan ratkaistakeräämällä mittausdataanormaaleistatoimintaoloista
I Mittauksista saadut pro�ilitpyritään ryhmittelemäänsamankaltaisiin ryppäisiin
I Kutakin ryvästä asetetaanvastaamaanprototyyppipro�ili
I Poikkeustilanteeksi
tulkitaan mittauspro�ili,joka poikkeaa kaikistaprototyypeistä "liikaa"
![Page 9: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/9.jpg)
Esimerkki: kielimallit
I tilastollisessa konekääntämisessä tarvitaan kielimallejahuolehtimaan tuotetun käännöksen sujuvuudesta jaoikeakielisyydestä
I käännöksen sujuvuutta ja oikeakielisyyttä on vaikea lähestyäluokittelutehtävänä: negatiivisia esimerkkejä, "huonoa kieltä",on melko vaikeaa hankkia
I tavallisesti käytetään malleja, joissa tarkastellaan peräkkäisiäkolmen sanan ryhmiä
I lauseen s1 · · · sn todennäköisyys
P(s1 · · · sn) = P(s3|s2s1) · P(s4|s3s2) · · ·P(sn|sn−1sn−2),
missä si ovat lauseen sanat.
I kunkin sanan esiintymisen todennäköisyyttä (ja sitä kauttasanan esiintymisen kielellistä mielekkyyttä) tarkastellaan siissiinä valossa, mitkä ovat sitä edeltävät kaksi sanaa
![Page 10: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/10.jpg)
Esimerkki: kielimallit
I Kielimalli
P(s1 · · · sn) = P(s3|s2s1) · P(s4|s3s2) · · ·P(sn|sn−1sn−2),
voidaan oppia yksinkertaisesti laskemalla sanakolmikkojasuuresta kohdekielen tekstiaineistosta
I Google Language model on rakennettu keräämällä tätä tietoawww:stä usean DVD:n verran
![Page 11: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/11.jpg)
Esimerkki: kielitieteellinen data-analyysi
I aineistona suuri joukko suomen kielen murresanoja ja kuhunkinsanaan liittyen joukko pitäjiä, joissa sanaa on havaittu käytetyn
I onko sanojen maantieteellisten jakaumien perusteellahahmoteltavissa murteeltaan samankaltaisten pitäjien ryhmiä?
I ennustaminen ei selvästikään ole mielekäs kysymyksenasettelu
![Page 12: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/12.jpg)
Esimerkki: murresanasto
![Page 13: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/13.jpg)
Esimerkki: luonnontieteellinen data-analyysi
I Tieteellisessädata-analyysissä halutaanusein löytää datastaaikaisemmin tuntemattomiariippuvuuksia (tai todentaaaikaisemmin tunnettujariippuvuuksia uudellaaineistolla ja/taimenetelmällä)
I Kuvassa on tutkittunisäkkäiden esiintymistä50x50 km ruuduissa
I Kutakin ruutua vastaa124-ulotteinenbinäärivektori (laji"i"esiintyy/ei esiinny)
I Väritys kuvaasamankaltaisten lajipro�ilienesiintymäalueita
![Page 14: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/14.jpg)
Esimerkki: DNA-sekvenssin segmentointi
![Page 15: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/15.jpg)
Esimerkki: sääntöjen louhinta
I NBA-koripalloliigassa pidetään tarkkaa kirjaa pelitapahtumistaja pelaajien tekemisistä
I Tuloksena on suuri tietokanta, josta voidaan etsiäriippuvuuksia, jotka jäisivät ehkä muuten huomaamatta
I Advanced Scout -järjestelmä 1 etsii sääntöjä kuten "Kun
pelaaja X on kentällä, pelaajan Y heittotarkkuus
putoaa 75 prosentista 30 prosenttiin"
I Tämän tyyppistä data-analyysia käsitellään lisää keväänkurssilla Tiedon louhinta
1Bhandari I., Colet, E., Parker, J., Pines Z., Pratap R., Ramanujam K. (1997): Advanced Scout:
datamining and knowledge discovery in NBA data. Data Mining and Knowledge Discovery, 1 (1),121�125
![Page 16: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/16.jpg)
Signaalien erottaminen
I Havaitaan signaali, joka on yhdistelmä useastariippumattomasta lähteestä
I Tavoitteena on erottaa lähdesignaalit toisistaaan
I Riippumattomien komponenttien analyysi (ICA) on eräsmenetelmä tälläisen ongelman ratkaisemiseksi
www.cis.hut.fi/projects/ica/cocktail/cocktail_en.cgi
![Page 17: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/17.jpg)
Ryvästäminen (klusterointi, engl. clustering)
I ohjaamattoman oppimisen menetelmistä keskitymme tälläkurssilla vain ryvästämiseen eli klusterointiin
I ryvästämisessä tehtävä on jakaa data erillisiin osajoukkoihinsiten, että kukin osajoukko on niin homogeeninen kuinmahdollista
I Esimerkkejä klusteroinnin käyttökohteista
I digitaalisten kuvien segmentointiI markkina-analyysi (asiakassegmentit)I geenien ryhmittely vaikutusten perusteellaI tekstidokumenttijoukkojen ryhmittely
![Page 18: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/18.jpg)
Ryvästämismenetelmien komponentit
I erilaisia ryvästämismenetelmiä on paljon
I yleisellä tasolla ryvästämismenetelmissä voidaan erottaaseuraavat komponentit:
1. Kustannusfunktio, joka mittaa esimerkkiryppäidenhomogeenisuuden
2. Valintakriteeri ryppäiden määrälle3. Algoritmi, jolla esimerkit jaetaan ryppäisiin
![Page 19: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/19.jpg)
Kaksi ryvästämistehtävää
![Page 20: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/20.jpg)
Ryvästämisalgoritmit voivat tuottaa
I pistejoukon ryhmittelynI kohteiden �kovan� ryhmittelyn: kukin piste voi kuulua vain
yhteen ryhmäänI esimerkiksi K -means
I �pehmeän� tai probabilistisen ryhmittelyn (kohteet voivatkuulua eri määrin useaan ryhmään)
I esimerkiksi gaussinen sekoitusmalli (ei käsitellä)
I hierarkkisen ryhmittelyn (ryhmittelypuun)
I tasoesityksen datasta, siten että datan klusterit erottuvattason eri alueina (ei käsitellä)
I esimerkiksi itseorganisoiva kartta
![Page 21: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/21.jpg)
�Kova� klusterointi: esimerkki (K -means)
(a)
−2 0 2
−2
0
2 (b)
−2 0 2
−2
0
2 (c)
−2 0 2
−2
0
2 (d)
−2 0 2
−2
0
2 (e)
−2 0 2
−2
0
2 (f)
−2 0 2
−2
0
2
I data Old Faithful -nimisestä kuumasta lähteestä; vaaka-akselipurkauksen kesto, pystyakseli aika seuraavaan purkaukseen(nollakeskiarvoistettuina ja skaalattuina)
![Page 22: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/22.jpg)
Hierarkkinen klusterointi: esimerkki
−5 0 5 10
−6
−4
−2
0
2
4
6
1
2
3
4
567 8
9
x1
x 2
5 6 4 1 3 2 7 8 90
5
10
15
kytk
etty
jen
pist
eryh
mie
n vä
linen
etä
isyy
s
datapisteen indeksi
I dendrogrammipuuta (oikealla) luetaan seuraavasti:
I puun lehtinä kaikki datapisteet eli yhden pisteen pisteryhmätI alhaalta ylöspäin edetessä yhdistetään lähimmät pisteryhmät
toisiinsa; tässä pisteryhmien välinen etäisyys ryhmienkauimmaisten pisteiden etäisyys
I yhdistämistaso (vaakaviiva) kytkettyjen pisteryhmien välisenetäisyyden tasolla
![Page 23: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/23.jpg)
Esikäsittely ja esitysmuodot
I Tähän asti kurssilla data on oletettu tupsahtaneeksi jostainsopivasti esikäsiteltynä numeerisiksi piirrevektoreiksi
I Käytännössä data ilmenee kuitenkin moninaisissaesitysmuodoissa (kuva, teksti, signaalit, monivalintakysymystenvastaukset, . . . )
I Ohjatun oppimisen menetelmät ovat vahvasti riippuvaisiadatan esitysmuodosta
I Kustannusfunktiot perustuvat useimmiten datapisteidenvälisen etäisyyden mittaamiselle
I Datan esikäsittelyn yksi tavoite on saada data sellaiseenmuotoon, että etäisyyksiä voidaan mitata mielekkäästi
![Page 24: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/24.jpg)
Esikäsittely ja esitysmuodot
I Kaksi lähestymistapaa datan esitysmuotojen suhteen:I Esikäsittely + yleiskäyttöinen oppimisalgoritmi, syötteenä
(yleensä numeerinen) piirrevektoriI Esitysmuotospesi�nen oppimisalgoritmi; oma menetelmä
kuville, oma tekstille, jne.
I Halutaan tuottaa piirre-esitys, jolla pystytään mittaamaanmerkityksellisiksi ajateltujen hahmojen tai ominaisuuksienesiintymistä aineistossa
![Page 25: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/25.jpg)
Esimerkki: tekstinhaku
I Tehtävä: Halutaan etsiäuutistietokannastaartikkelit, jotka kertovatDavid Beckhaminsiirtymisestä RealMadridista LA Galaxyyn
I Piirreesityksenä sanasäkki(bag of words): φBeckham(b)kertoo montako kertaaBeckham esiintyydokumentissa b; sananesiintymien sijainnista eiolla kiinnostuneita.
I φBeckham(b) = 4,φReal (b) = 1, φMadrid = 1,φGalaxy = 3, φBBC = 2, ...
![Page 26: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/26.jpg)
Esimerkki: kuvanhakuI Tavoite: Halutaan etsiä järvimaisemia kuvatietokannastaI Piirre-esityksenä kuvien värihistogrammit: φi (b) on värisävyn i
pikselien lukumäärä kuvassa bI Pikselien sijainnista ei olla kiinnostuneita: kuvakulman
kiertäminen (rotation) tai siirtäminen (translation) suhteen eivaikuta
![Page 27: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/27.jpg)
Esimerkki, muuttujien skaalaaminen
−2 −1 0 1 2−1.5
−1
−0.5
0
0.5
1
1.5
x1
x 2
ennen muuttujan x1 varianssin normalisointia
−2 −1 0 1 2−1.5
−1
−0.5
0
0.5
1
1.5
x1
x 2
normalisoinnin jälkeen
I muuttujien skaalaamisella voi olla dramaattinen vaikutustuloksiin
I muuttujien standardointi/normalisointi: keskiarvoksi nolla javarianssiksi 1 (vähennetään keskiarvo ja jaetaankeskihajonnalla)
I molemmissa kuvissa varianssi muuttujan x2 suuntaan 1
![Page 28: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/28.jpg)
Muuttujien esikäsittely: numeerinen data
Numeerisen datan esitysmuodoissa ongelmia voivat aiheuttaa:
I Erilaiset arvoalueet/yksiköt: piirre x1 mitattu kilogrammoina,x2 grammoina, euklidisessa etäisyydessä grammoina mitattupiirre saa 1000-kertaisen painoarvon
I Poikkeava varianssi: piirre x1 vaihtelee absoluuttisestivähemmän kuin piirre x2 , tällöin pieni muutos x1:ssä voi ollayhtä tärkeää kuin suuri muutos x2:ssä
![Page 29: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/29.jpg)
Muuttujien esikäsittely: numeeriset piirteet
Piirteiden erilaisista skaaloista ja variansseista päästään eroonnormalisoimalla
1. Keskitys ja jakaminen keskihajonnalla:
φj(x) = (xj − µj)/σj ,
µj on piirteen j keskiarvo datajoukossa, σj keskihajonta; käykaikille numeerisille piirteille
2. Jos arvot sijoittuvat välille [xmin, xmax ]
φj(x) = (xj − xmin)/(xmax − xmin)
![Page 30: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/30.jpg)
Esimerkki: nominaaliarvoiset syötemuuttujat
I Monissa data-analyysitehtävissä data ei ole valmiiksinumeerista, vaan joudumme muuntamaan datan numeeriseksikäyttämällä piirrefunktioita
I Oletetaan syötemuuttuja xj ∈ Vj , missä arvojoukkoVj = {v1, . . . , vr} on nominaalinen (alkioilla eijärjestysrelaatiota)
I Muodostetaan piirrefunktio muuttujan xj kullekin mahdollisellearvolle vh ∈ vj :
φj ,vh(x) =
{1, x = vj
0, x 6= vj
![Page 31: New Ohjaamaton oppiminen - University of Helsinki · 2008. 11. 25. · Ohjaamaton vs. ohjattu oppiminen I ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty](https://reader036.vdocuments.site/reader036/viewer/2022071217/604b3f023092e107604424bb/html5/thumbnails/31.jpg)
Esimerkki: nominaaliarvoiset syötemuuttujat
I esim. klassisessa 'Mushrooms' (sienien luokittelu) aineistossamuodostettaisiin piirrefunktiotφcapshape,bell , φcapshape,conical , . . .
1. cap-shape: bell=b,conical=c,convex=x,�at=f, knobbed=k,sunken=s2. cap-surface: �brous=f,grooves=g,scaly=y,smooth=s3. cap-color: brown=n,bu�=b,cinnamon=c,gray=g,green=r,
pink=p,purple=u,red=e,white=w,yellow=y4. bruises?: bruises=t,no=f