duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • unifikuota...

47
Duomenų vizualizavimas SOM Teksto vizualizavimas Aušra Mackutė-Varoneckienė Tomas Krilavičius 1

Upload: others

Post on 20-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Duomenų vizualizavimas

SOM Teksto vizualizavimas

Aušra Mackutė-Varoneckienė Tomas Krilavičius

1

Page 2: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Saviorganizuojantys neuroniniai tinklai (SOM)

• Saviorganizuojančius neuroninius tinklus (žemėlapiai, angl., self-organizing maps, SOM) T. Kohonenas pradėjo tyrinėti apie 1982 metus. Jie dar vadinami Kohoneno neuroniniais tinklais, arba Kohoneno saviorganizuojančiais žemėlapiais

• Šio tipo neuroninių tinklų pavadinimas kilo iš to, kad saviorganizuojantis žemėlapis, naudodamas mokymo (įėjimo) aibę, pats save sukuria (save organizuoja)

• Pagrindinis SOM tinklo tikslas – išlaikyti duomenų topologiją. • Taškai, esantys arti įėjimo vektorių erdvėje, yra atvaizduojami

arti vieni kitų ir SOM tinkle • Tai yra projekcijos metodas

2

Page 3: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• SOM tinklai gali būti naudojami siekiant vizualiai pateikti duomenų klasterius ir ieškant daugiamačių duomenų projekcijų į mažesnio skaičiaus matmenų erdvę, paprastai į plokštumą

• Pvz., RGB, 3 dimensijų duomenys, gana dažnai naudojami analizuojant SOM, t.y., spalvos atvaizduojamos trijų matavimų erdvėje (raudona, mėlyna ir žalia)

• SOM idėja – suprojektuoti n-mačius duomenis (pavyzdyje yra spalvos ir trys jas aprašantys atributai) į kur nors ką būtų galima lengviau vizualiai suprasti (nagrinėjamuoju atveju bus dviejų matavimų paveikslas – 2D žemėlapis).

• Tikėtina, kad gerame žemėlapyje tamsiai mėlyna ir žydra atsidurs šalia viena kitos, o geltona bus kažkur šalia raudonos ir žalios.

3

Page 4: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Saviorganizuojantis neuroninis tinklas yra neuronų, paprastai išdėstytų dvimačio tinklelio, dar vadinamo žemėlapiu arba lentele, mazguose, masyvas M = {Mij, i= 1, …, kx, j= 1, …, ky}

• Dažniausiai yra analizuojami dvimačiai SOM tinklai, nors galimi ir didesnio matmenų skaičiaus tinklai

• Dvimačio neuroninio tinklo schema:

• Po kiekvienu SOM tinklo neuronu (paveiksle pažymėtu apskritimu) „slepiasi“ vektorius (angl., codebook vector), kurio matmenų skaičius sutampa su analizuojamos aibės vektorių matmenų skaičiumi

4

Page 5: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pvz., RGB. Kiekvienas neuronas sudarytas iš dviejų komponenčių. Pirmoji dalis yra duomenys, antroji – neurono dislokacija.

• Pavyzdys su spalvomis geras dėl to, kad duomenys atvaizduojami spalvomis

• Šiuo atveju spalvos yra nagrinėjami duomenys, o dislokacija aprašoma x ir y pozicija pikseliais.

• Paveiksle pateiktas ištemptas tinklelis sudarytas iš n-mačių neuronų ir kiekvienas neuronas turi savo unikalią vietą tinklelyje

5

Page 6: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• SOM algoritmas – Aprašo kaip SOM pats save organizuoja leisdamas neuronams konkuruoti dėl

pavyzdžių atvaizdavimo

– Neuronai gali keisti savo būseną apsimokydami tikintis kad sekančiame etape nurungs kuo daugiau konkurentų ir laimės kuo daugiau pavyzdžių

– Tai atrankos ir mokymosi procesas kurio metu neuronai persitvarko save sudarydami žemėlapį atvaizduojantį panašumus.

Sukuriamas pradinis žemėlapis

for t = 0….1

atsitiktinai išrenkamas duomenų įrašas

išrenkamas geriausiai atitinkantis neuronas

perskaičiuojamos neuronų komponentės

t padidinamas mažu žingsneliu

end

6

Page 7: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Sukuriamas žemėlapis

• Tegul turime n-mačių įėjimo vektorių aibę X = {X1, X2, …,Xm}, (Xi = (xi1, xi2, …, xin ), i = 1,… ,m), kuri bus naudojama SOM tinklui mokyti

• Kiekvienas žemėlapio neuronas sujungtas su kiekviena įėjimo vektoriaus komponente

• Galima stačiakampė (angl., rectangular) arba šešiakampė (angl., hexagonal) tinklo struktūra.

• Pvz., stačiakampė tinklo struktūra, kai kx yra lentelės eilučių skaičius , ky – stulpelių, o iš viso neuronų yra kx × ky

7

Page 8: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

SOM tinklo mokymas

• Neuroninis tinklas apmokomas n-mačiais vektoriais X1, X2, …, Xm, kurie vadinami duomenų, mokymo arba įėjimo vektoriais.

• Kiekvienas mokymo aibės vektorius mokymo metu yra susiejamas su vienu tinklo neuronu, kuris taip pat yra n-matis vektorius.

• Vektorių, nusakantį i-osios eilutės j-ajame stulpelyje esantį neuroną, žymime Mij = (mij

1, mij2, …, mij

n) ∈ Rn

8

Page 9: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• SOM tinklas mokomas mokymo be mokytojo būdu.

• Mokymo pradžioje neuronų Mij komponenčių mij1, mij

2 , …, mijn

pradinės reikšmės dažniausiai nustatomos atsitiktinai.

• Neuroniniam tinklui daug kartų pateikiami skirtingi objektai, nusakomi n-mačiais vektoriais X1, X2, …,Xm

– Kiekviename mokymo žingsnyje (iteracijoje) vienas mokymo aibės vektorius Xk ∈ {X1, X2,… , Xm} pateikiamas į tinklą vektorius Xk palyginamas su visais neuronais Mij: dažniausiai skaičiuojamas Euklido atstumas ( ||Xk - Mij||) tarp šio vektoriaus Xk ir kiekvieno neurono Mij

– Randama, iki kurio neurono Mc ∈ {Mij, i=1, …,kx , j=1, …,ky} atstumas yra mažiausias; rastas neuronas Mc vadinamas neuronu (vektoriumi) nugalėtoju (angl., neuron (vector) winner). Pažymėkime ic eilutę, o jc stulpelį, kurie nusako neurono Mc vietą tinkle, čia c yra skaičių ic ir jc pora, t.y.,

c = argmini,j {||Xk – Mij||}, ||Xk – Mc|| = mini,j{||Xk – Mij||}

9

Page 10: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

– Pvz., RGB. Galima galvoti, kad turime 3D taškus. Žalia spalva: (0, 6, 0) bus artimesnė šviesiai žaliai (3, 6, 3) negu raudonai (6, 0, 0)

d(žalia, šviesiai žalia) = sqrt((3-0)^2 + (6-6)^2 + (3-0)^2) = 4.24 d(žalia, raudona) = sqrt((6-0)^2 + (0-6)^2 + (0-0)^2) = 8.49 – Visų tinklo neuronų komponentės keičiamos naudojantis iteracine formule

Mij(t+1) = Mij(t) + hijc(t)(Xk – Mij(t))

– Šioje formulėje t yra iteracijos numeris, hijc(t)– kaimynystės funkcija:

hijc(t) = hij

c(t)(||R’c – R’ij||, t) R’c ir R’ij yra dvimačiai vektoriai, sudaryti iš Mc ir Mij indeksų

(eilučių ir stulpelių numerių), nusakančių vektoriaus Xk neurono nugalėtojo Mc ir perskaičiuojamo neurono Mij vietą SOM tinkle.

• Procesui konverguoti būtina, kad hijc(t)→0 , kai t → ∞

• Dydis ||R’c – R’ij|| yra Euklido atstumas tarp vektorių R’c ir R’ij. Jam didėjant, funkcijos hij

c(t) reikšmė artėja prie nulio: hijc(t) → 0

10

Page 11: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• SOM apmokymo vienos iteracijos metu į tinklą pateikiamas vienas vektorius.

• Norint tinklą geriau išmokyti, tikslinga kiekvieną vektorių į tinklą pateikti kelis kartus. Galimi trys būdai:

– įėjimo aibės vektoriai pateikiami iš eilės po vieną cikliškai, t. y. pateikus visus vektorius, vėl pirmasis pateikiamas į tinklą ir t. t.;

– vektoriai pateikiami atsitiktine tvarka, t. y. vektoriai sumaišomi ir tada vienas po kito pateikiami į tinklą; kai visi jau pateikti, permaišomi ir vėl pateikiami į tinklą ir t. t;

– į tinklą pateikiamas atsitiktinai paimtas vienas įėjimo aibės vektorius, vėliau vėl atsitiktinai imamas kitas ir t. t.

• Pirmais dviem atvejais visi vektoriai pateikiami vienodą skaičių kartų, trečiuoju – nebūtinai. Antro būdo privalumas prieš pirmąjį yra tai, kad išeliminuojama galimybė tinklui „prisiminti“ įėjimo vektorių pateikimo į tinklą tvarką.

• Kartais yra vartojamas terminas epocha. Viena epocha – tai mokymo proceso dalis, kurios metu visi mokymo aibės vektoriai nuo X1 iki Xm (m – vektorių skaičius) po vieną kartą pateikiami į tinklą nuosekliai arba atsitiktine tvarka.

11

Page 12: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Po SOM tinklo mokymo į tinklą pateikiami mokymo aibės arba nauji, dar tinklui „nematyti“, duomenų vektoriai. Randamas kiekvieno vektoriaus neuronas nugalėtojas ir jis pažymimas SOM žemėlapyje neurono nugalėtojo vietoje. Tokiu būdu vektoriai išsidėsto tarp žemėlapio (lentelės) elementų.

• Dar kelios su SOM tinklo struktūra susijusios sąvokos: – neurono kaimynas, kaimynystės eilė. Greta vektoriaus nugalėtojo Mc esantys

neuronai vadinami pirmosios eilės kaimynais (kaimynystės eilė ηijc= 1).

– Greta pirmosios eilės kaimynų esantys neuronai, išskyrus jau paminėtus, vadinami antrosios eilės kaimynais (kaimynystės eilė ηij

c= 2) ir t. t. • Kaimynų eilės pažymėtų neuronų atžvilgiu parodytos:

• Kaimynystės eilė ηijc gali būti integruojama į kaimynystės funkciją vietoj

atstumų ||R’c – R’ij|| 12

Page 13: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Yra įvairių SOM tinklo mokymo realizacijų, kurios viena nuo kitos skiriasi kaimynystės funkcijos hij

c( t) išraiška.

• Tai yra euristinės funkcijos, todėl griežtų matematinių konvergavimo įrodymų nėra ir skirtingų mokymo taisyklių rezultatai gali būti šiek tiek kitokie žemėlapiai

• Stabilios analizuojamų duomenų grupės įprastai išlieka visuose žemėlapiuose, tačiau gali būti duomenų, kurie priskiriami vis prie kitų grupių arba visai jų nesudaro

• Tačiau tai yra savotiškas metodo privalumas, nes pagrindinis vizualizavimo tikslas yrapadėti suvokti analizuojamus duomenis, atskleisti jų struktūrą, kelti hipotezes dėl analizuojamų duomenų aibės

• Keli gauti vaizdai tai padaryti padeda daug efektyviau

13

Page 14: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Viena iš galimų kaimynystės funkcijos hijc išraiškų yra tokia

hijc = α / (αhij

c + 1) • čia α = max ((e+1-ê)/e; 0.01) • e – prieš tinklo mokymą nustatytas viso mokymo epochų skaičius, ê –

vykdomos epochos numeris, ηijc – kaimynystės tarp Mc ir Mij eilė

• Neurono nugalėtojo Mc kaimynystės funkcijos hijc reikšmė yra

maksimali. Ji mažėja augant epochų eilės numeriui ê ir didėjant kaimynystės eilei hij

c nugalėtojo atžvilgiu. • Kiekvienos epochos metu perskaičiuojami tie neuronai Mij, kuriems

galioja nelygybė hij

c ≤ max [α max(kx, ky); 1)] • Mokymo pradžioje perskaičiuojami ir tolimesni kaimynai, vėliau tik

artimesni. 14

Page 15: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

SOM tinklo mokymo kokybės nustatymas

• Baigus SOM tinklo mokymus, būtina nustatyti jo kokybę. Dažniausiai vertinamos dvi paklaidos: kvantavimo (angl., quantization error) ir topografinė (angl., topographic error).

• Kvantavimo paklaida parodo, kaip tiksliai jau išmokyto tinklo neuronai prisiderina prie mokymo aibės vektorių.

• Jei visi vektorių Xk neuronai nugalėtojai Mc(k) būtų lygiai tokie pat kaip ir patys vektoriai Xk, tai kvantavimo paklaida būtų lygi 0.

• Kvantavimo paklaida ESOM(q) – tai vidutinis atstumas tarp duomenų vektorių Xk ir jų vektorių nugalėtojų Mc(k): ESOM(q) = (1/m) ∑m

k=1 ||Xk – Mc(k)||

15

Page 16: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Topografinė paklaida parodo, kaip gerai SOM tinklas išlaiko analizuojamų duomenų topografiją, t. y. tarpusavio išsidėstymą.

• Topografinė paklaida ESOM (t) skaičiuojama pagal šią formulę:

ESOM(t) = (1/m) ∑mk=1 u(Xk)

• Jeigu SOM žemėlapyje vektoriaus Xk neuronas nugalėtojas yra šalia neurono, iki kurio atstumas nuo Xk yra mažiausias, neskaičiuojant iki neurono nugalėtojo, tai formulėje u(Xk ) = 0, priešingu atveju u( Xk) = 1

16

Page 17: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

SOM tinklas daugiamačiams duomenims vizualizuoti • Saviorganizuojantis neuroninis tinklas yra tinkamas

daugiamačių duomenų vizualizavimo įrankis, galintis daugiamačius duomenis ne tik atvaizduoti plokštumoje, bet prieš tai juos ir klasterizuoti

• Baigus SOM tinklo mokymus, analizuojami vektoriai (mokymo ar naujos aibės) pateikiami į tinklą. Kiekvienam vektoriui randamas neuronas nugalėtojas.

• Vektorių numeriai, klasių, kurioms jie priklauso, pavadinimai ar kita informacija apie vektorius užrašomi tuose žemėlapio (lentelės) langeliuose, kuriuos atitinka jų neuronai nugalėtojai.

17

Page 18: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Taigi SOM tinkle daugiamačiai duomenys transformuojami į tam tikrą diskrečią struktūrą. Tokiu būdu vektoriai išsidėsto tarp žemėlapio elementų. Tai galima laikyti kaip n-mačių vektorių (taškų) išsidėstymą plokštumoje. Jų vietą plokštumoje nusako tinklo mazgai – eilučių ir stulpelių numeriai. Paprasčiausiu (stačiakampės topologijos) atveju gaunama lentelė, kurios langeliuose surašyti analizuojamųvektorių numeriai arba klasių pavadinimai.

• Pvz., Irisų duomenis atitinkančių vektoriųX1, X2, …, X150 išsidėstymas SOM [10x10] tinkle

18

Page 19: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Čia skaičiai yra irisų klasių numeriai. Į SOM

tinklą atitinkančios lentelės atskirą

langelį gali patekti ne vienas, bet keli

analizuojami vektoriai, tarp jų ir

priklausantys skirtingoms klasėms

• Matosi, kad pirmos klasės (Setosa) irisai sudaro ryškiai išsiskiriančią grupę. Antros ir trečios klasių (Versicolor ir Virginica) irisai irgi su nedidelėmis išimtimis sudaro atskirus, tačiau sugludusius vienas šalia kito klasterius.

• Tokia lentelė nėra labai informatyvi, sunku pasakyti, kaip toli yra vektoriai, esantys gretimuose lentelės langeliuose.

19

Page 20: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių SOM tinklo vizualizavimo metodų.

• U-matricą sudaro atstumai tarp kaimyninių SOM neuronų.

• Pvz., vienmačio SOM tinklo pavyzdys. Turint [1x5] didumo (1 eilutės ir 5 stulpelių) tinklą(M1, M2, … , M5) U-matrica yra vienos eilutės ir devynių stulpelių vektorius (u1, u12, u2, u23, u3, u34, u4, u45, u5)

• Čia uij = ||Mi −Mj|| yra atstumas tarp dviejų kaimyninių neuronų Mi

• ir Mj, o ui yra tam tikra apibrėžta reikšmė, pvz., vidutinis atstumas tarp kaimyninių reikšmių: ui = (u(i-1)i+ui(i+1)) / 2

• Radus U-matricą, jos reikšmes reikia tam tikru būdu pavaizduoti SOM tinkle.

20

Page 21: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Yra metodas, pagal kurį vidutiniai atstumai tarp kaimyninių neuronų yra pateikiami pilkos skalės atspalviais (vėliau imta naudoti ir kitų spalvų skales).

• Jei vidutiniai atstumai tarp kaimyninių neuronųyra maži, tuos neuronus atitinkantys tinklo langeliai spalvinami šviesia

spalva; tamsi spalva reiškia didelius atstumus.

• Klasteriai yra nustatomi pagal šviesius

atspalvius, o jų ribos – pagal tamsesnius

• Pvz., Iris duomenys, U-matrica. Matosi, kad

pirmos klasės irisai atsiskiria nuo kitų dviejų,

griežtos ribos tarp antros ir trečios klasių nėra.

21

Page 22: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pvz. RGB. Kiekvieną spalvą galima pavaizduoti vektoriumi iš trijų komponenčių (R,G,B), kur R - raudona, G - žalia, B - mėlyna. Jeigu paimtume apmokymo aibę, sudarytą iš tokių R3 taškų ir ją apdorotume dvimačiu SOM, tai turėtume maždaug tokį rezultatą:

• Pradžioje SOM svoriai parenkami atsitiktiniai; didėjant t svoriai grupuojami pagal panašumą į klasterius, kol galiausiai procesas stabilizuojasi. Padavus naują (nežinomą) įėjimą į stabilizavusį tinklą gausime porą sveikų skaičių, reiškiančių neuroną, kuris panašiausias į šį įėjimą.

22

Page 23: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Teksto vizualizavimas

Page 24: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Teksto vizualizavimas • Tekstas yra svarbus duomenų tipas

• Kaip galima vizualizuoti tekstą?

• Kokio tipo informacija sudaro tekstą? – Išskiriamos trys kategorijos

• Turinys – Informacija apie tai kas yra tekste

• Struktūra – Informacija apie hierarchinius teksto lygius, paragrafus, skyrius ...

– Turinys lyg ir atspindėtų teksto struktūrą, tačiau didelių dokumentų rinkinių atveju - ne

• Metaduomenys – Aprašoma informacija, susijusi su tekstu, tačiau nesanti tekste

– Raktiniai žodžiai, indeksai, nuorodos į bibliografiją, informacija apie dokumento autorių, išleidimo data ...

Page 25: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Teksto vizualizavimas

• Pagrindinė teksto vizualizavimo įrankių paskirtis – sudaryti aiškų teksto struktūros ir turinio vaizdą – Suteikti galimybę greičiau, nei kad perskaičius visą tekstą, surasti specifinę

informaciją • Sukurti įrankiai suteikia galimybę tai gauti

– Priklauso nuo teksto pobūdžio, pvz., • Informacinis tekstas • Programų kodai • HTML • Žodynai/enciklopedijos • Rašytiniai šaltiniai • ...

– Priklauso nuo informacijos vizualizavimo paskirties • Struktūros analizei • Dokumentų, dokumento versijų palyginimui

Page 26: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., Programų tekstų vizualizavimas • Didelė dalis tekstinės informacijos apima programinės įrangos

kodų tekstus • Programų kodų analizė yra svarbi programinės įrangos kūrimo,

tobulinimo eigoje • Programų kodų ypatybės

– Tekstas struktūrizuotas, naudojama specifinė sintaksė – Didelės apimtys (tūkstančiai, milijonai teksto eilučių) – Tekstas gausus sąryšių – Pasižymi hierarchiškumu – Tekstas gausus įvairių atributų

Page 27: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., Programų tekstų vizualizavimas

• Programų tekstai yra specifiniai – Turinys neegzistuoja

– Programos teksto vaizdavimas jokios papildomos informacijos nesuteikia

• Vienas iš būdų – rodyti tekstą labai mažu masteliu, t.y. iš labai toli, taip, kad eilutės susilietų, o eilutėms suteikti spalvas, priklausomai nuo dominančių atributų

• SeeSoft įrankis programų teksto vizualizavimui

Page 28: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pvz., Programų tekstų vizualizavimas

28

Page 29: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., Programų tekstų vizualizavimas

• 52 failų, kuriuos sudaro 15, 255 kodo eilučių, vizualizacija. Naudoti ir pikselių ir linijinis atvaizdavimas.

• Spalvomis rodomas eilutės “amžius” – Raudona – vėliausiai modifikuotas eilutes – Mėlyna – seniausiai modifikuotas eilutes

• Toks vaizdas suteikia informacijos keliais aspektais

– Matoma programinės įrangos bylų struktūra – Galima susidaryti vaizdą apie bylų dydį, t.y. eilučių skaičių jose – Galima greitai nustatyti kodo eilutes, kurios yra stabiliausios, t.y. nebuvo

koreguojamos

Page 30: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Vizualus failų apibendrinimas. Kiekvienas failas atvaizduojamas keturkampiu, kurio dydis atitinka failo dydį

• Keturkampiuose kiekviena

spalva programos kodo

“amžių”

• Toks atvaizdavimas pateikia

ataskaitą apie kuriamos

sistemos failus, kuriuose iš jų

yra seniau rašytas ir

netaisytas, stabilesnis

programos kodas ir kurie

failai yra naujausi

30

Page 31: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., Programų tekstų vizualizavimas

• Vizualizuojant programų kodus siekiama atsakyti ir į kitus svarbius klausimus: – Kaip pamatyti kodo pakeitimus, atliktus po tam tikros dalies kodo

modifikavimo?

– Kaip pamatyti, kas ir ką programos kode modifikavo?

– Kaip pakeitimai kode susiję tarpusavyje?

– Ar yra kokių nors tendencijų kodo modifikavime?

• Šie klausimai yra tipiniai informacijos vizualizavimo klausimai

Page 32: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., PĮ evoliucijos vizualizavimas

Page 33: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., PĮ autorių indėlio vizualizavimas

Page 34: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., HTML kodo analizė

• Pvz., http://www.aharef.info/static/htmlgraph • Spalvomis pažymimos atskiri HTML kodo elementai:

– mėlyna: nuorodos (A tag) raudona: lentelės (TABLE, TR , TD tags) žalia: DIV tag violetinė: paveikslai (IMG tag) geltona: formos(FORM, INPUT, TEXTAREA, SELECT, OPTION tags) oranžinė: BR, P, BLOCKQUOTE tags) juoda: HTML tag, the root node pilka: visi kiti tags

34

Page 35: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pvz., www.vdu.lt

35

Page 36: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pvz., if.vdu.lt

36

Page 37: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pvz., www.delfi.lt

37

Page 38: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., Rašytinių šaltinių vizualizavimas • TextArc: alternatyvus būdas teksto peržiūrai • TextArc programinė įranga skirta vizualiam teksto nagrinėjimui.

Tekstas pateikiamas informatyviai, lengvai suvokiamu būdu. • TextArc sukurta remiantis taisyklėm:

1. Tekstas atidedamas elipsėje du kartus: • eilutėmis tam, kad išlaikyti tipografinę teksto struktūrą; ir • žodiais tam, kad perteikti žodyną.

2. Dažniau naudojamus žodžius atvaizduoja šviesiau ir stambiau. Pasikartojantys žodžiai gali būti svarbūs

3. Jei žodis naudojamas daugiau nei kartą, jis atvaizduojamas visų paminėjimų centre. Tai lemia žodžių išsibarstymą centre.

• Pvz., Alisa stebuklų šalyje kūrinio vizualizacija

Page 39: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Visas tekstas išdėstytas ant lanko, pradedant nuo 12 valandos ir einant pagal laikrodžio rodyklę. Eilutės yra atvaizduojamos išorinėje dalyje, o žodžiai vidinėje. Žodžiai, kurie pasitaiko dažniau yra šviesesni

Page 40: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Žodžiai, kurie tekste yra naudojami daugiau nei kartą yra atvaizduojami vieną kartą ten kur yra vidutinė pozicija. Šiame pavyzdyje spinduliai parodo kuriuose sakiniuose yra naudojamas žodis “Alice”.

Page 41: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Vidurkinimas parodo kur žodis yra naudojamas.

Page 42: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Kreivės sujungia žodžius tokia tvarka, kaip jie išsidėstę tekste. Tai parodo, kad TextArc erdvė susieta su teksto tiesine erdve.

Page 43: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Elipsėje paryškintas žodis “Rabbit”, taip pat parodomas ir teksto langas. Eilutės kuriose yra šis žodis yra žalios, tai atsispindi elipsėje, teksto lange ir slankiojančioje juostoje.

Page 44: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Abėcėlinė rodyklė parodo kiek kartų kiekvienas žodis yra naudojamas. Žodžiai, kurie yra žodyne atvaizduojami raudonai.

Page 45: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Pvz., Visual Thesaurus http://www.visualthesaurus.com/

• Interaktyvus žodynas sukuriantis žodžių žemėlapius (grafus).

• Anglų kalbos vizualus pateikimas. Norint suprasti Visual Thesaurus, reikia žinoti kalbos struktūrą. Jis perteikia sąryšį tarp kalboje esančių žodžių ir jų reikšmių

• Daug žodžių turi kelias reikšmes. Reikšmės atvaizduojamos atskiromis viršūnėmis, kurios sujungiamos su žodžiais

Page 46: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

• Pavyzdžiui, žodis pen, turi 6 reikšmes. Penkios reikšmės yra diktavardžiai, o viena reikšmė veiksmažodis. Viržūnės atvaizduotos skirtingomis spalvomis, nes parodo skirtingas kalbos dalis.

• Spalvos parodo skirtingas kalbos dalis

Page 47: Duomenų vizualizavimas · vektoriai, esantys gretimuose lentelės langeliuose. 19 • Unifikuota atstumų matrica (U-matrica, angl., unified distance matrix) yra vienas iš populiaresnių

Septintoji užduotis (atsiskaitymas kartu su apjungtu namų darbu gruodžio 1d.) Daugiamačių duomenų vizualizavimas • Klausimas! • Sprendimo būdas: vizualizavimui naudoti projekcijos

metodus • Sprendimas • Koks gautas atsakymas • Išvados

– Apie pasirinkto sprendimo būdo (ne)tinkamumą duomenims – Kitos

47