maja ram²ak avtomatizirano opremljanje u£nih gradiv z...

219

Upload: others

Post on 07-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

UNIVERZA V LJUBLJANIFAKULTETA ZA RA�UNALNI�TVO IN INFORMATIKO

Maja Ram²ak

Avtomatizirano opremljanje u£nih gradiv

z metapodatki

MAGISTRSKO DELO

Ljubljana, 2011

Page 2: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 3: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 4: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

UNIVERZA V LJUBLJANIFAKULTETA ZA RA�UNALNI�TVO IN INFORMATIKO

Maja Ram²ak

Avtomatizirano opremljanje u£nih gradiv

z metapodatki

MAGISTRSKO DELO

Mentor: doc. dr. Matija Marolt

Ljubljana, 2011

Page 5: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 6: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 7: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 8: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

IZJAVA O AVTORSTVU

magistrskega dela

Spodaj podpisana Maja Ram²ak,

z vpisno ²tevilko 63080484,

sem avtorica magistrskega dela z naslovom

Avtomatizirano opremljanje u£nih gradiv z metapodatki

S svojim podpisom zagotavljam, da:

• sem magistrsko delo izdelala samostojno pod vodstvom mentorja (naziv, ime in pri-imek)

doc. dr. Matija Marolt

• so elektronska oblika magistrskega dela, naslova (slov., angl.), povzetka (slov., angl.)ter klju£ne besede (slov., angl.) identi£ni s tiskano obliko magistrskega dela

• in sogla²am z javno objavo elektronske oblike magistrskega dela v zbirki �Dela FRI�.

V Ljubljani, dne 22.9.2011 Podpis avtorice:

Page 9: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 10: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Zahvala

Zahvaljujem se mentorju doc. dr. Matiji Maroltu za idejo v delu obravnavane tematike,za nasvete in pomo£ pri nastajanju vsebine ter podporo pri zaklju£evanju magistrskega²tudija.

Za nasvete pri nastajanju dela se zahvaljujem tudi svojemu partnerju. Prav tako sezahvaljujem Igorju Brbreju za posojo temeljne literature, Andreju Nemcu za pomo£ priprevajanju literature in Tomaºu Bratini za uvod v delo s programskim paketom SPSS.Iskreno se zahvaljujem tudi vsem bliºnjim za podporo ob nastajanju tega dela.

Page 11: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 12: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Kazalo

Povzetek 1

Abstract 3

1 Uvod 5

1.1 Cilji magistrskega dela . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Uporabljena metodologija . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3 Vsebina magistrskega dela . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Metapodatki 9

2.1 Tipi metapodatkov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Kratka zgodovina uvedbe metapodatkov . . . . . . . . . . . . . . . . . . 12

2.3 Osnovni namen in uporaba metapodatkov . . . . . . . . . . . . . . . . . 132.3.1 Neelektronski in elektronski viri . . . . . . . . . . . . . . . . . . . 142.3.2 Elektronski viri . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4 Osnovni principi metapodatkov . . . . . . . . . . . . . . . . . . . . . . . 17

2.5 Osnovni koncepti metapodatkov . . . . . . . . . . . . . . . . . . . . . . . 19

2.6 Hramba metapodatkovnih zapisov . . . . . . . . . . . . . . . . . . . . . . 23

2.7 Klju£ne besede kot metapodatki . . . . . . . . . . . . . . . . . . . . . . . 232.7.1 Uporaba klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . 24

2.8 Kvaliteta metapodatkov . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.8.1 Indikatorji kvalitete metapodatkov . . . . . . . . . . . . . . . . . . 29

3 Standardi metapodatkov 31

3.1 Dublin Core - DC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Metapodatki za izobraºevalne vire . . . . . . . . . . . . . . . . . . . . . . 333.2.1 Pomembnej²i metapodatkovni standardi, pro�li uporabe in formati 34

4 Generiranje metapodatkov 39

4.1 Pristopi generiranja metapodatkov . . . . . . . . . . . . . . . . . . . . . 39

4.2 Orodja za generiranje metapodatkov . . . . . . . . . . . . . . . . . . . . 44

4.3 Merjenje u£inkovitosti ekstrakcije . . . . . . . . . . . . . . . . . . . . . . 54

4.4 Uporabljeni pristopi in tehnike . . . . . . . . . . . . . . . . . . . . . . . . 57

i

Page 13: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

ii KAZALO

4.5 Podrobnosti izbranih orodij . . . . . . . . . . . . . . . . . . . . . . . . . 624.5.1 GenEx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.5.2 Kea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.5.3 TextRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 714.5.4 B&C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.5.5 Pristop Hulthove . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5 Evalvacija ucinkovitosti ekstrakcije kljucnih besed 79

5.1 Motivacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 Cilji in raziskovalna vpra²anja . . . . . . . . . . . . . . . . . . . . . . . . 80

5.3 Metodologija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 815.3.1 Digitalna skladi²£a . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.4 Vzorci gradiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.5 Kriteriji ujemanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.6 Eksperiment 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.6.1 Optimalni parametri orodja Kea . . . . . . . . . . . . . . . . . . . 1025.6.2 Ekstrakcija klju£nih besed iz primarnega vzorca gradiv (1) . . . . . 1105.6.3 Ekstrakcija klju£nih besed iz primarnega vzorca gradiv (2) . . . . . 1165.6.4 Ekstrakcija klju£nih besed iz dodatnega vzorca gradiv (1) . . . . . 1185.6.5 Ekstrakcija klju£nih besed iz dodatnega vzorca gradiv (2) . . . . . 121

5.7 Eksperiment 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6 Zakljucek 135

A Kljucne besede primarnega vzorca 139

B Kljucne besede dodatnega vzorca 143

C Rezultati eksperimenta 1 147

D Porterjevo korenjenje pri dodatnem vzorcu 175

E Rezultati eksperimenta 2 179

Viri 191

Page 14: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Slike

2.1 Primer uporabe metapodatkovnih shem in pro�lov uporabe . . . . . . . . 222.2 Primer uporabe orodja AutoSummarize aplikacije Microsoft Word . . . . . 252.3 Primer uporabe digitalne knjiºnice IEEEXplore Digital Library . . . . . . . 262.4 Primer uporabe orodja Google trends . . . . . . . . . . . . . . . . . . . . 27

4.1 Primer umetnine v sklopu projekta Thinker ImageBase . . . . . . . . . . . 414.2 Za£etni ekran orodja DC-dot . . . . . . . . . . . . . . . . . . . . . . . . 464.3 Primer spletnega u£nega gradiva . . . . . . . . . . . . . . . . . . . . . . 464.4 Del rezultata orodja DC-dot za gradivo na sliki 4.3 . . . . . . . . . . . . . 474.5 Parametri uporabe orodja AutoSummarize aplikacije Microsoft Word . . . 514.6 Za£etni ekran orodja SAmgI . . . . . . . . . . . . . . . . . . . . . . . . . 524.7 Spletni vmesnik orodja Term Extraction . . . . . . . . . . . . . . . . . . 524.8 Shema delovanja algoritma Extractor . . . . . . . . . . . . . . . . . . . . 63

5.1 Shema poteka prvega eksperimenta . . . . . . . . . . . . . . . . . . . . . 835.2 Shema poteka drugega eksperimenta . . . . . . . . . . . . . . . . . . . . 845.3 Za£etna stran digitalnega skladi²£a Ariadne �nder . . . . . . . . . . . . . 845.4 Prikaz seznama virov v ARIADNE �nder, ki ustrezajo kriterijem . . . . . . 855.5 Spletni vmesnik digitalnega skladi²£a Atlas, metode protokola OAI-PMH . 865.6 Za£etna stran digitalnega skladi²£a Learning Resource Exchange for schools 865.7 Prikaz seznama virov v Learning Resource Exchange for schools, ki us-

trezajo kriterijem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 875.8 Prikaz izbranega gradiva v Learning Resource Exchange for schools . . . . 875.9 �tevilo besed in znakov klju£nih besed primarnega vzorca gradiv glede na

²tevilo klju£nih besed gradiv . . . . . . . . . . . . . . . . . . . . . . . . . 935.10 �tevilo besed in znakov klju£nih besed dodatnega vzorca gradiv glede na

²tevilo klju£nih besed gradiv . . . . . . . . . . . . . . . . . . . . . . . . . 955.11 Vpliv velikosti u£ne mnoºice na u£inkovitost ektrakcije klju£nih besed, natan£nost,

priklic in f-mero za razli£no ²tevilo ekstraktanih klju£nih besed (modra:GFR = 1; rde£a: GFR = 0) . . . . . . . . . . . . . . . . . . . . . . . . 109

5.12 U£inkovitost ekstrakcije klju£nih besed za dva formata gradiv, vsa orodjain razli£ne kriterije ujemanja, 5 klju£nih besed . . . . . . . . . . . . . . . 113

5.13 U£inkovitost ekstrakcije klju£nih besed za dva formata gradiv, vsa orodjain razli£ne kriterije ujemanja, 10 klju£nih besed . . . . . . . . . . . . . . . 113

iii

Page 15: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

iv SLIKE

5.14 U£inkovitost ekstrakcije klju£nih besed za dva formata gradiv, vsa orodjain razli£ne kriterije ujemanja, 15 klju£nih besed . . . . . . . . . . . . . . . 113

5.15 U£inkovitost ekstrakcije klju£nih besed za razli£no ²tevilo klju£nih besed,vsa orodja in enakost za kriterij ujemanja . . . . . . . . . . . . . . . . . . 114

5.16 U£inkovitost ekstrakcije klju£nih besed za 5 klju£nih besed, vsa orodja inrazli£ne kriterije ujemanja . . . . . . . . . . . . . . . . . . . . . . . . . . 115

Page 16: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Tabele

2.1 Element date standarda Dublin Core [51] . . . . . . . . . . . . . . . . . . 192.2 Primer metapodatkovnih stavkov v standardu Dublin Core [51] . . . . . . 212.3 Primer metapodatkovnega zapisa v standardu Dublin Core [51] . . . . . . 21

3.1 Primer metapodatkovnih elementov v standardu DC za vir [6] . . . . . . . 32

4.1 Primer rezultata orodja libExtractor iz arhivskega paketa formata ZIP . . 504.2 Primer rezultata orodja libExtractor iz dokumenta za Microsoft Word . . 504.3 Primer rezultata orodja SAmgI . . . . . . . . . . . . . . . . . . . . . . . 534.4 Matrika zmede za klasi�kacijo klju£nih besed . . . . . . . . . . . . . . . . 554.5 Dvanajst parametrov algoritma Extractor [48] . . . . . . . . . . . . . . . 644.6 Deset parametrov Extractor-ja, ki jih dolo£i Genitor [48] . . . . . . . . . . 67

5.1 Statistika primarnega vzorca gradiv, po formatu in jeziku gradiva . . . . . 885.2 Statistika primarnega vzorca gradiv, po licenci in jeziku gradiva . . . . . . 895.3 Izsek statistike primarnega vzorca gradiv, po podro£ju in jeziku gradiva . . 895.4 Statistika primarnega vzorca gradiv, po velikosti datotek v KB . . . . . . 905.5 Statistika primarnega vzorca gradiv, po formatu in ²tevilu klju£nih besed

gradiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.6 Statistika primarnega vzorca gradiv, po formatu, ²tevilu besed in ²tevilu

znakov v besedah klju£nih besed gradiv . . . . . . . . . . . . . . . . . . . 915.7 Statistika primarnega vzorca gradiv, po jeziku in ²tevilu klju£nih besed gradiv 925.8 Statistika primarnega vzorca gradiv, po jeziku, ²tevilu besed in ²tevilu

znakov v besedah klju£nih besed gradiv . . . . . . . . . . . . . . . . . . . 925.9 Statistika primarnega vzorca gradiv, po ²tevilu klju£nih besed gradiv . . . 925.10 Statistika dodatnega vzorca virov, po konferenci in ²tevilu klju£nih besed . 935.11 Statistika dodatnega vzorca virov, po konferenci, ²tevilu besed in znakov

besed klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 945.12 Statistika dodatnega vzorca gradiv, po ²tevilu klju£nih besed gradiv . . . . 945.13 Statistika dodatnega vzorca virov, po velikosti datotek v KB . . . . . . . 955.14 Statistika povzetkov dodatnega vzorca virov, ²tevilo stavkov, besed v stavkih

in znakov v besedah . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.15 Statistika naklju£no izbranih prispevkov dodatnega vzorca virov, prvi del . 975.16 Statistika naklju£no izbranih prispevkov dodatnega vzorca virov, drugi del . 975.17 Primer ujemanja klju£nih besed s 4-rezanjem . . . . . . . . . . . . . . . . 985.18 Primer ujemanja klju£nih besed s 5-rezanjem . . . . . . . . . . . . . . . . 98

v

Page 17: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

vi TABELE

5.19 Primer ujemanja klju£nih besed s 6-rezanjem . . . . . . . . . . . . . . . . 995.20 Primer ujemanja klju£nih besed s soundex . . . . . . . . . . . . . . . . . 995.21 Primer ujemanja klju£nih besed z metaphone . . . . . . . . . . . . . . . . 995.22 Primer ujemanja klju£nih besed s similar_text 60 . . . . . . . . . . . . . 1005.23 Primer ujemanja klju£nih besed s similar_text 70 . . . . . . . . . . . . . 1005.24 Primer ujemanja klju£nih besed s similar_text 80 . . . . . . . . . . . . . 1015.25 �tevilo ujemanj klju£nih besed z razli£nimi kriteriji ujemanj . . . . . . . . . 1015.26 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vred-

nosti natan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostihu£nih mnoºic 10, 20 in 30 . . . . . . . . . . . . . . . . . . . . . . . . . . 104

5.27 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vred-nosti natan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostihu£nih mnoºic 40, 50 in 60 . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.28 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vred-nosti natan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostihu£nih mnoºic 70, 80 in 39 . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.29 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vred-nosti natan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostiu£nih mnoºic 100 in maksimumi po vseh u£nih mnoºicah . . . . . . . . . 107

5.30 Povpre£ni rangi za statistiko s Friedmanovim testom . . . . . . . . . . . . 1085.31 Rezultati statisti£nih testov, N = 50, df = 7, α = 0, 05, za razli£no ²tevilo

klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1085.32 Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15

klju£nih besed iz primarnega vzorca gradiv, po formatu, kriteriju ujemanjain na£inu priprave tekstovne datoteke vira . . . . . . . . . . . . . . . . . 112

5.33 Rezultat testa Tukey HSD za razli£ne kriterije ujemanja . . . . . . . . . . 1145.34 Statistika kolikokrat je bilo katero od orodij najbolj²e pri povpre£nih vred-

nostih f-mere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1165.35 Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15

klju£nih besed iz angle²kih gradiv primarnega vzorca gradiv, po formatu inkriteriju ujemanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5.36 Odstotkovna primerjava u£inkovitosti ekstrakcije angle²kih gradiv napramslovenskim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

5.37 Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15klju£nih besed iz dodatnega vzorca gradiv, po konferenci in kriteriju ujemanja120

5.38 U£inkovitost ekstrakcije 5 klju£nih besed iz naklju£no izbranih prispevkovdodatnega vzorca virov . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.39 Kolikokrat je bil kateri od prevodov najbolj²i . . . . . . . . . . . . . . . . 1255.40 Opisna statistika dobljenih f-mer po strojnem prevajanju avtorskih klju£nih

besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1255.41 Primerjava povpre£nih dobljenih f-mer po strojnem prevajanju avtorskih

klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.42 Rezultat testa Tukey HSD dobljenih f-mer po strojnem prevajanju avtorskih

klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

Page 18: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

TABELE vii

5.43 Kolikokrat je bil kateri od prevodov, pristopov in kombinacij najbolj²i, zarazli£no ²tevilo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . 126

5.44 Opisna statistika dobljenih f-mer pri pristopih PE, EP in razli£nih orodij zaekstrakcijo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.45 Rezultat testa ANOVA za pristopa PE in EP ter kombinacije orodij inprevajalnikov znotraj pristopov . . . . . . . . . . . . . . . . . . . . . . . . 128

5.46 Rezultat testa Tukey HSD za razli£ne kombinacije orodij in prevajalnikovza pristop PE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.47 Rezultat testa Tukey HSD za razli£ne kombinacije orodij in prevajalnikovza pristop EP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5.48 Statistika dobljenih f-mer razli£nih strojnih prevajalnikov glede na pristopaPE in EP za kriterij enakosti in 5 klju£nih besed . . . . . . . . . . . . . . 130

5.49 Opisna statistika dobljenih f-mer pri pristopih PE, EP in razli£nih kriterijihujemanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

5.50 Rezultat testa Tukey HSD za razli£ne kriterije ujemanja za pristop PE . . 1315.51 Rezultat testa Tukey HSD za razli£ne kriterije ujemanja za pristop EP . . 1315.52 Povpre£ne vrednosti f-mer razli£nih pristopov in ekstrakcije klju£nih besed

iz virov v slovenskem jeziku, za razli£ne kriterije ujemanja . . . . . . . . . 132

C.1 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nihmnoºic 10, 20 in 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

C.2 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nihmnoºic 40, 50 in 60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

C.3 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nihmnoºic 70, 80 in 90 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

C.4 U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikosti u£nihmnoºic 100 in povpre£je po vseh u£nih mnoºicah . . . . . . . . . . . . . . 151

C.5 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 5 klju£nih besed izprimarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, prvi del . . . . . . . . . . . . . . . 152

C.6 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 5 klju£nih besed izprimarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, drugi del . . . . . . . . . . . . . . 153

C.7 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 5 klju£nih besed izprimarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, tretji del . . . . . . . . . . . . . . 154

C.8 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 10 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, prvi del . . . . . . . . . . . . . . . 155

Page 19: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

viii TABELE

C.9 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 10 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, drugi del . . . . . . . . . . . . . . 156

C.10 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 10 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, tretji del . . . . . . . . . . . . . . 157

C.11 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 15 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, prvi del . . . . . . . . . . . . . . . 158

C.12 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 15 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, drugi del . . . . . . . . . . . . . . 159

C.13 Statistika povpre£nih vrednosti u£inkovitosti ekstrakcije 15 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, tretji del . . . . . . . . . . . . . . 160

C.14 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 5 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, prvi del . . . . . . . . . . . . . . . 161

C.15 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 5 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, drugi del . . . . . . . . . . . . . . 162

C.16 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 5 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, tretji del . . . . . . . . . . . . . . 163

C.17 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 10 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, prvi del . . . . . . . . . . . . . . . 164

C.18 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 10 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, drugi del . . . . . . . . . . . . . . 165

C.19 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 10 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, tretji del . . . . . . . . . . . . . . 166

C.20 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 15 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, prvi del . . . . . . . . . . . . . . . 167

C.21 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 15 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, drugi del . . . . . . . . . . . . . . 168

C.22 Statistika maksimalnih vrednosti u£inkovitosti ekstrakcije 15 klju£nih besediz primarnega vzorca gradiv, po formatu, kriteriju ujemanja, na£inu pripravetekstovne datoteke vira za vsa orodja, tretji del . . . . . . . . . . . . . . 169

Page 20: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

TABELE ix

C.23 Statistika u£inkovitosti ekstrakcije 5 klju£nih besed iz dodatnega vzorcagradiv, po konferenci, kriteriju ujemanja, na£inu priprave tekstovne da-toteke vira, za vsa orodja . . . . . . . . . . . . . . . . . . . . . . . . . . 170

C.24 Statistika u£inkovitosti ekstrakcije 10 klju£nih besed iz dodatnega vzorcagradiv, po konferenci, kriteriju ujemanja, na£inu priprave tekstovne da-toteke vira, za vsa orodja . . . . . . . . . . . . . . . . . . . . . . . . . . 171

C.25 Statistika u£inkovitosti ekstrakcije 15 klju£nih besed iz dodatnega vzorcagradiv, po konferenci, kriteriju ujemanja, na£inu priprave tekstovne da-toteke vira, za vsa orodja . . . . . . . . . . . . . . . . . . . . . . . . . . 172

C.26 Rezultat testa Tukey HSD dobljenih f-mer razli£nih parametrov orodja Keaza 5 klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

C.27 Rezultat testa Tukey HSD dobljenih f-mer razli£nih parametrov orodja Keaza 10 klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

C.28 Rezultat testa Tukey HSD dobljenih f-mer razli£nih parametrov orodja Keaza 15 klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

D.1 Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15klju£nih besed iz angle²kih gradiv primarnega vzorca gradiv, po formatu inkriteriju ujemanja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

D.2 Statistika u£inkovitosti ekstrakcije 5 klju£nih besed iz dodatnega vzorcagradiv, po konferenci, kriteriju ujemanja, na£inu priprave tekstovne da-toteke vira, za vsa orodja . . . . . . . . . . . . . . . . . . . . . . . . . . 176

D.3 Statistika u£inkovitosti ekstrakcije 10 klju£nih besed iz dodatnega vzorcagradiv, po konferenci, kriteriju ujemanja, na£inu priprave tekstovne da-toteke vira, za vsa orodja . . . . . . . . . . . . . . . . . . . . . . . . . . 177

D.4 Statistika u£inkovitosti ekstrakcije 15 klju£nih besed iz dodatnega vzorcagradiv, po konferenci, kriteriju ujemanja, na£inu priprave tekstovne da-toteke vira, za vsa orodja . . . . . . . . . . . . . . . . . . . . . . . . . . 178

E.1 U£inkovitost ekstrakcije 5 klju£nih besed iz prevodov klju£nih besed in ek-strakcij klju£nih besed iz prevodov vsebin . . . . . . . . . . . . . . . . . . 180

E.2 U£inkovitost ekstrakcije 10 klju£nih besed iz prevodov klju£nih besed inekstrakcij klju£nih besed iz prevodov vsebin . . . . . . . . . . . . . . . . . 181

E.3 U£inkovitost ekstrakcije 15 klju£nih besed iz prevodov klju£nih besed inekstrakcij klju£nih besed iz prevodov vsebin . . . . . . . . . . . . . . . . . 182

E.4 Statistika povpre£nih f-mer dobljenih po prevajanju avtorsko podanih klju£nihbesed z razli£nimi prevajalniki za razli£ne kriterije ujemanja za 5 klju£nihbesed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

E.5 Statistika povpre£nih f-mer dobljenih po prevajanju avtorsko podanih klju£nihbesed z razli£nimi prevajalniki za razli£ne kriterije ujemanja za 10 klju£nihbesed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

E.6 Statistika povpre£nih f-mer dobljenih po prevajanju avtorsko podanih klju£nihbesed z razli£nimi prevajalniki za razli£ne kriterije ujemanja za 15 klju£nihbesed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

Page 21: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

x TABELE

E.7 Statistika v povpre£ju najbolj²ih strojnih prevajalnikov za ve£jezi£no pov-pra²evanje pri prevajanju klju£nih besed . . . . . . . . . . . . . . . . . . . 184

E.8 Statistika v povpre£ju najbolj²ih orodij v kombinaciji s strojnimi prevajalnikiza ve£jezi£no povpra²evanje pri prevajanju klju£nih besed . . . . . . . . . 185

E.9 Statistika povpre£nih f-mer za 5 klju£nih besed po prevajalniku, orodju,pristopu in kriteriju ujemanja . . . . . . . . . . . . . . . . . . . . . . . . 186

E.10 Statistika povpre£nih f-mer za 10 klju£nih besed po prevajalniku, orodju,pristopu in kriteriju ujemanja . . . . . . . . . . . . . . . . . . . . . . . . 187

E.11 Statistika povpre£nih f-mer za 15 klju£nih besed po prevajalniku, orodju,pristopu in kriteriju ujemanja . . . . . . . . . . . . . . . . . . . . . . . . 188

E.12 Opisna statistika dobljenih f-mer pri kombinaciji KeaEPAP za razli£no ²teviloklju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

E.13 Primerjava povpre£nih dobljenih f-mer pri kombinaciji KeaEPAP za razli£no²tevilo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

E.14 Rezultat testa Tukey HSD dobljenih f-mer pri kombinaciji KeaEPAP za ra-zli£no ²tevilo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . 189

E.15 Primerjava povpre£nih dobljenih f-mer pri kombinaciji KeaPEGT za razli£no²tevilo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

E.16 Primerjava povpre£nih dobljenih f-mer pri kombinaciji KeaPEGT za razli£no²tevilo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

E.17 Rezultat testa Tukey HSD dobljenih f-mer pri kombinaciji KeaPEGT zarazli£no ²tevilo klju£nih besed . . . . . . . . . . . . . . . . . . . . . . . . 190

Page 22: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Uporabljene kratice in simboli

AACR2 Anglo-American Cataloging Rules Revised, Second Edition, standardi-zirana mnoºica pravil za katalogiziranje knjiºni£nih gradiv

ADEPT Alexandria Digital Earth Project, projektAGPL GNU A�ero General Public Licence version 3, licencaAIFF zvo£ni formatAMG automated metadata generation, avtomatizirano generiranje metapo-

datkovANSI American National Standards Institute, organizacijaANZ-LOM Australian & New Zealand Learning Object Model, pro�l uporabeAPI application programming interface, aplikacijski programski vmesnikASCII American Standard Code for Information Interchange, kodirna shemaASPECT projektCALIBRATE projektCC Common Cartridge, ogrodje pakiranja elektronskih virovCCO Cataloging Cultural Objects, metapodatkovni standardCDWA Categories for the Description of Works of Art, metapodatkovni stan-

dardCEDARS CURL Exemplars in Digital Archives, projekt CURLCP1250 Windows Code Page-1250, kodirna shemaCRC32 Cycling Redundancy Check-32, kodirna shema za odkrivanje napakCSDGM Content Standards for Digital Geospatial Metadata, metapodatkovni

standardCSV Comma Separated Value; kodirna shemaCURL Consortium of University Research Libraries, skupinaDC Dublin Core, metapodatkovni standardDC-ED Dublin Core Education Application Pro�le, pro�l uporabeDCMES Dublin Core Metadata Element Set, mnoºica elementov DCDCMI Dublin Core Metadata Initiative, skupinaDDC Dewey Decimal Classi�cation, klasi�kacijska shema za katalogiranje

knjiºni£nih virovDIPETT Domain-Independent Parser of English Technical Texts, razpoznavalnikDLESE digitalna knjiºnicaDLS Digital Learning Sciences, organizacijaDOI Digital Object Identi�er, metapodatkovni standardEAD Encoded Archival Description, metapodatkovni standardFGDC Federal Geographic Data Committee, organizacija

xi

Page 23: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

xii TABELE

FOAF The Friend of a Friend, metapodatkovni standardFRBR Functional Requirements for Bibliographic Records, model postavljen

s strani IFLAFTP File Transfer Protocol, protokol prenosa podatkovGIF Graphics Interchange Format, format za rastrsko gra�koGILS Global Information Locator Service, metapodatkovni standardGLOBE Global Learning Objects Brokered Exchange, organizacijaGNU projekt in gibanje za prosto programsko opremoGPL GNU General Public License (tudi GNU GPL), licencaHTML HyperText Markup Language, ozna£evalni jezikHTTP HyperText Transfer Protocol, protokol prenosa podatkovHTTPS Secure HyperText Transfer Protocol, varni protokol prenosa podatkovIAFA/ROADS metapodatkovna shemaIEEE Institute of Electrical and Electronics Engineers, organizacijaIEEE LTSC IEEE Learning Technology Standards Committee, skupinaIFLA International Federation of Library Associations and Institutions, orga-

nizacijaIMS metapodatkovna shema in organizacija (IMS Global Consortium)ISO International Organization for Standardization, organizacijaISO 639-1 standard, oznake jezikovISO-8859-2 ISO/IEC 8859-2, kodirna shemaISO/IEC 14721 referen£ni model od OAISJPG Joint Photographic Experts Group, format za rastrsko gra�koJSON JavaScript Object Notation, standard kodiranja in izmenjave podatkovJSTOR Journal Storage, digitalna knjiºnicaLCSH Library of Congress Subject Headings, seznam naslovov podro£ij za

katalogiziranje knjiºni£nih virovLGPL GNU Lesser General Public License, licencaLMS Learning Management System, sistem za upravljanje in nudenje u£nih

vsebinLOM Learning Object Metadata (tudi kot IEEE LOM), metapodatkovni

standardLRE Learning Resource Exchange, digitalno skladi²£e, pro�l uporabeMARC MAchine-Readable Cataloging, standardizirana mnoºica pravil za kata-

logiziranje knjiºni£nih gradivMD5 Message-Digest Algorithm 5, zgo²£evalna funkcijaMELT projektMERLOT digitalna knjiºnicaMIME Multipurpose Internet Mail Extensions, kodiranje razli£nih datote£nih

formatovMODS Metadata Object Description Schema, metapodatkovni standardMPEG-7 Moving Pictures Experts Group-7, metapodatkovni standardNCSA National Center for Supercomputing Applications, organizacijaNDIIPP National Digital Information Infrastructure and Preservation Program,

projektNISO National Information Standards Organization, organizacija

Page 24: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

TABELE xiii

NLA National Library of Australia, organizacijaNLP Natural Language Processing, procesiranje naravnih jezkovNORLOM Norwege Learning Object Metadata, pro�l uporabeNRCC National Research Council Canada , organizacijaNSDL National Science Digital Library, digitalna knjiºnicaOAI Open Archives Initiative, skupinaOAI-PMH Open Archives Initiative - Protocol for Metadata Harvesting, protokol

prenosa podatkovOAIS Open Archival Information System, referen£ni modelOCLC Online Computer Library Center, ra£unalni²ki centerODF Open Document Format, formatONIX ONline Information Exchange, metapodatkovni standardOPAC Online Public Access Catalog, knjiºni£ni sistemPBCore Public Broadcasting Metadata Dictionary, metapodatkovni standardPDF Portable Document Format, formatPoS part-of-speech, ozna£evanje na podlagi stavn£ne analizePREMIS Preservation Metadata Implementation Strategies, metapodatkovni

standard in skupinaRDF Resource Description Framework, kodirna shemaRLG Research Libraries Group, skupinaRSS Really Simple Syndication, spletna storitev in kodirna shemaRTF Rich Text Format, formatSCORM Sharable Content Object Reference Model, ogrodje pakiranja elektron-

skih virovSDF Simple Data Format, formatSGML Standard Generalized Markup Language, ozna£evalni jezikSHA-1 Secure Hash Algorithm 1, zgo²£evalna funkcijaSOAP Simple Object Access Protocol (brez razlage kratice od verzije 1.2),

protokol pri spletnih servisihSOIF metapodatkovna shemaSPARQL SPARQL Protocol and RDF Query Language, poizvedovalni jezikSWE-LOM Sweden Learning Object Metadata, pro�l uporabeTEI Text Encoding Initiative, metapodatkovni standard in skupinaTIFF Tagged Image File Format, format za rastrsko gra�koUKOLN United Kingdom O�ce for Library and Information Networking,

skupina na University of BathURI Uniform Resource Identi�er, identi�kator virov na spletuURL Uniform Resource Locator, identi�kator virov na spletu (del URI)USMARC metapodatkovna shemaUTF-8 UCS Transformation Format - 8 bit, kodirna shemaVRA Visual Resource Association Cire Categories, metapodatkovni standardXHTML eXtensible HyperText Markup Language, ozna£evalni jezikXML Extensible Markup Language, ozna£evalni jezikWAVE Waveform Audio File Format, zvo£ni formatZ39.50 protokol za navzkriºno iskanje po repozitorijih

Page 25: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno
Page 26: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Povzetek

Eden od rezultatov novej²e dobe uporabe ra£unalnikov je masovna izdelava in uporabanajrazli£nej²ih elektronskih virov. Nara²£a ²tevilo zbirk virov, digitalnih knjiºnic in skladi²£,ki uporabnikom ponujajo te vire, obi£ajno preko iskalnih mehanizmov. �e posebej je toevidentno na znanstveno-raziskovalnem podro£ju in v izobraºevanju.

Omenjeni servisi za upravljanje elektronskih virov uporabljajo metapodatke oziromametapodatkovne zapise o virih. Mnogo avtorjev metapodatke predstavlja kot podatke opodatkih ali informacije o informacijah, £eprav je ºe nekaj £asa uveljavljena de�nicija, dametapodatki predstavljajo strukturirano informacijo, ki opisuje, razlaga, locira ali na drugna£in omogo£a laºje pridobivanje, uporabo ali upravljanje z viri informacij. Kljub zavedanjuvelikega pomena metapodatkov, njihova uporabe ne dosega potenciala, ki ga ponujajo.Veliko virov ima slabo kvalitetne metapodatke ali pa jih celo nimajo. Zaradi izjemne rasti²tevila elektronskih virov, sprememb strojne in programske opreme ter servisov je njihovovzdrºevanje in kreiranje postalo zapleteno.

Kreiranja oziroma generiranja metapodatkov se v splo²nem lotimo z enim od naslednjihpristopov: ro£no generiranje, avtomatizirano generiranje, kombinacija ro£nega in avtoma-tiziranega ter pretvarjanje obstoje£ih metapodatkov. Avtomatizirano generiranje nadaljelo£imo na dve podro£ji: ekstrakcijo metapodatkov in nabiranje metapodatkov. Temuprimerno obstaja kar nekaj za to namenjenih orodij. �e posebej so zanimiva orodja zaekstrakcijo klju£nih besed, kot eno od mnoºic metapodatkov, ki predstavlja zgo²£en opisvsebine elektronskih virov. U£inkovitost teh orodij se v literaturi ocenjuje z uveljavljenimimetrikami iz podro£ja pridobivanja informacij: natan£nostjo, priklicom in f-mero.

V magistrskem delu celostno obravnavamo metapodatke, predvsem orodja za njihovoavtomatizirano generiranje. Slednja za ekstrakcijo klju£nih besed obi£ajno uporabljajokombinacijo naslednjih pristopov in tehnik: korenjenje besed, omejevanje z mejami fraz,upo²tevanje stop besed in stop fraz, evolucijske algoritme, strojno u£enje in procesiranjenaravnih jezikov. Skupno podro£je korenjenja besed in ocenjevanja u£inkovitosti algoritmovso kriteriji ujemanja.

V prvem eksperimentu magistrskega dela na dveh realnih mnoºicah elektronskih vi-rov (izobraºevalna gradiva in znanstveno-raziskovalni prispevki) v slovenskem jeziku z ra-zli£nimi kriteriji ujemanja (natan£nost, n-rezanje, soundex, metaphone in similar text)ugotavljamo u£inkovitost orodij ekstrakcije klju£nih besed (Kea, Yahoo! Term Extractor,SAmgI in TextRank). Pri tem so bili uporabljeni razli£ni postopki pretvorbe (Apache Tika,pdftotext, kopiraj & prilepi in ro£na pretvorba) originalnih virov v obliko, ki jo sprejmejoorodja. Pokazali smo, da postopki pretvorbe vplivajo na ekstrakcijo, vendar ne vedno v pridbolj²e ekstrakcije. Kriteriji ujemanja so bili med sabo primerljivi, signi�kantno najbolj²e

1

Page 27: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2 TABELE

orodje je bilo Kea. Prav tako se je izkazalo, da je ekstrakcija iz izobraºevalnih gradivslab²a od znanstveno-raziskovalnih prispekov in ekstrakcija iz slovenskih tekstov je slab²aod ekstrakcije iz angle²kih tekstov.

V drugem eksperimentu obravnavamo ve£jezi£no iskanje izobraºevalnih gradiv, tako dasmo s tremi strojnimi prevajalniki naravnih jezikov (Google translate, Microsoft Bing inAmebis Presis) prevedli avtorsko podane klju£ne besede in vsebino gradiv, iz katerih smonato naredili ekstrakcijo klju£nih besed s prej omenjenimi orodji. Temu smo dodali obratenpristop, kjer smo strojne prevajalnike uporabili po ekstrakciji klju£nih besed. Signi�kantnobolj²e rezultate smo dobili s prevodom obstoje£ih klju£nih besed oziroma v povpre£junajbolj²e s kombinacijo dveh pristopov, ko klju£ne besede ²e ne obstajajo. Najbolje sta seodrezala strojni prevajalnik Google translate in orodje Kea.

Pomembnej²i zaklju£ki iz eksperimentov so: najustreznej²e orodje za ekstrakcijo klju£-nih besed je Kea; potreben je razvoj orodja, s katerim bo ekstrakcija iz slovenskih tek-stov primerljiva angle²kim tekstom; kljub orodjem za ekstrakcijo iz angle²kih tekstov,u£inkovitej²e iskanje gradiv v drugih jezikih dobimo s prevodi klju£nih besed v iskalni jezik,kadar le-te obstajajo oziroma kombinacijo dveh pristopov v nasprotnem primeru.

Klju£ne besede:

metapodatki, generiranje metapodatkov, ekstrakcija klju£nih besed, u£inkovitost ekstrak-cije, ve£jezi£no iskanje virov

Page 28: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Abstract

One of the results of modern era is a massive production and usage of manifold electronicresources. Number of digital collections, digital libraries and repositories who o�er theseresources to users, usually by search mechanisms, are increasing. This is especially evidentin scienti�c research and education area.

Above mentioned services for managing electronic resources use metadata and meta-data records, respectively. Many authors present metadata as data about data or infor-mation about information, although better de�nition exists for some time that metadatarepresent structured information that describe, explain, locate or on any other way provideeasier retrieval, usage and managing of information sources. Despite the large awarenessof metadata importance their usage doesn't achieve the potential they o�er. Many re-sources have metadata with bad or low quality or even don't have them. Namely, theexceptional growth of numbers of electronic resources, changes in hardware and softwareand services their management and creation become complicated.

Creation of metadata or their generation respectively, can be in general tackled by oneof the following approaches: handmade generation, automated generation, combination ofhandmade and automated, and conversion from existing metadata. Automated generationcan be further divided into two �elds: metadata extraction and metadata harvesting.Accordingly, several tools for that exist. Especially interesting are tools for keywordsextraction, as a subset of metadata elements that represent comprehensive description ofelectronic resource contents. In literature, the e�ciency of these tools is measured withmetrics from information retrieval: precision, recall and f-measure.

In Master's Thesis metadata as a whole are considered, most attention is devotedto tools for their automated generation. Latter tools for keywords extraction usuallyuse combinations of the following approaches and techniques: stemmation, using phraseboundaries, stop words and stop phrases, evolution algorithms, machine learning, andnatural language processing. Common section of stemmation and evaluation of extractione�ciency are matching criteria.

In the �rst experiment of Thesis the e�ciency of di�erent keywords extraction tools(Kea, Yahoo! Term Extractor, SAmgI, and TextRank) is considered by using two real setsof resources (educational resources and conference contributions) in Slovene language,di�erent matching criteria (exact matching, n-cut, soundex, metaphone, and similar text).Di�erent conversions (Apache Tika, pdftotext, copy & paste, and manual conversion) thatprepare original �le to form that is acceptable for these tools were used. We have shownthat conversions in�uence on extraction, but not always to improve results. Matchingcriteria were comparable, and signi�cant better was tool Kea. We also observed that

3

Page 29: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4 TABELE

extraction from educational resources was worse than extraction from conference con-tributions, and that extraction from Slovene texts is worse than extraction from Englishtexts.

In the second experiment multi-language searching of educational resources is treated.Three machine natural language translators (Google translate, Microsoft Bing, and Ame-bis Presis) were used on existing authors' keywords and resource contents that were thenused as input for above mentioned keywords extraction tools. Additionally the oppositeapproach where machine translators were used after keywords extraction was introduced.Signi�cantly best results were obtained by translating given keywords or on average bestwith combination of two approaches when authors' keywords did not exist. The bestmachine translator was Google translate and the best keywords extraction tool was Kea.

The most important conclusions from experiments are: the most e�cient tool forkeywords extraction is Kea; a development of such tool for Slovene language is neededto achieve comparable e�ciency on English texts; despite the keywords extraction toolsthat are specialized for English texts the most e�cient searching for resources in foreignlanguages where keywords exist is obtained by translating keywords in the search languageand by using combination of two approaches if keywords do not exist.

Keywords:

metadata, metadata generation, keywords extraction, extraction e�ciency, multi-languageresource searching

Page 30: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Poglavje 1

Uvod

Informacije v digitalni obliki so postale del ºivljenja nas vseh: doma, v pisarni in na poti.Njihova koli£ina, prostor po katerem so razpr²ene in z njimi povezane aktivnosti, se znatnopove£ujejo, nekateri avtorji trdijo, da koli£ina celo z eksponentno rastjo [8]. Internetin svetovni splet namre£ ponujata dostop do obseºnih digitalnih knjiºnic, baz podatkov,slovarjev, enciklopedij, £asopisov, izobraºevalnih in zabavnih virov ipd., do katerih smo preddesetletjem dostopali preteºno �zi£no in ²tevilne spletne tehnologije za kreiranje velikihkoli£in informacij. Vsak (velja tako za posameznike, kakor organizacije), ki zna uporabitiurejevalnik besedil in slik, lahko kreira digitalne dokumente ali objekte in jih objavi naspletu. Posledi£no se mnogo, tako organizacij, interesnih skupnosti, kakor posameznikov,soo£a z izzivom organiziranja digitalnih informacij, ki so praviloma najrazli£nej²ih tipov informatov. Njihov namen je v glavnem u£inkovito iskanje ustrezne informacije. Temeljnaentiteta informacije, ki to omogo£a, so metapodatki.

Mnogo avtorjev predstavlja metapodatke kot podatke o podatkih ali informacije oinformacijah. Ustreznej²a de�nicija metapodatke de�nira kot strukturirane podatke odolo£enem informacijskem objektu (elektronskem viru), ki podpirajo funkcionalnost, po-vezano z opisom tega objekta. Njihov namen je predvsem izbolj²anje iskanja virov spomo£jo iskalnikov in ljudi, saj med operacijo pridobivanja informacij omogo£ajo lo£evanjeustreznih od neustreznih dokumentov. �eprav se zavedamo pomena metapodatkov, ob-stajajo zadrºki pred njihovo u£inkovito in uspe²no izvedbo. Zaradi izjemne rasti ²tevilaelektronskih virov v skladi²£ih in razvoja mnogih razli£nih metapodatkovnih standardov, jenamre£ njihova izvedba postala zapletena. Na podro£ju uporabe metapodatkov dodatnoizstopa problem t.i. metapodatkovnega ozkega grla (angl. metadata bottleneck) [27].

Dolgo £asa so bili knjiºni£arji in bibliotekarji primarni £love²ki vir upravljanja z viri.Glede na nara²£ajo£e ²tevilo elektronskih virov, ki zahtevajo metapodatke, je tradicionalenpristop ro£nega ustvarjanja metapodatkov postajal vse bolj nerealen. Pri ro£nem ustvar-janju metapodatkov kreiranje enega zapisa zahteva znatno koli£ino virov (£asa, £love²kihvirov). Odvisno od vrste gradiva, lahko kreiranje traja tudi ve£ deset minut. �e za re-lativno majhno ²tevilo elektronskih virov, to predstavlja pomemben stro²ek institucije, ²eposebej, £e so vpleteni strokovnjaki za ustvarjanje ali pregled teh zapisov. To dokazujejotudi ²tevilni projekti in raziskave, ki obravnavajo podro£je avtomatiziranega ustvarjanjametapodatkov za elektronske vire. Avtomatizirano pridobivanje metapodatkov prihrani£as in delo tistim, ki gradiva opisujejo ter tistim, ki z njimi upravljajo. Avtomatizirano

5

Page 31: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

6 Poglavje 1: Uvod

ustvarjanje metapodatkov je bilo zato izpostavljeno kot re²itev za metapodatkovno ozkogrlo [17, 20, 39]. Razvitih je bilo tudi nekaj orodij v ta namen, dnevno jih uporabljajonekatera skladi²£a gradiv, kot sta npr. Merlot in Mendeley.

Podobna skladi²£a se so£asno z nara²£anjem pomena elektronskih u£nih gradiv spo-padajo tudi z znatnim nara²£anjem ²tevila novih gradiv [30, 39]. Stro²ek za vse, ki ºelijouporabiti tak²na u£na gradiva predstavlja tudi iskanje informacij, ²e posebej, £e v danem£asu ne najdejo ustreznega vira [42]. Dandanes iskanje v digitalnih knjiºnicah namre£rezultira v precej²njem ²tevilu strani prikazanih zadetkov in uporabnik se mora nato prebitiskozi ves ta seznam, da izlu²£i relevantno informacijo in izbere ustrezni vir oziroma vire.Metapodatkovni zapis vsakega u£nega gradiva naj bi bil opremljen z metapodatki, ki vse-bujejo vsaj informacije o naslovu, avtorju, unikatno identi�kacijsko oznako in predmetnopodro£je [12]. K u£inkovitej²emu povpra²evanju pomembno pripomorejo tudi vsebinskimetapodatki.

Obstajajo razli£na orodja za avtomatizirano pridobivanje metapodatkov, tako v smisluprototipov, kot tudi prosto dostopnih ali komercialnih paketov. Orodja v ta namen solahko v celoti avtomatizirana ali le delno. Pri slednjih uporabniki preverijo in poprav-ijo predlagane metapodatke za ve£jo natan£nost opisov - tudi avtomatizirano ustvarjanjemetapodatkov je podvrºeno napakam, vendar obi£ajno druga£ne vrste, kakor pri ro£nemustvarjanju. Orodja je pogosto potrebno usposobiti za dolo£eno problemsko podro£je.Nekatera orodja so tako posebej narejena za podro£je �zike, ra£unalni²tva, umetnosti ipd.Poleg tega problemsko podro£je pogosto dolo£a, katere lastnosti dokumenta je potrebnopridobiti. Ker sam postopek avtomatiziranega pridobivanja metapodatkov obsega ve£ ra-zli£nih faz, ga je na splo²no teºko realizirati z eno samo komponento programske opreme.Pridobivanje vsebinskih lastnosti dokumenta obi£ajno poteka tako, da najprej izlu²£imobesedilo glede na format zapisa, nato pa uporabimo ustrezno zbirko orodij za pridobi-vanje in opredelitev informacij v besedilu, med tem ko lahko imajo nekateri formati gradivmetapodatke ºe predhodno zapisane med dodatnimi lastnostmi dokumenta. Obstoje£aorodja, knjiºnice in prototipi, so pri tem razli£no u£inkoviti. Njihovo u£inkovitost obi£aj-no merimo s kakovostjo pridobljenih metapodatkov v primerjavi z ro£no ustvarjenimi (spomo£jo strokovnjakov ali avtorjev gradiv). Kakovost dolo£imo s primerjavo uspe²nostipovpra²evanj po obeh mnoºicah zapisov metapodatkov, za kar se obi£ajno uporabijo stan-dardne tehnike evalvacije rezultatov pridobivanja informacij.

Na u£inkovitost orodij in povpra²evanj pomembno vpliva tudi naravni jezik gradiva inpodpora orodij razli£nim naravnim jezikom [43]. Pomembnost podpore ve£ jezikom inve£jezi£nega povpra²evanja po gradivih zasledimo tudi v [20, 49]. Nekateri ocenjujejoavtomatizirano ustvarjanje metapodatkov za vire v razli£nih jezikih kot zelo pomembno.Nujnost ve£jezi£nega povpra²evanja je vedno bolj evidentna tudi zaradi skupnih skladi²£gradiv z avtorji ²irom sveta. Primer so zadnje £ase vedno bolj popularna skladi²£a gradivza interaktivne table.

1.1 Cilji magistrskega dela

V magistrskem delu obravnavamo generiranje metapodatkov z namenom opremljanjau£nih elektronskih gradiv z njihovimi opisi. Poudarek je na avtomatiziranemu generiranju.

Page 32: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

1.2 Uporabljena metodologija 7

Temeljni cilji so naslednji:

• pregled trenutnega stanja na podro£ju ustvarjanja metapodatkov iz gradiv; poudarekbo na avtomatiziranemu generiranju, obravnavani bodo tudi razli£ni metapodatkovnistandardi;

• nabor in evalvacija prosto dostopnih orodij za avtomatizirano ustvarjanje metapo-datkov; orodja bodo opisana in evalvirana na podlagi ºe obstoje£ih (ro£no ustvar-jenih) metapodatkov na realni mnoºici u£nih gradiv;

• kvantitativna analiza razli£nih pristopov (prevajanje metapodatkov iz obstoje£egajezika v jezik povpra²evanja, prevajanje povpra²evalnih vzorcev (iskalne besede) vjezik metapodatkov in prevajanje gradiv v skupni (iskalni) jezik in ustvarjanje metapo-datkov v skupnem (iskalnem) jeziku) ve£jezi£nega povpra²evanja po gradivih na re-alni mnoºici u£nih gradiv; osrednja iskalna jezika bosta angle²£ina in sloven²£ina;prevajanje bo izvedeno strojno z enim od obstoje£ih prosto dostopnih prevajalnikovnaravnih jezikov.

Sekundarni cilj evalvacije prosto dostopnih orodij za avtomatizirano generiranje metapo-datkov bo identi�kacija ustreznega orodja za slovenski jezik, v kolikor tak²no orodje ob-staja.

1.2 Uporabljena metodologija

Izdelava magistrskega dela je potekala po naslednjih korakih:

• nabiranje primarne in sekundarne literature ter virov (obstaja predvsem literatura vtujem jeziku); ²tudij literature in virov;

• nabiranje prosto dostopnih orodij za generiranje metapodatkov; namestitev in ²tudijorodij (uporabljeni bosta metoda opazovanja in preizku²anja ob upo²tevanju navodil,kjer le-ta obstajajo);

• zasnova in implementacija orodij za pridobivanje u£nih virov iz razli£nih spletnihdigitalnih skladi²£; pridobivanje u£nih virov; izbor dobljenih u£nih virov in organizacijavirov za nadaljno obdelavo;

• zasnova in implementacija orodij za uporabo spletnega strojnega prevajanja iz slo-ven²£ine v angle²£ino;

• zasnova in izvedba evalvacije prosto dostopnih orodij iz druge alineje;

• zasnova in izvedba evalvacije ve£ jezi£nega povpra²evanja po gradivih z uporaboprosto dostopnih orodij iz druge alineje, u£nih gradiv iz tretje alineje in orodij zaprevajanje iz £etrte alineje.

Page 33: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

8 Poglavje 1: Uvod

1.3 Vsebina magistrskega dela

Na podlagi ciljev magistrskega dela je vsebina magistrskega dela po uvodnem poglavjurazdeljena na teoreti£ni in empiri£ni del ter zaklju£ek.

V prvem delu teoreti£nega dela (poglavje 2) obravnavamo osnovno de�nicijo metapo-datkov, tipe metapodatkov, osnovni namen, uporabo, principe in koncepte metapodatkov,hrambo metapodatkov ter vpra²anja kvalitete metapodatkov. V poglavju 3, ki predstavljadrugi del teoreti£nega dela, so predstavljeni nekateri pomembnej²i metapodatkovni stan-dardi in formati. V zadnjem delu teoreti£nega dela (poglavje 4) je podrobno obravnavannastanek metapodatkov skozi razli£ne pristope njihovega generiranja, opisom orodij zanjihovo generiranje, na£ini merjenja kvalitete orodij ter podrobnim opisom delovanja neka-terih orodij in principov, na katerih temeljijo.

Empiri£ni del je v celoti podan v poglavju 5, ki je vsebinsko razdeljeno na cilje em-piri£nega dela, uporabljeno metodologijo, opis obeh uporabljenih vzorcev in pridobivanjau£nih gradiv ter opis doseganja zadanih ciljev skozi dva eksperimenta.

Glavne ugotovitve, odgovore na zastavljena raziskovalna vpra²anja in smernice za delonaprej podajamo v zaklju£ku.

Page 34: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Poglavje 2

Metapodatki

Izraz metapodatek (angl. metadata) je relativno mlad, vendar so njegovi koncepti ob-stajali ºe mnogo pred razvojem interneta in svetovnega spleta. V ra£unalni²kih krogihje tako v£asih veljal za speci�cirano informacijo o objektih v podatkovnih bazah in pro-gramskih objektih [51]. V razli£nih skupnostih in interesnih skupinah lahko zasledimorazli£no pojmovanje tega izraza. Nekateri tako z izrazom metapodatek mislijo na strojnoberljivo informacijo (angl. machine readable information), nekateri s tem mislijo na zapis, kiopisuje elektronski vir (angl. electronic resource record), v bibliotekarstvu ga razumejo kotkakr²nokoli formalizirano shemo za opis vira, tako elektronskega, kakor neelektronskega[51]. Pogosti interpretaciji izraza metapodatek sta �podatki o podatkih� in � informacije oinformacijah� [4, 15, 8, 37], kar je sicer enostavna in lahko zapomnljiva de�nicija, vendarnenatan£na. Le z �gledanjem� na metapodatke jih po zgornji de�niciji ne moremo razlo£e-vati od podatkov, zaradi £esar je v de�nicijo potrebno uvesti kontekst (angl. context), kipredstavlja referen£no to£ko, da lahko za dani primer metapodatka identi�ciramo, kaj jez njim mi²ljeno oziroma kaj je njegov namen [4].

Izhajajo£ iz tega, da metapodatki enkapsulirajo informacijo, ki opisuje katerikoli doku-ment ali objekt, tako v digitalnih kot v tradicionalnih formatih in glede na ²tevilne raziskaveo njihovem pomenu, uporabi in zapisu, so pomen metapodatka na novo de�nirali kot�strukturirano informacijo, ki opisuje, razlaga, locira ali na drug na£in omogo£a laºje pri-dobivanje, uporabo ali upravljanje z viri informacij� [37]. V slovarju Dublin Core MetadataInitiative (DCMI), ki velja za eno od avtoritet na podro£ju metapodatkov, lahko zasledimopodobno de�nicijo, v kateri so metapodatki de�nirani kot �podatki, ki so povezani ali zinformacijskim sistemom ali informacijskim objektom z namenom opisa, administracije,pravnih zahtev, tehni£ne funkcionalnosti, uporabe in ohranjanja� [51]. De�nicijo v boljprosti obliki kot �skupek vsega, kar lahko nekdo pove o nekem informacijskem objektuza kakr²en koli nivo agregacije� najdemo v [15]. V tem kontekstu je informacijski objektkarkoli, do £esar lahko dostopa in manipulira £lovek ali nek sistem, pri £emer je objektlahko samostojen ali pa agregacija ve£ih elementov.

Izraz metapodatek razli£ni avtorji, tako kot podatek, uporabljajo v edninski in mnoºinskiobliki. Kadar je zapisan v edninski obliki, obi£ajno mislimo s tem vrsto podatka, kadarpa v mnoºinski pa na metadapotkovne stavke (angl. metadata statements) [51], kar bopodrobneje opisano v nadaljevanju pri konceptih metapodatkov. V tuji literaturi lahkozasledimo tudi razli£ne zapise, kot sta �meta data� in �meta-data� [8, 51].

9

Page 35: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

10 Poglavje 2: Metapodatki

Skozi zgodovino uporabe in zavedanja o pomembnosti metapodatkov je bilo na totemo izvedenih kar nekaj raziskav in projektov, razvitih je bilo precej standardov in uporabametapodatkov se je raz²irila na mnoga podro£ja. V nadaljevanju podajamo osnovne last-nosti metapodatkov, pomembne za celostni pogled na metapodatke in razumevanje nadal-jevanja magistrskega dela.

2.1 Tipi metapodatkov

Obstajata dve ve£ji klasi�kaciji tipov metapodatkov, ki sta med seboj zelo podobni. Gilliland-Swetlandova izhaja iz dejstva, da ima vsak informacijski objekt vsebino (angl. content),kontekst (angl. context) in strukturo (angl. structure) in zaradi tega predlaga delitev napet tipov metapodatkov [15]:

• administrativni metapodatki (angl. administrative metadata), uporabljeni za uprav-ljanje in administracijo informacijskih virov. Primeri uporabe tega so:

� pridobivanje informacij o virih

� sledenje pravicam in razmnoºevanju oziroma reprodukciji virov

� dokumentiranje zahtev po zakonskih dostopih do virov

� informacije o lokaciji virov

� merila izbire za digitalizacijo virov

� nadzor nad verzijami in razlo£evanje med podobnimi viri

� nadzor nad revizijskimi zapisi sistemov za vodenje virov

• opisni metapodatki (angl. descriptive metadata), uporabljeni za opis in identi�kacijoinformacijskih virov. Primeri uporabe tega so:

� katalogiranje virov

� iskanje pomo£i

� specializirano indeksiranje

� hiperpovezave med viri

� ozna£evanje s strani uporabnikov

� podatki za sisteme za vodenje virov

• metapodatki za ohranjanje virov (angl. preservation metadata), povezani z uprav-ljanjem ohranjanja informacijskih virov. Primeri uporabe tega so:

� dokumentiranje �zi£nega stanja virov

� dokumentiranje akcij za ohranjanje �zi£nih in digitalnih verzij virov, npr. osve-ºevanje podatkov in migracija

Page 36: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.1 Tipi metapodatkov 11

• tehni£ni metapodatki (angl. technical metadata), povezani s tem, kako funkcionirasistem oziroma z obna²anjem metapodatkov. Primeri uporabe tega so:

� dokumentiranje strojne in programske opreme

� informacije o digitalizaciji in digitalnem zapisu, npr. uporabljeni formati, kom-presijska razmerja, metode skaliranja

� beleºenje odzivnih £asov sistema

� avtentikacijski in varnostni podatki, npr. klju£i za kriptiranje, gesla

• metapodatki uporabe (angl. use metadata), povezani z nivojem in tipom uporabeinformacijskih virov. Primeri uporabe tega so:

� beleºenje uporabe in uporabnikov

� prikaz zapisov uporabe

� informacija o ponovni uporabi in ve£ verzijah virov

Kasneje je organizacija National Information Standards Organization (NISO), ki obDCMI prav tako velja za avtoriteto na tem podro£ju, objavila nekoliko posodobljeno klasi-�kacijo tipov metapodatkov [37]:

• opisni metapodatki, ki opisujejo vire za namene odkrivanja (angl. discovery) in iden-ti�kacije (angl. identi�cation). Lahko vsebujejo elemente, kot so naslov (angl. title),povzetek (angl. abstract), avtor (angl. author) in klju£ne besede (angl. keywords).

• strukturni metapodatki (angl. structure metadata), ki opisujejo, kako so posamezniobjekti zdruºeni v celoto, na primer, kako so organizirane strani, da tvorijo poglavje.

• administrativni metapodatki, ki zagotavljajo informacije za pomo£ upravljanju z vi-rom, kot so na primer kdaj in kako je bil vir kreiran, kak²nega tipa je vir in drugetehni£ne informacije ter kdo lahko dostopa do vira oz. ga uporablja. Obstaja ve£podmnoºic administrativnih podatkov, dve od teh nekateri avtorji obravnavajo kotlo£ena tipa metapodatkov [37]:

� metapodatki za upravljanje s pravicami (angl. rights management metadata),ki obravnavajo intelektualne lastni²ke pravice vira, in

� metapodatki za ohranjanje virov, ki vsebujejo informacije, potrebne za arhivi-ranje in ohranjanje vira.

Metapodatki lahko opisujejo vire z razli£nimi nivoji agregacije (angl. aggregation) oz.zdruºevanja v celoto. Lahko opisujejo na primer zbirko, posamezen vir, komponento alidel komponente ve£jega vira, na primer fotogra�jo v £lanku, sliko na spletni strani ipd.Metapodatki so lahko uporabljeni tudi za opis na kateremkoli nivoju informacijskega modelaFunctional Requirements for Bibliographic Records (FRBR), postavljenega s strani organi-zacije International Federation of Library Associations and Institutions (IFLA): delo, izraz,

Page 37: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

12 Poglavje 2: Metapodatki

manifestacija ali izdelek (angl. item). Na primer, metapodatek lahko opisuje poro£ilo,izdajo oz. edicijo poro£ila ali speci�£no kopijo izdaje tega poro£ila. Kateremu nivoju agre-gacije ustreza metapodatek, se odlo£i tisti, ki metapodatek ustvari. Na primer, za zbornikkonference je lahko ustvarjen metapodatek, ki opi²e celotno konferenco in vse prispevke vzborniku, lahko pa so ustvarjeni metapodatki za vsak prispevek zbornika posebej. Podobnolahko metapodatek na primer opi²e celotno kompleksno u£no gradivo za nek predmet,lahko pa so ustvarjeni metapodatki za posamezne dele u£nega gradiva.

2.2 Kratka zgodovina uvedbe metapodatkov

Organiziranje objektov in pojavov bodisi v razrede ali mnoºice relacij je eden od na£inovza laºjo komunikacijo ljudi [51]. Pred nastankom interneta je bilo organiziranje informacijpredvsem v domenah knjiºnic, arhivov, muzejev in nekaterih sorodnih tipov institucij. Le-toje bilo regulirano z visoko strukturiranimi pravili in standardi kot sta Anglo-American Cata-loging Rules Revised, Second Edition (AACR2) in MAchine-Readable Cataloging (MARC).Predstavitev vsebin je bila vodena na podlagi semanti£no bogatih klasi�kacijskih shem inseznamov naslovov (angl. subject headings), kot sta na primer Dewey Decimal Classi�ca-tion (DDC) in Library of Congress Subject Headings (LCSH). Viri (oziroma informacijskiobjekti), ki so jih organizirali, so bili prvotno �zi£ne oblike, t.j. informacija je bila zapaki-rana v t.i. vsebnikih (angl. container), pakirana kot knjiga, revija, CD-ROM, audio/videokaseta, �lmski trak itn. Zaradi �zi£ne narave virov in kompleksnih pravil ter standardov,je bil velik del £love²kega dela ravno proces organiziranja. Zaradi teh faktorjev je bilonemogo£e, da bi proces kreiranja metapodatkov avtomatizirali z ra£unalni²kimi programi.

S£asoma je vedno ve£ja stopnja zrelosti informacijske tehnologije in natan£nosti iz-vajanja kompleksnej²ih postopkov pomembno vplivala na katalogiziranje. �e pred nas-tankom svetovnega spleta so nastale t.i. katalo²ke kartice, skladne s standardoma MARCin AACR2, ki so jih nato masovno proizvajali v ZDA v Dublinu (zvezna drºava Ohio) v cen-tru Online Computer Library Center (OCLC). OCLC je postal centralna avtoriteta za vsoopisno in tehni£no katalogiranje, ki zagotavlja bibliografske in druge formatirane podatke,ki jih knjiºni£ni sistemi Online Public Access Catalog (OPAC) ponujajo uporabnikom, dadostopajo do njih v knjiºnicah.

Katalogiranje pred internetom (na primer na kartice, natipkane s pisalnimi stroji) jeigralo pomembno vlogo v pomo£i uporabnikom, da so na²li, kar so potrebovali, da so vedeliali je vir lociran na policah ali kje drugje in da bodo na policah sosednji viri imeli podobnovsebino in bodo morda prav tako uporabni. Namen pred-internetnega katalogiranja je bilpredvsem dvojen: (1) da zagotavlja bogate bibliografske opise in relacije med heterogenimipodatki, in (2) da zagotavlja izmenjavo teh bibliografskih podatkov preko meja knjiºnice.

Medtem ko sta MARC in AACR2 bila zasluºna za u£inkovito katalogiranje �zi£nihvirov, sta bila premalo u£inkovita za opisovanje spletnih virov, npr. opis upravljanja spravicami, ohranjanje digitalnih objektov in evalvaciji virov na podlagi avtenti£nosti, pro�luporabe vira, stopnjo zahtevnosti vira itn. Razvoj metapodatkov v obdobju interneta seje pri£el v prvi polovici 90-tih, ko so ga intenzivno, na dnevnem nivoju, pri£eli koristiti vknjiºnicah in drugih institucijah, kjer so upravljali in uporabljali velike koli£ine digitalnihinformacij. V tem obdobju so z eksponentno hitrostjo rastla digitalna skladi²£a oziroma

Page 38: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.3 Osnovni namen in uporaba metapodatkov 13

repozitoriji (angl. repositories) s porazdeljenimi informacijami o virih. Te na internetutemelje£e informacije so bile rahlo kaoti£ne, teºko obvladljive in pojavila se je potreba pomehanizmih za opis, avtentikacijo in upravljanje z viri, kar je sproºilo razvoj novih smernicin idej s strani razli£nih skupnosti.

Obstajalo je ve£ vzporednih razvojnih podro£ij metapodatkov v za£etku 90-tih. Znan-stvene skupnosti so pri£ele iskati re²itve, da organizirajo strmo rasto£o ²tevilo znanstvenihpodatkov, kar je leta 1992 s strani Federal Geographic Data Committee (FGDC) sproºilonastanek standarda Content Standards for Digital Geospatial Metadata (CSDGM). Vhumanisti£nih vedah je organizacija Text Encoding Initiative (TEI) leta 1994 izdala prvoverzijo smernic TEI Guidelines (Guidelines for Electronic Text Encoding and Interchange).Kot mednarodni interdisciplinarni standard se je TEI Guidelines osredoto£al predvsem nakodiranje dokumentov v humanisti£nih in sociolo²kih znanostih in ²e posebej na pred-stavitev (angl. representation) primarnega izvora gradiv za raziskovanje in analize [51]. Vknjiºni£nih skupnostih je OCLC leta 1994 pri£el eksperimentalni projekt katalogiranja splet-nih virov z uporabo standardov MARC in AACR2. Preko 200 prostovoljnih knjiºni£arjev jedo leta 1995 kreiralo ve£ kot 2500 zapisov spletnih virov in pridobilo pomembne informa-cije za konferenco Metadata Workshop v OCLC v Dublinu istega leta. Na tej zgodovinskopomembni konferenci je bil predstavljen standard Dublin Core (DC) in zavedanje o pomenumetapodatkov, t.i. �metapodatkovno gibanje� (angl. metadata movement) se je razmah-nilo tudi na drugih kontinentih, v raziskovalnih, izobraºevalnih in vladnih institucijah ter vposlovnih organizacijah.

Od 90-tih najprej je bilo razvitih precej metapodatkovnih standardov, kot so na primerCategories for the Description of Works of Art (CDWA), Encoded Archival Description(EAD), Metadata Object Description Schema (MODS), Preservation Metadata Imple-mentation Strategies (PREMIS), ONline Information Exchange (ONIX), Digital ObjectIdenti�er (DOI), The Friend of a Friend (FOAF), Moving Pictures Experts Group-7(MPEG-7), Public Broadcasting Metadata Dictionary (PBCore), Visual Resource Associ-ation Cire Categories (VRA), Learning Object Metadata (LOM) itn. Prav slednji, razvit sstrani organizacije Institute of Electrical and Electronics Engineers (IEEE) bo uporabljentudi v nadaljevanju magistrskega dela.

V poznih 90-tih je ²tevilo projektov o metapodatkih znantno naraslo. Spletna stranDCMI je najprej vzdrºevala seznam projektov o metapodatkih in ²tevilo je hitro narastlov stotine projektov po celem svetu. Narastlo je tudi ²tevilo publikacij o metapodatkih (vrevijah in konferencah). Glavni razlog za to je bil v dejstvu, da ne obstaja omejitev gledetipa in koli£ine virov, ki jih metapodatki lahko opi²ejo in ne obstaja omejitev glede ²tevilamed seboj prekrivajo£ih standardov za katerikoli tip vira ali domensko podro£je [51].

2.3 Osnovni namen in uporaba metapodatkov

Kreiranje metapodatkov, ki ustrezajo prej podani mnoºici tipov (podpoglavje 2.1) je kom-pleksno opravilo in nastali metapodatki so obi£ajno kompleksni. Stro²ki in trud kreiranjase obi£ajno povrnejo skozi njihovo uporabo. Razvoj spleta in drugih mreºnih digitalnih in-formacijskih sistemov ponuja vedno nove moºnosti uporabe, v razli£nih virih namre£ lahkozasledimo razli£na podro£ja uporabe. Premi²ljeno oblikovane sheme metapodatkov, kjer

Page 39: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

14 Poglavje 2: Metapodatki

je mogo£e v skladu z nacionalnimi in mednarodnimi standardi, postajajo orodje v rokahkompetentnih, da izkoristijo podane moºnosti in odkrijejo nove.

V osnovi metapodatki omogo£ajo pri odkrivanju (angl. discovery) virov enako funkcional-nost, kot jo omogo£a dobro katalogiranje virov [37, 51]:

• opisujejo kaj so viri, £emu so namenjeni in organizirajo te vire na podlagi obvladljivihkriterijev,

• omogo£ajo, da vire najdemo na podlagi izbranih kriterijev, agregiranje podobnih virovin zagotavljajo pot do lokacij ºelenih informacij,

• (digitalno) identi�kacijo virov,

• nabor in pribliºevanje podobnih virov (angl. bringing together),

• integracijo starej²ih verzij virov,

• razlo£evanje razli£nih virov,

• podajanje informacij o lokaciji virov,

• izmenjavo metapodatkov in omogo£anje interoperabilnosti, in

• opis za arhiviranje in ohranjanje virov.

�e se ne omejimo le na elektronske vire, lahko pri uporabi govorimo o izbolj²anemdostopu (angl. increased accesibility), priklicu konteksta (angl. retention of context), ²ir-jenju uporabe (angl. expanding use), ve£ verzijah virov (angl. multi-versioning), pravnihzadevah (angl. legal issues) in sistemskih ter ekonomi£nih izbolj²avah (angl. system im-provement and economics) [15]. �e pa se omejimo le na elektronske vire, lahko uporabometapodatkov strnemo na naslednja podro£ja: organiziranje virov, interoperabilnost (angl.interoperability), digitalno identi�kacijo (anlg. digital identi�cation) ter arhiviranje in ohran-janje virov (angl. archiving and preservation) [37]. V [9] lahko zasledimo ²e razlo£evanje(angl. discrimmination) in predlaganje (angl. recommendation). Podro£ja se med sebojprekrivajo in dopolnjujejo.

2.3.1 Neelektronski in elektronski viri

Izbolj²ana dostopnost:U£inkovitost iskanja je lahko znatno izbolj²ana z obstojem bogatih, konsistentnih metapo-datkov. Informacijski sistemi in nastajajo£i metapodatkovni standardi, ki vsebujejo skupneelemente (npr. EAD, TEI in DC), uporabnikom olaj²ajo iskanje tako na nivoju posameznihvirov, kakor zbirk v razli£nih informacijskih sistemih in s tem dostopnost do virov. Metapo-datki namre£ lahko omogo£ijo iskanje skozi ve£ zbirk in kreiranje virtualnih zbirk iz gradiv,ki so porazdeljeni v ve£ih repozitorijih; pogoj pri tem je enakost opisnih metapodatkovoziroma preslikav metapodatkov za vsak repozitorij.

Page 40: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.3 Osnovni namen in uporaba metapodatkov 15

Priklic konteksta:Muzejski, arhivski in knjiºni£ni repozitoriji ne vsebujejo le preproste vire in izdelke. Vz-drºujejo tudi zbirke objektov, ki imajo kompleksne notranje relacije (angl. interrelation-ships) med njimi samimi, povezave z najrazli£nej²imi posamezniki, skupinami, geografskimilokacijami, gibanji, dogodki itn. V digitalnem svetu lahko relativno enostavno digitalizira-mo nek objekt zbirke in ga hote ali nehote lo£imo od njegove zbirke, t.j. lo£imo od njegovelastne katalo²ke informacije in relacij. Metapodatki pri tem igrajo kriti£no vlogo v doku-mentiranju in vzdrºevanju teh relacij, kakor tudi v vzdrºevanju informacij o avtenti£nostivirov, strukturne in proceduralne integritete in stopnje popolnosti informacijskih objektov,kar koristi pri priklicu ostalih virov iz podanega konteksta. Na primer, po pridobitvi nekegavira, lahko iz metapodatkov tega vira pridobimo informacije o virih v istem ali sorodnemkontekstu.

�irjenje uporabe:Informacijski sistemi muzejev, arhivov in drugih zbirk olaj²ajo diseminacijo digitalnih verzijunikatnih objektov uporabnikom po celem svetu, ki iz geografskih, ekonomskih ali drugihomejitev sicer morda nikoli ne bi imeli moºnosti, da si jih ogledajo ali dostopajo do njih. Znovimi skupinami uporabnikov so namre£ pri²li tudi novi izzivi, kako narediti gradiva ²ir²edostopna. Novi uporabniki lahko imajo celo znatno druga£ne potrebe od tradicionalnihuporabnikov, za katere so bili razviti obstoje£i informacijski servisi. Na primer, u£itelji inotroci v ²oli bodo morda ºeleli iskati in uporabljati informacijske objekte na £isto druga£enna£in kakor znanstveni raziskovalci. Dobro strukturirani metapodatki lahko omogo£ajoskoraj neomejeno ²tevilo na£inov iskanja informacij, predstavitev rezultatov in celo mani-pulacijo z objekti, ne da bi vplivali na integriteto teh informacijskih objektov.

Metapodatki lahko tudi dokumentirajo spreminjajo£o uporabo informacijskih sistemovin vsebine, ki jo ponujajo in ta informacija je lahko povratna informacija za razvoj bolj²ihsistemov.

Ve£ verzij:Zmoºnost digitalizacije kulturnih objektov in obstojnost digitalne informacije je ²e pove£alinteres po kreiranju ve£ih in razli£nih verzij teh objektov. Proces digitalizacije je lahko takoenostaven, kot je izdelava slike visoke lo£ljivosti z opti£nim £italnikom, lahko pa vklju£ujekompleksnej²e postopke kreiranja verzije ali izvedenke oblike za speci�£no uporabo, naprimer za publikacijo, razstavo ali ²olske prostore. V vsakem primeru morajo nastatimetapodatki, ki povezujejo verzije z originali in zajamejo, kar je enako in kaj druga£ev nastali verziji. Metapodatki morajo tudi razlo£evati, kaj je kvalitativno druga£e meddigitaliziranimi verzijami in originalom.

Pravne zadeve:Metapodatki dovoljujejo beleºenje avtorskih pravic in pravic uporabe ter reprodukcije in-formacijskih objektov in njihovih verzij. Lahko dokumentirajo tudi ostale pravne ali dona-torske zahteve, povezane z informacijskimi objekti, npr. varovanje zasebnosti ali lastni²kihinteresov.

Page 41: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

16 Poglavje 2: Metapodatki

Sistemsko izbolj²anje in ekonomi£nost:Tehni£ne podatke, ki lahko sluºijo za merjenje uspe²nosti in jih lahko v ve£ini primerovavtomatizirano nabiramo z ra£unalnikom, lahko ovrednotimo in na podlagi ugotovitevizbolj²amo sisteme v bolj uspe²ne in u£inkovite, tako iz tehni£nega kakor ekonomskegavidika.

2.3.2 Elektronski viri

Organiziranje elektronskih virov [37, 51]:Ker ²tevilo spletnih virov raste eksponentno [8, 37], so spletne strani in spletni portali, kjernabirajo in zdruºujejo metapodatke, uporabni pri organiziranju povezav - z upo²tevanjeminteresnih skupin in/ali vsebine virov. Tak²ni seznami so lahko zgrajeni kot stati£ne spletnestrani z imeni in lokacijami virov, bolj u£inkovite in popularne pa so dinami£ne spletnestrani, ki £rpajo podatke iz metapodatkov, shranjenih v bazah podatkov.

Interoperabilnost [37, 51]:Opis vira z metapodatki omogo£a temu viru, da ga razumejo ljudje in stroji (ra£unal-

niki) v smislu interoperabilnosti. Z uporabo ustrezno de�niranih metapodatkovnih shem,ustreznih protokolov prenosa in preslikav metapodatkovnih shem, se lahko viri po omreºjui²£ejo in izmenjujejo brez ve£jih teºav.

Dva pristopa, ki zagotavljata interoperabilnost, sta navzkriºno iskanje po sistemih(angl. cross-system search) in nabiranje metapodatkov (angl. metadata harvesting) [51].Za navzkriºno iskanje po sistemih se obi£ajno uporabi protokol Z39.50 [2]. Implementacijetega protokola ne temeljijo na skupnih elementih metapodatkov, ampak preslikavi v splo²nomnoºico iskalnih atributov. Nasproten pristop s strani iniciative OAI (Open Archives Ini-tiative) je, da vsi ponudniki podatkov pretvorijo svoje (interne) metapodatke v splo²nomnoºico elementov in jih izpostavijo oz. dajo na voljo za nabiranje. Ponudnik iskalnihstoritev nato nabere te metapodatke v konsistenten centralni indeks, da omogo£i nav-zkriºno iskanje po skladi²£ih oz. repozitorijih, ne glede na formate metapodatkov vsehuporabljenih skladi²£.

Digitalna identi�kacija [37, 51]:Ve£ina shem metapodatkov vsebuje element ali elemente, ki unikatno identi�cirajo nekodelo ali objekt, na katerega se nana²ajo metapodatki. Identi�kator je lahko zapisan tudikot kombinacija ve£ elementov in je lahko katerikoli od uveljavljenih zapisov za identi-�ciranje, lahko je tudi preko elementa za lokacijo vira. Lokacija digitalnega objekta jelahko podana z uporabo imena datoteke, uporabo Uniform Resource Locator (URL) ali skak²nim trajnej²im (angl. persistent) identi�katorjem, kot sta na primer Persistent URL(PURL) ali DOI. Trajni identi�katorji so iz prakti£nih razlogov bolj zaºeleni, ker se lokacijaobjektov pogosto spremeni, zaradi £esar obi£ajni URL postane neustrezen (in s tem tudizapis metapodatka).

Page 42: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.4 Osnovni principi metapodatkov 17

Arhiviranje in ohranjanje [15, 37, 51]:Ve£ina trenutno vloºenega truda glede metapodatkov je osredoto£enega na kreiranje virov.Vendar je tukaj tudi nara²£ajo£a bojazen, da digitalni viri v prihodnosti morda ne bodo ve£v uporabni obliki. Digitalna informacija je krhka oz. lomljiva (angl. fragible) [37] - lahkojo pokvarimo in spremenimo, namensko ali nenamensko. Lahko postane tudi neuporabnas tehnolo²ko spremembo medija za shranjevanje, strojne ali programske opreme. �e najimajo trenutno obstoje£i digitalni viri moºnost, da preºivijo migracijo skozi naslednje gen-eracije strojne in programske opreme, morda celo opustitev nekega informacijskega sistemaali pa popolnoma nov informacijski sistem, potem potrebujejo metapodatke, ki omogo£ajonjihov obstoj, neodvisen od sistema, ki je trenutno uporabljen za shranjevanje in prido-bivanje virov. Migracija formatov in emulacija obna²anja trenutne strojne in programskeopreme sta strategiji, ki bosta morda re²ili to teºavo.

Metapodatki so klju£, ki zagotavlja, da bodo viri lahko preºiveli in bodo v prihodnosti²e naprej dostopni. Arhiviranje in ohranjanje zahteva speci�£ne elemente, da se beleºiporeklo digitalnega objekta (od kod je pri²el, kako se je skozi £as spreminjal, ipd.), po-drobnosti �zi£nih karakteristik in da se dokumentira njegovo obna²anje, da se ga bo lahkoemuliralo na bodo£ih tehnologijah. Veliko organizacij po celem svetu je delalo na de�ni-ranju metapodatkovnih shem za digitalno ohranjanje, npr. National Library of Australia(NLA), konzorcij Consortium of University Research Libraries (CURL) s projektom CURLExemplars in Digital Archives (CEDARS), in skupinsko delo organizacije OCLC in deloResearch Libraries Group (RLG). Zadnjeomenjena skupina je razvila ogrodje, ki poudarjatipe prezentacijskih metapodatkov. Temu je sledila skupina za razvoj PREMIS, prav takosponzorirana s strani OCLC in RLG in razvija mnoºico temeljnih oz. jedrnih elementovin strategij za kodiranje, shranjevanje in upravljanje z metapodatki za ohranjanje. Ve-liko teh iniciativ temelji oziroma je kompatibilnih z referen£nim modelom Open ArchivalInformation System (OAIS).

2.4 Osnovni principi metapodatkov

Delovanje DCMI je bilo motivirano z ºeljo pripraviti mnoºico metapodatkovnih elementov,ki bodo dovolj preprosti za kreiranje in vzdrºevanje metapodatkovnih zapisov, da bodoelementi zdruºljivi z obstoje£imi in nastajajo£imi standardi na mednarodnem nivoju in dabodo interoperabilni med zbirkami in sistemi za indeksiranje. Te zahteve se odraºajo vtreh primarnih principih za konstrukcijo idealnih metapodatkov [51]: preprostost (angl.simplicity), raz²irljivost (angl. extensibility) in interoperabilnost.

Preprostost:Metapodatki morajo biti na£rtovani tako, da vsebujejo le tiste elemente, ki so nujnopotrebni. Na tak na£in se vzdrºuje minimalno mnoºico elementov za njihovo enostavnouvedbo oziroma uporabo. Enako pomembno mora biti dejstvo, da so elementi metapo-datkov in metapodatkovne sheme dovolj �eksibilni, da se prilagodijo specializiranim potre-bam. Metapodatkovne sheme tako naj omogo£ajo aplikacijam in podro£jem uporabe, davpeljejo nove elemente in omejitve za potrebe lokaliziranih opisov.

Page 43: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

18 Poglavje 2: Metapodatki

Raz²irljivost:Raz²irljivost obi£ajno razumemo na dva na£ina: (1) zmoºnost metapodatkovne sheme,da ponudi jedrno mnoºico elementov, ki uni�cira razli£ne modele opisov virov, in (2)zmoºnost, da poveºemo enostavne metapodatkovne zapise z bogatej²imi, bolj komplek-snimi opisi virov. Raz²iriljivost zahteva od metapodatkovnih sistemov, da omogo£ajo do-dajanje novih elementov in/ali podelementov obstoje£im elementom v shemi, medtem koso novi elementi izbrani iz obstoje£ih metapodatkovnih standardov ali pa so vzpostavljenina lokalnem nivoju.

Interoperabilnost:Interoperabilnost je de�nirana kot zmoºnost ve£ih sistemov z razli£no strojno in program-sko opremo, podatkovnimi strukturami in vmesniki, da izmenjajo podatke z minimalnoizgubo vsebine in funkcionalnosti [37]. Osnove le-te smo ºe podali v podpoglavju 2.3.2 nastrani 16.

S tem, ko se je nadaljeval razvoj metapodatkov, so za£etne zahteve za metapodatkes£asoma raz²irili in razjasnili v bolj inkluzivno in izpopolnjeno mnoºico principov. Duval jes soavtorji [10] izpostavil, da so principi (angl. principles) tisti koncepti, za katere se odlo-£imo, da so skupni vsem domenam metapodatkov in ki nudijo informacije za na£rtovanjekaterekoli metapodatkovne sheme ali uporabe metapodatkov. V tem prispevku so avtorjimetapodatkovne principe raz²irili z modularnostjo (angl. modularity), izpopolnitvijo (angl.re�nement) in ve£jezi£nostjo (angl. multilingualism).

Modularnost:Modularnost se nana²a na gradnjo metapodatkov v bloke (angl. blocks), tako da so lahkoelementi podatkov, besednjaki (angl. vocabularities) in drugi bloki v razli£nih metapo-datkovnih shemah, nabrani v nove sheme na sintakti£no in semanti£no interoperabilenna£in. Na primer, del metapodatkov, namenjenih upravljanju s pravicami, je samostojengradnik v prvotni metapodatkovni shemi in je lahko primeren za uporabo v drugi metapo-datkovni shemi.

Izpopolnitev:Metapodatek lahko vsebuje elemente za dolo£eno podro£je, po potrebi pa naj metapo-datkovna shema omogo£a izpopolnitev tega elementa za posamezna podpodro£ja tegaelementa. Na tak na£in pove£amo natan£nost opisa informacijskega objekta.

Ve£jezi£nost:Ve£jezi£nost se osredoto£a na jezikovne in kulturne vidike. Pri na£rtovanju neke metapo-datkovne sheme, morajo na£rtovalci upo²tevati tudi lingvisti£no in kulturno raznolikostinformacijskih virov, kakor tudi njihovih uporabnikov.

Ti principi obravnavajo probleme, na katere lahko naletimo v na£rtovanju metapo-datkovne sheme in procesu generiranja metapodatkovnih zapisov. Principi imajo razli£neu£inke na to, kako implementirati metapodatkovne projekte in se jih hkrati naredi trajnos-

Page 44: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.5 Osnovni koncepti metapodatkov 19

tne: za dolgoro£no uporabo, ohranjanje, interoperabilnost ter ponovno uporabo virov.

2.5 Osnovni koncepti metapodatkov

Veliko ²tevilo metapodatkovnih standardov je bilo razvitih in predlaganih s strani razli£nihskupnosti in podro£ij uporabe. Kot je bilo poudarjeno v uvodu tega poglavja, nekateri av-torji razli£no pojmujejo nekatere od konceptov metapodatkov in tako ena£ijo metapodatekz metapodatkovnim stavkom, zapisom, shemo ali pa celo standardom in z nekonsistentnorabo povzro£ajo teºave z razumevanjem. V kolikor lo£imo med abstraktnim pogledomin dejansko uporabo, je na abstraktnem nivoju najvi²ji metapodatkovni standard (angl.metadata standard), ki poenostavljeno povedano, predstavlja celostna navodila in smer-nice glede strukture, vrednosti in vsebine dovoljenih in zahtevanih podatkov ustreznegapripadajo£ega vira [18, 51]. Hkrati so metapodatkovni standardi osnova za razvoj pro-gramske opreme za u£inkovito uporabo metapodatkov.

Element in mnoºica elementov:Osnova metapodatkovnega standarda je mnoºica elementov (angl. element set). Vsakemuelementu (angl. element) je podano pojasnjevalno ime, oznaka in de�nicija. Primer ele-menta date standarda DC podaja tabela 2.1. Ozna£evanje elementov pogosto sledi uvel-

term name: dateURI: http://purl.org/dc/elements/1.1/datelabel: Datede�nition: A point of period of time associated with an event in the lifecycle of

the resource.comment: Date may be used to express temporal information at any level of

granularity. Recommended best practice is to use and encodingscheme, such as the W3CDTF pro�le of ISO 8601 [W3CDTF].

references: [W3CDTF] http://www.w3.org/TR/NOTE-datetime

Tabela 2.1: Element date standarda Dublin Core [51]

javljavljenim na£inom poimenovanja, npr. uveljavljena uporaba majhnih in velikih £rk, na£inzapisa sestavljenih besed, na£in zapisa okraj²av itn. V£asih je elementu v obliki tekstovnegazapisa dodana tudi zaznamba, v kateri je dokumentirana zgodovina sprememb elementain preslikava med tem elementom in podobnimi elementi v drugih standardih.

Izbor mnoºice elementov obi£ajno poteka preko predhodno de�niranih funkcionalnihzahtev o informacijskem sistemu, ki bo beleºil in/ali uporabljal vir. Nato se bodisi uporabiºe obstoje£i standard ali pa se mnoºica elementov de�nira na novo in pri tem ob doseganjufunkcionalnih zahtev £im bolj upo²teva tip metapodatkov [51].

Mnoºica elementov je lahko strukturirana na razli£ne na£ine. Na primer, vsi elementiso lahko zapisani kot linearni seznam, t.i. ravninska struktura (angl. �at structure). Al-ternativa je hierarhi£na struktura, ki med elementi nakazuje relacijo star²-otrok (angl.parent-child). Ob na£inu strukturiranja mnoºica elementov predpisuje tudi, kolikokrat se

Page 45: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

20 Poglavje 2: Metapodatki

lahko pojavi kak element in ali je obvezen ali opcijski. Obvezni elementi so imenovanitudi jedrni elementi (angl. core elements). Na primer, standard DC de�nira 15 jedrnihelementov.

Domena vrednosti elementov:Vrednosti elementov praviloma niso poljubne. Za vsak element je predpisana njegovadomena vrednosti (angl. value space), ki je lahko podana kot formalizirana omejitev alipa kot smernice uporabe in predpisuje, kako naj bodo konsistentno zabeleºene vrednostielementov v metapodatkovnih zapisih. Standardno je domena vrednosti zapisana kotobstoje£i podatkovni tip, npr. number, text, date ipd., lahko pa vsebuje tudi format zapisa.Na primer, zapis datuma je lahko v obliki ddmmyy, ddmmyyyy, yymmdd, yyyymmdd, yyyy-mm-dd itn., zato je za pravilno uporabo in interpretacijo vrednosti format nujno potreben.Format je lahko na primer zapisan tudi v obliki kodirne sheme, za katero je javno znanzapis. Na primer, kodirna shema ISO 8601 predpisuje zapis datuma v obliki YYYY-MM-DD (npr. 2011-07-31).

Alternativna moºnost je uporaba vnaprej de�nirane mnoºice moºnih vrednosti, t.i.uporaba besednjaka ali pa klasi�kacijske sheme (angl. classi�cation sheme), s £imer seomeji ²tevilo vseh moºnih vrednosti in njihova interpretacija.

Metapodatkovna shema:De�nirana mnoºica elementov z domenami vrednosti posameznih elementov in na£in struk-turiranja elementov predstavljata sintakso in semantiko elementov v metapodatkovnih za-pisih. Zapi²emo jo v ustreznem formatu, £emur pravimo metapodatkovna shema (angl.metadata schema/schemata). Velikokrat za zapis uporabimo XML, veliko jih tudi uporabljazapis Standard Generalized Markup Language (SGML) [37]. Nekateri avtorji zapisumetapodatkovne sheme pravijo tudi smernice (angl. guidelines) za uporabo metapodatkov[51]. Smernice v£asih najdemo v dokumentaciji mnoºice elementov v ve£ini speci�kacijmetapodatkovnih standardov (npr. IEEE LOM [1]), v£asih tudi v monogra�jah, npr. zaCataloging Cultural Objects (CCO) [51].

Obstajajo tudi metapodatkovne sheme brez predpisanih sintakti£nih omejitev, t.i. sin-takti£no neodvisne (angl. syntax-free) metapodatkovne sheme. Pri teh so podatki kodiraniv katerikoli sintaksi.

Metapodatkovni standard:Metapodatkovna shema je del metapodatkovnega standarda. Nekateri standardi vsebu-jejo preprostej²o verzijo (angl. simple version), ki vsebuje le osnovno metapodatkovnoshemo in polno verzijo (angl. full version) z dodatnimi elementi, s katerimi je izvedenoizpopolnjevanje, omogo£en je zapis podatkov ostalih tipov metapodatkov itn. Tak primerje standard DC. Standardi, ki omogo£ajo raz²irjanje mnoºice elementov z modi�kacijoali izpopolnjevanje elementov, morajo vzdrºevati tudi te dodatne mnoºice elementov innjihove dovoljene vrednosti (tak primer je MODS).

Smernice, ki jih zagotavljajo metapodatkovni standardi, pomagajo pri pravilni imple-mentaciji principov in ponujajo primere najbolj²ih praks tako za implementacijo, kakor zakreiranje metapodatkovnih zapisov. Pomagajo kreatorjem metapodatkovnih zapisov pri

Page 46: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.5 Osnovni koncepti metapodatkov 21

odlo£itvah o pravih vrednostih podatkov, kot tudi vrstnem redu, sintaksi in obliki vrednostipodatkov, ki so jih privzele ali pa izlo£ile posamezne skupnosti uporabnikov. Zanimiv pogledna to, kateri standardi International Organization for Standardization (ISO) vplivajo nanastanek metapodatkovnih standardov, podaja [4].

Metapodatkovni stavek:Pri zapisu metapodatka v obliki elementa metapodatka in pripadajo£ih vrednosti v splo²-nem govorimo o metapodatkovnem stavku (angl. metadata statement). Oblika le-tega jeodvisna od zapisa metapodatkovnega standarda. Obi£ajno ima dva sestavna dela: lastnost(angl. property) in vrednost. Primer metapodatkovnih stavkov standarda DC, zapisanihkot XML prikazuje tabela 2.2.

<dc:title>Programiranje 2</dc:title><dc:creator>Divjak, Sa²a, 1946-</dc:creator><dc:type>text</dc:type>

Tabela 2.2: Primer metapodatkovnih stavkov v standardu Dublin Core [51]

Metapodatkovni zapis:Zapisu metapodatkovnih stavkov vseh jedrnih elementov in po potrebi opcijskih elementovv ustrezni strukturi in ustreznem formatu pravimo metapodatkovni zapis (angl. metadatarecord). DCMI ga de�nira kot sintakti£no korektno predstavitev opisne informacije infor-macijskega vira [51]. Primer tak²nega zapisa podaja tabela 2.3.

<rdf:Description xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:dc="http://purl.org/dc/elements/1.1/" ><dc:title>Programiranje 2</dc:title><dc:creator>Divjak, Sa²a, 1946-</dc:creator><dc:type>text</dc:type><dc:publisher>Ljubljana : Fakulteta za ra£unalni²tvo in informatiko</dc:publisher><dc:date>2005.</dc:date><dc:language>slo</dc:language><dc:subject>programming</dc:subject>

</rdf:Description>

Tabela 2.3: Primer metapodatkovnega zapisa v standardu Dublin Core [51]

Metapodatkovni zapis predstavlja osnovno entiteto upravljanja z metapodatki in iz-menjave metapodatkov [51].

Nivoji razdrobljenosti:Nivoji razdrobljenosti (angl. level of granularity) se ukvarjajo s tem ali metapodatkovnizapis opisuje celotno zbirko virov ali posamezne vire v zbirki. Razli£ne institucije beleºijovire za svoje potrebe z razli£nimi nivoji razdrobljenosti, npr. za arhiviranje se obi£ajno

Page 47: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

22 Poglavje 2: Metapodatki

uporabi skupinski nivo (angl. group level), za muzeje nivo izdelkov (angl. item level), zaknjiºnice nivo volumna (angl. volume level), itn. [51].

Obstajajo lahko tudi podatki na razli£nih nivojih. Na primer, National Science DigitalLibrary (NSDL) vsebuje stotine digitalnih zbirk, tako majhnih kot velikih, in pri iskanju poposameznem viru znotraj zbirke, uporabniku prikaºe metapodatke tako zbirke, kakor vira[51].

Ker vir ni nujno najmanj²a enota zbirke virov, ampak lahko vsebuje tudi druge entitete,lahko pride do prekrivanja metapodatkov o posameznih virih, £e tudi kak drug vir uporabljaiste entitete [51]. Upravljanju z metapodatki zbirk je zato potrebno nameniti posebnopozornost.

Pro�l uporabe:Veliko obstoje£ih metapodatkovnih shem, ko so enkrat ºe implementirane in uporablje-ne za realne primere, doºivi spremembe. Spremembe so lahko v mnoºici elementov, vdomeni vrednosti elementov, v strukturi elementov ali pa v obliki pro�lov uporabe (angl.application pro�le).

Pro�li so podmnoºice elementov metapodatkovne sheme, zanimive za posamezne in-teresne skupine. Lahko obsegajo poljubno kombinacijo elementov neke sheme in lahkovklju£ujejo elemente druge sheme. Skupni imenovalec vseh elementov pro�la je, da ele-mente uporablja dolo£en krog ljudi. Moºne kombinacije izvedbe pro�lov so prikazanena sliki 2.1. Pro�l uporabe 1 vsebuje podmnoºico elementov metapodatkovne sheme 1,

Slika 2.1: Primer uporabe metapodatkovnih shem in pro�lov uporabe

pro�l uporabe 2 druga£no podmnoºico iste metapodatkovne sheme in pro�l uporabe 3kombinacijo elementov dveh metapodatkovnih shem.

Page 48: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.6 Hramba metapodatkovnih zapisov 23

2.6 Hramba metapodatkovnih zapisov

Kodiranje (angl. encoding) predstavlja proces transformacije informacije iz enega zapisav drugega. V prej²njem podpoglavju smo omenili kodiranje metapodatkovne sheme, vtem podpoglavju obravnavamo kodiranje metapodatkovnega zapisa. Slednje je neodvisnazadeva, ker so lahko metapodatkovni zapisi sicer iste metapodatkovne sheme (oziroma pro-�la uporabe) zapisani v razli£nih formatih. Obi£ajni zapis je v formatih HTML/XHTML,XML in XML/RDF [51]. Zapis mora biti za podani informacijski sistem tak²en, da lahko£im bolj u£inkovito opravlja storitve, povezane z metapodatki: iskanje, predstavitev, agre-gacija, nabiranje in izmenjava.

Poudariti je potrebno tudi, da so metapodatkovni zapisi lahko vgrajeni oz. se nahajajo vsamem informacijskem objektu, t.i. notranja hramba (angl. internal storage), lahko pa soshranjeni lo£eno, t.i. zunanja hramba (angl. external storage). Primeri notranje hrambeso uporaba HTML oznak <meta> na spletnih straneh, uporaba dokumentov PortableDocument Format (PDF), dokumentov, narejenih v Microsoft Wordu (.doc, .docx) itn.,ki vsebujejo vse zahtevane podatke v glavi (angl. header) datoteke.

Oba na£ina imata svoje prednosti in slabosti. Shranjevanje metapodatkov z objektom,ki ga opisuje, zagotavlja, da metapodatki ne bodo izgubljeni, prepre£uje teºave povezo-vanja med podatki in metapodatki in pomaga k zagotavljanju, da so metapodatki in objektposodobljeni skupaj. Nekateri tipi objektov (npr. izdelki) pravkar zapisanega ne dopu²£ajoin zahtevajo lo£eno shranjevanje metapodatkov. Tudi tak²no shranjevanje lahko poenos-tavi upravljanje z metapodatki in omogo£a iskanje in pridobivanje podatkov. Obi£ajno sozato metapodatki shranjeni v sistemih podatkovnih baz in povezani z objekti, ki jih opisu-jejo. Kar pa ob neu£inkovitem upravljanju z metapodatkovnimi zapisi lahko ºal hitro vodido neaºurnih povezav na vire.

2.7 Klju£ne besede kot metapodatki

�tevilo elektronskih virov iz dneva v dan nara²£a. Prav tako nara²£a ²tevilo zbirk virov,digitalnih knjiºnic in repozitorijev, ki uporabnikom obi£ajno ponujajo storitev iskanja virov.Iskalni mehanizmi rezultirajo z bolj ali manj uporabnimi rezultati iskanj. Ker ni smotrno, dabi iskalniki ob vsakem iskanju pregledovali vsebino virov v celoti, uporabljajo kratke opisevirov. Le-ti so obi£ajno podani kot seznam klju£nih besed (angl. keywords, keyphrases),tipi£no od pet do petnajst klju£nih besed [48]. Nekateri avtorji jih vidijo kot ekstremnoobliko povzetka vira [48], vsekakor pa so nadvse pomemben tip metapodatkov, z mnogoprimeri uporabe.

Poudarimo na tem mestu, da uveljavljena uporaba izraza klju£na beseda ne predvidevazgolj ene besede, temve£ smiselno tvorjene besedne zveze, kar bomo privzeli tudi v nadal-jevanju magistrskega dela.

Idealno bi bilo, £e bi vsi elektronski viri bili opremljeni s seznamom klju£nih besed.Ker je zavedanje o pomenu metapodatakov in klju£nih besed za u£inkovito rabo virovrelativno mlado, veliko starej²ih virov le-teh ne vsebuje. Podobno lahko ºal opazimo tudipri novodobnih virih [48]. Idealno bi bilo, £e bi avtorji virov sami podali seznam klju£nihbesed, vendar tega obi£ajno ne storijo, razen £e to ni podano kot ena od zahtev naro£nika

Page 49: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

24 Poglavje 2: Metapodatki

vira, sistema za upravljanje z viri, bodo£ih uporabnikov vira itn.Kljub temu, kjer se v virih nahajajo klju£ne besede, s tem teºave niso nujno odpravljene.

Podrobna analiza obstoje£ih virov, kjer so avtorji podali klju£ne besede, za katere menijo,da najbolje opi²ejo vire, je pokazala, da:

• izbira ustreznih klju£nih besed ni vedno trivialno opravilo in predstavlja breme zaavtorje [48, 5],

• avtorji izberejo klju£ne besede, ki slabo opi²ejo vire in so neuporabni [48],

• ²tevilo klju£nih besed je pogosto omejeno na zelo majhno ²tevilo [5],

• avtorji iste klju£ne besede zapi²ejo razli£no (npr. uporaba ednine in mnoºine, razli£nauporaba majhnih in velikih £rk, razli£na uporaba vezajev, druga£en vrstni red besedipd.),

• avtorji v£asih s klju£nimi besedami ºelijo poudariti druga£en pomen oziroma bistvovira, da vplivajo na morebitne odlo£itvene procese (npr. izbor vira v zbirko ali publi-kacijo) [5],

• avtorji v£asih s klju£nimi besedami namensko zavedejo upravljanje z viri, da iskalnimehanizmi kot rezultat iskanja vrnejo njihov vir, £eprav z iskalno vsebino ni nepo-sredno povezan [48]; primer tega so viri na spletnih straneh, ki uporabljajo HTMLzna£ke oblike <meta keyword="">, in

• klju£ne besede vsebujejo tipkarske napake.

Glede na pravkar zapisane teºave, je ²e ve£ja teºava zagotoviti klju£ne besede za vire, kijih ²e nimajo. Re²itev tega je moºna zgolj v smiselni vpeljavi avtomatiziranega generiranjaklju£nih besed (angl. automatic keywords generation) oziroma metapodatkov. Kadar jerezultat generiranja klju£na beseda ali seznam iz vnaprej dolo£enega seznama vseh moºnihklju£nih besed, govorimo o dodeljevanju klju£nih besed (angl. keyword assignment). Podrugi strani, kadar analiziramo vsebino vira in na podlagi tega generiramo klju£ne besede,govorimo o ekstrakciji klju£nih besed (angl. keyword extraction). Seznam klju£nih besedpri slednjem vsebuje vedno le besede, ki se nahajajo v viru, medtem ko seznam avtorskopodanih klju£nih besed, lahko vsebuje tudi druge besede. V [5] poro£ajo celo o 25% vsehdokumentov, kjer je prisotno slednje, kar vpliva na ocenjevanje u£inkovitosti postopkovekstrakcije klju£nih besed.

2.7.1 Uporaba klju£nih besed

Osnovna uporaba klju£nih besed, iz katere izhajamo v okviru magistrskega dela, je uporabakot del metapodatkov vira. Mnogi metapodatkovni standardi in formati virov v svoji shemivsebujejo tudi element za zapis klju£nih besed. Tak²ni so na primer tudi standardi DC,MARC, Global Information Locator Service (GILS), CSDGM in IEEE LOM.

V nadaljevanju podani primeri uporabe klju£nih besed so povzeti po [48].

Page 50: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.7 Klju£ne besede kot metapodatki 25

Vidno ozna£evanje klju£nih besed:Vidno ozna£evanje (angl. highlighting) oziroma poudarjanje je koristno pri hitrem pregledu(angl. skimming) vira, da lahko hitro ugotovimo ali je vsebina vira v na²em interesu.Ozna£evanje je pogosto opravljeno s pod£rtovanjem, z uporabo druga£ne tipogra�je in/aliuporabo druga£ne barve pisave ali ozadja pisave, zato da £im bolj olaj²a hiter pregled.

Nekatera programska orodja za upravljanje z dokumenti podpirajo tak²no vidno oz-na£evanje. Tak²no je na primer tudi orodje AutoSummarize aplikacije Microsoft Word,katerega rezultat prikazuje slika 2.2. V ozadju slike so ozna£eni klju£ni stavki (angl. key

Slika 2.2: Primer uporabe orodja AutoSummarize aplikacije Microsoft Word

sentences) za hiter pregled pomena teksta, seznam klju£nih besed pa je moºno videti vlastnostih dokumenta (prikazano na desni strani slike).

Indeksiranje s klju£nimi besedami:Viri z ve£jo koli£ino vsebine velikokrat na koncu vira vsebujejo indeksno kazalo - dalj²iseznam klju£nih besed, leksikografsko urejen in z dodatno informacijo poloºaja klju£nebesede.

Prav tako lahko dalj²i seznam klju£nih besed sluºi kot informacija za indeksiranje zaiskalne mehanizme. Po [48] so ti seznami znatno dalj²i od kraj²ega nabora klju£nih besedsamega vira.

Izbolj²evanje iskalnih poizvedb:Uporaba iskalnikov je obi£ajno interaktivni proces. Uporabnik vnese poizvedovalni niz(angl. query string), pregleda rezultat iskanja, dopolni ali spremeni poizvedovalni niz inposkusi ponovno.

Nekateri iskalniki dopu²£ajo spremembe zgolj na prvotnem nivoju uporabe (npr. Google),medtem ko imajo nekateri iskalniki vgrajen mehanizem za izbolj²ano interaktivnost iskanja

Page 51: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

26 Poglavje 2: Metapodatki

(npr. IEEEXplore Digital Library), prikazan na sliki 2.3. Iskalnik na levi strani ekrana

Slika 2.3: Primer uporabe digitalne knjiºnice IEEEXplore Digital Library

ponuja ²tevilna polja za izbolj²anje iskanja, dobljenih iz metapodatkov virov. Razdeljenaso na naslednja podro£ja: tip vsebine (angl. content type), leto izdaje (angl. publicationyear), avtor (angl. author), institucija avtorja (angl. a�liation), naslov publikacije (angl.publication title), zaloºnik (angl. publisher), podro£je (angl. subject), drºava konference(angl. conference country) in lokacija konference (angl. conference location).

Analiza dnevnikov uporabe s klju£nimi besedami:Vzdrºevalci spletnih strani pogosto ºelijo vedeti, kaj uporabniki po£nejo na njihovih spletnihstraneh. Ve£ina spletnih streºnikov zapisuje dnevnike uporabe s podrobnimi podatki ouporabnikih, kdaj in kaj so po£eli na spletni strani. Za spletne strani, ki ponujajo iskanje,z razli£nimi orodji lahko pripravijo seznam klju£nih besed in statistiko uporabe, s £imerponudnikom informacij zagotovijo dodatne informacije o tem, kaj uporabniki potrebujejo.Javno dostopen servis prikaza najbolj iskanih klju£nih besed ponuja tudi orodje Google

Page 52: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.8 Kvaliteta metapodatkov 27

trends, prikazano na sliki 2.4. Na levi strani je prikaz 20 najbolj iskanih klju£nih besed na

Slika 2.4: Primer uporabe orodja Google trends

dan 31.07.2011 in v centralnem delu vizualizacija intenzivnosti poizvedb klju£ne besede�great white shark� in klasi�cirani rezultat iskanja.

2.8 Kvaliteta metapodatkov

Uporabnost (angl. usefulness) in uporabljivost (angl. usability) digitalnih zbirk virov jeodvisna od kvalitete in kvantitete zajetih virov. Tako viri, kakor metapodatki, lahko imajorazli£ne nivoje kvalitete [10]. Tvorjenje metapodatkov s strani strokovnjakov, ki nisoustrezno seznanjeni s katalogiranjem, indeksiranjem ali predpisanim besednjakom in klasi-�kacijskimi shemami, lahko vodi do razlik v kvaliteti. Nekateri elementi so lahko hoteali nehote izpu²£eni ali nepravilno rabljeni. Tudi sintaksa metapodatkovne sheme lahkovsebuje napake, ki prepre£ujejo pravilno procesiranje metapodatkov in morda uporabljenaterminologija ni celovita, kar lahko vodi do teºav pri lociranju relevantnih informacij. Za-torej le z uporabo metapodatkov, £e ti niso dovolj kvalitetni, ne izbolj²amo dostopa doinformacij ali uporabnosti virov.

Slabo kvalitetni metapodatki lahko imajo negativen vpliv tudi na uporabnikovo nadaljnouporabo zbirke oziroma informacijskega sistema, ki jo ponuja. Informacijski sistem kot

Page 53: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

28 Poglavje 2: Metapodatki

rezultat iskanja namre£ morda ne bo prikazal vira, ki ga i²£emo, prikazal bo manj pomem-bne vire in zaupanje v uporabnost in verodostojnost zbirke in informacijski sistem se zniºa.

V zadnjih dveh desetletjih je podro£je kvalitete metapodatkov postalo izrednega po-mena. Za£etna literatura obravnava predvsem bibliografske podatkovne baze in poudareknamenja kvaliteti podatkov in metodologijam za izbolj²ane karakteristike, detekcijo napak,korekcijo napak, preverjanje dvojnikov zapisov in izbolj²an nadzor avtorstva. V zadnjemdesetletju, ko metapodatki za elektronske vire mo£no pridobivajo na pomenu, je organi-zacija NISO za izgradnjo kvalitetnih digitalnih zbirk podala naslednje principe [37]:

• kvalitetni metapodatki naj ustrezajo virom v zbirki in pri£akovanjem uporabnikov,

• kvalitetni metapodatki naj podpirajo povezljivost,

• kvalitetni metapodatki naj temeljijo na ustrezno nadziranih zbirkah in predstavljajoodgovore na vpra²anja kaj, kje, kdaj in kdo v zvezi z vsebino,

• kvalitetni metapodatki naj vsebujejo jasno de�nicijo o pravilih in pogojih uporabedigitalnega objekta,

• kvalitetni zapisi metapodatkov so tudi sami objekti in bi zato morali biti sami kvali-tetni, trajni, opremljeni z identi�kacijsko oznako itd., obenem pa so avtoritativni inverodostojni, in

• kvalitetni metapodatki naj podpirajo dolgoro£no upravljanje objektov v zbirkah.

Veliko na£rtovalcev in skrbnikov digitalnih zbirk ter njihove informacijske podpore jeporabilo znatno koli£ino £asa, truda in denarja za izgradnjo £im bolj kvalitetnih zbirk.Njihov trud za izbolj²anje kvalitete metapodatkov lahko opazimo predvsem na naslednjihpodro£jih [37, 51]:

• orodja za kreiranje metapodatkov se izbolj²ujejo z dodatki, kot so predloge, seznamiin izbolj²animi pravili za validacijo ter samopopravljanjem vrednosti,

• programi za povezljivost programske opreme, ki omogo£ajo prehode med razli£nimishemami, se kontinuirano razvijajo in dopolnjujejo,

• kreatorji vsebine se izobraºujejo na podro£ju razumevanja metapodatkov in v uporabiprogramske opreme s podro£ja dela z metapodatki,

• ve£ja pozornost se namenja obstoje£im nadzorovanim zbirkam, ki so morda bileprvotno zasnovane za speci�£no uporabo ali za to£no dolo£eno ciljno skupino, in

• skupine uporabnikov razvijajo in dopolnjujejo metapodatkovne sheme glede na vrstociljne skupine, pro�le uporabe in primerov dobre prakse, in

• analiza metapodatkovnih zapisov in po potrebi njihovo dopolnjevanje ter popravljan-je.

Skupni imenovalec vsem pristopom izbolj²evanja kvalitete metapodatkov je predhodnaugotovitev razlogov in vzrokov slabo kvalitetnih metapodatkov. V splo²nem je potrebnaanaliza celotne zbirke virov oziroma reprezentativnega vzorca.

Page 54: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

2.8 Kvaliteta metapodatkov 29

2.8.1 Indikatorji kvalitete metapodatkov

Pri ocenjevanju kvalitete metapodatkov je potrebno dolo£iti kaj je slaba in kaj dobrakvaliteta. Razli£ni avtorji razli£no ocenjujejo kvaliteto svojih in drugih informacijskih sis-temov in nekateri se pri tem razhajajo. Strinjajo pa se, da je kvaliteta metapodatkovve£-dimenzionalni koncept. Razli£ni avtorji predlagajo razli£ne poglede na to in metrikeza njihovo merjenje [4, 39]. V literaturi pogosto omenjeni indikatorji in z njimi povezanemetrike so natan£nost (angl. accuracy), popolnost (angl. completeness), pravilnost (angl.correctness), konsistentnost (angl. consistency), podvojenost zapisov (angl. duplicationanalysis) in £asovnost (angl. timeliness), zasledimo pa tudi redundantnost podatkov (angl.redundancy), zmedenost (angl. confusion), nezadostnost (angl. insu�ciency), nedostop-nost podatkov (angl. inaccessiblity), jasnost (angl. intelligibility), razumljivost (angl. com-prehensibility) ipd. V nadaljevanju podajamo kratek opis najpogostej²ih indikatorjev.

Popolnost:Popolnost speci�cira stopnjo, do katere so izpolnjeni elementi metapodatkovne sheme.Upo²teva se ²tevilo in porazdelitev elementov v metapodatkovnih zapisih. Pri tem selahko omeji pogled ali na celotno shemo ali pa posamezne bloke elementov glede nanjihovo funkcionalnost, zaradi £esar lahko dobimo ve£ ocen popolnosti (npr. eno oceno zaodkrivanje virov, eno za uporabo virov, eno za administrativne zadeve itn.). Je enostavnoocenljiv indikator kvalitete metapodatkov.

Pravilnost:Velja za teºko ocenljiv indikator in je v veliki meri izveden kot £love²ka analiza. Ukvarja sez analizo koliko pravilno in korektno so zapisani posamezni elementi ter metapodatkovnizapis kot celota. Analiza se pri tem osredoto£a na naslednja podro£ja: pravilnost vsebine(angl. correct content), formata (angl. correct format), vhoda (angl. correct input), inter-pretacijo brskalnika (angl. correct browser interpretation), pravilno preslikavo/integracijo(angl. correct mapping/integration).

Konsistentnost:Analiza konsistentnosti se osredoto£a na speci�£ne metapodatkovne elemente. Pri temse primerja originalni vir z metapodatkovnim zapisom in ugotavlja ali zapisi v slednjemkonsistentno predstavljajo original. Najpogostej²a podro£ja te analize so: konsistentnobeleºenje podatkov (angl. consistent data recording), konsistentne povezave na druge vire(angl. consistent source links), konsistentna predstavitev metapodatkov (angl. consistentmetadata representation), konsistenten opis izvora/vira (angl. consistent description ofsource) in konsistentnost sintakse podatkov (angl. consistency of data syntax).

Podvojenost zapisov:Podvojeni metapodatkovni zapisi so pogost pojav, nastanejo lahko zaradi ve£kratnegavnosa istega vira, slabe preslikovalne sheme iz enega zapisa v drugega ter uporabe ve£ihzbirk kot ene celote. Pri tem se opravi analiza popolnoma enakih zapisov, enakih zapisovz razli£nimi viri ter razli£nih zapisov z enakimi viri. Tovrstna analiza je verjetno ena laºjihanaliz kvalitete metapodatkov.

Page 55: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

30 Poglavje 2: Metapodatki

Page 56: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Poglavje 3

Standardi metapodatkov

Z nara²£anjem ²tevila virov, zbirk virov, skladi²£ virov, medsebojnega povezovanja virovin skladi²£ in vse ve£ji potrebi po poenotenem pogledu na vire in skladi²£a je posledi£nonaraslo tudi ²tevilo metapodatkovnih standardov in standardov oziroma datote£nih for-matov, ki vsebujejo tudi metapodatkovne elemente. Razvili in predstavili so jih razli£niposamezniki, interesne skupnosti in organizacije, opazna je razli£na stopnja medsebo-jnega vpliva in prekrivanja posameznih metapodatkovnih elementov [4, 51]. Na podro£judoseganja konsenza o razvoju in uporabi, tako nacionalnih, kakor mednarodnih metapo-datkovnih standardov sta zelo aktivni organizaciji American National Standards Institute(ANSI) in ISO.

Veliko ²tevilo standardov povzro£a teºave, ko se uporabniki morajo odlo£iti kateregaoziroma katere uporabiti. Ni namre£ popolnoma trivialno, kateri od njih je na prvi poglednajbolj²i oziroma najustreznej²i za ºeleno podro£je uporabe. V nadaljevanju podajamoreprezentativno mnoºico metapodatkovnih standardov in formatov, ki vsebujejo metapo-datke in so povezani z u£nimi viri. Kot prvega predstavljamo standard DC, ki je namenjensplo²ni uporabi in tako pogojno uporaben tudi za u£ne vire. Pomemben je predvsem, kerpredstavlja temelj oziroma odsko£no desko mnogim drugim metapodatkovnim standar-dom. DC je v literaturi zaradi svoje zgodovinske vloge in splo²nosti uporabe verjetno tudinajve£krat omenjen metapodatkovni standard [51]. Med splo²nimi standardi so namenskoizpu²£eni standardi MARC, ki so veljali za najbolj popolne in iz£rpne za katalogiranje virovpred digitalno dobo in standard MODS, katerega osnova je MARC 21 in trenutno veljaza metapodatkovni standard s shemo, ki omogo£a najbolj popoln opis virov [51].

3.1 Dublin Core - DC

Mnoºica metapodatkovnih elementov, imenovana Dublin Core Metadata Element Set(DCMES) je nastala leta 1995 iz diskusij na konferenci, sponzorirani s strani OCLC incentra National Center for Supercomputing Applications (NCSA). Ker je bila delavnicaorganizirana v mestu Dublin v zvezni drºavi Ohio v ZDA, so DCMES poimenovali tudi kotDublin Core (DC). Nadaljni razvoj DC in z njim povezanih speci�kacij je takrat prevzelainiciativa DCMI.

Prvotni cilj DC je bil de�nirati mnoºico elementov, ki jih lahko uporabljajo avtorji za

31

Page 57: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

32 Poglavje 3: Standardi metapodatkov

opis svojih spletnih virov. Zaradi £ezmerne rasti ²tevila elektronskih virov in nezmoºnostibibliotekarjev, da katalogirajo vse vire, je bil cilj de�nirati manj²e ²tevilo elementov in nekajpreprostih pravil, ki jih lahko uporabijo oz. se jih drºijo tudi nebibliotekarji. Prvotnih 13jedrnih elementov so kasneje raz²irili na 15: Title, Creator, Subject, Description, Publisher,Contributor, Date, Type, Format, Identi�er, Source, Language, Relation, Coverage inRights. Vsi elementi so opcijski in se lahko pojavijo ve£ krat ter v poljubnem vrstnemredu. Primer metapodatkovnega zapisa v DC prikazuje tabela 3.1. Kjer je smiselno, DC

Title="Metadata Demysti�ed"Creator="Brand, Amy"Creator="Daly, Frank"Creator="Meyers, Barbara"Subject="metadata"Description="Presents an overview of metadata conventions in publishing."Publisher="NISO Press"Publisher="The Sheridan Press"Date="2003-07"Type="Text"Format="application/pdf"Identi�er="http://www.niso.org/standards/resources/Metadata_Demysti�ed.pdf"Language="en"

Tabela 3.1: Primer metapodatkovnih elementov v standardu DC za vir [6]

za posamezne elemente predlaga uporabo kodirnih shem in vnaprej znanega besednjaka.Mnoge interesne skupine so v tem videle svoj doprinos in so predlagale svoje besednjake.Kasneje so bili predlagani tudi pro�li uporabe za posamezna podro£ja uporabe, kot staizobraºevanje in drºavni²ke zadeve.

Kljub prvotnemu namenu, so DC uporabili tudi za druge tipe virov in namene uporabe[37]. Zaslediti je moºno uporabo tudi v krogih muzejskih kuratorjev, zbiralcev glasbe,ohranjanja kulturne dedi²£ine, umetnosti itn. Mnogo jih je uporabo pri£elo kot projekt inna straneh DCMI obstajajo hiperpovezave na te projekte. Zgodovinsko gledano so bilaves £as prisotna trenja med podporniki minimalisti£nega pogleda, ki poudarjajo ohran-janje minimalnega ²tevila elementov in semantike s preprosto sintakso, ter podpornikistrukturiranega pogleda, ki se zavzemajo za podrobnej²o semanti£no razlo£evanje in ve£raz²irljivosti za speci�£ne interesne skupine. Trenja in pripadajo£e diskusije so vodile dorazlo£evanja med verzijo DC s kvali�katorji (angl. quali�ed) in brez njih (angl. unquali�ed).

Po raz²irjeni razli£ici se lahko za podrobnej²i opis uporabijo kvali�katorji (angl. qual-i�ers) elementa, tako da zoºijo pogled na dolo£eno lastnost vira ali da identi�cirajouporabljeno kodirno shemo, v kateri so predstavljene ostale vrednosti tega elementa.Na primer element Date lahko koristimo s kvali�katorjem created in s tem natan£nejenakaºemo, da datum predstavlja nastanek vira. Podobno lahko za isti element uporabimokvali�kator, v katerem zapi²emo kodirno shemo, v kateri je zapisan datum.

Page 58: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

3.2 Metapodatki za izobraºevalne vire 33

3.2 Metapodatki za izobraºevalne vire

Izobraºevalne vire, imenovane tudi u£ni viri oziroma u£ni objekti (angl. learning objects)skupina IEEE Learning Technology Standards Committee (IEEE LTSC) (http://ltsc.ieee.org/wg12) de�nira kot �katerekoli entitete, digitalne ali ne-digitalne, ki jih lahkouporabimo, ponovno uporabimo ali so kakorkoli povezane z u£enjem, podprtim s tehnolo-gijo�. Zajemajo ²irok spekter tipov informacijskih objektov in najrazli£nej²ih vsebin. Nanjelahko gledamo iz treh vidikov: strukturnega, funkcionalnega in produkcijskega. Strukturnividik odraºa na£in, kako izobraºevalna institucija organizira izobraºevanje (npr. u£ni na£rtje sestavljen iz predavanj in vaj, predavanja so sestavljena iz sklopov itn.) in v splo²nemsluºi potrebam izobraºevalnega programa po sistemati£no organiziranem znanju in urjenjuv okviru posamezne discipline ali podro£ja. Funkcionalni vidik je povezan z oblikovanjempou£evanja in uporabljene tehnologije. Produkcijski vidik pokriva zgradbo izobraºevalnihvirov, t.j. kako so u£ni objekti �zi£no izvedeni, stati£no ali dinami£no, so samostojni alisestavljeni iz ve£ manj²ih objektov in obliko virov (npr. bibliogra�ja, zapiski, vodi£i, u£benikiipd.). Ta vidik obravnava tudi delitev glede na zgradbo in obliko medija, npr. interaktivnailustracija, apleti, animacije, simulacije, avdio oz. video gradivo, interaktivna naloga ipd.

Potrebe po metapodatkih za izobraºevalne vireNara²£ajo£e ²tevilo u£nih virov in digitalnih knjiºnic s temi viri je pokazalo potrebe pometapodatkih tudi za tovrstne vire. Elementi za opis lastnosti virov, pomembnih za izo-braºevanje, so postali pomembni za organizacije, povezane z izobraºevalnimi dejavnostmiin za skupnosti, ki uporabljajo izobraºevalne vire. Nastale potrebe lahko strnemo v [51]:

1. Viri, ki se uporabljajo v izobraºevanju, morajo biti opisani z za izobraºevanje speci-�£nimi atributi, npr. komu je vir namenjen, za kak²no stopnjo izobraºevanja jeprimeren, ipd.

2. Poljuben vir naj bo po potrebi moºno uporabiti kot izobraºevalni vir. Nekatere in-stitucije so na tem podro£ju ºe naredile korak naprej. Na primer na University ofCalifornia Santa Barbara so s projektom Alexandria Digital Earth Project (ADEPT)za u£itelje implementirali storitev, v kateri lahko uporabijo vire razli£nih digitalnihzbirk in pripravijo izobraºevalna gradiva za niºje stopnje izobraºevanja. Pri temso vklju£ene tri zbirke virov: (1) viri iz osnovnega znanja, ki jih tvori £ez 1000znanstvenih konceptov, (2) zbirka u£nih objektov (pribliºno 2000 slik, videov, ani-macij, simulacij, ipd.), in (3) zbirka predstavitvenih gradiv za ponovno uporabo (angl.reusable presentation materials), kot so gradiva za predavanja.

3. Potreben je na£in dolo£anja primernosti uporabe izobraºevalnih virov. Mnogi viri sokompleksni, obseºni, imajo razli£ne stopnje interaktivnosti, vsebujejo ve£ razli£nihmedijskih virov razli£nih tipov, lahko vsebujejo interne povezave in povezave na drugevire, morda zahtevajo tudi posebno tehnologijo za podporo pridobivanja, izvajanjain upravljanja z njimi. Zaradi tega so viri primerni za razli£ne ciljne skupine inizvajalci izobraºevalnih programov morajo najprej oceniti, ali so dolo£eni viri primerniza uporabo ali ne in pri tem upo²tevati tehnologijo, ki jo imajo na razpolago.

Page 59: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

34 Poglavje 3: Standardi metapodatkov

4. Potrebno je zagotoviti podporo ponovni uporabi u£nih objektov, podporo iskanju inmedsebojni interoperabilnosti tudi v sklopu vse bolj popularnih spletnih sistemov zaupravljanje u£enja (angl. learning management systems - LMSs).

Z na²tetim se ne sre£ujejo le izobraºevalne institucije in skupnosti, temve£ tudi na£r-tovalci programske opreme in upravljalci zbirk elektronskih virov. Z namenom oblikovanjauniverzalnega modela za metapodatkovni opis izobraºevalnih virov deluje tudi nekaj projek-tov. Med odmevnej²imi so aktivnosti IEEE LTSC, ki so leta 2002 objavili standard IEEE1484.12.1 - 2002, s kraj²im nazivom IEEE LOM. Omenjeni standard je postal mednarodnopriznan odprt standard za metapodatkovni opis u£nih objektov.

3.2.1 Pomembnej²i metapodatkovni standardi, pro�li uporabe in formati

V nadaljevanju podajamo kratek nabor pomembnej²ih metapodatkovnih standardov, pro-�lov uporabe in formatov izobraºevalnih gradiv. Poudarek je na kraj²ih opisih in ne vpoglobljeni obravnavi le-teh. Nekoliko ve£ bo zapisano le pri IEEE LOM, ker v mnogihraziskovalnih krogih velja za najpomembnej²ega in referenco ostalim.

IEEE LOM:IEEE LOM (IEEE Learning Object Metadata) je metapodatkovni standard, t.i. podatkovnimodel za opis u£nih objektov in podobnih digitalnih izobraºevalnih virov [1]. Spada medodprte standarde in je del kompleksnej²ega standarda (npr. IEEE 1484.12.3 de�nira za-pis u£nih objektov v zapisu XML, IEEE 1484.12.4 v zapisu RDF itn.). Poudarek je nafunkcionalnem vidiku opisov izobraºevalnih virov za doseganje prej omenjenih potreb pometapodatkih za izobraºevalne vire. Njegov razvoj je povezan z delovanjem konzorcijaIMS Global Learning Consortium in fundacije ARIADNE, ki so sprva neodvisno od IEEEpredlagali lastni podatkovni model IMS Learning Resource Meta-data speci�cation v ver-zijah 1.0 do 1.2.2 in se pri verziji 1.3 ujeli s speci�kacijo IEEE LOM. Iz tega razloga mnogiavtorji izpu²£ajo kratico IEEE pri uporabi tega podatkovnega modela.

Osnova sheme LOM je hierarhi£no urejen seznam metapodatkovnih elementov. Prvinivo sheme vsebuje devet kategorij, ki hkrati predstavljajo osnovno zgradbo sheme:

1. splo²no (angl. general): splo²ni podatki, ki opisujejo u£ni objekt kot celoto. Vsebujenaslednje podatkovne elemente: identi�kator (angl. identi�er), ta vsebuje elementakatalog (angl. catalog) in vnos (angl. entry), naslov (angl. title), jezik (angl. lan-guage), opis (angl. description), klju£ne besede (angl. keywords), pokritost (angl.coverage), strukturo (angl. structure) in stopnjo zdruºevanja (angl. aggregationlevel). Ta kategorija je zelo blizu deskriptivnim metapodatkovnim elementom v za-pisu DC.

2. ºivljenjski cikel (angl. life cycle): podatki, povezani z zgodovino in trenutnim stanjemu£nega objekta ter podatki o vseh, ki so vplivali na ta u£ni objekt v £asu njegovegarazvoja. Vklju£uje naslednje podatkovne elemente: verzijo (angl. version), status(angl. status) in prispevek (angl. contribute), ki nadalje zdruºuje podatkovne ele-mente: vlogo (angl. role), entiteto (angl. entity) in datum (angl. date).

Page 60: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

3.2 Metapodatki za izobraºevalne vire 35

3. metapodatki metapodatkov (angl. meta-metadata): podatki o obstoje£i instanciopisa u£nega objekta z metapodatki. Med drugim obsega tudi informacije o tem,kako je nek metapodatkovni zapis nastal in kako je upravljan. Obsega podatkovneelemente identi�kator (angl. identi�er), prispevek (angl. contribute), metapodat-kovno shemo (angl. metadata schema) in jezik (angl. language) metapodatkovnegazapisa.

4. tehni£ni podatki (angl. tehnical): zdruºuje tehni£ne zahteve in tehni£ne lastnostiu£nega objekta v smislu uporabe, zahtevane programske opreme, namestitvenihposebnosti, oblike, velikost in trajanja. Kategorija vklju£uje elemente: oblika (angl.format), velikost (angl. size), lokacija (angl. location), namestitvene posebnosti(angl. installation remarks), platformske zahteve (angl. other platform requirements)in £as tajanja (angl. duration).

5. izobraºevanje (angl. educational): zdruºuje izobraºevalne in pedago²ke zna£ilnostiu£nega objekta, kot so vrsta interaktivnosti, nivo interaktivnosti, priporo£ena starostuporabnika, tipi£en £as u£enja, pri£akovana vloga kon£nega uporabnika, kontekst,teºavnost, semanti£no gostoto, jezik vira, njegov opis in tip. Za sedem od na²tetihelementov je priporo£ena uporaba sedmih besednjakov, npr. za element pri£akovanavloga kon£nega uporabnika so v besednjaku moºnosti �u£itelj, avtor, u£enec, uprav-ljalec�, za element kontekst vrednosti �²ola, vi²je izobraºevanje, urjenje� ipd.

6. pravice (angl. rights): podobno kot kategorija pravice pri DC, le da elementi LOMvsebujejo podrobnej²e informacije. Kategorija zdruºuje pravice intelektualne lastninein druge pogoje uporabe u£nega objekta, vklju£no s stro²ki, ki so povezani z uporabo.

7. relacije (angl. relation): podatki, ki de�nirajo povezave med u£nim objektom inostalimi povezanimi u£nimi objekti. Kategorija vsebuje dva elementa: povezavo(angl. relation) in vir (angl. source), pri £emer element vir zdruºuje tri nadaljneelemente: identi�kator, katalog in vnos v katalog. Zaradi podrobne speci�kacije,omogo£a LOM povezovanje opisov, zapisanih v drugih ozna£evalnih jezikih.

8. opomba (angl. annotation): informacije o osebi ali osebah, ki so sodelovale prinastanku vira in vklju£uje datum nastanka ter opombe za uporabo v izobraºevanju.Preko te kategorije lahko u£itelji denimo izmenjujejo informacije o dobrih praksahuporabe, delijo mnenja in ocene virov ter se posvetujejo. Ta kategorija ima zna£ajdruºabnega omreºja.

9. klasi�kacija (angl. classi�cation): opi²e u£ni objekt v povezavi z dolo£enim sistemomrazvr²£anja. Klasi�kacije je zapisana v ve£ hierarhi£nih nivojih. Na prvem nivoju jepredlagan besednjak, ki obsega disciplino, idejo, predpostavke, izobraºevalne cilje,omejitve dostopa, izobraºevalno stopnjo, nivo usposobljenosti in nivo varnosti. Drugielement nakazuje taksonomsko pot, od splo²nega nivoja navzdol na speci�£en vnosv klasi�kaciji. Na primer, taksonomska pot od �zike do stetoskopa bi bila: 12 -�zika → 23 - akustika → 34 - instrumenti → 45 - stetoskop. Vsak element vtaksonomski poti je sestavljen iz dveh elementov: identi�kator (angl. id) in vnos(angl. entry). Nivo vi²je je element vir (angl. source), ki podaja ime klasi�kacijskega

Page 61: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

36 Poglavje 3: Standardi metapodatkov

sistema. Dodatni elementi opis (angl. description) in klju£ne besede (angl. keyword)so uporabljeni glede na element namen (angl. purpose).

Nekateri od elementov se lahko pojavijo le enkrat, nekateri poljubno mnogokrat (z alibrez pomena vrstnega reda elementov), vsi so opcijski in nekatere vrednosti elementov sosestavljene iz ve£ vrednosti (npr. LangString, DateTime, Duration itn.).

GEM:GEM (Gateway to educational materials) je primarno namenjen opisu spletnih izobraºeval-nih virov in temelji na mnoºici elementov DC, raz²irjeni z lastnimi elementi [44]. Je edenprvih metapodatkovnih standardov, ki je vseboval element pedagogike (angl. pedagogy).Kasneje se je z verzijo GEM 2.0 ta element spremenil v u£ne metode (angl. instructionalmethods). Pomembnej²a funkcionalnost, ki jo zagotavlja je:

• katalogiranje: informacije o agenciji, ki je oblikovala kataloºni zapis GEM,

• pomembni viri: seznam materialov, pomembnih za uspe²no uporabo entitete s straniu£itelja,

• standardi: drºavni akademski standardi, povezani z opisano entiteto,

• pedagogika: ozna£uje skupine u£encev, u£ne metode, metode vrednotenja in u£nezahteve za dolo£en vir, in

• trajanje: priporo£en £as za uspe²no izkori²£anje opisane entitete.

ILOX:Metapodatkovni standard ILOX (IMS Information for Learning Object Exchange) je nastalna podlagi obstoje£ih metapodatkovnih standardov, ki jih zaokroºa v ogrodju, namenjenemizmenjavi u£nih objektov [31]. Temelji na ²tirih kategorijah:

• delo (angl. work): ustreza konceptu u£nega objekta in se uporablja kot korenskielement metapodatkovnega zapisa u£nega objekta,

• izraºanje (angl. expression): ustreza konceptu razli£nih verzij istega u£nega objekta(npr. ve£jezi£no gradivo),

• manifestacija (angl. manifestation): podaja, kako je u£ni objekt zgrajen (npr. izkaterih datotek in formatov),

• izdelek (angl. item): najniºji nivo, ki predstavlja dejanske gradnike u£nih objektov.

ANZ-LOM:ANZ-LOM (http://www.ndlrn.edu.au/verve/_resources/ANZ-LOM_1_02_file.pdf) jepro�l uporabe, razvit za izobraºevanje v Avstraliji in Novi Zelandiji. Prvi£ je bil obljavljenleta 2008, s strani organizacije The Le@rning Federation in temelji na IEEE LOM inCanCore.

Page 62: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

3.2 Metapodatki za izobraºevalne vire 37

Can Core:CanCore (http://cancore.athabascau.ca) je zbirka priporo£il dobre prakse, ki se osre-doto£a na semantiko in interpretacijske moºnosti, namesto na tehni£no plat in je v celotikompatibilen z IEEE LOM [14]. Razvit je bil za najrazli£nej²e interesne skupnosti, zarazli£ne kategorije ponuja seznam oz. tabelo moºnosti uporabe podatkovnih elementov.Nanj lahko torej gledamo kot na mnoºico pro�lov uporabe, med najbolj aktivnimi je ravnoizobraºevalna domena [14].

DC-ED:Pro�l uporabe DC-ED (Dublin Core Education Application Pro�le) de�nira metapodat-kovne elemente za opis izobraºevalnih virov. Delovni skupini DCMI in IEEE LTSC sku²atav tem pro�lu kombinirati priporo£ila DCMI in IEEE LTSC za uporabo elementov IEEELOM v metapodatkovnih elementih DC. Pro�l je v minulih letih prestal ºe nekaj revizij.

ISRACore:ISRACore (http://www.iucc.ac.il/lo/repository_en.htm) je Izraelski pro�l uporabe,ki obravnava tudi e-izobraºevanje. Podan je bil s strani organizacije Israel Internet Asso-ciation in centra Inter University Computational Center.

LRE:LRE je pro�l uporabe, ustvarjen v okviru projekta European Schoolnet [31]. Osnovasta IEEE LOM in ILOX, trenutna verzija je 4.7, izdana septembra 2011. Vseubuje petobveznih elementov (jezik, tip izobraºevalnega vira, pravice in ostale omejitve, opis pravicter stro²ki pravic), trinajst priporo£enih elementov (naslov, splo²ni opis, klju£ne besedeitn.) in ²est opcijskih elementov.

NORLOM:NORLOM (http://www.itu.no/no/NSSL/) je norve²ki pro�l uporabe, ki temelji na IEEELOM in ga upravlja organizacija Norwegian Secretariat for Standardization of LearningTechnologies.

SWE-LOM:SWE-LOM (http://www.swe-lom.se) je ²vedski pro�l uporabe, s katerim upravlja uni-verza Umeå University v sodelovanju z nacionalno skupino za standardizacijo TK450 naSwedish Standards Institute.

UK LOM Core:UK LOM Core (http://metadata.cetis.ac.uk/profiles/uklomcore) je pro�l uporabe,ki temelji na dvanajstih metapodatkovnih shemah in velja za najpomembnej²ega v vi²-je²olskem in visoko²olskem izobraºevanju v Zdruºenem Kraljestvu.

Vetadata:Ob ANZ-LOM se od leta 2005 v Avstraliji uporablja tudi pro�l uporabe Vetadata, speci-

Page 63: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

38 Poglavje 3: Standardi metapodatkov

�£no namenjen podro£ju poklicnega izobraºevanja. Vsebuje pet obvezenih metapodatkov-nih elementov in zahteva uporabo speci�£nih besednjakov.

CC:CC (Common Cartridge) (http://www.imsglobal.org/commoncartridge.html) je speci-�kacija, razvita s strani IMS Global Learning Consortium, namenjena kreiranju in deljenjuizobraºevalnih elektronskih virov. Format vsebuje naslednje speci�kacije: Content Pack-aging, Question and Test Interoperability, IMS Tools Interoperability Guidelines, IEEELOM in SCORM, ter prina²a naslednje prednosti napram SCORMu: ve£ja izbira vsebine,odpravlja platformsko odvisnost virov, izbolj²ano preverjanje znanja in ciljev ter izbolj²ana�eksibilnost, izbolj²ano deljenje in ponovna uporaba gradiv.

SCORM:SCORM (http://legacy.adlnet.gov/Technologies/scorm/SCORMSDocuments/2004 4th

Edition/Overview.aspx) je speci�kacija iniciative Advanced Distributed Learning, ki delu-je pod okriljem obrambnega ministrstva ZDA. Omogo£a zapis izobraºevalnih virov v obliki,ki jo znajo uporabljati streºniki za upravljanje in nudenje u£nih vsebin u£encem (angl. learn-ing management systems - LMSs) [3]. Od prve verzije iz leta 2000 do trenutne (SCORM2000 4th Edition) iz leta 2009 so bile dodane ²tevilne izbolj²ave in odpravljene ²tevilnepomanjkljivosti, z vsako verzijo se izbolj²a tudi interoperabilnost. Speci�kacija SCORMaje podana v petih t.i. zvezkih speci�kacij (pregled, model za zdruºevanje vsebine, izva-jalno okolje, sekven£enje in navigacija ter zahteve po skladnosti). Za opis metapodatkovuporablja shemo IEEE LOM.

Page 64: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Poglavje 4

Generiranje metapodatkov

Pri tako zelo veliki koli£ini metapodatkovnih zapisov, se je smiselno vpra²ati, kdo in kajgenerira metapodatke. Odgovor na to vpra²anje je odvisen od podro£ja uporabe virov. Izzgodovinskih razlogov so strokovnjaki s podro£ja knjiºni£arstva in s podro£ja informatikenajpomembnej²i akterji pri generiranju metapodatkov oziroma kreiranju metapodatkovnihzapisov. Z ºe prej omenjenim razmahom svetovnega spleta in porastom ²tevila virov,digitalnih zbirk, podatkovnih baz virov in repozitorijev, so nastale ²tevilne interesne skupinein ²tevilne ideje generiranja metapodatkov.

Skupna problematika ve£ini idej je, da je generiranje metapodatkov in upravljanje znjimi zgolj s £love²kimi viri teºko obvladljivo, £e ne celo neizvedljivo. Porodile so se idejeo avtomatiziranem generiranju metapodatkov in prakti£no vse bolj²e digitalne knjiºnice inrepozitoriji vsebujejo tudi mehanizme za avtomatizacijo [51].

�eprav dejansko porabljen £as, ki ga porabijo ro£ni kreatorji metapodatkovnih zapisovni pogosto objavljen, obstaja nekaj podatkov, ki nakazujejo, koliko truda je potrebnega.Tako na primer v [9] lahko zasledimo naslednje primere. Leta 2003 so ro£no popravili inizbolj²ali 2.500 metapodatkovnih zapisov, za kar so porabili 550 ur s pribliºnim stro²kom6.500¿, oziroma pribliºno 13 minut za en zapis s stro²kom 2,6¿. Leta 2005 so narediliraziskavo, v kateri so poro£ali, da je povpre£en £as za vnos metapodatkovnega zapisa10 minut in 40 sekund za en £lanek in povpre£no 1500 vnesenih znakov teksta. V Intute(http://www.intute.ac.uk) so za povpre£no vrednost vnosa enega zapisa izra£unali 22,6minut oziroma pribliºno 31 minut z upo²tevanjem celotnega postopka katalogiranja.

4.1 Pristopi generiranja metapodatkov

V splo²nem lahko generiranje metapodatkov razdelimo na tri na£ine: ro£no, avtomatizira-no in kombinacijo teh dveh. Poseben na£in, lo£en od prav kar omenjenih, je pretvarjanjemetapodatkovnih zapisov iz obstoje£ih v druge metapodatkovne sheme.

Ro£no generiranje:Pri ro£ni metodi kreatorji metapodatkovnih zapisov ro£no vna²ajo metapodatkovne zapises pomo£jo orodij, kot so predloge (angl. templates) in urejevalniki metapodatkov (angl.metadata editors). Primarno je to bilo (in ²e vedno je) v domeni knjiºnic, kjer za to izur-

39

Page 65: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

40 Poglavje 4: Generiranje metapodatkov

jeno osebje vna²a knjiºni£ne katalo²ke zapise. Nekatere digitalne knjiºnice, npr. DLESE(http://www.dlese.org) in MERLOT (http://www.merlot.org), ²e vedno spodbujajoro£no vna²anje [51]. Po mnenju nekaterih raziskovalcev, ro£no vna²anje zahteva ve£ virov(�nan£nih, £love²kih) in je predvsem znatno zamudnej²e, vendar zagotavlja vi²jo kvalitetometapodatkov [16, 51]. Raziskava metapodatkov spletnih strani (Qin in Wesley, 1998 v[51]) je sicer pokazala, da se metapodatki, oblikovani s strani ne-strokovnjakov, precej raz-likujejo v konsistentnosti in kvaliteti podatkov. �love²ki strokovnjaki naj bi bili primernej²iza obvladovanje procesa izbire ustreznih metapodatkov (predvsem klju£nih besed in pri-padnost podro£ij vira), kar je vsekakor zapleten proces. Pri ro£nem generiranju metapo-datkov sodelujejo ²tiri skupine ljudi [16, 18]: strokovnjaki za kreiranje metapodatkov (angl.professional metadata creators), kreatorji tehni£nih metapodatkov (angl. technical meta-data creators), kreatorji vsebin (angl. content creators) in pripadniki interesnih skupnostioziroma podro£ij uporabe. Pri tem je potrebno poudariti, da kljub na²tevanju, med njimini vedno absolutne razlike in se medsebojno prekrivajo:

• strokovnjaki za kreiranje metapodatkov: sem spadajo katalogerji (angl. catalogers),indekserji (angl. indexers), spletni strokovnjaki (angl. web masters) in drugi, ki sovisoko usposobljeni skozi formalno izobraºevanje ali pa strokovno izobraºevanje natem podro£ju. Sposobni so visoko intelektualnega odlo£anja pri so�sticiranih inter-pretativnih metapodatkovnih odlo£itvah in obvladajo klasi�kacijske sisteme in sheme,kompleksne metapodatkovne sheme in druge kompleksne standarde virov. Imenu-jejo jih tudi zunanji kreatorji metapodatkov (angl. third-party metadata creators),ker generirajo metapodatke za vire, ki so jih kreirali drugi. Njihov doprinos na tempodro£ju je predvsem v ekspertnem znanju in ve²£inah, ki jih uporabljajo na podro£jukompleksnih metapodatkovnih shem, pri uvajanju in nadzoru nad generiranjem in up-ravljanjem z metapodatki, izobraºevanju bodo£ih strokovnjakov na tem podro£ju insodelovanju pri razvoju orodij za to podro£je.

• kreatorji tehni£nih metapodatkov: sem spadajo strokovnjaki z manj znanja in ve²£i-nami, vna²alci podatkov (angl. data in-putters) in druge osebe, ki so bili deleºniizobraºevanja na podro£ju metapodatkov, vendar manj intenzivnega in obseºnega,kakor predstavniki prej²nje skupine. V splo²nem delajo z manj zahtevnimi in komplek-snimi metapodatkovnimi shemami in izvajajo rutinske postopke, ki so sicer del boljkompleksnih aktivnosti generiranja metapodatkov. Na primer, ko knjiºnica naro£i vir(npr. knjigo), obi£ajno knjiºni£ni tehni£ni asistent kreira metapodatkovni zapis nanivoju pridobitve vira (angl. acquisition level), ki je osnovni bibliografski opis, brezkompleksnej²ih vrednosti in opravljene avtorizacije. Ko knjiga prispe v knjiºnico,strokovnjaki iz prej²nje skupine kreirajo celoten metapodatkovni zapis.

• kreatorji vsebin: tukaj najdemo posameznike, ki so odgovorni za kreiranje intelektu-alne vsebine virov. Raziskovalci frekventno producirajo povzetke in klju£ne besedesvojih del ter drugih tipov metapodatkov za strokovne in znanstvene publikacije.Umetniki in obrtniki pogosto na nek na£in podpi²ejo oz. ozna£ijo ter datirajo svojadela. V spletnem okolju kreatorji vsebin lahko zagotovljajo podatke preko predlogin urejevalnikov vsebin, medtem ko spletni strokovnjaki poskrbijo za njihovo objavo.

Page 66: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.1 Pristopi generiranja metapodatkov 41

Raziskave kaºejo (Cruz in Krichel, 2000 in Greenberg et al., 2001 v [16]), da pri-padniki te skupine producirajo relativno dobre metapodatkovne zapise. To dejstvopride prav, kadar se je treba odlo£ati o uporabi draºjih strokovnjakov.

• pripadniki interesnih skupnosti oziroma podro£ij uporabe: osebe iz te skupine ni-majo opravljenega formalnega izobraºevanja na tem podro£ju, temve£ so entuzijastiin imajo dovolj znanja in ve²£in na speci�£nem podro£ju in ºelijo sodelovati pridokumentiranju virov. Vzor£en primer tega je muzej de Young Fine Arts Muse-ums of San Francisco (http://deyoung.famsf.org) s projektom Thinker Image-Base, prikazanim na sliki 4.1. Osebje muzeja je za pribliºno 20.000 slik zagotovilo

Slika 4.1: Primer umetnine v sklopu projekta Thinker ImageBase

imena avtorjev, datum nastanka, uporabljeno umetni²ko tehniko in druge muzejskopomembne metapodatke, medtem ko so klju£ne besede, ki opisujejo slike vna²aliprostovoljci. Le-ti so v projektu znatno razbremenili delo muzejskega osebja.

Pri ro£nem generiranju je obi£ajna uporaba naslednjih dveh tipov orodij [16]:

• predloge: so neke vrste plonk listki (angl. cribsheet), ki skicirajo ogrodje ali pazagotavljajo oris elementov metapodatkovne sheme brez direktne povezave na doku-mentacijo teh elementov. Predloge, v tiskani in elektronski obliki, so bile prevladu-jo£e v generiranju metapodatkov, verjetno zato, ker so enostavne za pripravo in vzdr-ºevanje. Elektronske predloge ponujajo obrazec (angl. form), vendar brez uporabeopozoril. Primer tak²ne predloge je Linux Software Map (http://www.boutell.com/lsm), ki avtorjem omogo£a vnos osnovnih podatkov programske opreme, kot sonaziv, verzija, opis, klju£ne besede, avtorja, platformo, licenco, itn.

Vedno ve£ja avtomatizacija postopkov in interaktivnost orodij, je ºe skoraj popol-noma izrinila predloge.

Page 67: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

42 Poglavje 4: Generiranje metapodatkov

• urejevalniki metapodatkov: podobni so predlogam v tem, da zahtevajo £love²ki vnospodatkov. So bolj so�sticirani v tem, da zagotavljajo neposreden dostop do metapo-datkovnih standardov in pripadajo£e dokumentacije ter uporabniku pomagajo s sin-takti£nim nadzorom nad vnesenimi ali izbranimi podatki. Primeri tak²nih urejeval-nikov so na primer Reggie - Metadata Editor (http://metadata.net/dstc), Scor-pion (http://purl.oclc.org/scorpion), IllumiNet Corpus (http://www.illuminet.se/software/corpus) in Viewer-Generator Dublin Core metadata (http://www.library.kr.ua/dc/lookatdce.html). Raz²irjena je tudi uporaba spletnih urejeval-nikov metapodatkov. Na primer, pri uporabi digitalnih knjiºnic DLESE in MERLOTuporabnik izpolni spletni obrazec za kreiranje metapodatkovnega zapisa.

Avtomatizirano generiranje:Avtomatizirano generiranje metapodatkov (angl. automated metadata generation - AMG)temelji na strojni obdelavi podatkov (angl. machine processing). Napram ro£nemu gene-riranju predstavlja za raziskovalce in razvijalce programske opreme izziv in za sprejemljivou£inkovitost orodij zahteva najrazli£nej²e pristope. Nekateri so strogo varovana skrivnostnjihovih avtorjev, medtem ko bomo nekatere od preostalih predstavili v nadaljevanju tegapoglavja.

Glavne prednosti avtomatiziranega generiranja naj bi bile [9]:

• privar£evan £as in trud ljudi, ki skrbijo za katalogiranje,

• zmanj²anje pomembnih omejitev pri odlaganju digitalnih virov v informacijske arhive,

• izbolj²ana kvaliteta in konsistentnost metapodatkov,

• izbolj²ano odkrivanje, razlo£evanje in predlaganje ustreznih virov kot rezultat bo-gatej²ih metapodatkov, in

• izbolj²ana povezanost med ljudmi, njihovimi digitalnimi viri in povezanimi viri omo-go£a laºje najti sodelavce, zgraditi interesne skupnosti in izkoristiti sinergijo medsodelujo£imi.

Avtomatizirano generiranje metapodatkov v splo²nem delimo na dve podro£ji: ekstrak-cijo (angl. extraction) in nabiranje (angl. harvesting) [16, 17, 37, 19, 45, 51]:

• ekstrakcija: proces, v katerem se analizira struktura vira (npr. naslov, podnaslovi,avtorji, podatki avtorjev, seznami slik, seznami virov itn.) in se razberejo vred-nosti podatkov, odvisno od metapodatkovne sheme oziroma potreb uporabnikov tehorodij. Viri nad katerimi se izvaja ekstrakcija lahko imajo znano strukturo - kadarpripadajo znanemu datote£nemu formatu ali tipu dokumenta. Na primer, diplom-sko delo, magistrsko delo ali doktorska disertacija v elektronski obliki ima skorajvedno predpisano strukturo vsebine in tako posredno zapisane metapodatke, karlahko orodja s pridom izkoristijo. Struktura ni vedno znana, zato se morajo orodjaspopasti tudi s tem.

Page 68: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.1 Pristopi generiranja metapodatkov 43

• nabiranje: vir metapodatkov so oddaljena skladi²£a, kot so digitalne knjiºnice inrepozitoriji. V splo²nem ima lahko vsako skladi²£e metapodatke shranjene v svojemmetapodatkovnem standardu, nekatere celo v ve£ razli£nih. Primer slednjega jeNational Science Digital Library (NSDL), ki vsebuje ve£ tiso£ metapodatkovnih zbirkiz razli£nih projektov, z razli£nimi standardi metapodatkovnih zapisov. Uporabnikido metapodatkovnih zapisov dostopajo preko vnaprej de�niranega vmesnika oziromaprotokola. Eden tak²nih, najverjetneje najpogostej²i, je protokol Open ArchivesInitiative - Protocol for Metadata Harvesting (OAI-PMH).

Metapodatki pri nabiranju preidejo skozi fazo £i²£enja, pretvorbo z normalizacijovrednosti, tvorbo ustreznega kodiranja metapodatkovnega zapisa (npr. v XML zapis)in nato prenosa po komunikacijskem kanalu do kon£nega uporabnika [51].

Poudarimo na tem mestu, da tudi pri ekstrakciji in nabiranju obstajajo razli£ne inter-pretacije obeh na£inov. Nekateri avtorji z ekstrakcijo mislijo na prepoznavanje vrednostimetapodatkovnih zapisov, ki niso eksplicitno podani, medtem ko z nabiranjem mislijo napridobivanje ºe obstoje£ih metapodatkov [17, 45, 51, 39]. O nabiranju govorijo tako tudi opridobivanju podatkov, avtomatsko generiranih v £asu nastanka vira, na primer pri uporabiaplikacij Microsoft Word in Adobe Dreamweaver. Obe aplikaciji omogo£ata tako ro£nivpis metapodatkov, del metapodatkov (npr. velikost datoteke, datum nastanka, datumspremembe, avtor itn.) pa generirata avtomatizirano in ga zapi²eta v datoteko oziromadatoteke vira.

Kombinirano generiranje:S kombinirano uporabo ro£nega in avtomatiziranega generiranja metapodatkov lahko iz-bolj²amo produktivnost in u£inkovitost generiranja metapodatkovnih zapisov [17, 51].Nekateri raziskovalci celo trdijo, da se na tak na£in dobijo najbolj²i metapodatki (Schartz,2000 in Craven, 2001 v [17]). Dejstvo je, da avtomatizirano generiranje prihrani £love²kodelo in £as, ne izklju£i pa potrebe po £love²kem posegu in pregledu metapodatkov. Uporab-nikom se v orodjih lahko pojavi del informacij, pridobljenih avtomatizirano, in uporabnikse nato odlo£i ali jih uporabi v nespremenjeni obliki oziroma po potrebi spremeni. Primertak²nega orodja je urejevalnik DC-dot (http://www.ukoln.ac.uk/metadata/dcdot), kiuporabniku ponudi vse informacije vira, ki jih je uspel razbrati.

Kombiniran pristop je moºen tudi v obliki, da se najprej izvede avtomatizirano generi-ranje metapodatkov, podatki se zabeleºijo v podatkovno bazo, kasneje pa jih nato pregledain po potrebi spremeni ali dopolni avtorizirana oseba.

Pretvarjanje metapodatkov:Kot je bilo ºe ve£krat poudarjeno, so metapodatkovni zapisi lahko zapisani tako za raz-li£ne metapodatkovne sheme, kakor v razli£nih kodiranjih. Iz enega zapisa v drugegase pretvarjajo po potrebi, pretvorbo imenujemo prehod (angl. crosswalk). Pri digital-nih knjiºnicah to obi£ajno pomeni pretvarjanje metapodatkovnih zapisov iz standardaMARC v novej²e standarde, kot so DC, VRA Core, IEEE LOM itd. Novej²i metapo-datkovni zapisi ustrezajo laºjemu upravljanju s strani programske opreme, bolj²i uskla-jenosti z modernej²imi sistemskimi zahtevami za digitalne knjiºnice, razvoju sistemov za

Page 69: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

44 Poglavje 4: Generiranje metapodatkov

spletno izobraºevanje, za izbolj²anje u£inkovitosti administrativnih postopkov ipd. Ob-staja ve£ orodij za to, npr. ANVL/ERC Kernel Metadata Conversion Toolkit (http://search.cpan.org/~jak/File-ANVL/anvl), DC Meta Toolkit (http://www.wijiti.com/projects/dcmetatoolkit), DC-dot , Editor-Converter Dublin Core metadata (http://www.library.kr.ua/dc/dceditunie.html) itn.

Pretvarjanje ni vedno enostaven postopek in cilj pretvarjanja je med drugim tudi mini-mizacija izgube podatkov med pretvorbo. Poenostavljeno gledano je pretvorba preslikavamed vrednostjo, sintakso in semantiko metapodatkovnih elementov ene sheme v drugoshemo [37, 51]. Pretvorba je najbolj uporabljena metoda za zagotavljanje interoperabil-nosti med razli£nimi metapodatkovnimi shemami. Velikokrat si pravila pretvorbe lahkopredstavljamo kot preslikovalno tabelo ekvivalentnih ali £im bolj ekvivalentnih metapo-datkovnih elementov ali skupin metapodatkovnih elementov, pri £emer se v £im ve£ji meriupo²teva (St. Pierre in LaPlant, 1998 v [51]):

• semanti£ni pomen vsakega metapodatkovnega elementa,

• ali je metapodatkovni element obvezen, opcijski ali obvezen na podlagi kak²nih pogo-jev,

• ali se lahko metapodatkovni element pojavi ve£krat v istem metapodatkovnem za-pisu,

• strukturne omejitve metapodatkovnih elementov, npr. relacije star²-otrok,

• omejitve glede prostora vrednosti metapodatkovnega elementa, in

• opcijska podpora za lokalno de�nirane metapodatkovne elemente.

Obstajata dva pristopa pretvorbe [51]: absolutni in relativni. V absolutnem se vsakavrednost za£etnega metapodatkovnega zapisa preslika v natanko en element ciljnegametapodatkovnega zapisa ali pa v nobenega, £e ekvivalenten element v ciljni metapo-datkovni shemi ne obstaja. V relativnem se vsaka vrednost iz za£etnega elementa preslikav vsaj en element ciljne sheme. Slednji po poro£anju raziskovalcev deluje bolje, kadarpretvarjamo iz kompleksnih v enostavnej²e metapodatkovne sheme [51].

Pretvorba metapodatkov je in bo v prihodnosti proces, neposredno povezan z digital-nimi zbirkami virov, s signi�kantnim vplivom na kvaliteto metapodatkov.

4.2 Orodja za generiranje metapodatkov

Kmalu po vsesplo²nem zavedanju o pomenu metapodatkov, so ²tevilni posamezniki inskupnosti izrazili ºeljo po orodjih za delo z metapodatki. Razvitih je bilo kar nekaj orodij,nekatera so bila izklju£no komercialne in zaprte narave, medtem ko so bila druga namenjena²ir²i mnoºici uporabnikov. Od slednjih so nekatera orodja odprtokodni projekti.

Ve£je ²tevilo orodij je botrovalo nastanku nekaterih projektov, kjer so preu£evali namenin u£inkovitost teh orodij. Opis treh orodij brez evalvacije najdemo v [38], pregled nekaterihorodij v [3], splo²en pogled v [19], popolnej²i seznam pa v projektu MetaTools - Investi-gating Metadata Generation Tools (kraj²e MetaTools) [39] in v [9]. Projekt MetaTools je

Page 70: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.2 Orodja za generiranje metapodatkov 45

bil med drugim namenjen razvoju ogrodja, s katerim bi ocenili u£inkovitost delovanja ²tirihgeneratorjev metapodatkov, s poudarkom na standardu DC na generiranju metapodatkoviz spletnih strani in raziskovalnih publikacij v dokumentih PDF.

Duncan [9] orodja (vanje ²teje tudi servise) deli na ²est kategorij. Prve tri katego-rije so obi£ajna orodja: (1) avtomatizirana ekstrakcija in nabiranje, (2) avtorska orodjaza pomo£ pri iskanju podatkov, povezanih z metapodatki, in (3) orodja za pretvorbo.Naslednje tri kategorije so specializirana, redko dostopna, orodja: (4) evalvacija kvalitetemetapodatkov, (5) upravljanje z metapodatki o aktivnosti uporabnikov, in (6) upravljanjez relacijami med viri. Ker so zadnje tri kategorije redke, jih v nadaljevanju izpu²£amo.Prav tako smo izpustili orodja, ki niso neposredno povezana z viri, ki so lahko u£ni (npr.za geodetske podatke) in zato v nadaljevanju predstavljamo le reprezentativno mnoºicoorodij, kateri smo dodali dva pretvornika datotek.

Aperture:Aperture (http://aperture.sourceforge.net) je v Javi napisano orodje za pridobivanjevsebine dokumentov in metapodatkov iz razli£nih informacijskih sistemov, kot so datote£nisistemi (lokalni, oddaljeni, odstranljivi mediji), spletne strani in intranet, po²tni predali(mbox, eml, IMAP), po²tni odjemalci (Microsoft Outlook), spletni koledarji (iCal), kon-takti (Thunderbird, Apple). Pri tem so podprti razli£ni formati dokumentov, ki so lahkotako besedilni kot tudi slikovni, zaradi �eksibilne arhitekture orodja so moºne tudi raz²irit-ve. V osnovi so podprti naslednji datote£ni formati: navadno besedilo, HTML, XHTML,XML, PDF, Rich Text Format (RTF), Microsoft O�ce: Word, Excel, PowerPoint, Visio,Publisher, Microsoft Works, OpenO�ce 1.x: Writer, Calc, Impress, Draw, StarO�ce 6.x- 7.x+: Writer, Calc, Impress, Draw, OpenDocument (OpenO�ce 2.x, StarO�ce 8.x),Corel WordPerfect, Quattro, Presentations, Versitcard (.vcf) in arhivi (.zip, .tar, .gz,.bz2). Izhodni podatki orodja temeljijo na standardih semanti£nega spleta (angl. semanticweb) (RDF, SPARQL Protocol and RDF Query Language (SPARQL), itn.).

Data Fountains [39, 9]:Data Fountains je zapisan v C++ in generira metapodatke za spletne vire v formatu CSV(SDF), OAI-PMH v2, MARC in XHTML. Dodatno lahko podobno kot spletni pajki poi²£espletne vire na dolo£eno temo in sproti generira metapodatke zanje. V nasprotju z neka-terimi orodji, upo²teva tudi hiperpovezave na spletni strani. Kjer lahko, naredi ekstrakcijoiz obstoje£ih podatkov, sicer uporabi algoritem phraseRate iz podro£ja procesiranja na-ravnih jezikov (angl. natural language processing - NLP). Algoritem si pomaga z analizostrukture dokumenta HTML. Sedaj je del projekta iVia (http://ivia.ucr.edu), kjer jetudi prosto dostopen.

DC-dot [17, 38, 45, 39, 9]:DC-dot (http://www.ukoln.ac.uk/metadata/dcdot) je generator, zapisan v Javi, razvitv United Kingdom O�ce for Library and Information Networking (UKOLN) na Universityof Bath. Je odprtokodni projekt pod licenco GNU General Public License. Producirametapodatke standarda DC in lahko kodira izhod na podlagi razli£nih metapodatkovnihshem (npr. USMARC, SOIF, IAFA/ROADS, TEI headers, GILS, RDF in IMS). Generiranje

Page 71: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

46 Poglavje 4: Generiranje metapodatkov

metapodatka se pri£ne tako, da se orodju poda naslov URL do vira. Orodje prekopirametapodatkovni element �identi�er� iz vira, kar v brskalniku pi²e kot naslov vira in natoiz oznak <meta> dokumenta HTML izlu²£i �title�, �keywords�, �description� in �type�.�e meta zna£k klju£nih besed ni, naredi analizo zna£k <a>, poudarjenih in nagnjenihbesed, velikost pisav in se na podlagi tega odlo£i za klju£ne besede, vendar ne pripravi�description�. Avtomatsko kreira tudi �type�, �format� in �date� in v izvorni kodi dokumentaHTML pogleda, £e obstaja tekst v obliki �Last Modi�ed [dan][mesec][leto]� za zadnjoposodobitev dokumenta. Teºava orodja je, da ne upo²teva podstrani podane spletne stranivira, kljub temu, da je to obi£ajna zgradba spletnih virov. Primer uporabe orodja vidimo naslikah 4.2, 4.3 in 4.4. Slika 4.2 prikazuje za£etni ekran orodja, kjer podamo naslov URL

Slika 4.2: Za£etni ekran orodja DC-dot

Slika 4.3: Primer spletnega u£nega gradiva

od vira, slika 4.3 primer spletnega u£nega gradiva �Uvod v operacijske sisteme� na http:

//colos1.fri.uni-lj.si/ERI/RAC_SISTEMI_OMREZJA/html/UVOD_V_OS/procesi.html inslika 4.4 del rezultata orodja DC-dot. Od leta 2000 ni bilo sprememb orodja [39].

Page 72: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.2 Orodja za generiranje metapodatkov 47

Slika 4.4: Del rezultata orodja DC-dot za gradivo na sliki 4.3

DescribeThis [38]:DescribeThis je eno od orodij za ekstrakcijo metapodatkov iz spletnih virov, ki ne ob-staja ve£. Bil je v obliki spletnega servisa, s preprostim vmesnikom in pripravo rezultatovmetapodatkovne sheme standarda DC v obliki XML, XHTML ali RDF. Orodje je dodatnona spletu poskusilo poiskati vire, ki jih uporablja podani vir. Spletni viri so bili lahko doku-menti HTML, XHTML, razli£ni zapisi DC, GIF, JPG, Really Simple Syndication (RSS) inbibTex.

DROID [9]:DROID (Digital Record Object Identi�cation) (http://droid.sourceforge.net) je odpr-tokodno orodje, razvito na oddelku Digital Preservation Department od National Archives.Namenjeno je prepoznavanju datote£nih formatov, za kar uporablja v dokumentih XMLshranjen interni in eksterni seznam t.i. podpisov v formatih. Rezultat prepoznavanja jelahko generiran kot XML ali CSV in avtomatizirano shranjen v digitalnem skladi²£u, ki ga

Page 73: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

48 Poglavje 4: Generiranje metapodatkov

uporablja. Orodje je mogo£e uporabljati tako v ukazni vrstici, kot s pomo£jo gra�£negavmesnika.

JHOVE [9]:JHOVE je raz²irljivo, v Javi napisano, programsko orodje, pri razvoju katerega sodelujetaJournal Storage (JSTOR) in Harvard University Library in je na voljo pod pogoji licenceGNU Lesser General Public License (LGPL). Namenjen je prepoznavanju in dolo£anjuformata digitalnega objekta, za dolo£anje ravni skladnosti digitalnega objekta s speci-�kacijami domnevnega formata in za dolo£anje pomembnih lastnosti objekta v dolo£enemformatu. Skladnost digitalnega objekta z domnevnim formatom se izrazi z eno od trehravni: dobra formiranost (angl. well-formedness), veljavnost (angl. validity) in skladnost(angl. consistency). Pri tem je digitalni objekt dobro formiran, £e izpolnjuje zgolj sin-takti£ne zahteve glede na svoj format. Veljaven je, £e je dobro formiran in ustreza vi²jiravni semanti£nih zahtev za veljavnost formata in skladen je, £e je veljaven in so njegovenotranje pridobljene informacije v skladu z zunanjimi informacijami o objektu.

Mnoºica lastnosti o digitalnem objektu, ki jo vrne JHOVE je znana kot predstavitvenainformacija objekta, ki jo je kot koncept z referen£nim modelom ISO/IEC 14721 uvedlaorganizacija Open Archival Information System. Standardna predstavitvena informacijaorodja JHOVE vkju£uje: pot do datoteke ali URI, datum zadnje spremembe, velikostdatoteke v zlogih, format, razli£ico formata, tip MIME, pro�l formata in po izbiri kontrolnevrednosti CRC32, MD5 in SHA-1. Osnovna verzija orodja vsebuje module za poljubnevhodne bitne tokove (angl. byte streams), ASCII in UTF-8 kodirana besedila, AIFF inWAVE avdio, GIF, JPEG, JPEG 2000, TIFF in PDF. Pri tem je rezultat lahko podan kotnavadno besedilo ali v obliki XML. Orodje je mogo£e uporabljati tako v ukazni vrstici, kots pomo£jo preprostega gra�£nega vmesnika.

Med njegovo raz²irjeno uporabo v zadnjih ²tirih letih so bile ugotovljene ²tevilne ome-jitve zaradi posebnosti na£rtovanja in implementacije. S �nan£no podporo organizacijeLibrary of Congress v okviru programa National Digital Information Infrastructure andPreservation Program (NDIIPP) je nastal dvoletni projekt za razvoj in uporabo naslednjegeneracije orodja pod imenom JHOVE2, ki zagotavlja bolj²e rezultate, poenostavljen pro-gramski vmesnik aplikacije (angl. application programming interface - API), in vklju£ujenove pomembne funkcionalnosti. JHOVE2 je bil izdan dne 21.4.2011 in je raz²iril konceptkarakterizacije, tako da sedaj vklju£uje tudi identi�kacijo, validacijo, ekstrakcijo lastnostiin ocenjevanje na podlagi pravil. Izhod prenovljenega orodja ni nujno ena datoteka.

jOAI:jOAI http://www.dlese.org/oai/ je na Javi temelje£e odprtokodno orodje za podporoskladi²£enju podatkov na podlagi OAI, vklju£no s podporo protokolu OAI-PMH in nabiranjuiz drugih digitalnih skladi²£. Razvito je bilo pod Digital Learning Sciences (DLS) http:

//www.dlsciences.org na University Corporation for Atmospheric Research. Z orodjemdobljeni metapodatkovni zapisi so shranjeni lokalno v datotekah XML. Le-te se po potrebidopolnjujejo, posodabljajo ali odstranijo, £e je bila tak²na sprememba tudi pri ponudnikuvira te datoteke XML. Orodje je prav tako lahko ponudnik izvirnih virov in metapodatkovnihzapisov, t.j. s tem orodjem lahko vzpostavimo svoje digitalno skladi²£e virov s podporo

Page 74: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.2 Orodja za generiranje metapodatkov 49

OAI-PMH.

Kea [39, 9]:Kea (http://www.nzdl.org/Kea) je orodje, razvito kot projekt v New Zealand DigitalLibray z namenom ekstrakcije klju£nih besed iz dokumentov v formatih HTML in PDF.Rezultat je tekstovna datoteka klju£nih besed, vsaka v svoji vrstici. Trenutna verzija jeimplementirana v Javi, je odprtokodni projekt pod pogoji licence GNU General PublicLicense in deluje izklju£no nad tekstovnimi datotekami.

Ker smo orodje uporabili v empiri£nem delu magistrskega dela, so podrobnosti njego-vega delovanja podane v nadaljevanju.

Klarity [17, 38, 45]:Klarity je komercialno orodje avstralskega podjetja tSA, sedaj imenovanega Intology (In-teligent Technology). Orodje najverjetneje ne obstaja ve£ ali pa je del kak²nega komercial-nega paketa. Podpira generiranje naslednjih petih metapodatkovnih elementov standardaDC: �identi�er�, �title�, �concepts�, �keywords� in �description�. Medtem, ko za prva dvaelementa uporabi zna£ke dokumenta HTML, pridobi klju£ne besede in opis iz izvorne kodespletne strani z ekstrakcijo. Element, ki predstavlja koncept, Klarity obravnava kot unijoklju£nih besed in opisa, ki jo obdela s ²tetjem fraz in uporabo speci�£nega pripadajo£egabesednjaka orodja. Rezultat orodja je podan kot zapis HTML, s poudarkom na zna£kah<meta>, kot XML ali kot RDF. Vsebuje tudi urejevalni²ki del, kjer uporabnik del podatkovizpolni v obliki odgovarjanja na vpra²anja.

libExtractor:LibExtractor (http://www.gnu.org/software/libextractor) je programska knjiºnica podlicenco GNU General Public License, namenjena pridobivanju metapodatkov iz razli£nihformatov datotek. V nasprotju z orodjem �le (na Linuxu), ki uporablja le splo²ne metodeza razpoznavanje tipa in kodiranja Multipurpose Internet Mail Extensions (MIME), orodjelibExtractor posku²a pridobiti tudi speci�£ne podatke, zapisane v posameznih datote£nihformatih npr. ime programske opreme s katero je bila datoteka ustvarjena, avtorja, opis,naslov, dimenzijo slik, dolºino posnetka ipd. Za vsak tak format v orodju libExtractor ob-staja raz£lenjevalnik, ki deluje kot vti£nik za to orodje. Trenutno standardna namestitevvklju£uje preko 40 vti£nikov in preko 180 datote£nih formatov. Obstajajo ²e ²tevilni drugi,ki jih vklju£imo preko vmesnika.

Orodje uporabljamo s pomo£jo ukazne vrstice in t.i. vmesnika extract, ki mu podamoseznam datotek. Ukaz extract iz seznama datotek pridobi metapodatke in jih kot rezultatizpi²e na standardni izhod (stdout). Primer rezultata, ki ga vrne orodje ob ekstrakcijimetapodatkov iz arhivskega paketa formata ZIP prikazuje tabela 4.1. Podobno tabela 4.2prikazuje primer za datoteko, kreirano z Microsoft Wordom.

LibExtractor uporabljajo razna orodja za indeksiranje in iskanje (npr. Basenji, Doodle,libferris), orodja za izmenjavo datotek (npr. GNUnet) in orodja, ki jim libExtractor sluºikot podlaga za pridobivanje novih podatkov (npr. FOSSology, orodje za analizo licenc vodprto-kodnih projektih, MetaGoo�ll, orodje za analizo metapodatkov).

Page 75: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

50 Poglavje 4: Generiranje metapodatkov

Keywords for �le �les/0_62823_0.zip:mimetype - application/zipembedded �lename - plants.pptmimetype - audio/mpegformat version - MPEG-2resource type - MPEG-2 Layer I audio, 176 kbps (CBR), 0 Hz, joint stereo, no copy-right, copyduration - 1m02mimetype - application/x-zip

Tabela 4.1: Primer rezultata orodja libExtractor iz arhivskega paketa formata ZIP

Keywords for �le �les/0_62405_0.doc:creator - Mlinunknown date - 2003-03-04T08:43:00Ztitle - NA�RT ZA U�NO ENOTOcharacter count - 2103last saved by - Mlinpage count - 1word count - 368creation date - 2003-03-04T08:21:00Zediting cycles - 3mimetype - application/vnd.ms-�lescreated by software - Microsoft Word 9.0template - Normalline count - 17paragraph count - 4language - Slovenianrevision history - Revision #0: Author 'Mlin' worked on 'D:\_Priprave\Nove\OS1NA�RT ZA U�NO ENOTO.doc'revision history - Revision #1: Author 'Mlin' worked on 'C:\WINDOWS\ApplicationData\Microsoft\Word\Samoobnovitev za OS1 NA�RT ZA U�NO ENOTO.asd'revision history - Revision #2: Author 'Mlin' worked on 'D:\_Priprave\Nove\1a OS1NA�RT ZA U�NO ENOTO.doc'revision history - Revision #3: Author 'Mlin' worked on 'D:\_Priprave\Nove\1aNAVODILA ZA DELO.doc'

Tabela 4.2: Primer rezultata orodja libExtractor iz dokumenta za Microsoft Word

Microsoft Word Auto Summarize [48]Microsoftov pisarni²ki paket O�ce v aplikaciji Word ponuja funkcionalnost avtomatizi-ranega generiranja povzetkov dokumenta. Povzetek je lahko kot seznam klju£nih besedali pa kot seznam stavkov, za katere Word meni, da najbolje opi²ejo vsebino. Dobljenrezultat Word lahko uporabi za vidno ozna£evanje klju£nih besed in stavkov v dokumentu,lo£en prikaz povzetka in zapis povzetka med metapodatke dokumenta.

�al omenjena funkcionalnost deluje le za tekste v nekaterih jezikih (poenostavlje-na kitaj²£ina, tradicionalna kitaj²£ina, angle²£ina, franco²£ina, nem²£ina, italijan²£ina,japon²£ina, korej²£ina, portugal²£ina, ²pan²£ina in ²ved²£ina), podrobnosti delovanja sozaradi komercialne narave aplikacije neznane. AutoSummarize analizira dokument in

Page 76: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.2 Orodja za generiranje metapodatkov 51

vsakemu stavku v dokumentu dodeli oceno. Stavki, ki vsebujejo bolj frekventno uporabljenebesede, dobijo bolj²o oceno. Na podlagi parametra (odstotek originalnega dokumenta)in tipa povzetka, generira ºeleno ²tevilo stavkov ali klju£nih besed. Primer parametrovpostopka in uporabe, kjer so klju£ne besede vidno ozna£ene, vidimo na sliki 4.5 in sliki 2.2v prej²njem poglavju.

Slika 4.5: Parametri uporabe orodja AutoSummarize aplikacije Microsoft Word

Funkcionalnost verzije Word 97 je bila opazovana v [48], kjer so zapisali tudi, da sevedno generira natanko pet klju£nih besed. Klju£ne besede so vedno le eno besedne invedno zapisane z malimi £rkami, tudi £e so lastna imena ali kratice.

paperBase [9]:Orodje paperBase je bilo razvito na UKOLN in ne obstaja ve£. Omogo£alo je ekstrak-cijo metapodatkov (avtor, naslov, ²tevilo strani, lokacija publikacije itn.) iz tekstovnihdokumentov s pomo£jo Bayesove statistike in skritih Markovskih verig.

pdftotext:Pdftotext je odprtokodno orodje za pridobivanje golega besedila (angl. plain text) iz da-totek formata PDF, t.j. pretvornik iz formata PDF v tekst. Privzeto je vklju£eno v ve£distribucij Linuxa, kjer ga uporabljamo s pomo£jo ukazne vrstice, prav tako pa je na voljotudi za operacijski sistem MS Windows (kot del distribucije xpdf).

SAmgI [32, 39, 9, 49]:SAmgI je orodje za ekstrakcijo metapodatkov iz u£nih virov, pri £emer generira nekateremetapodatkovne elemente standarda DC. Razvila ga je raziskovalna skupina HyperMe-dia and DataBases Research Group na Katholieke Universiteit Leuven. Na orodje lahkogledamo tudi kot na ogrodje, ker kombinira avtomatsko generiran izhod iz nekaterih splet-nih servisov v en metapodatkovni zapis preko centralnega streºnika za dostop do tehservisov. Na primer, za pridobivanje klju£nih besed uporablja tudi servis orodja Yahoo!Term Extraction. Spletni vmesnik za uporabo orodja je na http://ariadne.cs.kuleuven.be/samgi-service. Za£etni ekran spletnega vmesnika orodja podaja slika 4.6. Za isti

Page 77: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

52 Poglavje 4: Generiranje metapodatkov

Slika 4.6: Za£etni ekran orodja SAmgI

dokument, kot na sliki 2.2, je SAmgI kot rezultat vrnil del zapisa v tabeli 4.3. V splo²nemvrne dva nabora klju£nih besed, zaradi £esar ga bomo v empiri£nem delu magistrskegadela obravnavali kot dve orodji. Orodje SAmgI uporablja tudi digitalno skladi²£e virovARIADNE [25].

Term Extraction:Spletno orodje Term Extraction (http://fivefilters.org/term-extraction/) je delprojekta �ve�lters.org, napisano v Pythonu in ga je mogo£e uporabljati v okvirih licenceAGPL verzije 3. Za delovanje uporablja ekstrakcijo besed orodja Topia in kot rezultatvrne seznam v formatu JSON. Spletni vmesnik prikazuje slika 4.7. �al orodje ne podpira

Slika 4.7: Spletni vmesnik orodja Term Extraction

slovenske abecede in vsako pojavo znakov £²º¢� razume kot za£etek nove besede.

Termine [9]:Orodje Termine (http://www.nactem.ac.uk/software/termine/) je razvil center TheNational Centre for Text Mining. Na podlagi metode C-value (lingvisti£ni in statisti£nipristop, podoben kot v [22]) poi²£e vse kandidate za klju£ne besede in akronime iz besed-njaka AcroMine. Moºno je izbirati med dvema ozna£evalnikoma delov teksta: GENIATagger 2.1 in TreeTagger 3.1. Uporaba orodja je zastonjska na prej podanem spletnemnaslovu ali preko vmesnika SOAP. �al orodje ne podpira slovenske abecede.

Page 78: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.2 Orodja za generiranje metapodatkov 53

<ns2:GetMetadataResponse xmlns:ns2="http://cs.kuleuven.be/SAmgI/"><out><data key="uri"><values generator="input" con�dence="1.0"><value>samgi://127.0.0.1:8080/ICERI2011ramsak.pdf</value>

</values></data><data key="yahoo.keywords"><values generator="allpurpose.PDFGenerator" con�dence="0.5"><value>natural language processing</value><value>correct sequences</value><value>�le converters</value><value>converting tools</value><value>resource collections</value><value>digital libraries</value><value>supplementary text</value><value>similar words</value><value>electronic resources</value><value>second phase</value><value>pdf documents</value><value>repositories</value><value>�le formats</value><value>captions</value><value>algorithms</value><value>footnotes</value><value>resource management</value><value>maja</value><value>algorithm</value><value>boundaries</value>

</values></data><data key="pdf.creationDate"><values generator="allpurpose.PDFGenerator" con�dence="0.5"><value>Tue Jul 26 16:06:00 CEST 2011</value>

</values></data>

</out></ns2:GetMetadataResponse>

Tabela 4.3: Primer rezultata orodja SAmgI

Tika:Apache Tika (http://tika.apache.org) je v Javi napisano orodje za prepoznavanje inekstrakcijo metapodatkov in strukturirane tekstovne vsebine iz razli£nih formatov doku-mentov in pri tem uporablja obstoje£e knjiºnice razpoznavalnikov (angl. parsers). Februarja2011 je bila izdana trenutno zadnja verzija 0.9.

Orodje ima dve glavni funkcionalnosti: detekcijo tipa MIME tipa in razpoznavanje vse-bine. Prva temelji na prepoznavanju kon£nice datoteke in iskanja posebnih vzorcev bitov vdatoteki ter se nato uporabi za ustrezni razpoznavalnik. Trenutna razli£ica vsebuje razpoz-navalnike za dokumente HTML, XML, .doc, .docx, Open Document Format (ODF), PDF,

Page 79: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

54 Poglavje 4: Generiranje metapodatkov

RTF itn. Vhodni parameter orodja je ime datoteke ali naslov URL do vira, obstaja tudipreprost gra�£ni vmesnik, ki ni namenjen mnoºi£ni obdelavi dokumentov, sluºi zgolj zapregled in shranjevanje rezultatov posamezne datoteke. Izhod orodja je golo besedilo, kipredstavlja vsebino vhodne datoteke, zaradi £esar orodje sodi tudi med pretvornike.

Yahoo! Term Extractor [39, 9]:Spletni servis podjetja Yahoo omogo£a ekstrakcijo klju£nih besed iz dalj²ih vsebin. Uporab-lja se tudi kot del orodja SamgI. Rezultat je dokument XML s seznamom klju£nih besed.Uporaba je omejena - zastonjska in komercialna uporaba, z in brez uporabe unikatnododeljenega identi�katorja za uporabo. Kljub nekaterim sporo£ilom po spletu iz leta 2009,da bo ta servis ukinjen, ga je mogo£e uporabiti kot servis na naslovu http://search.

yahooapis.com/ContentAnalysisService/V1/termExtraction.

4.3 Merjenje u£inkovitosti ekstrakcije

U£inkovitost orodij in algoritmov za ekstrakcijo metapodatkov lahko merimo iz vidika£asovne in prostorske porabe ter iz vidika uporabnosti njihovega rezultata. V magistrskemdelu se osredoto£amo na slednje s poudarkom na klju£nih besedah.

U£inkovitost merimo s primerjavo njihovega izhoda z ºe obstoje£imi klju£nimi besedami.Obstoje£e so lahko podali avtorji virov ali neodvisni recenzenti virov. Za verodosto-jnost merjenja u£inkovitosti verjamemo, da so obstoje£e klju£ne besede izbrane oziromadolo£ene v najbolj²i moºni meri, £eprav smo v podpoglavju 2.7 ºe zapisali dvom v to.Mera u£inkovitosti temelji na ²tevilu ujemanj med strojno generiranimi klju£nimi besedamiin £love²ko generiranimi klju£nimi besedami. V nadaljevanju podajamo razlago ujemanja(angl. matching) klju£nih besed in kako iz tega ²tevil£no izra£unamo u£inkovitost [48].Metrike u£inkovitosti za dalj²e tekste in ostale metrike za klju£ne besede, ki jih v nadalje-vanju izpu²£amo, so podane v [39].

Kriterij ujemanjaPri ekstrakciji lahko kot rezultat dobimo klju£ne besede, ki so podobne ali pa izpeljankeklju£ne besede, s katero jo bomo primerjali. �e avtor na primer predlaga klju£no besedo�nevronska mreºa� in algoritem ekstrakcije predlaga klju£no besedo �nevronske mreºe�, toºelimo ²teti kot ujemanje, £eprav je ena klju£na beseda zapisana v ednini, druga v mnoºini.Po drugi strani, £e pri ekstrakciji dobimo klju£no besedo �mreºa�, tega ne ºelimo ²teti kotujemanje, ker obstaja ve£ omreºij, ne le nevronska.

Mnogi avtorji za ujemanje upo²tevajo, kadar imata ro£no ustvarjena in strojno generi-rana klju£na beseda enako zaporedje korenov besed (angl. stems, stemmed terms) [48, 13,22]. Koren besede je tekst, ki ostane po odstranitvi vseh kon£nic besede. Po tej de�ni-ciji se �nevronska mreºa� ujema z �nevronske mreºe�, ker imata isto zaporedje korenovbesed, npr. �nevron mreº�, ne ujemata pa se klju£ni besedi �nevronska mreºa� in �mreºanevronov�, ker je vrstni red korenov druga£en. Poudarimo na tem mestu, da avtorji ar-gumentirajo uporabo korenjenja zaradi podobnosti besed, vendar s tem tudi izbolj²ajorezultate uporabljene metrike merjenja u£inkovitosti ekstrakcije.

Page 80: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.3 Merjenje u£inkovitosti ekstrakcije 55

Natan£nost in priklicNa ekstrakcijo klju£nih besed lahko gledamo kakor na klasi�kacijski problem. �e na doku-ment gledamo kot na mnoºico besed in fraz, potem je na²a naloga, da klasi�ciramo vsakobesedo in frazo v eno od dveh kategorij (angl. category) oziroma razredov (angl. classes):je klju£na beseda oziroma ni klju£na beseda. Postopek ekstrakcije lahko evalviramo s stop-njo, do katere njegova klasi�kacija sovpada s £love²ko generirano klasi�kacijo. Rezultatuporabe postopka ekstrakcije na mnoºici virov, t.i. korpusu (angl. corups), lahko upodo-bimo z matriko zmede (angl. confusion matrix) [48], kot prikazuje tabela 4.4. Vrednost a

stroj \ £lovek je klju£na beseda ni klju£na besedaje klju£na beseda a b

ni klju£na beseda c d

Tabela 4.4: Matrika zmede za klasi�kacijo klju£nih besed

predstavlja ²tevilo, kolikokrat se je £love²ko generirana klju£na beseda ujemala s strojnogenerirano klju£no besedo, vrednost d predstavlja, kolikokrat sta se £lovek in stroj strin-jala, da fraza ni klju£na beseda in vrednosti b in c predstavljata, kolikokrat se £lovek instroj nista strinjala o klasi�kaciji klju£ne besede.

Iz zgoraj podane matrike ºelimo dobiti eno samo vrednost, ki bo predstavljala u£inkovi-tost postopka ekstrakcije. Ena od pogostih funkcij je to£nost (angl. accuracy), izra£unanapo formuli:

to£nost =a + d

a + b + c + d

Ta funkcija lahko postane za potrebe ekstrakcije hitro neuporabna. Ker je porazdeli-tev kategorij zelo asimetri£na (veliko ve£ je negativnih primerov, t.j. fraz, ki niso klju£nebesede), lahko doseºemo veliko to£nost s tem, da postopek ekstrakcije vedno vrne primereknajbolj zastopane kategorije. Z drugimi besedami, £e trivialni postopek ekstrakcije vednogenerira prazno mnoºico klju£nih besed za katerikoli dokument (t.j. vse besede so ne-klju£ne besede), velja a = b = 0 in to£nost bo tipi£no nad 99%.

Raziskovalci na podro£ju pridobivanja informacij (angl. information retrieval) za eval-vacijo iskalnikov (sorodna tematika evalvaciji ekstrakcije klju£nih besed) uporabljajo nasled-nji meri: natan£nost (angl. precision) in priklic (angl. recall), izra£unani po formulah:

natan£nost =a

a + b

priklic =a

a + c

Natan£nost je ocena verjetnosti, da £e iskalnik klasi�cira dokument kot relevantnega gledena uporabnikovo povpra²evanje, da tudi dejansko je relevanten. Priklic je ocena verjetnosti,da £e je dokument dejansko relevanten za uporabnika, da ga bo tudi iskalnik klasi�ciral zarelevantnega.

Med natan£nostjo in priklicom je dobro poznan kompromis, zaradi £esar lahko opti-miziramo enega na ra£un drugega [39]. Na primer, £e dolo£imo, da je celotna zbirka

Page 81: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

56 Poglavje 4: Generiranje metapodatkov

dokumentov relevantna, potem bo priklic zagotovo 100%, vendar bo natan£nost blizu0%. Po drugi strani, £e kot rezultat vrnemo samo en dokument, za katerega najbolj ver-jamemo, da je relevanten za uporabnika in dolo£imo, da je to edini dokument, potem bomorda natan£nost 100%, vendar bo priklic blizu 0%. Za u£inkovito evalvacijo postopkaekstrakcije zato ºelimo imeti tak²no mero u£inkovitosti, ki daje dobro oceno le, £e stanatan£nost in priklic ustrezno uravnoteºena.

Turney [48] je v svojih eksperimentih uporabil dve metodi za merjenje u£inkovitosti.Obe sta ²iroko uporabljeni v raziskavah na podro£ju pridobivanja informacij. Prva metodaje uporaba natan£nosti z razli£nimi odstopanji (angl. cut-o�s) za ²tevilo strojno generiranihklju£nih besed (a + b). To je bila njihova zaºeljena metoda, ker kaºe kako u£inkovitostvarira, ko uporabnik prilagaja ºeleno ²tevilo klju£nih besed. Druga metoda je f-mera(pisano tudi kot Fmera, Fmeasure in F-measure), izra£unana po formuli:

f-mera =2 · natan£nost · priklicnatan£nost+ priklic

=2a

2a + b + c

Ko sta natan£nost in priklic pribliºno enakih vrednosti, je f-mera skoraj enaka povpre£nivrednosti med natan£nostjo in priklicom. Ko pa natan£nost in priklic nista uravnoteºena,je f-mera manj²a od povpre£ja.

Podobno metriko lahko zasledimo v [22, 39] za posplo²eno oceno Fscore, izra£unanopo formuli:

Fβ =(β2 + 1) · natan£nost · priklicβ2 · natan£nost+ priklic

,

kjer je β nenegativno realno ²tevilo, ki predstavlja uteºenost natan£nosti in priklica. Naprimer, za β = 2 bo priklic bolj uteºen kot natan£nost in obratno za primer β = 0, 5 bove£ja teºa na natan£nosti. V primeru, ko sta priklic in natan£nost enako uteºeni, je β = 1in v tem primeru je formula enaka formuli za f-mero.

Napa£no pozitivni in razmerje napakOmenjeni metriki lahko zasledimo v [39]. Napa£no pozitivna vrednost (angl. false positive)je vrednost, ki je nepravilno identi�cirana kot pozitivna, t.j. klju£na beseda, ki jo je dodeliloorodje ni v seznamu ro£no podanih klju£nih besed. V tabeli 4.4 je podana z vrednostjo b.

Za izra£un metrike potrebujemo tudi konstanto C, uporaba katere omogo£a primerjavomed dokumenti s t.i. razli£nim bogastvom dokumenta (angl. document richness). Le-taje de�nirana kot relativno ²tevilo entitet ali oznak nekega tipa, ki se nahaja v dokumentu.Na primer, tekst, ki vsebuje 100 instanc neke entitete (npr. osebna imena), ima ve£jobogatost za ta element, kot tekst iste dolºine, ki ima omenjeno le eno osebno ime.

Napa£no pozitivna metrika je tako de�nirana kot formula:

napa£no pozitivno =²tevilo napa£no pozitivnih klju£nih besed

C=b

C

Bliºje kot je vrednost enaka 0, bolj²i je postopek ekstrakcije. Ta metrika se uporabljapredvsem pri primerjavi enega orodja za razli£ne tipe dokumentov. Ker je ustrezno kon-stanto C na£eloma teºko dolo£iti, te metrike v nadaljevanju magistrskega dela ne bomouporabili.

Page 82: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.4 Uporabljeni pristopi in tehnike 57

Obstaja tudi metrika razmerje napak (angl. error rate), ki jo de�niramo kot ²tevilonepravilnih klasi�kacij klju£nih besed kot proporcij ²tevila vseh generiranih klju£nih besed.Ker je metrika inverzna od natan£nosti in je slednja bolj uveljavljena, jo v nadaljevanjuprav tako izpu²£amo.

Mnenje strokovnjakovV [5, 17, 39] lahko namesto neposredne primerjave med avtorskimi in generiranimi klju£ni-mi besedami, zasledimo tudi pristop z ocenjevanjem strokovnjakov. Argumenti za njihovouporabo so povezani s teºavami £love²kega generiranja klju£nih besed (podpoglavje 2.7),vendar je obi£ajno prevladujo£a negativna plat takega pristopa v zamudnosti in �nan£nihstro²kih.

V [5] so uporabili 12 strokovnjakov, ki so ocenili generirane klju£ne besede dveh razli£nihorodij, vsako z ocenami slabo (angl. bad), neopredeljen (angl. so-so) ali dobro (angl. good).Iz prej zapisanega razloga so na tak na£in ocenili le 9 dokumentov, pri £emer poro£ajo, daje bilo veliko neujemanja v ocenah posameznikov. V istem viru lahko zasledimo tudi, daje obstajala spletna verzija Extractorja (podrobneje bo predstavljen v podpoglavju 4.5.1),kjer je uporabnik naloºil dokument in po ekstrakciji ocenil dobljene klju£ne besede kotdobre ali slabe. Rezultati so bili na voljo javnosti, v [5] so poro£ali o 62% dobrih, 18%slabih in 20% klju£nih besed brez mnenja.

Mnenje treh strokovnjakov je bilo uporabljeno pri primerjavi orodij Klarity in DC-dot[17]. Orodji so med drugim evalvirali tudi na podlagi generiranih klju£nih besed.

V [39] so strokovnjaki podali ocene iz obi£ajne Likertove lestvice od 1 do 5, kjer 1pomeni zelo relevantno (angl. strongly relevant) in 5 zelo nerelevantno (angl. stronglyirrelevant) klju£no besedo.

Za u£inkovito tovrstno evalvacijo mora biti uporabljeno dovolj veliko ²tevilo kompeten-tnih strokovnjakov, dovolj veliko ²tevilo virov, zagotovljena mora biti neodvisnost evalvacijestrokovnjakov in predvsem dovolj £asa na razpolago.

4.4 Uporabljeni pristopi in tehnike

Pri avtomatskem generiranju metapodatkov, algoritmi (ali mnoºica algoritmov v orodjih)nadomestijo ljudi kot primarne akterje. Stroj (ra£unalnik) prebere vsebino vira, obdela vse-bino z enim ali ve£imi vnaprej de�niranimi postopki, s katerimi pridobi vrednosti elementovmetapodatkov in jih nato kot rezultat predstavi v ºelenem formatu [16]. Pregled litera-ture pokaºe, da je razvito precej²nje ²tevilo algoritmov razli£ne kompleksnosti, predlaganetehnike so pogosto novost na tem podro£ju in algoritmov ni moºno vedno enostavno klasi-�cirati. Nekatere metode niso javno objavljene. Glede na [21, 55], je moºno algoritme vgrobem razdeliti na tri pristope: prepoznavanje vzorcev (angl. pattern recognition) s po-mo£jo regularnih izrazov (angl. regular expressions), razpoznavanje na podlagi pravil (angl.rule based parsing) in tehnike strojnega u£enja (angl. machine learning techniques). V njihse prepleta mnogo tehnik iz razli£nih podro£ij ra£unalni²tva, matematike in lingvistike.

V naslednjem podpoglavju opisana orodja in algoritmi uporabljajo nekatere od njih.Podrobnosti le-teh presegajo zadane okvirje magistrskega dela, so pa pomembni za poz-

Page 83: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

58 Poglavje 4: Generiranje metapodatkov

navanje ozadja delovanja orodij in algoritmov, zato v nadaljevanju podajamo njihovo kratkorazlago.

Prepoznavanje vzorcev in razpoznavanje na podlagi pravilGeneratorji, ki temeljijo na prepoznavanju vzorcev, v dokumentu i²£ejo speci�£ne vnaprejde�nirane vzorce, iz katerih lahko pridobijo elemente metapodatkov. Na primer, orodje, kiiz dokumentov HTML pridobi podatke iz zna£k <meta>, lahko deluje tako, da v dokumentupoi²£e vzorce oblike <meta znaki="znaki"> in jih nato ustrezno obdela.

Razpoznavanje na podlagi pravil je nekoliko bolj napredno od prepoznavanja vzorcev inse bolj ukvarja z vsebino dokumenta, kakor strukturo zapisa vsebine dokumenta. Imenujese tudi inºenirstvo znanja (angl. knowledge engineering) [45] in preu£uje besede v doku-mentu ter jih primerja z vnaprej de�niranimi pogoji. �e je pogojem zado²£eno, se doku-mentu dodeli dolo£ena klasi�kacijska kategorija. Pogoji oziroma pravila v teh sistemih sopraviloma logi£ni stavki, ki se trudijo ujemati besede ali fraze v tekstu.

Omenjena pristopa sta do neke mere podobna. Oba temeljita na tem, da imajo doku-menti predpisano strukturo in sta tako velikokrat odvisna od formata dokumenta [45].Praviloma sta preprosta za implementirat, vendar zahtevata trud strokovnjaka, ki pred-laga mnoºico pravil.

Korenjenje besedKraj²anje besed oziroma korenjenje je postopek nadzorovanega odstranjevanja znakov(£rk) iz besed v t.i. koren, ki pa ni nujno enak dejanskemu lingvisti£nemu korenu besede.Na primer v frazi �primerjava korenjenja� po korenjenju vsake besede posebej dobimo naprimer �primer koren�.

V smislu natan£nosti bi bilo idealno korenjenje z uporabo preslikovalne tabele vsehmoºnih besed, kar imenujemo tudi pristop grobe sile (angl. brute-force approach), vendarso zaradi manj²e £asovne in prostorske zahtevnosti bolj zanimivi algoritmi, imenovanikorenitelji (angl. stemmers), ki se v £im ve£ji meri pribliºajo idealu. Znani so pristopi,kot so odstranjevanje kon£nic (angl. su�x-stripping), lematizacija oziroma geslenje (angl.lemmatisation), stohasti£ni pristop (angl. stochastic approach), analiza n-teric (angl. n-gram analysis), hibridni pristop (angl. hybrid approach), pristop z morfemi (angl. a�xapproach) in algoritmi ujemanja (angl. matching algorithms).

Poznanih je veliko pristopov, v nadaljevanju jih podajamo nekaj, ki spadajo pod skupinoodstranjevanja kon£nic. Ve£ina teh postopkov je bila razvita za angle²ki jezik [41]:

• Lovins: Lovinsin postopek iz leta 1968 [28] velja za prvega objavljenega in z najmo-£nej²im vplivom na vse preostale. Na podlagi opazovanja mnoºice primerov bese-dil in namenske uporabe za primerjavo podobnih fraz pri pridobivanju informacij, jepredlagala dvokora£ni algoritem. V prvem koraku se za vsako besedo poi²£e najdalj²eujemanje kon£nice s seznamom vseh kon£nic (260 kon£nic). Vsaka kon£nica pripadaenemu od vnaprej pripravljenih tipov kon£nic (tipi A, ..., Z, AA, BB in CC). Napodlagi ujemanja in tipa kon£nice, se ustrezno spremeni beseda (ob kon£nici se upo²-tevajo tudi £rke pred kon£nico in dolºina besede, ki bo ostala po korenjenju). Naprimer, beseda �metallurgical� ima kon£nico �-ical� in po korenjenju postane �meta-llurg�.

Page 84: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.4 Uporabljeni pristopi in tehnike 59

V drugem koraku so korenjene besede podvrºene popravljanju (angl. recoding), karje ponovno podvrºeno iskanju ujemanja kon£nice nastale besede in uporabi pravilaza transformacijo (34 pravil).

• Iterativni Lovins: �e v [28] je avtorica nakazala moºnost iterativnega postopka nje-nega algoritma, vendar se zanj zaradi nekaterih argumentov o prevelikem kraj²anjubesed ni odlo£ila. V iterativni verziji ponavljamo postopek, dokler postopek ne vrneizhodne fraze enake vhodni. Na primer fraza �cut elimination� postane po prvi iteraciji�cut eliminat�, druga iteracija vrne �cut elim� in tretja enak rezultat kot druga.

• Porter: Iz vidika korenjenja za pridobivanje informacij je bolj²i od prej²njih dvehpostopkov Porterjev postopek [40]. V nasprotju z Lovinsonovo Porter ni name-nil tako velikega poudarka lingvisti£ni obdelavi in argumentira, da zgolj preprostatransformacijska pravila kon£nic preve£ spremenijo prvotni pomen besed.

V osnovi algoritem vse £rke ozna£i kot samoglasnike V ali soglasnike C in uvedemero m, ki ozna£uje vzorec besed. Nato na podlagi raz²irjenih pravil, ki upo²te-vajo tudi mero m skraj²a besede, pri £emer upo²teva najdalj²e moºno ujemanje.Transformacija se nato izvede v ²tirih korakih (1a in 1b kot en korak ter 2, 3 in 4).

• Skraj²ani Porter: Skraj²ani Porterjev postopek upo²teva le prvi korak Porterjevegapostopka (1a in 1b), kjer so zapisana raz²irjena pravila za zapis samostalnikov vmnoºini (angl. plurals) in preteklih deleºnikov (angl. past participles). V raz²irjenihpravilih je lahko tudi zapis oblike ∗S, ki ozna£uje, da se kon£nica korena kon£a s£rko s ali S.

• N-rezanje: Najbolj trivialni postopek je postopek, ki ne upo²teva lingvisti£nih in-formacij besede in preprosto odstrani zadnje znake besede, tako da ima beseda nakoncu najve£ n znakov.

Lovinsino korenjenje je bolj agresivno od Porterjevega, zaradi £esar je po Lovinsinemkorenjenju ve£ja moºnost, da bosta dve besedi imeli enak koren. Hkrati je zato tudi boljverjetno, da se pri korenjenju naredijo kak²ne napake (Krovetz, 1993 v [48]), £emur sosicer podvrºeni vsi postopki. Na primer, Lovinsin postopek pravilno preslika �psychology� in�psychologist� v isti koren �psycholog�, medtem ko Porterjev prvega preslika v �psychologi�in drugega v �psychologist�. Po drugi strani pa Porterjev postopek pravilno preslika �police�in �policy� v razli£na korena �polic� in �polici�, medtem ko Lovinsin postopek nepravilnopreslika v isti koren �polic�.

Meje frazKo primerjamo klju£ne besede s tekstom, lahko opazimo, da se nahajajo le v speci�£nih po-dro£jih teksta, med sabo lo£enih z mejami fraz (angl. phrase boundaries). Bolj²i algoritmiekstrakcije i²£ejo klju£ne besede le znotraj posameznih podro£ij.

Meje fraz so obi£ajno lo£ila in speci�£na zaporedja znakov (npr. ve£ zaporednih pik,intervali, dvopi£je, podpi£je ipd.). Na primer stavek �Objekt se nahaja na intervalu [1,10],v katerem lahko vidimo, da ni drugih objektov.� lahko zaradi mej fraz lo£eno obravnavamokot:

Page 85: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

60 Poglavje 4: Generiranje metapodatkov

• �Objekt se nahaja na intervalu�,

• �v katerem lahko vidimo�, in

• �da ni drugih objektov�.

Stop besede in stop frazePomemben korak algoritmov za ekstrakcijo je izlo£anje besed, ki se obi£ajno ne pojavljajov klju£nih besedah, t.i. stop besede (angl. stop words). Med temi besedami najdemopredloge, zaimke, nekatere kraj²e besede ipd., iz teksta pa jih v nekaterih algoritmihodstranimo le, £e ustrezajo dodatnim pogojem (npr. stop beseda se pojavi na za£etkupotencialne klju£ne besede).

Prej podan primer bi brez stop besed izgledal morda takole: �Objekt nahaja intervalu[1,10], katerem lahko vidimo, drugih objektov.�. Podobno kakor za stop besede, lahkoalgoritmi ekstrakcije uporabljajo tudi seznam stop fraz (angl. stop phrases), kateregafunkcionalnost je enaka seznamu stop besed.

Genetski algoritemNa genetski algoritem lahko gledamo kot na optimizacijo nizov bitov z uporabo tehnik, kiimajo svoj navdih v biolo²ki evoluciji. Genetski algoritem dela z mnoºico nizov imenovanopopulacija (angl. population) posameznikov (angl. individuals). Za£etna populacija seobi£ajno izbere oziroma generira naklju£no. Novi posamezniki (novi nizi bitov) so kreiraniz naklju£nim spreminjanjem obstoje£ih posameznikov (operacija se imenuje mutacija (angl.mutation)) in s kombinacijo podnizov star²ev (angl. parents), da kreirajo nove otroke (angl.childrens) - ta operacija se imenuje kriºanje (angl. crossover). Vsakemu posamezniku jedodeljena ocena (angl. score), imenovana tudi sposobnost (angl. �tness) na podlagi nekemere kvalitete niza bitov v odvisnosti od podane naloge. Bolj sposobni posamezniki bododobili ve£ potomcev, kot manj sposobni posamezniki. Ko se genetski algoritem izvaja, sonovi posamezniki vedno bolj sposobni, do neke asimptotne vrednosti.

Obstajajo genetski algoritmi z ravnovesnim stanjem (angl. steady-state genetic algo-rithms) v nasprotju z obi£ajnimi genetskimi algoritmi, ki so generacijski (angl. genera-tional). Slednji v eni ponovitvi posodobijo celotno populacijo in rezultirajo kot zaporedjerazli£nih populacij (t.i. generacije). Algoritem z ravnovesnim stanjem pa naenkrat posodobile enega posameznika in rezultira v zvezno spreminjajo£i eni populaciji, brez ve£jih razlikmed posameznimi populacijami. Tipi£no novi posameznik zamenja najmanj sposobnegaposameznika v trenutni populaciji. Whitley nakazuje, da so genetski algoritmi z ravnoves-nim stanjem bolj agresivni, kot generacijski genetski algoritmi [52].

Strojno u£enjeStrojno u£enje je podro£je umetne inteligence (angl. arti�cial inteligence), ki se ukvarja stehnikami, ki omogo£ajo ra£unalnikom oz. strojem, da se lahko u£ijo. Eno od pogostejeuporabljenih podro£ij strojnega u£enja je klasi�kacija oziroma razvr²£anje. Naloga klasi-�katorja je, da za objekt, opisan z mnoºico zna£ilk (angl. features) dolo£i, kateremu izmedmoºnih razredov (oziroma kategorij, kot smo zapisali na strani 55) pripada. Zna£ilke so

Page 86: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.4 Uporabljeni pristopi in tehnike 61

pri tem neodvisne zvezne ali diskretne spremenljivke, s katerimi opisujemo objekte. Klasi-�kator za svoje delovanje potrebuje funkcijo, ki preslika prostor vrednosti zna£ilk v razred.Le-ta je lahko podana vnaprej ali pa se je klasi�kator nau£i. Nekateri od klasi�katorjev sona primer: indukcijska pravila (angl. rule induction), odlo£itvena drevesa (angl. decisiontrees), naivni Bayesov klasi�kator (angl. naive Baise classi�cator), metoda podpornih vek-torjev (angl. support vector machine - SVM). Od vrste klasi�katorja je odvisen na£in u£enjain dobljena funkcija oziroma klasi�kacijski model. Za u£enje uporabimo u£no mnoºico, zakatero so podani razredi in je za dani problem £im bolj reprezentativna. Naloga u£e£egasistema je, da generalizira znanje, ki ga dobi iz u£ne mnoºice na pravilen na£in.

Na ekstrakcijo klju£nih besed lahko gledamo kot na proces klasi�kacije, vsaka fraza vviru je ali pa ni klju£na beseda. V nasprotju s prepoznavanjem vzorcev in razpoznavanjemna podlagi pravil, so tehnike strojnega u£enja bolj robustne, prilagodljive in teoreti£no jihje moºno uporabiti za katerikoli tip dokumenta [21]. V splo²nem algoritmi, ki uporabljajostrojno u£enje za ekstrakcijo klju£nih besed, delujejo v naslednjih dveh korakih:

1. u£enje oziroma trening, v katerem se kreira model za klasi�kacijo klju£nih besed.Pri tem se uporabi u£na mnoºica dokumentov, za katere so znane klju£ne besede.Le-te so podane s strani avtorjev dokumentov ali drugih avtoritet; predvideva se, dav najbolj²i moºni meri opisujejo dokument.

2. ekstrakcija, kjer se na podlagi modela iz koraka u£enja v novih ali testnih dokumentihrazpoznajo klju£ne besede. Testne dokumente obi£ajno uporabimo za ocenjevanjeu£inkovitosti algoritmov.

V nadaljevanju predstavljeni algoritmi in orodja ekstrakcije klju£nih besed uporabljajonaslednje tehnike strojnega u£enja:

• indukcijska pravila: Eden od zelo pogostih na£inov strojnega u£enja, z ve£ razli£-nimi pristopi. V splo²nem vzamemo en primer (npr. prvega) iz u£ne mnoºice in iznjega izpeljemo pravilo - poenostavljeno si ga lahko predstavljamo v obliki stavkaif. Nato vzamemo naslednji primer in pravilo bodisi posplo²imo (angl. generalize) alipa specializiramo (angl. specialize). Prednost tak²nega pristopa je, da je pravilo zabralca (programerja) berljivo in tako laºje spremlja izvajanje pravila.

• odlo£itveno drevo: Algoritmi za gradnjo odlo£itvenih dreves in pravil glede na ocenoinformativnosti posameznih zna£ilk izbirajo zna£ilke in ustrezne podmnoºice njihovihvrednosti za gradnjo odlo£itvenega drevesa oziroma pravila. Tako dobljene pogojenajpogosteje konjunktivno dodajajo k pogojnemu delu pravila. Sklepni (odlo£itveni)del pravila vsebuje enega ali ve£ razredov, ki jim pripadajo ustrezni u£ni primeri.Klasi�kacija novega primera poteka tako, da se sproºi ustrezno pravilo. Pri odlo-£itvenih drevesih in pravilih so pogoji oblike A = V ; V = {V1, V2, ..., Vn}, tako daje treba zna£ilke vnaprej diskretizirati ali pa, kar je bolj splo²no, pogoje oblikovati vnpr. A < V ali A > V itd. Ena od implementacij odlo£itvenih dreves je C4.5.

• metoda podpornih vektorjev: Je metoda razvr²£anja, ki mnoºico primerov razdeli vrazrede tako, da je vsak primer predstavljen kot vektor zna£ilk v vektorskem prostoru.Nato z matemati£nim postopkom poi²£e hiperravnine v tem vektorskem prostoru

Page 87: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

62 Poglavje 4: Generiranje metapodatkov

tako, da so razdalje predmetov do hiperravnin £im ve£je, strani hiperravnine padolo£ajo pripadnost posameznemu razredu.

• Bayesov klasi�kator: Naloga Bayesovega klasi�katorja je izra£unati pogojne verjet-nosti za vsak razred pri danih vrednostih (vseh) zna£ilk za dani vzorec, ki ga ºelimoklasi�cirati. Bayesov klasi�kator, ki eksaktno izra£una pogojne verjetnosti razredov,je optimalen, saj minimizira pri£akovano napako. Ker Bayesovega klasi�katorja, kibi eksaktno izra£unal pogojne verjetnosti razredov, ne poznamo (razen v primerih,ko u£na mnoºica pokriva celoten prostor vrednosti vseh atributov), je potrebnoizra£unati pribliºke verjetnosti z vpeljavo dolo£enih predpostavk. Naivni Bayesovklasi�kator predpostavi pogojno neodvisnost atributov (zna£ilk) pri danem razredu.To omogo£i, da ponavadi u£na mnoºica zado²£a za zanesljivo oceno vseh potrebnihverjetnosti za izra£un kon£ne pogojne verjetnosti vsakega razreda. Implementacijenaivnega Bayesovega klasi�katorja ponavadi predpostavljajo samo diskretne zna£ilke,zato je v takih primerih potrebno zvezne atribute vnaprej ustrezno diskretizirati.

Procesiranje naravnih jezikovProcesiranje naravnih jezikov (angl. natural language processing - NLP) je podro£je, vkaterem se prepletajo ra£unalni²tvo, matematika in lingvistika [45] in prvotno izhaja izumetne inteligence. Modernej²e tehnike NLP uporabljajo tudi pravkar opisane pristope intehnike da analizirajo in razumejo naravni jezik oziroma da ponudijo strojno podprt na£innjegove manipulacije. Razumevanje temelji na predpostavki, da se v tekstu pojavljajovnaprej predvideni vzorci naravnega jezika in v kolikor bo stroj prepoznal te vzorce, bomorda tudi razumel (vsaj delno) pomen zapisanega v naravnem jeziku.

Poudarek razumevanja naravnega jezika je moºno u£inkovito izkoristiti pri ekstrakcijiklju£nih besed [27, 22]. Algoritmi do neke mere imitirajo profesionalne kreatorje metapo-datkov, ki preu£ijo dokument in se intuitivno odlo£ijo o njegovih najbolj zna£ilnih lastnos-tih, pri £emer intuitivno upo²tevajo vrstni red in zapis pomena razli£nih tipov besed. V tanamen tehnike NLP pogosto uvedejo t.i. sestavne dele jezika oz. govora (angl. part-of-speech - PoS) in uporabljajo ozna£evalce (angl. taggers), ki vsaki besedi dolo£ijo najboljverjetno oznako oz. seznam oznak. Na primer, za zaporedje besed �v poletni ²oli na fakul-teti raziskujejo� bo ozna£evalec za slovenski jezik morda pripel oznake na naslednji na£in:�v<PREDLOG> poletnih<PRIDEVNIK> ²olah<SAMOSTALNIK> na<PREDLOG> fakul-teti<SAMOSTALNIK> raziskujejo<GLAGOL>�. Bolj²i ozna£evalci upo²tevajo tudi ed-nino, dvojino in mnoºino ter samostalnike ozna£ujejo na primer z oznakami <SAMOSTAL-NIK1>, <SAMOSTALNIK2> in <SAMOSTALNIKN>.

4.5 Podrobnosti izbranih orodij

Razen nekaterih algoritmov in orodij, podrobnosti ve£ine orodij niso javno objavljene, ali paso objavljeni le manj²i izseki njihovega delovanja. V nadaljevanju podajamo podrobnostinekaterih od njih, urejenih po letnicah nastanka. Orodji Kea in TextRank smo kasnejeuporabili tudi v empiri£nem delu magistrskega dela.

Page 88: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 63

4.5.1 GenEx

Orodje GenEx (Genitor plus Extractor) predstavlja po besedah avtorja (Turney) hibridnigenetski algoritem za ekstrakcijo klju£nih besed [47, 48]. Nastalo je iz ºelje po izbolj²aviekstrakcije klju£nih besed napram tedaj znanemu pristopu z uporabo odlo£itvenih drevesC4.5 [46]. Sestavljen je iz dveh komponent: genetskega algoritma GENITOR (v nadal-jevanju bomo pisali Genitor) [52] in algoritma za ekstrakcijo klju£nih besed Extractor.Genitor se uporabi le v fazi u£enja, tako da dolo£i vrednosti parametrov, na podlagi ka-terih nato deluje Extractor.

ExtractorExtractor kot vhod dobi dokument in kot izhod producira seznam klju£nih besed. Al-goritem je bil prijavljen kot patent s strani National Research Council Canada (NRCC)[48], implementiran je bil v programskem jeziku C in demonstracijska verzija je bila nekaj£asa javno dostopna na http://ai.iit.nrc.ca/II_public/extractor.html. Deluje napodlagi desetih korakov, kot prikazuje shema na sliki 4.8. Koraki 4 in 5 so konceptualno

Slika 4.8: Shema delovanja algoritma Extractor

neodvisni od korakov 1, 2 in 3, zaradi £esar so predstavljeni kot lo£eno zaporedje.Procesiranje vhoda je odvisno od 12-tih parametrov. Tabela 4.5 prikazuje te parametre,

skupaj z njihovo kratko razlago in primerom vrednosti. Podrobnej²a razlaga parametrovje razvidna v opisu desetih korakov algoritma:

1. iskanje individualnih korenov:

Pripravi se seznam vseh besed vhodnega dokumenta. Iz seznama se odstranijo vsebesede z manj kot tremi znaki. Nato se iz seznama odstranijo vse stop besede, pritem se uporabi vnaprej de�niran seznam teh besed. Sledi pretvorba vseh £rk besedv male £rke in nato korenjenje besed z rezanjem na dolºino STEM_LENGTH. Zdolºino tega parametra Extractor nadzira agresivnost korenjenja.

2. ocenjevanje individualnih korenov:

Za vsak unikatni koren pre²teje, kolikokrat se je pojavil v tekstu in si zabeleºi, kdaj

Page 89: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

64 Poglavje 4: Generiranje metapodatkov

parameter vrednost opis

NUM_PHRASES 10 dolºina kon£nega seznama klju£nih besedNUM_WORKING 50 dolºina delovnega seznamaFACTOR_TWO_ONE 2,33 faktor raz²irjanja na dve besediFACTOR_THREE_ONE 5,00 faktor raz²irjanja na tri besedeMIN_LENGTH_LOW_RANK 0,9 najkraj²a dolºina niºje rangiranih besedMIN_RANK_LOW_LENGTH 5 najkraj²a dolºina kratkih besedFIRST_LOW_THRESH 40 de�nicija �zgodnje� pojavitveFIRST_HIGH_THRESH 400 de�nicija �pozne� pojavitveFIRST_LOW_FACTOR 2,0 nagrada za �zgodnjo� pojavitevFIRST_HIGH_FACTOR 0,65 kazen za �pozno� pojavitevSTEM_LENGTH 5 najve£je ²t. znakov za �ksno dolºino korenovSUPPRESS_PROPER 0 upo²tevanje lastnih imen

Tabela 4.5: Dvanajst parametrov algoritma Extractor [48]

se je pojavil prvi£. �e se je na primer koren �evolu� prvi£ pojavil v besedi �evolucija�in ta beseda se je prvi£ v tekstu pojavila kot deseta beseda, potem ima ta koren zaprvo pojavo dolo£eno vrednost 10.

Sledi ra£unanje ocen posameznih korenov. Ocena je izra£unana kot ²tevilo, ko-likokrat se je koren pojavil v tekstu, pomnoºen z ustreznim faktorjem. �e sekoren prvi£ pojavi pred FIRST_LOW_STEM, se frekvenca pojavitev pomnoºi zFIRST_LOW_FACTOR. V nasprotnem primeru, £e se koren prvi£ pojavi za FIRST_HIGH_THRESH, se frekvenca pojavitev pomnoºi z FIRST_HIGH_FACTOR.

Tipi£no ima parameter FIRST_LOW_FACTOR vi²jo vrednost od 1 in parameterFIRST_HIGH_FACTOR manj²o vrednost kot 1. Zaradi tega pogosto uporabljenikoreni na za£etku teksta dobijo najvi²je ocene. Zgodnja pojava in frekventnost stadobra indikatorja, da je klju£na beseda morda pomembna, vendar ni najbolj o£itno,kako ta dva indikatorja uspe²no uporabiti [48].

3. izbira najbolj²ih korenov:

Korene rangira glede na dodeljene ocene in pripravi seznam najvi²je rangiranih ko-renov. Seznam vsebuje najve£ NUM_WORKING korenov. Izbira nekaj najboljerangiranih korenov napram celotnemu seznamu korenov izbolj²a u£inkovitost Ex-tractorja [48].

4. iskanje korenskih fraz:

Pripravi se seznam vseh fraz vhodnega dokumenta. Fraza je de�nirana kot zaporedjeene, dveh ali treh besed, ki se pojavijo zaporedoma v tekstu, brez vmesnih stop besedin znotraj mej fraz. Vsako frazo nato koreni, tako da koreni vsako besedo v frazi,podobno kot v koraku 1.

Turney se je odlo£il za dolºino najve£ treh besed v frazi, ker so bile fraze s ²tiri alive£ besedami v korpusu, ki ga je uporabil, zelo redke [48]. Neuporabo stop besed vfrazah avtor argumentira z ugotovitvijo, da se jih pri izbiri klju£nih besed izogibajotudi avtorji. Tako na primer namesto �shift of bias� raje zapi²ejo �bias shift�.

Page 90: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 65

5. ocenjevanje korenskih fraz:

Prvi del tega koraka je podoben koraku 2, le da se upo²tevajo fraze namesto besed.Zatem se za vse dobljene ocene naredi korekcija ocen glede na ²tevilo korenov vfrazi. �e ima fraza le en koren, se ne naredi ni£. �e ima fraza dva korena, se ocenapomnoºi s FACTOR_TWO_ONE in £e so v frazi trije koreni, se ocena pomnoºi zFACTOR_THREE_ONE.

Tipi£no sta FACTOR_TWO_ONE in FACTOR_THREE_ONE vi²ja od ena, takoda tak²na korekcija pove£a oceno dalj²im frazam. Fraza iz dveh ali treh korenovnikoli ne bo bolj frekventna od najbolj frekventnega korena v frazi, tako da ta dvafaktorja s korekcijo ocene popravita dejstvo, da imajo dalj²e fraze brez korekcijezagotovo niºjo oceno od kraj²ih fraz.

V nasprotju s korakom 2, dobljenega seznama v zadnji fazi tega koraka ne urediglede na dodeljene ocene.

6. raz²irjanje individualnih korenov:

Za vsak koren v seznamu, ki je izhod koraka 3, poi²£e najvi²je ocenjeno korenskofrazo z enim, dvema ali tremi koreni, ki vsebujejo ta koren in ga nadomesti z najdenokorensko frazo. Rezultat bo seznam korenskih fraz in individualnih korenov, dolºineNUM_WORKING, ki ga nato ²e uredi glede na ocene.

Sedaj, ko so individualni koreni raz²irjeni v fraze korenov, ne potrebuje ve£ ocen, kiso bile izra£unane v koraku 5. Ocene korenskih fraz iz koraka 5 so namre£ zamenjanez ocenami pripadajo£ega unikatnega korena iz koraka 2.

7. izlo£anje dvojnikov:

Seznam najbolj²ih NUM_WORKING korenskih fraz bo morda vseboval dvojnike. Naprimer, dva unikatna korena se lahko raz²irita v isto dvo besedno korensko frazo.Iz seznama odstrani vse dvojnike, pri £emer v seznamu ohrani korensko frazo, ki jenajvi²je rangirana.

Recimo, da imamo koren �evolu� in da se ta koren pojavi na petem mestu v seznamunajbolj²ih NUM_WORKING individualnih korenov in koren �psiho�, ki se nahaja nadesetem mestu v tem istem seznamu. Ko se individualni koreni raz²irijo v fraze, selahko na primer zgodi, da se korenska fraza �evolu psiho"pojavi na petem in desetemmestu v seznamu korenskih fraz. V tem primeru iz seznama odstrani korensko frazona desetem mestu. �e so obstajali dvojniki, dobi kot rezultat tega koraka seznamkorenskih fraz z manj kot NUM_WORKING elementi.

8. dodajanje kon£nic:

Za vsako od preostalih korenskih fraz poi²£e najbolj frekventno pripadajo£o dejanskofrazo v vhodnem tekstu. Na primer, £e se �evolucijska psihologija� v tekstu pojavideset krat in �evolucijski psiholog� tri krat, potem je prva fraza bolj frekventa zakorensko frazo �evolu psiho�. �e se pri ²tetju frekvenc dejanskih fraz le-ta kon£atako, da je najverjetneje pridevnik, potem je frekvenca za to frazo postavljena na0. Kon£nice kot so �al�, �ic�, �ible� itn. nakazujejo, da gre najverjetneje za pri-devnik. Pridevniki na sredi fraze (na primer kot druga beseda v tri besedni frazi)

Page 91: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

66 Poglavje 4: Generiranje metapodatkov

so sprejemljivi in se jih ne kaznuje. Tudi £e fraza vsebuje glagol, je frekvenca tefraze postavljena na 0. Za kontrolo ali je beseda glagol, je bil uporabljen seznamnajpogostej²ih glagolov [48]. Beseda, ki je lahko glagol ali samostalnik, je v temseznamu le, £e se pogosteje pojavi kot glagol kakor samostalnik.

Recimo, da vhod vsebuje �manage�, �managerial� in �management�. �e ima na primerSTEM_LENGTH vrednost 5, potem bo koren �manag� raz²irjen v �management�(samostalnik), ker bo frekvenca za �managerial� postavljena na 0 (ker je pridevnik,ki se kon£a na �al�) in frekvenca od �manage� bo prav tako postavljena na (ker jeglagol v seznamu pogostih glagolov). �eprav �manage� in �managerial� ne bostaizhod algoritma, vendarle pomagata pri vi²anju ocene za �manag� (kot opisano vkoraku 2) in zato pove£ata moºnost besedi �management�, da bo izbrana kot izhodalgoritma.

9. dodajanje velikih £rk:

Za vsako od dejanskih fraz iz koraka 8 poi²£e najbolj²o verzijo s kombinacijo majhnihin velikih £rk. Najbolj²a verzija je tista, ki ustreza naslednjemu: za vsako besedo vfrazi poi²£e uporabo velikih za£etnic (angl. capitalization), ki ima najmaj²e ²tevilovelikih za£etnic. Za eno besedno frazo je to najbolj²a verzija. Za dvo ali tri besednofrazo je to najbolj²a verzija, razen £e uporaba velikih za£etnic ni konsistentna. Pra-vimo, da je nekonsistentna, £e ima ena od besed veliko za£etnico kot pri lastnemimenu, katera od drugih besed pa nima tak²nega vzorca (npr. �Turing test�). �eje uporaba velikih za£etnic nekonsistentna, pogleda ali jo lahko naredi konsistentnotako, da uporabi verzijo z drugim najmanj²im ²tevilom uporabljenih velikih za£etnic(npr. �Turing Test�). �e je ne more narediti konsistentne, potem uporabi nekonsis-tentno verzijo.

Na primer, podano imamo frazo �psychologial association� in beseda �association�se morda v tekstu pojavi le kot �Association�, medtem ko se beseda �psychological�mogo£e pojavi v tekstu kot �PSYCHOLOGICAL�, �Psychological� in �psychologicial�.Z uporabo najmanj²ega ²tevila velikih za£etnic dobi �psychologicial Association�, karje nekonsistentno. Vendarle pa jo lahko naredi konsistentno z uporabo �PsychologicalAssociation�.

10. kon£ni izhod:Sedaj ima urejen seznam fraz z razli£no uporabo za£etnic. Seznam je urejen glede naocene iz koraka 2. Dolºina seznama je najve£ NUM_WORKING in je zaradi koraka7 verjetno kraj²a. Kon£ni seznam, ki bo imel najve£ NUM_PHRASES zgradi tako,da po vrsti od fraz z najvi²jo oceno proti niºjim v kon£ni seznam vklju£i vse fraze izseznama fraz, ki uspe²no opravijo test. Fraza uspe²no prestane test, £e:

(a) fraza ne sme imeti velike za£etnice kot za lastno ime, razen £e ni SUPPRESS_PROPER postavljen na 0 (0 pomeni, da so lastna imena dovoljena; 1 da nisodovoljena)

(b) fraza se ne sme zaklju£iti z besedo, ki je mogo£e pridevnik

(c) fraza mora biti dalj²a od MIN_LENGTH_LOW_RANK, pri £emer je dolºinamerjena kot razmerje ²tevila znakov v kandidatni frazi napram ²tevilu znakov v

Page 92: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 67

povpre£ni frazi in je povpre£je izra£unano za vse fraze v vhodnem tekstu dolºineod ene do treh zaporednih besed in ne vsebujejo stop besed.

(d) £e je fraza kraj²a od MIN_LENGTH_LOW_RANK, bo morda vseeno spre-jeta v kon£ni seznam, £e je njen rang v seznamu kandidatnih fraz bolj²i kotMIN_RANK_LOW_LENGTH

(e) £e fraza ne zadosti testu pri to£kah (c) in (d), bo morda ²e vedno sprejeta, £enjena uporaba velikih za£etnic nakazuje, da gre za kratico (angl. abbreviation)

(f) fraza ne sme vsebovati besed, ki so najpogosteje uporabljene kot glagoli

(g) fraza se ne sme ujemati s katero od fraz v podanem seznamu stop fraz, kjerujemanje pomeni enake nize brez upo²tevanja majhnih in velikih £rk.

Fraze morajo prestati teste pri to£kah (a), (b), (f) in (g) in vsaj enega od testov(c), (d) in (e). Ko doseºemo NUM_PHRASES kon£nih fraz ali pa preletimo vesseznam, se postopek zaklju£i.

GenitorExtractor deluje na podlagi 12-tih parametrov. Optimalne, oziroma £im bliºje optimalnim,vrednosti teh parametrov se dolo£ijo z genetskim algoritmom Genitor [52], da se mak-simizira u£inkovitost (sposobnost v terminologiji genetskih algoritmov) na u£ni mnoºicipodatkov. Genitor je genetski algoritem z ravnovesnim stanjem (ve£ o tem smo zapisaliv podpoglavju 4.4). V preliminarnih raziskavah so ga primerjali z obi£ajnim generacijskimgenetskim algoritmom. Rezultati so bili v povpre£ju podobni, vendar je Genitor izkazalmanj²o varianco, zaradi £esar so ga izbrali za komponento orodja GenEx [48].

Za£etna predpostavka algoritma je, da je uporabnik dolo£il vrednost parametra NUM_PHRASES kot vrednost med pet in petnajst. Zatem se avtomatsko izra£una vrednostNUM_ WORKING na 5*NUM_PHRASES, preostale vrednosti se dolo£ijo z algorit-mom. Za predstavitev preostalih 10 parametrov se uporablja 72 bitni zapis, kot prikazujetabela 4.6.

parameter tip razpon ²t. bitov

FACTOR_TWO_ONE real [1..3] 8FACTOR_THREE_ONE real [1..5] 8MIN_LENGTH_LOW_RANK real [0,3..3,0] 8MIN_RANK_LOW_LENGTH integer [1..20] 5FIRST_LOW_THRESH integer [1..1000] 10FIRST_HIGH_THRESH integer [1..4000] 12FIRST_LOW_FACTOR real [1..15] 8FIRST_HIGH_FACTOR real [0,01..1,0] 8STEM_LENGTH integer [1..10] 4SUPPRESS_PROPER boolean [0, 1] 1

Tabela 4.6: Deset parametrov Extractor-ja, ki jih dolo£i Genitor [48]

Uporabili so populacijo 50-tih posameznikov in algoritem zagnali 1050-krat. V vsakemzagonu se uporabi Extractor za u£enje na u£ni mnoºici za vsakega posameznika, skozi

Page 93: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

68 Poglavje 4: Generiranje metapodatkov

ves £as delovanja algoritma. Vsak posameznik se po koncu delovanja Extractorja oceniin na koncu Genitor kot rezultat vrne posameznika z najvi²jo oceno oziroma vrednostiparametrov, ki jih predstavlja ta posameznik.

Klju£nega pomena pri delovanju algoritma je bil izra£un ocene posameznika. Vodiloavtorjem je bila £im ve£ja natan£nost. Ker je v preliminarnih eksperimentih Genitor naj-bolj²o natan£nost na²el pri ²tevilu klju£nih besed manj²ih od NUM_PHRASES (ve£ otem fenomenu smo zapisali v podpoglavju 4.3), kar ni bilo zaºeleno, funkcija za izra£unsposobnosti posameznika upo²teva tudi to in jo izra£unamo po naslednji formuli [48]:

sposobnost =tmtmp

· (tmp

NTS · NUM_PHRASES)2 ,

pri £emer tm predstavlja ²tevilo vseh ujemanj med GenEx in £lovekom (angl. total match-es), tmp ²tevilo fraz, ki jih je vrnil GenEx (angl. total machine phrases) in NTS ²tevilodokumentov v u£ni mnoºici. Prvi faktor v formuli predstavlja natan£nost, medtem kodrugi faktor predstavlja kaznovanje (angl. penalty) ocene sposobnosti. Faktor kaznovanjavarira med 0 in 1. Nima u£inka (ker je enak 1), ko je ²tevilo kon£nih klju£nih besed GenExaenako ºelenemu ²tevilu klju£nih besed. V nasprotnem primeru kazen nara²£a s kvadratomrazmerja med ²tevilom ºelenih in dobljenih klju£nih besed.

Avtorji so za parameter izbire (angl. selection bias) uporabili vrednost 2,0 in za ver-jetnost mutacije (angl. mutation rate) vrednost 0,2. Za mutacijo so uporabili operatoradaptivne mutacije (angl. adaptive mutation operator) in za kriºanje operator zmanj-²anega nadomestka (angl. reduced surrogate crossover operator) [52]. Adaptivna mu-tacija dolo£i primerno stopnjo mutacije za potomca na podlagi Hammingove razdalje meddvema star²ema - manj²a je razdalja, vi²ja je verjetnost mutacije. Operator zmanj²aneganadomestka najprej identi�cira vse poloºaje, v katerih se niza star²ev razlikujeta - to£kekriºanja so lahko samo na teh poloºajih.

4.5.2 Kea

Kea deluje po principu strojnega u£enja, v katerem se kreira model in nato ekstrakcija, vkateri se uporabi model [13, 53, 54]. Od [13] do [54] je bilo tudi nekaj izbolj²av, samaKea pa je sedaj prosto dostopna na spletu. Obe fazi (u£enje in ekstrakcija) na za£etkuizbereta mnoºico kandidatov za klju£ne besede iz vhodnih dokumentov in potem izra£unatavrednosti dolo£enih atributov (t.i. zna£ilke) za vsakega kandidata. V nadaljevanju slediopis teh postopkov in nato ve£ podrobnosti o u£enju in ekstrakciji.

Kandidati za klju£ne besedeV prvem koraku Kea med mnoºico vseh besed dokumenta izbere kandidate za klju£nebesede. Vse besede v besedilu namre£ nimajo potenciala, da to postanejo. Proces iskanjakandidatov za klju£ne besede poteka skozi tri podkorake: £i²£enje vhoda, identi�kacijakandidatov in transformacija kandidatov.

1. £i²£enje vhoda:

Besedilo vhoda najprej razdeli na vrstice glede na potencialne meje fraz. Zatem se izbesedila odstranijo apostro�, deljene besede se razdelijo na dve besedi in odstranijo

Page 94: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 69

se vse besede, ki ne vsebujejo £rk. Posebej se obravnavajo kratice, ki vsebujejo pikoin so samostojne besede (npr. X.25). Rezultat £i²£enja je seznam vrstic z zaporedjibesed, ki vsebujejo vsaj eno £rko in bodo morda kasneje dolo£ene kot klju£ne besede.

2. identi�kacija fraz:

Vsaka vrstica iz prej²njega seznama je posebej obdelana tako, da se tvorijo vsapodzaporedja fraz iz besed (tako kot si sledijo) v posamezni vrstici, s £imer seugotovi, katere fraze so primerne za kandidate klju£nih besed. Fraze dolºine ene,dveh in najve£ treh besed so nato podvrºene lingvisti£ni kontroli, v kateri se ohranijole fraze, ki ustrezajo naslednjim kriterijem: v frazi ne sme biti lastno ime in fraza sene sme za£eti ali kon£ati s stop besedo. Kea uporablja vgrajen seznam stop besedza angle²ki, nem²ki, francoski in ²panski jezik. Jezik je potrebno dolo£iti v naprej.Prvotna verzija orodja je uporabljala seznam 425 stop besed, dopolnjen z dodatnimipridevniki in prislovi, ki so sovpadali s 60 najbolj pogostimi besedami t.i. Brownovegakorpusa [53]. Rezultat te faze je seznam fraz, dolºine najve£ treh besed.

3. transformacija fraz:

V vseh dobljenih frazah se v tem podkoraku zamenjajo vse velike za£etnice z maj-hnimi (angl. case-folding) in uporabi se korenjenje besed. Kea je v prvotni verzijiuporabljala iterativno verzijo Lovinsinega postopka, sedaj uporablja Porterjevo ko-renjenje. Za vsako frazo se ohrani tudi prvotna verzija iz vhodnega dokumenta, zakasnej²o uporabo, £e bo fraza izbrana v kon£no mnoºico klju£nih besed.

Vsi koreni, ki so v seznamu podvojeni, se odstranijo. Rezultat je seznam unikatnihfraz, kandidatov za izbor v kon£no mnoºico klju£nih besed.

Vrednotenje kandidatov za klju£ne besedeZa potrebe strojnega u£enja in klasi�kacijo je potrebno fraze ovrednotiti z atributi oz.zna£ilkami. Ve£ moºnih atributov je na primer: ²tevilo besed v frazi, ²tevilo znakov,poloºaj fraze v dokumentu itn. Avtorji [13, 53] so eksperimentalno za najustreznej²i do-lo£ili TF×IDF (angl. term frequency × inverse frequency) in razdaljo d (angl. distance)[13], oziroma prvo pojavitev fraze (angl. �rst occurence) [53].

TF × IDF je standardna metrika na podro£ju pridobivanja informacij in meri, kolikospeci�£na je fraza P za podan dokument D glede na vse dokumente korpusa:

TF×IDF =f req(P,D)

size(D)· −log2

df (P )

N,

kjer je f req(P,D) ²tevilo, kolikokrat se je fraza P pojavila v dokumentu D, size(D) ²tevilobesed v dokumentu D, df (P ) ²tevilo dokumentov v korpusu, ki vsebujejo frazo P in N²tevilo dokumentov korpusa. Da v drugem £lenu ne pride do log20, ko je df (P ) = 0, se vtakem primeru upo²teva log2 1

N+1. S tako izra£unano vrednostjo se daje prednost frazam,

ki se frekventno pojavijo v trenutnem dokumentu in nefrekventno v splo²ni uporabi [5].

Razdalja d predstavlja razmerje med ²tevilom besed od za£etka dokumenta do prvepojave fraze P napram ²tevilu vseh besed dokumenta D. Vrednost je vedno med 0 in

Page 95: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

70 Poglavje 4: Generiranje metapodatkov

1 in predstavlja proporcij oz. deleº dokumenta, preden se beseda prvi£ pojavi (intuitivnogledano se bolj pomembne fraze verjetno prej pojavijo v tekstu).

Oba atributa sta realni ²tevili. Za potrebe naslednjega koraka izgradnje klasi�kacijskegamodela, so vse vrednosti diskretizirane po diskretizacijski shemi od Fayyad in Irani [11], le-ta temelji na principu najmanj²e opisne razdalje (angl. minimum description length). Le-tarekurzivno razdeli vrednosti atributov na intervale, tako da na vsakem koraku zmanj²ujeentropijo porazdelitve na intervale in z deljenjem zaklju£i, ko ni ve£ mogo£e zmanj²atiskupnega stro²ka kodiranja in diskretizacije. Rezultat deljenja na intervale so diskretnevrednosti, vsaka vrednost pomeni speci�£en razpon realnih ²tevil (od, do), mejni vrednostipa �manj²e od� in �ve£je od�.

Rezultat tega koraka je seznam unikatnih kandidatov za klju£ne besede, vsakemu kan-didatu sta dolo£eni vrednosti atributov TF×IDF in d ter diskretizirani vrednosti za obaatributa.

Izgradnja modelaRezultat prej²njega koraka se uporabi v fazi u£enja za izgradnjo modela. Pri tem se uporabiu£na mnoºica dokumentov, za katere so znane klju£ne besede (le-te so podali bodisi avtorjidokumentov ali druge avtoritete ali mehanizmi).

Uporabi se (naivni) Bayesov klasi�kator, ki kot rezultat ustvari model, ki klju£ne besedeklasi�cira v eno od dveh kategorij (klju£na beseda ali ni klju£na beseda). Argument av-torjem za izbiro tega klasi�katorja so razli£ni eksperimenti z druga£nimi pristopi strojnegau£enja, od katerih so nekateri dali primerljive rezultate, vendar je bila varianca rezultatovve£ja [53].

Ekstrakcija novih klju£nih besedEsktrakcija novih klju£nih besed je moºna nad preostalimi dokumenti korpusa (tisti, kiniso bili v u£ni mnoºici) ali pa na novih dokumentih, ki v £asu u£enja ²e niso obstajaliv korpusu. V prvem podkoraku se na enak na£in, kakor je bilo podano prej, pripravijokandidati za klju£ne besede, izra£unata se atributa TF ×IDF in d ter uporabijo se prejizra£unani intervali za diskretizacijo teh dveh atributov. Na podlagi generiranega modelaklasi�kacije, se izra£unajo naslednje vrednosti:

P [yes] =Y

Y + N· PTF×IDF [TF×IDF |yes] · Pd [d |yes]

P [no] =N

Y + N· PTF×IDF [TF×IDF |no] · Pd [d |no] ,

ter

p =P [yes]

P [yes] + P [no],

kjer je Y ²tevilo pozitivnih primerov v u£nih dokumentih (t.j. avtorsko podanih klju£nihbesed), N ²tevilo negativnih primerov (t.j. kandidatnih fraz, ki niso klju£ne besede) in ostalevrednosti verjetnosti Bayesovega klasi�katorja. Vrednost p predstavlja verjetnost, da jepodana fraza klju£na beseda. Ponovno, da se izognemo deljenju z ni£ (ko obravnavamodokument, ki ga prej ni bilo v korpusu), preprosto pri²tejemo 1 pri Y in N.

Page 96: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 71

Seznam vseh unikatnih kandidatov za klju£ne besede uredi glede na vrednost p. Kjerimajo zaradi diskretizacije nekatere fraze isto vrednost p, se upo²teva vrednost TF ×IDF .Iz seznama nato odstrani vse fraze, ki so podfraze kak²ne fraze z vi²jo vrednostjo p. Vzadnjem podkoraku le ²e izbere ºeleno ²tevilo najbolje ocenjenih fraz, ki predstavljajokon£no mnoºico klju£nih besed, dobljenih s tem algoritmom.

4.5.3 TextRank

TextRank temelji na rangiranju v graf povezanih to£k in je na£in odlo£anja o pomembnostito£k v grafu, tako da rekurzivno upo²teva globalno informacijo celotnega grafa in ne lelokalno informacijo o to£ki [33, 34, 35]. Uporaben je za rangiranje avtomatsko pridobljenihklju£nih besed, avtomatsko pridobljenih povzetkov in razlo£evanje pomena besed (angl.word sense disambiguation).

Temelji algoritmaAlgoritmi rangiranja v gra�h (angl. graph-based ranking algorithms) so v osnovi na£inodlo£anja o pomembnosti posameznih to£k grafa z upo²tevanjem celotne informacije, kijo ponuja graf. Osnovna ideja je neke vrste glasovanje (angl. voting) s predlogi (angl.reccomendations). Ko je ena to£ka povezana z drugo to£ko, lahko na to gledamo, kakorda je to£ka oddala glas za povezano to£ko. Ve£je kot je ²tevilo glasov (torej povezav),pomembnej²a je to£ka. Dodatno se v pomembnosti posameznega glasa upo²teva tudipomembnost to£ke, ki je oddala glas. Zato v splo²nem govorimo, da je ocena (angl.score) neke to£ke dolo£ena na podlagi ²tevila glasov zanjo in ocene to£k, ki glasujejozanjo.

Formalno gledano, imamo graf G = (V, E), v katerem so V to£ke in E povezave medto£kami in E je podmnoºica V × V . Za podano to£ko Vi naj In(Vi) predstavlja mnoºicoto£k, ki kaºejo nanjo in naj bo Out(Vi) mnoºica to£k, na katere kaºe Vi . Potem lahkooceno to£ke de�niramo kot PageRank spletnega iskalnika Google [7]:

S(Vi) = (1− d) + d ∗∑

j∈In(Vi )

1

|Out(Vj)|S(Vj) ,

kjer je d faktor du²enja (angl. damping factor), ki ima vrednost med 0 in 1 in £igar vlogaje vnos verjetnosti skoka iz ene to£ke na naklju£no to£ko v grafu v modelu izra£una. Vkontekstu brskanja po spletu tak algoritem modelira t.i. naklju£nega uporabnika spleta(angl. random surfer model), kjer uporabnik naklju£no z verjetnostjo d klikne na nekohiperpovezavo na spletni strani in s tem pride na novo spletno stran z verjetnostjo 1− d .Ta faktor se obi£ajno postavi na vrednost 0,85 [7], kar so uporabili tudi avtorji TextRanka[33].

Na za£etku so vrednosti to£k postavljene na dolo£eno vrednost in nato se postopekizra£una ocene za posamezno to£ko Vi ponavlja tako dolgo, dokler ne doseºemo ve£ nekevnaprej podane minimalne spremembe ocene (angl. threshold). Avtorji poudarjajo, da solahko za£etne vrednosti tudi naklju£ne in ne vplivajo na kon£ni rezultat ranga pomembnostito£k, le na ²tevilo iteracij konvergiranja proti re²itvi algoritma. Deluje tako na usmerjenih,

Page 97: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

72 Poglavje 4: Generiranje metapodatkov

kakor neusmerjenih gra�h in ve£je kot je ²tevilo povezav v grafu, ve£ iteracij je potrebno,da pridemo do rezultata.

V grafu so lahko upo²tevane tudi uteºi med povezavami, kar nekako bolj sovpada temu,da je graf pridobljen kot rezultat NLP, za kar uporabimo nekoliko spremenjeno formulo[33].

Predstavitev teksta kot grafDa se ta algoritem lahko uporabi, je potrebno de�nirati, kako lahko tekst predstavimov obliki grafa. Odvisno od aplikacije, ki pripravi graf, so to£ke grafa kakr²nekoli entiteteteksta, npr. besede, besedne zveze, celotni stavki, odstavki ipd. Podobno aplikacija dolo£atudi pomen povezav med entitetami teksta, npr. leksikalna ali semanti£na povezanost,prekrivanje konteksta itn. Ne glede na aplikacijo, ki pripravi elemente grafa, je v splo²nempostopek uporabe TextRanka naslednji:

1. identi�cira entitete teksta, ki najbolje ustrezajo zahtevam in jih dolo£i kot to£kegrafa,

2. identi�cira relacije, ki povezujejo entitete teksta in jih dolo£i kot povezave grafa;lahko so usmerjene ali neusmerjene, uteºene ali neuteºene,

3. izvaja iteracije ra£unanja ocen to£k grafa, dokler ne pride do konvergence re²itve, in

4. uredi to£ke grafa po njihovi kon£ni oceni, rezultat so rangirane entitete teksta.

V [33] so tak postopek uporabili za klju£ne besede in stavke.Vsaka relacija, ki jo lahko de�niramo med dvema leksikalnima enotama, dobljenima iz

teksta, je potencialno uporabna povezava. V [33] so za povezavo med dvema entitetamateksta uporabili relacijo sopojave (angl. co-occurence), ki je de�nirana kot razdalja medpojavo dveh besed: dve to£ki grafa sta povezani, £e je njuna sopojava znotraj najve£ Nbesed, kjer je N vrednost med 2 in 10. Povezava zaradi sopojave izraºa relacijo medsintakti£nimi elementi in je podobno uporabna kot semanti£ne povezave pri razlo£evanjupomena besed � oboje predstavlja neke vrste indikator kohezije oz. povezanosti v nekemtekstu.

To£ke, ki jih dodamo v graf, so lahko tudi �ltrirane s sintakti£nimi �ltri, ki izberejole dolo£ene leksikalne enote dela govora oziroma teksta. Lahko na primer obravnava lesamostalnike in glagole za vstavljanje to£k v graf in posledi£no ima samo relacije medsamostalniki in glagoli. Avtorji so eksperimentirali z razli£nimi sintakti£nimi �ltri, kot so:vsi tipi besed, samo glagoli in samostalniki itn. Najbolj²e rezultate so dobili s samostalnikiin glagoli [33].

AlgoritemAlgoritem poteka v treh korakih in za osnovo vzame besede teksta, ki jih v zadnjem korakupo potrebi rekonstruira v fraze:

1. ozna£evanje in sintakti£no �ltriranje teksta:

Vsaka beseda teksta se opremi z zna£kami govora (npr. samostalnik, glagol, predlog

Page 98: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 73

itn.). Vse zna£ke govora, ki ne ustrezajo sintakti£nemu �ltru, ozna£i kot neustrezneza dodajanje v graf.

2. ustvarjanje grafa:

V graf se dodajo vse besede, ki imajo ustrezne zna£ke govora. Isto£asno se v grafuustvarijo povezave med vsemi to£kami, kjer se besedi sopojavita znotraj N besed.

3. ra£unanje ocen to£k:

Vsem to£kam grafa se dolo£i za£etna vrednost (npr. 1), dolo£i se minimalna spre-memba konvergence k re²itvi (npr. 0,0001) in iterativno se izvede ra£unanje ocenvseh to£k.

4. kon£ni seznam klju£nih besed:

Iz grafa izberemo K najbolje rangiranih to£k in jih ozna£imo v prvotnem tekstu.Zaporedja ozna£enih sosednjih klju£nih besed zdruºimo v besedne zveze. Na primerv tekstu �matlab code for plotting ambiguity functions�, £e sta tako �matlab� kot�code� izbrana kot potencialni klju£ni besedi v TextRanku, potem se zdruºita v �mat-lab code�, ker sta sosednji v originalnem tekstu.

V [33] za K predlagajo vrednost med 5 in 20 ali pa izbor vrednosti glede na velikostteksta. Pri evalvaciji algoritma za ekstrakcijo klju£nih besed iz abstrakta so uporabilislednje in za K dolo£ili eno tretjino to£k grafa.

4.5.4 B&C

B&C je orodje za ekstrakcijo samostalni²kih fraz (angl. noun phrases) iz dokumenta indodeljevanje ocen tem frazam na podlagi njihove frekvence in dolºine, z upo²tevanjemfrekvence centralnih samostalnikov v frazah (angl. noun phrase heads) [5]. Osnovnesamostalni²ke fraze so nerekurzivne strukture, sestavljene iz centralnega samostalnika(angl. head noun) in ni£ ali ve£ spremljajo£ih pridevnikov spredaj (angl. pre-modifyingadjectives) in/ali drugih samostalnikov. Osnovna samostalni²ka fraza ne vsebuje opisov posamostalniku (angl. post-modi�ers), kot so predloºne zveze (angl. prepositional phrases)in pogojnih stavkov (angl. relative clauses).

Orodje deluje v treh korakih: prelet dokumenta, ²tetje samostalni²kih fraz in fazapostprocesiranja, kjer pridobimo kon£ni rezultat.

Prelet dokumentaV preletu dokumenta preletovalnik (angl. skimmer) pregleda vsako besedo vhodnega doku-menta in poi²£e preproste osnovne samostalni²ke fraze. Uporabljen preletovalnik je poenos-tavljen razpoznavalnik DIPETT (Domain-Independent Parser of English Technical Texts),ki je glavno orodje delovne skupine TANKA (avtorjev B&C) in je sedaj za tekste dolºine200 znakov prosto dostopen tudi na spletu na http://www.site.uottawa.ca/tanka/

dipett-on-the-Web/frames.html. Preletovalnik za svoje delo potrebuje znanje o delihgovora besed v tekstu. Ena moºnost je uporaba ozna£evalnika (angl. tagger), kot je naprimer t.i. Brillov ozna£evalnik [5]. Ozna£evalnik dolo£i najbolj verjetno oznako iz de-lov govora (samostalnik, pridevnik, glagol, itd.). Namesto ozna£evalnika so se avtorji [5]

Page 99: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

74 Poglavje 4: Generiranje metapodatkov

odlo£ili, da uporabijo preprosto preslikovanje iz slovarja. Glavna prednost tak²nega presli-kovanja je, da imajo nekateri spletni slovarji tudi koren vsake besede, tako da lahko obrav-navajo na primer fraze �good schema� in �better schemata� kot primerke istega zaporedjakorenov. Uporabili so kombinacijo dveh slovarjev: njihovega lastnega od razpoznavalnikaDIPETT in t.i. Collinsov seznam besed, ki velja za dober seznam angle²kih besed z vsemimoºnimi deli govora za vsako besedo.

�tetje samostalni²kih frazKon£ni seznam klju£nih besed je dobljen na podlagi ocene samostalni²kih fraz, dobljenes ²tetjem centralnih samostalnikov fraz. Odlo£itev avtorjev [5], da vzamejo frekvencocentralnega samostalnika za nadaljno obravnavo, je temeljila na dveh opaºanjih:

• dalj²e samostalni²ke fraze (z ve£ opisi) so bolj speci�£ne in so lahko bolj relevantneza nek dokument, kakor pa kraj²e bolj splo²ne samostalni²ke fraze, in

• iz ekonomskih interesov (in poenostavljenega branja za bralca) se dalj²e samostal-ni²ke fraze ne ponavljajo frekventno v dokumentu. Na primer, v £lanku bo fraza �theCanadian Space Agency� morda uporabljena samo enkrat, v nadaljevanju dokumentapa fraza �Space Agency� ali pa samo �Agency�.

Algoritem za dolo£anje ocen samostalni²kim frazam je naslednji:

1. f reqH naj bo ²tevilo, kolikokrat se samostalnik H pojavi v dokumentu kot centralnisamostalnik

2. vzame najbolj²ih N centralnih samostalnikov H1, ..., HN z najvi²jimi frekvencamif reqH, ostale centralne samostalnike zavrºe

3. za vsak centralni samostalnik Hi ∈ H1, ..., HN:

(a) pridobi vse samostalni²ke fraze NP1, ..., NPM, ki vsebujejo centralni samostalnikHi

(b) za vsako samostalni²ko frazo NPj ∈ NP1, ..., NPM izra£una oceno kot frekvencote samostalni²ke fraze pomnoºeno z dolºino (²tevilom besed fraze)

4. vzame najbolj²ih K samostalni²kih fraz kot kandidatne fraze dokumenta

V korakih 1 in 2 z zavrºenjem relativno nefrekventnih centralnih samostalnikov algoritemomogo£a manj frekventnim samostalni²kim frazam (s frekventnimi centralnimi samostal-niki), da tekmujejo v korakih 3 in 4. Na primer, centralni samostalnik H1 se mordapojavi bolj frekventno od katere koli celotne samostalni²ke fraze, ki imajo H2 kot centralnisamostalnik. Vendar, £e se H2 pojavi kot centralni samostalnik bolj pogosto kot H1, bomogo£e H1 zavrºen v prid samostalni²kim frazam s H2.

Algoritem omogo£a ve£ variacij, o katerih so razmi²ljali tudi avtorji. Na primer, vkoraku 3 so mislili na jemanje natanko ene samostalni²ke fraze za vsakega od N najboljpogostih centralnih samostalnikov in s tem onemogo£ili ve£ klju£nih besed z istim cen-tralnim samostalnikom. Zamislimo pa si lahko primer �laser printer� in �colour printer�,

Page 100: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 75

ki sta obe uporabni klju£ni besedi, tako da bi tak²ne situacije morali ²e eksperimentalnoizbolj²ati.

Vrednosti N in K naj bi bili podani na podlagi hevristike (na primer na podlagi dolºinedokumenta ali odstotka razli£nih centralnih samostalnikov), ali ju poda uporabnik kotparameter oziroma sta dolo£eni empiri£no. Na primer, za vse samostalni²ke fraze v koraku3, £e obstaja vrzel v ocenah med najbolj²o in najniºjo oceno samostalni²kih fraz, sta lahkoti dve vrednosti postavljeni ravno v to vrzel. Avtorji so uporabili za N in K iste vrednosti,kot jih je uporabil Extractor, s katerim so primerjali u£inkovitost svojega algoritma.

PostprocesiranjeKo algoritem dolo£i najbolj²ih K kandidatov klju£nih besed za dokument, uporabimo dvapreprosta zaklju£na �ltra: odstranimo vse klju£ne besede z eno samo £rko in odstranimov celoti vsebovane podfraze.

Klju£ne besede kot samostojne £rke nastanejo zaradi Collinsovega slovarja in bi jihlahko �ltrirali ºe pri izbiri klju£nih besed. Obi£ajno bi morda pomislili, da bi ignorirali fraze,ki imajo besedo z eno samo £rko (kot na primer naredi Extractor), vendar so raziskaveklju£nih besed pokazale, da so tak²ne besede lahko relevantne v klju£nih besedah, npr.SCSI D priklju£ek, Y kromosom, John F. Kennedy, itn. [5].

Odstranjevanje v celoti vsebovanih podfraz prepre£i, da bi se tako fraza kot posplo²itevfraze (podfraza) pojavili med klju£nimi besedami, £e imata obe dobro oceno (npr. �theo-retical computer science� in �computer science�), ker podfraze prispevajo premalo v celoto[5].

4.5.5 Pristop Hulthove

Hulthova je v svojem pristopu preu£evala razlike napram Extractorju [22, 23]. Le-teso predstavljale druga£no obravnavo priprave seznama kandidatov za klju£ne besede (spredstavitvijo kandidatov in atributov, ki jih opisujejo) in druga£en pristop strojnega u£enja.

Predstavitev kandidatov za klju£ne besedePredlagane so bile tri razli£ne na£ine izvedbe klju£nih besed:

• n-grami:

N-grame je uporabljal ºe [48], vendar jih ni tako poimenoval. V [22] N pomeninajdalj²o dolºino fraze in je dobljena po podobnem postopku, kot v [13], le da serazlikuje v naslednjih aspektih:

� odstranijo se samo nealfanumeri£ni znaki, ki niso bili prisotni v nobeni klju£nibesedi v u£ni mnoºici (npr. ostane C++),

� ²tevila so odstranjena samo, £e stojijo lo£eno (tako recimo ostane npr. 4Your-Soul.com),

� ohranijo so lastna imena,

� uporabi se druga£no korenjenje in druga£en seznam stop besed,

Page 101: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

76 Poglavje 4: Generiranje metapodatkov

� ohrani so le korene, tudi £e so se pojavili le enkrat (kar je v 80% drºalo zaklju£ne besede v u£ni mnoºici).

• NP-celote:

V [22] so analizirali klju£ne besede, ki so jih dolo£ili avtorji in ugotovili, da so bile te vve£ini samostalniki ali samostalni²ke fraze. Da ne bi bila izbira potencialnih kandida-tov za klju£ne besede naklju£en proces (kot je v primeru n-gramov), so upo²tevalidejstvo, da imajo klju£ne besede tudi dolo£ene lingvisti£ne lastnosti. Pripravili sorazpoznavalnik, ki iz teksta izbere vse samostalni²ke fraze, t.i. NP-celote (angl. NP-chunk). Pri tem so poudarili, da se nad kandidati lahko uporabi korenjenje ali pane.

• vzorci PoS:

Kljub pristopu z NP-celotami, je bila skoraj polovica ro£no dolo£enih klju£nih besedv u£ni mnoºici izgubljena, zaradi £esar so pripravili pristop s prepoznavanjem vzorcevv tekstu. Po empiri£nem opazovanju u£ne mnoºice so de�nirali 56 vzorcev z deligovora. Na tak na£in so dobili vse klju£ne besede v u£ni mnoºici, ki so se pojavilevsaj deset krat. Od teh 56 vzorcev, jih 51 vsebuje eno ali ve£ oznak za samostalnik,od tega je bilo pet najpogostej²ih oblike:

� PRIDEVNIK SAMOSTALNIK (v ednini ali mnoºini)

� SAMOSTALNIK SAMOSTALNIK (oboje v ednini ali mnoºini)

� PRIDEVNIK SAMOSTALNIK (v mnoºini)

� SAMOSTALNIK (v ednini ali mnoºini) SAMOSTALNIK (v mnoºini)

� SAMOSTALNIK (v ednini ali mnoºini)

Tudi tukaj je moºna uporaba korenjenja ali brez.

Atributi kandidatov za klju£ne besedeV osnovi so uporabili enake lastnosti kot Frank [13] za domensko neodvisne eksperimente:frekvenca znotraj dokumenta, frekvenca v zbirki in relativni poloºaj prve pojavitve. Razlikaje v tem, da sta frekvenca fraze in frekvenca v zbirki lo£ena. Prav tako realne vrednostiniso diskretizirane, le zaokroºene na dve decimalki, zaradi £esar avtorica [22] predvideva,da daje algoritmu za u£enje ve£jo mo£ odlo£anja.

Dodatno so eksperimentalno uvedli £etrto lastnost, t.j. oznako oziroma oznake PoS,ki jih je razpoznavalnik dolo£il kandidatni frazi (pri pristopu z NP-celotami in vzorci z deligovora). �e je fraza sestavljena iz ve£ besed, se vse oznake tretirajo kot zaporedje oznak.V primeru, da se fraza v tekstu pojavi ve£ kot enkrat, se lahko zgodi, da ji je dodeljenihve£ razli£nih zaporedij oznak. V tak²nem primeru se upo²teva zaporedje oznak, ki se jepojavilo najve£krat. �e tak²nega unikatnega zaporedja ni, se uporabi tisto, ki se je pojaviloprvo.

Strojno u£enjeU£enje se opravi s tehniko indukcijskih pravil po pristopu deli in vladaj (angl. divide-and-conquer), ki ima cilj da maksimizira razlo£evanje med razredi za vsako pravilo. Uporabili so

Page 102: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

4.5 Podrobnosti izbranih orodij 77

sistem Rule Discovery System podjetja Compumine (www.compumine.com), ki pa v tak²niobliki (orodje) ve£ ne obstaja.

Podobno kot v [48], so za u£enje uporabili implementacijo z ve£imi poskusi (angl.bagging). Pri tem se primeri iz u£ne mnoºice jemljejo naklju£no in zamenjujejo, doklerni dobljena mnoºica prvotne velikosti. Ta nova mnoºica je potem uporabljena za u£enjeklasi�katorja. Ta postopek se ponovi n krat, da generira n klasi�katorjev, med katerimise potem izbere najbolj²i klasi�kator.

Page 103: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

78 Poglavje 4: Generiranje metapodatkov

Page 104: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Poglavje 5

Evalvacija u£inkovitosti ekstrakcije

klju£nih besed

Z ve£anjem intenzivnosti uporabe IKT v izobraºevanju nara²£a ²tevilo elektronskih izo-braºevalnih virov. Le-ti zaradi napredka storitev na svetovnem spletu in nara²£anjem ²teviladigitalnih skladi²£, postajajo dostopni vedno ²ir²emu krogu uporabnikov, tako u£iteljem,kakor u£e£im.

Kot smo poudarili v prej²njih poglavjih magistrskega dela, sta dostopnost in posledi£nouporabljivost odvisni od kvalitetnih metapodatkov. Evalvacijo generiranja metapodatkovza speci�£ne primere virov in orodij podajamo v nadaljevanju tega poglavja.

5.1 Motivacija

Precej²nje ²tevilo virov starej²ega datuma ne vsebuje kvalitetnih metapodatkov in ºalkljub zavedanju velikega pomena metapodatkov in ²irjenju informacij o tem nastajajo noviviri brez le-teh. Klju£nega pomena za manjkajo£e metapodatke so orodja, ki so sposobnapreu£iti vire in izlu²£iti relevantne opisne informacije iz njih. Od vseh moºnih metapodatkovnas zanimajo predvsem klju£ne besede, ker za mnoge uporabnike predstavljajo prvi kriterijpri iskanju virov in ²ele nato upo²tevajo format vira, naravni jezik vira ipd.

Naravni jezik virov predstavlja pomembno oviro pri uporabi virov, vendar ne nepre-mostljivo. Uporabniki povsod po svetu namre£ do neke mere obvladajo tuje jezike in lahkouporabljajo tudi vire v teh tujih jezikih - bodisi vire v celoti ali le posamezne dele virov. Vslovenskem prostoru tako mnogi uporabljajo vire v angle²kem jeziku. Poudarimo pri tem,da smo prepri£ani, da so kvalitetni slovenski viri lahko na podoben na£in uporabni tuditujcem.

V literaturi lahko zasledimo morda nekoliko podcenjen odnos do naravnih jezikov, vkaterem so zapisane klju£ne besede virov. Na u£inkovitost orodij in povpra²evanj pomem-bno vpliva tudi naravni jezik gradiva in podpora orodij razli£nim naravnim jezikom [43].Pomembnost podpore ve£ jezikom in ve£jezi£nega povpra²evanja po gradivih je poudar-jena tudi v [49]. V [20] je skoraj polovica vpra²anih ocenila avtomatizirano ustvarjanjemetapodatkov za vire v razli£nih jezikih kot zelo pomembno, med tem ko je manj kot£etrtina vpra²anih menila, da orodje za avtomatizirano ustvarjanje strojno prevedenih za-

79

Page 105: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

80 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

pisov metapodatkov v ve£ jezikov ni pomembno. Nujnost ve£jezi£nega povpra²evanja jevedno bolj evidentna tudi zaradi skupnih skladi²£ gradiv z avtorji ²irom sveta. Primer sozadnje £ase vedno bolj popularna skladi²£a gradiv za interaktivne table. Nekateri avtorjiza ve£jezi£no povpra²evanje sicer predlagajo dodatni metapodatkovni atribut, v kateremje podan jezik gradiva [26, 29], vendar s tem le omejijo povpra²evanje na podmnoºicogradiv v iskanem jeziku. Namre£, £e sta v metapodatkovnih zapisih na primer atributa zaangle²ki in nem²ki jezik, bodo uporabniki pri iskanju virov teºko iskali s klju£nimi besedamiv sloven²£ini, italijan²£ini ipd.

V splo²nem se lahko ve£jezi£nega povpra²evanja po gradivih lotimo z naslednjimipristopi:

• prevajanje metapodatkov iz obstoje£ega jezika v jezik povpra²evanja,

• prevajanje povpra²evalnih vzorcev (iskalne besede) v jezik metapodatkov, in

• prevajanje gradiv v skupni (vmesni) jezik in ustvarjanje metapodatkov v skupnem(vmesnem) jeziku.

Vse tri primere podajmo na primeru. Imamo gradivo v slovenskem jeziku, za kateregaobstaja metapodatkovni zapis z vrednostmi elementov v slovenskem jeziku. V iskalnikugradiv ºelimo iskati v angle²kem jeziku in na primer vpi²emo iskalno besedo �computer�.V prvem primeru metapodatkovni zapis vira prevedemo v angle²£ino in med prevedeni-mi klju£nimi besedami i²£emo besedo �computer�. Nasprotno, v drugem primeru, iskalnobesedo prevedemo v slovenski jezik in v metapodatkih i²£emo klju£no besedo �ra£unalnik�.Poudarimo na tem mestu, da lahko prevajalniki naravnih jezikov prevedejo besedo �com-puter� v razli£ne prevode. Na primer, Google translate prevede omenjeno besedo tudi v�ra£unalni²ko�, �ra£unalni²ki�, �ra£unalni²kih�, �ra£unalniku�, medtem ko pri obratnem pre-vodu iz besede �ra£unalnik� dobimo �PC�, �computer�, �the computer�, �a computer� in�your computer�. Poudarek na prvih dveh pristopih s sedmimi iskalnimi besedami, vendars poudarkom na izvoru besed (angle²£ina in franco²£ina) najdemo v [36]. Zaradi razli£nihprevodov je morda smiselno razmi²ljati o tretjem primeru in najprej narediti prevod gradivaiz slovenskega jezika v angle²ki jezik, nato ekstrakcijo klju£nih besed, kjer dobimo angle²keklju£ne besede, ki jih nato uporabimo za primerjavo pri iskanju besede �computer�.

5.2 Cilji in raziskovalna vpra²anja

Na podlagi v prej²njem podpoglavju podanih izhodi²£, so cilji evalvacije u£inkovitosti ek-strakcije klju£nih besed naslednji:

• evalvacija ekstrakcije klju£nih besed iz realne mnoºice virov v slovenskem jeziku,

• evalvacija iskanja gradiv na podlagi strojno prevedenih klju£nih besed iz sloven²£inev angle²£ino, in

• evalvacija ekstrakcije klju£nih besed iz strojno prevedenih gradiv iz sloven²£ine vangle²£ino.

Page 106: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.3 Metodologija 81

Cilji se odraºajo v naslednjih raziskovalnih vpra²anjih, na katera bomo poiskali odgovorev nadaljevanju magistrskega dela:

• Katero izmed uporabljenih orodij za ekstrakcijo klju£nih besed je najbolj²e za ek-strakcijo klju£nih besed iz slovenskih virov?

• Ali je ekstrakcija klju£nih besed iz slovenskih virov primerljivo u£inkovita z ekstrakcijoiz angle²kih virov?

• Kateri izmed pristopov ve£jezi£nega povpra²evanja (prevod metapodatkov gradivav iskalni jezik ali prevod gradiva v iskalni jezik z naknadno ekstrakcijo klju£nihbesed v iskalnem jeziku ali prevod klju£nih besed, dobljenih z ekstrakcijo iz gradiv vslovenskem jeziku) je bolj u£inkovit za iskanje slovenskih gradiv z angle²kimi iskalnimibesedami?

5.3 Metodologija

Doseganje ciljev empiri£nega dela magistrskega dela smo razdelili na naslednje pomenskesklope:

• pridobivanje virov:

Poiskali smo razli£na digitalna skladi²£a izobraºevalnih gradiv, preu£ili tipe, formate,jezike gradiv, koli£ino gradiv in metapodatke o gradivih, ki jih ponujajo. Na podla-gi teh kriterijev smo se odlo£ili za tri skladi²£a: ARIADNE �nder, Atlas in LearningResource Exchange for schools. Vsa tri skladi²£a omogo£ajo nabiranje gradiv po pro-tokolu OAI-PMH. Metapodatkovne zapise o gradivih v razli£nih formatih (oai_lomin oai_lre4) dokumentov XML smo pridobili z orodjem jOAI, opisanem v podpoglavju4.2, shranili smo jih v lo£ene mape za vsako skladi²£e.

V naslednjem koraku smo v programskem jeziku PHP implementirali skripto, ki jeobravnavala vse pridobljene dokumente XML, v njih prepoznala lokacije gradiv inpreko knjiºnice cURL (http://www.php.net/manual/en/book.curl.php) preko pro-tokolov HyperText Transfer Protocol (HTTP), Secure HTTP (HTTPS) in FileTransfer Protocol (FTP) dostopala do njih in jih prenesla na lokalni medij. Posamezendokument XML je vseboval lokacije razli£nega ²tevila virov, precej²nje ²tevilo lokacijve£ ni obstajalo.

Rezultat tega koraka je bil seznam gradiv in dokumentov XML z metapodatkovnimizapisi gradiv, lo£en za vsako od treh izbranih digitalnih skladi²£.

• priprava virov:

Dobljena gradiva so bila razli£nih formatov in jezikov. Razli£ni dokumenti XML sovsebovali iste lokacije virov in isti viri so se nahajali na razli£nih lokacijah.

V tem koraku smo tako izlo£ili podvojena gradiva, ohranili smo le gradiva v slovenskemin angle²kem jeziku in ki so imela tako slovenske kot angle²ke klju£ne besede.

Ker orodja za ekstrakcijo klju£nih besed kot vhod zahtevajo dokumente v preprostemzapisu teksta (angl. plain text), smo vsa gradiva iz prvotnih formatov (.doc, .docx,

Page 107: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

82 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

.ppt, .pptx, .pdf, .html itn.) pretvorili v tekst. Za to smo uporabili orodje Tika,opisano v podpoglavju 4.2. Iz dobljenega seznama datotek smo odstranili vse da-toteke z velikostjo, manj²o od 100 zlogov. Pri manj²i velikosti so namre£ datotekevsebovale najve£ en stavek. Pri tem se zavedamo, da je lahko tudi ta stavek od-lo£ilen za potencialnega uporabnika in morda vsebuje kak²no besedo, ki bi bila iskanabeseda uporabnika.

Dokumenti XML, kakor gradiva so bili v razli£nih kodiranjih (ASCII, CP1250, ISO-8859-2, UTF-8 itn.). Da smo se izognili teºavam v nadaljevanju pri prevajanjutekstov in primerjavi ekstraktanih klju£nih besed, smo vse dokumente XML in gradivapretvorili v kodiranje UTF-8.

Za potrebe eksperimenta 2 smo vsebino vseh slovenskih gradiv prevedli v angle²kijezik z razli£nimi strojnimi prevajalniki: Google translate, Microsoft Bing Translatorin Presis Amebis Online Translation.

Ker imajo izobraºevalna gradiva speci�£no strukturo, smo dodatno iz elektronskihzbornikov konferenc Splet izobraºevanja in raziskovanja z IKT (SIRikt) in konferen-ce Moodle.si pripravili manj²i nabor prispevkov za primerjavo uspe²nosti ekstrakcijeklju£nih besed iz le-teh napram izobraºevalnim virom. Prispevke smo v preprostizapis teksta pretvorili z orodjem Tika in pdftotext ter lo£eno pripravili le povzetkeprispevkov.

Vsebine tekstovnih datotek izobraºevalnih virov in prispevkov smo dodatno avtoma-tizirano pre£istili nekaterih znakov (zaporedni presledki, tabulatorji, prelomi vrstic,pod£rtaji, zvezdice, minusi, ena£aji itn.).

Iz prispevkov smo dodatno naklju£no izbrali manj²e ²tevilo prispevkov in pripraviliro£no pre£i²£en tekst vsebine ter verzijo, dobljeno kot kopiraj in prilepi.

Rezultat tega koraka so seznam slovenskih in angle²kih izobraºevalnih gradiv z inbrez avtomatiziranega £i²£enja, seznam slovenskih gradiv v angle²kem jeziku za vsakstrojni prevajalnik, seznam pripadajo£ih dokumentov XML in dva seznama dodatnihprispevkov v slovenskem jeziku.

• eksperiment 1:

V prvem eksperimentu je poudarek na evalvaciji klju£nih besed iz slovenskih gradivz izbranimi orodji. Izmed orodij, opisanih v podpoglavjih 4.2 in 4.5, smo izbralinaslednja orodja: Kea, TextRank, Yahoo! Term Extractor in SAmgI. Delovanjeorodja Kea je odvisno od nekaterih parametrov, kot so na primer velikost u£nemnoºice, dolºina klju£nih besed, uporaba stop besed, uporaba korenjenja itn. Dasmo dolo£ili najbolj²e moºne rezultate orodja Kea, smo opravili evalvacijo vplivaposameznih parametrov tega orodja. Orodje Yahoo! Term Extractor smo uporabili,£eprav ga uporablja tudi orodje SAmgI, ker so preliminarni rezultati pokazali razlikomed obema orodjema. Ker orodje SAmgI za delovanje uporablja tudi drugo metodo,v nadaljevanju obravnavamo dve verziji tega orodja.

Za evalvacijo ustreznosti klju£nih besed smo uporabili metrike natan£nost, priklicin f-mero, opisane v podpoglavju 4.3. Za ujemanje klju£nih besed smo se odlo£iliza ve£ kriterijev: popolna enakost, korenjenje z razli£nim n-rezanjem in funkcijami

Page 108: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.3 Metodologija 83

kot so soundex, metaphone in similar_text. Ker slednje funkcije niso obi£ajne zauporabo, smo dodatno preverili, koliko je smiselna njihova uporaba.

Primarno shemo eksperimenta prikazuje slika 5.1. Podobno bomo eksperiment

Slika 5.1: Shema poteka prvega eksperimenta

ponovili za angle²ke izobraºevalne vire in za prej omenjeno manj²o mnoºico znanstve-no-raziskovalnih prispevkov v slovenskem jeziku ter posebej tudi na ro£no pripravlje-nih tekstovnih dokumentih desetih naklju£no izbranih prispevkov iz te mnoºice.

• eksperiment 2:

V drugem eksperimentu je poudarek na ve£jezi£nem povpra²evanju po gradivih.Izhodi²£e so bile avtorsko podane slovenske in angle²ke klju£ne besede gradiv vslovenskem jeziku, z ekstrakcijo pridobljene klju£ne besede v slovenskem jeziku terprevodi gradiv iz slovenskega v angle²ki jezik. Nad prevodi gradiv smo uporabiliista orodja ekstrakcije, kot v prvem eksperimentu, da smo dobili seznam angle²kihklju£nih besed. Prav tako smo naredili prevod slovenskih klju£nih besed (avtorskopodanih in dobljenih z ekstrakcijo) v angle²ke s prej omenjenimi strojnimi prevajalniki.

Ustreznost dobljenih mnoºic klju£nih besed smo evalvirali na enak na£in, kakor vprvem eksperimentu. Shemo eksperimenta prikazuje slika 5.2.

Podrobnosti posameznih sklopov so podane v nadaljevanju.

5.3.1 Digitalna skladi²£a

Med ²tevilnimi skladi²£i izobraºevalnih virov smo se odlo£ili za uporabo treh, katerih kratekopis podajamo v nadaljevanju. Odlo£itev zanje je temeljila predvsem na ponudbi slovenskihgradiv, ki so ob slovenskih klju£nih besedah vsebovali tudi angle²ke (za drugi eksperiment).

ARIADNE �nderARIADNE je Evropska organizacija, katere cilja sta �deljenje in ponovna uporaba� izobraºe-valnih virov. V ta namen so razvili standardizirano ogrodje za upravljanje z izobraºevalnimiviri, ki bo odprto in raz²irljivo ter zagotavljalo �eksibilen, uporaben in u£inkovit dostop do

Page 109: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

84 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Slika 5.2: Shema poteka drugega eksperimenta

velikih zbirk virov na podoben na£in, kakor omogo£ajo uveljavljeni iskalniki [25]. Viri soponujeni v okviru konzorcija Global Learning Objects Brokered Exchange (GLOBE), kivsebuje preko 70 digitalnih skladi²£ z izobraºevalnimi viri, ki jih ponuja preko 50 organi-zacij.

Trenutno orodje ARIADNE �nder, £igar za£etni ekran spletnega vmesnika prikazujeslika 5.3, ponuja uporabnikom preko metapodatkov dostop do 893.393 (na dan 15.08.2011)virov. Izbor virov je mogo£e omejiti po ponudniku (angl. provider), tipu vira (angl. type),

Slika 5.3: Za£etna stran digitalnega skladi²£a Ariadne �nder

kontekstu (angl. context), formatu (angl. format) in jeziku (angl. language) vira. Pritipu lahko izbiramo na primer med aplikacijami (angl. applications), prispevki in poro£ili(angl. articles and reports), avdio predavanji (angl. audio lectures), ²tudijami primerov

Page 110: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.3 Metodologija 85

(angl. case studies), igrami (angl. games) itn., skupaj 90 razli£nih tipov. Pri kontekstulahko izbiramo na primer izobraºevanje na daljavo (angl. distance education), primarnoizobraºevanje (angl. education primaire, primary), itn., skupaj 37 razli£nih kontekstov. Zaformat lahko izbiramo med uveljavljenimi zapisi tipov MIME, skupaj 291 razli£nih formatovin med 86 razli£nimi jeziki gradiv. Primer gradiv ponudnika LRE z izbranim slovenskimjezikom gradiv, prikazuje slika 5.4.

Slika 5.4: Prikaz seznama virov v ARIADNE �nder, ki ustrezajo kriterijem

Ob neposrednem dostopu preko spletnega vmesnika, je do metapodatkovnih zapisovmogo£e dostopati tudi preko servisa po protokolu OAI-PMH na naslovu http://ariadne.

cs.kuleuven.be/aspect-ws/services/oai.

AtlasStreºnik Atlas gostuje na Fakulteti za ra£unalni²tvo in informatiko Univerze v Ljublja-ni. Ne ponuja spletnega vmesnika kakor prej²nje skladi²£e, gradiva je moºno dobiti prekoprotokola OAI-PMH s servisom na naslovu http://atlas.fri.uni-lj.si/oai. Prikaz im-plementiranih metod (Identify, ListMetadataFormats, ListSets, GetRecord, ListIdenti�ersin ListRecords) protokola OAI-PMH na tem streºniku prikazuje slika 5.5.

Learning Resource Exchange for schoolsDigitalno skladi²£e Learning Resource Exchange (LRE) for schools je bilo razvito v okviruomreºja European Schoolnet, v katerem sodeluje 31 ministrstev za izobraºevanje, zaloºnikiin druge organizacije ter podjetja [50]. Temelj skladi²£a so rezultati in dognanja projektov

Page 111: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

86 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Slika 5.5: Spletni vmesnik digitalnega skladi²£a Atlas, metode protokola OAI-PMH

CALIBRATE, MELT [49] in ASPECT [49, 24]. Spletni portal skladi²£a je bil javnostiponujen decembra 2008, njegovo za£etno stran prikazuje slika 5.6. Uporabnikom ponuja

Slika 5.6: Za£etna stran digitalnega skladi²£a Learning Resource Exchange for schools

iskanje gradiv preko �ltrov jezika (angl. language), podro£ja (angl. subject), ponudnika(angl. provider) in preko oznak (angl. tags) gradiv. Napram iskalniku ARIADNE �nderlahko za vsak �lter izberemo le eno vrednost, izbiramo pa lahko med 31 jeziki, 38 podro£jiin 37 ponudniki gradiv. Primer ponujenih slovenskih gradiv iz podro£ja biologije prikazujeslika 5.7, medtem ko slika 5.8 prikazuje podatke izbranega gradiva, da se uporabnik laºjeodlo£i ali je gradivo ustrezno ali ne. Podobno kakor pri prej²njih dveh skladi²£ih, je gradivapreko metapodatkovnih zapisov mogo£e dobiti preko protokola OAI-PMH s servisom nanaslovu http://lrecoreprod.eun.org:6080/oaitarget/OAIHandler.

Page 112: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.3 Metodologija 87

Slika 5.7: Prikaz seznama virov v Learning Resource Exchange for schools, ki ustrezajo kriterijem

Slika 5.8: Prikaz izbranega gradiva v Learning Resource Exchange for schools

Page 113: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

88 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

5.4 Vzorci gradiv

Vire, uporabljene v eksperimentih magistrskega dela, smo lo£ili na primarni in dodatnivzorec gradiv. Primarni vzorec je uporabljen v obeh eksperimentih, medtem ko z dodatnimvzorcem ºelimo preveriti vpliv nekaterih lastnosti gradiv in pretvorbo gradiv v tekstovnedokumente na u£inkovitost ekstrakcije klju£nih besed.

Za oba vzorca v nadaljevanju podajamo deskriptivno analizo po razli£nih kriterijih;uporabili smo frekvence, povpre£ja, standardne odklone, maksimalne vrednosti, odstotkein vsote.

Primarni vzorec gradivGradiva so bila podana v razli£nih formatih in v razli£nih jezikih. Porazdelitev po tehdveh kriterijih podaja tabela 5.1. Oznake jezikov gradiv so podane v standardu ISO

format ²t. virov sl en it&sl la&sl de&slapp/force-download 1 1 0 0 0 0app/msword 303 303 0 0 0 0app/octet-stream 124 124 0 0 0 0app/pdf 329 329 0 0 0 0app/vnd.ms-excel 6 6 0 0 0 0app/vnd.ms-powerpoint 76 76 0 0 0 0app/vnd.oasis.opendoc.pres 2 2 0 0 0 0app/x-zip-compressed 11 11 0 0 0 0app/zip 4 4 0 0 0 0imsccv1p0 83 55 28 0 0 0scormv1p2 81 42 39 0 0 0scormv2004 24 24 0 0 0 0text/html 1540 1212 309 17 1 1text/plain 1 1 0 0 0 0text/xml 2 2 0 0 0 0skupaj 2587 2192 376 17 1 1

Tabela 5.1: Statistika primarnega vzorca gradiv, po formatu in jeziku gradiva

639-1. Zaradi prostorskih omejitev predstavitve tabele, smo �application� v formatihskraj²ali v �app� in podobno zapis �application/vnd.oasis.opendocument.presentation� v�app/vnd.oasis.opendoc.pres�. Kljub temu, da nekateri od formatov na prvi pogled delu-jejo kot neobi£ajni za izobraºevalna gradiva, smo privzeli miselnost, da prisotnost virav skladi²£u izobraºevalnih virov zagotavlja, da ima vir nek izobraºevalni pomen in zatoanalizo smiselnosti formatov izpu²£amo.

Vseh gradiv je 2587, od tega jih je najve£ (59,53% od vseh) podanih kot dokumentHTML, 12,17% jih je podanih kot dokument .pdf in 11,71% kot .doc oziroma .docx.Ve£ina gradiv (84,73% od vseh) je imelo zabeleºeno, da so le v slovenskem jeziku odsicer 2211 (85,46% od vseh) v slovenskem jeziku. Drugi najpogostej²i jezik gradiv je bilangle²£ina (14,53% od vseh), ostale kombinacije so bile v manj²ini. Vsa gradiva imajo vmetapodatkih vsaj nabor slovenskih in angle²kih klju£nih besed.

Podobno analizo po kriteriju licence in jezikih gradiva prikazuje tabela 5.2. Razvidno

Page 114: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.4 Vzorci gradiv 89

licenca ²t. virov sl en it&sl la&sl de&slCC non-commercial share alike 2.5 129 64 65 0 0 0CC non-commercial share alike 3.0 57 57 0 0 0 0CC share alike unported 3.0 6 3 3 0 0 0brez podatka/licence 2395 2068 308 17 1 1skupaj 2587 2192 376 17 1 1

Tabela 5.2: Statistika primarnega vzorca gradiv, po licenci in jeziku gradiva

je, da ve£ina (92,23% od vseh) nima podatkov o omejitvah uporabe, spreminjanja inraz²irjanja gradiva, iz £esar lahko sklepamo, da so gradiva morda v javni lasti (angl. publicdomain), licen£ni pogoji so podani v samem gradivu ali pa so podani kje drugje v skladi²£u.

Gradiva so bila klasi�cirana na 111 moºnih kombinacij podro£ij gradiv. Za ilustracijote porazdelitve, izsek analize po tem kriteriju in jeziku gradiva podaja tabela 5.3.

podro£je ²t. virov sl en it&sl la&sl de&slbiologija 20 20 0 0 0 0druºba 32 32 0 0 0 0druºba&geogra�ja 1 1 0 0 0 0elektrika 64 30 34 0 0 0glasba&besedilo pesmi&vokalna glasba 162 143 1 16 1 1mehanika (�zika) 809 562 247 0 0 0ra£unalnik&ra£unalni²ka aplikacija 28 15 13 0 0 0termodinamika 70 55 15 0 0 0

Tabela 5.3: Izsek statistike primarnega vzorca gradiv, po podro£ju in jeziku gradiva

Kot ºe zapisano, smo iz gradiv izlo£ili vsa gradiva v datotekah zelo majhne velikosti.Analiza velikosti slovenskih gradiv primarnega vzorca je podana v tabeli 5.4. Velikostigradiv so podane v KB, razdeljene na tri dele: velikosti originalnih datotek, velikosti da-totek po pretvorbi v tekstovne datoteke z orodjem Tika in po avtomatiziranem £i²£enjuteh datotek (TikaC). Koli£ina originalnih gradiv po velikosti zna²a 698,0 MB, po pretvorbiz orodjem Tika smo dobili 12,9 MB, kar smo po £i²£enju dodatno zmanj²ali na 10,9 MB.Pripadajo£i dokumenti XML z metapodatkovnimi zapisi zasedajo 20,3 MB. Iz podatkovje moºno razbrati, da je orodje Tika datoteke v povpre£ju zmanj²alo na zgolj 1,85% pr-votne velikosti, po £i²£enju pa na le 1,5%. Zaradi presenetljivo majhnih vrednosti dobljenihtekstovnih datotek predvidevamo, da morda originalna gradiva vsebujejo znatne koli£ineinformacij, ki so neuporabne za ekstrakcijo klju£nih besed (t.j. veliko netekstualne infor-macije). Po eksperimentalnih izku²njah z orodjem Tika smo opazili, da v nastalem tekstuvelikokrat vsebujejo tudi tekst iz slik, iz £esar sklepamo, da orodje Tika poskusi pridobiti£im ve£ teksta iz prvotnega dokumenta.

Ker nas zanima predvsem u£inkovitost ekstrakcije klju£nih besed, smo naredili tudianalizo slovenskih klju£nih besed, ki so jih podali avtorji slovenskih gradiv. V nadaljevanjupodajamo statistiko ²tevila klju£nih besed v virih, ²tevila besed v klju£nih besedah in ²tevilaznakov v besedah. �tevilo klju£nih besed pri evalvaciji vpliva na priklic, f-mero, ²tevilo besed

Page 115: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

90 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

formatoriginal Tika TikaC

avg σ max avg σ max avg σ max

app/force-download 220,00 0 220,00 0,46 0 0,46 0,42 0 0,42app/msword 419,22 1339,42 8147 3,02 4,57 32,44 2,51 4,18 31,34app/octet-stream 302,04 902,07 6643,95 2,41 2,28 15,90 1,70 1,86 14,10app/pdf 183,05 313,38 4141,81 2,86 4,62 70,90 2,47 3,45 45,43app/vnd.ms-excel 131,08 3,80 138,00 1,21 0,08 1,34 0,99 0,09 1,13app/vnd.ms-powerpoint 3638,85 3301,24 10967,50 3,02 2,98 12,18 2,90 2,92 12,00app/vnd.oasis.opendoc.pres 679,21 478,27 1157,49 3,32 0,93 4,25 2,89 0,90 3,79app/x-zip-compressed 1220,52 1507,21 5298,14 10,53 12,95 37,66 8,81 10,36 32,32app/zip 683,59 731,00 1902,42 23,15 30,17 75,26 19,70 26,02 64,52imsccv1p0 1199,07 1457,20 6323,46 99,85 62,74 298,06 85,74 53,95 251,68scormv1p2 1977,95 2462,33 9349,81 54,77 54,47 222,81 43,97 45,72 185,23scormv2004 1580,20 1574,28 6070,30 57,36 63,43 234,95 49,69 54,90 210,57text/html 6,53 6,93 133,85 1,14 0,85 9,13 1,01 0,78 5,81text/plain 23,85 0 23,85 4,84 0 4,84 4,23 0 4,23text/xml 10,61 5,89 16,50 1,74 0,32 2,06 1,68 0,33 2,01

skupaj 323,30 1191,17 10967,50 5,96 22,76 298,06 5,07 19,40 251,68

Tabela 5.4: Statistika primarnega vzorca gradiv, po velikosti datotek v KB

na ekstrakcijo in nakazuje optimalnost klju£nih besed (z manj besedami zapisano bistvo),medtem ko informacijo o ²tevilu znakov lahko koristimo pri kriterijih ujemanja in korenjenjubesed. Tabela 5.5 prikazuje analizo ²tevila vseh klju£nih besed, koliko avtorskih klju£nihbesed se je pojavilo v gradivu in ²tevila klju£nih besed na vir, pri £emer KBvsi ozna£uje

format ²t. virov KBvsi KBavt KBavg KBσ KBmaxapp/force-download 1 4 2 4,00 0 4app/msword 303 1135 335 3,75 0,90 9app/octet-stream 124 458 151 3,69 0,78 6app/pdf 329 1235 298 3,75 0,73 6app/vnd.ms-excel 6 19 4 3,17 0,37 4app/vnd.ms-powerpoint 76 307 119 4,04 0,83 6app/vnd.oasis.opendoc.pres 2 7 3 3,50 0,50 4app/x-zip-compressed 11 42 20 3,82 1,03 6app/zip 4 14 6 3,50 0,50 4imsccv1p0 55 240 135 4,36 1,08 10scormv1p2 42 181 81 4,31 1,16 10scormv2004 24 104 77 4,33 0,75 5text/html 1231 5093 1214 4,14 1,56 12text/plain 1 3 1 3,00 0 3text/xml 2 8 3 4,00 0 4skupaj 2211 8850 2449 3,82 1,31 12

Tabela 5.5: Statistika primarnega vzorca gradiv, po formatu in ²tevilu klju£nih besed gradiv

²tevilo vseh klju£nih besed, KBavt koliko avtorskih klju£nih besed je bilo v gradivih, KBavgpovpre£no ²tevilo klju£nih besed na vir, KBσ standardni odklon ²tevila klju£nih besed na vir

Page 116: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.4 Vzorci gradiv 91

in KBmax maksimalno ²tevilo klju£nih besed v virih. Dodatno tabela 5.6 prikazuje statistikopo ²tevilu besed v klju£nih besedah in ²tevilu znakov v besedah klju£nih besed, glede naformat gradiva, pri £emer BKBavg ozna£uje povpre£no ²tevilo besed v klju£nih besedah,

format BKBavg BKBσ BKBmax ZKBavg ZKBσ ZKBmaxapp/force-download 1,00 0 1 5,75 1,92 9app/msword 1,16 0,43 5 7,16 2,53 15app/octet-stream 1,18 0,41 3 7,62 2,70 15app/pdf 1,13 0,35 3 7,40 2,39 14app/vnd.ms-excel 1,32 0,46 2 8,64 2,26 12app/vnd.ms-powerpoint 1,2 0,47 3 6,96 2,54 13app/vnd.oasis.opendoc.pres 1,00 0 1 7,86 1,36 11app/x-zip-compressed 1,26 0,44 2 6,51 2,45 12app/zip 1,14 0,35 2 6,50 2,40 11imsccv1p0 1,35 0,53 3 8,15 3,10 16scormv1p2 1,30 0,48 3 8,21 2,95 14scormv2004 1,37 0,56 3 8,12 3,09 16text/html 1,39 0,53 4 6,64 2,39 20text/plain 1,00 0 1 10,67 3,68 15text/xml 1,38 0,48 2 6,09 1,93 8skupaj 1,3 0,50 5 6,94 2,51 20

Tabela 5.6: Statistika primarnega vzorca gradiv, po formatu, ²tevilu besed in ²tevilu znakov vbesedah klju£nih besed gradiv

BKBσ standardni odklon ²tevila besed v klju£nih besedah, BKBmax maksimalno ²tevilobesed v klju£nih besedah, ZKBavg povpre£no ²tevilo znakov v besedah klju£nih besed,ZKBσ standardni odklon ²tevila znakov v besedah klju£nih besed in ZKBmax maksimalno²tevilo znakov v besedah klju£nih besed.

Kot je moºno razbrati iz tabele, je povpre£no ²tevilo klju£nih besed na vir nekoliko pod4 (3,82), medtem ko ima eden od virov v formatu HTML celo 12 klju£nih besed. Kljubmaksimalno 5 besed v klju£nih besedah, so avtorji pisali klju£ne besede s povpre£no 1,3besedami. Pri tem je najdalj²a beseda imela 20 znakov, v povpre£ju so bile besede dolºine6,94 znakov. Vseh klju£nih besed je bilo 8850, od teh je bilo unikatnih klju£nih besed 1678,podane so v prilogi A. Kot je razvidno iz tabele 5.5, so avtorji zapisali le 2449 (27,67%)klju£nih besed, ki so se nahajale tudi v virih, kar je prav tako presenetljivo (v [9] poro£ajoo 75%) in rezultate u£inkovitosti vnaprej omejuje (zmanj²uje).

Podobno statistiko klju£nih besed po jeziku gradiv, vendar z vsemi izobraºevalnimigradivi) prikazujeta tabeli 5.7 in 5.8. Za angle²ka gradiva avtorji navajajo ve£ slovenskihklju£nih besed, vendar v povpre£ju manj kot 5. Za tujejezi£na gradiva (italijan²£ina, la-tin²£ina in nem²£ina) ugotavljamo (ob majhnem ²tevilu virov), da avtorji navajajo znatnove£ klju£nih besed, £eprav je bilo najve£ klju£nih besed podano pri slovenskem gradivu inprav tako tudi najdalj²a klju£na beseda.

Page 117: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

92 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

jezik ²t. virov KBavg KBσ KBmaxsl 2192 3,98 1,29 12en 376 4,55 0,80 10it&sl 17 6,35 0,76 8la&sl 1 8,00 0 8de&sl 1 8,00 0 8skupaj 2587 4,08 1,26 12

Tabela 5.7: Statistika primarnega vzorca gradiv, po jeziku in ²tevilu klju£nih besed gradiv

jezik BKBavg BKBσ BKBmax ZKBavg ZKBσ ZKBmaxsl 1,30 0,27 5 7,14 1,32 19en 1,36 0,21 4 7,20 1,06 15it&sl 1,33 0,05 2 4,78 0,14 7la&sl 1,25 - 2 6,10 0 9de&sl 1,25 - 2 6,20 0 9skupaj 1,31 0,26 5 7,13 1,26 19

Tabela 5.8: Statistika primarnega vzorca gradiv, po jeziku, ²tevilu besed in ²tevilu znakov vbesedah klju£nih besed gradiv

Zanimalo nas je tudi ali ²tevilo klju£nih besed vpliva na ²tevilo besed in znakov v klju£nihbesedah, t.j. ali se morda avtorji odlo£ijo za ve£je ²tevilo klju£nih besed, da lahko zapi²ejokraj²e klju£ne besede (t.j. z manj besedami). Rezultat te analize, za vse izobraºevalnevire, prikazujeta tabela 5.9 in graf na sliki 5.9. Iz tabele in slike je razviden padec mak-

²t. klj. bes. ²t. virov BKBavg BKBσ BKBmax ZKBavg ZKBσ ZKBmax3 963 1,33 0,29 4 7,40 1,33 194 918 1,30 0,26 5 7,18 1,12 165 490 1,30 0,23 4 7,26 1,10 166 127 1,31 0,14 3 5,25 0,88 138 53 1,29 0,14 2 5,26 0,64 119 1 1,33 0 3 7,17 0 1310 33 1,30 0,12 2 6,12 0,79 1412 2 1,33 0 2 5,88 0,01 11

skupaj 2587 1,31 0,26 5 7,13 1,26 19

Tabela 5.9: Statistika primarnega vzorca gradiv, po ²tevilu klju£nih besed gradiv

simalnega ²tevila besed v klju£nih besedah in manj²anje povpre£nega ²tevila znakov termaksimalnega ²tevila znakov v besedah klju£nih besed, medtem ko povpre£no ²tevilo besedostaja primerljivo. Ve£ina avtorjev (91,65% od vseh) poskusi gradiva opisati z najve£ 5klju£nimi besedami. Za trdnej²e sklepanje iz tega bi bila potrebna podrobnej²a analiza.

Page 118: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.4 Vzorci gradiv 93

Slika 5.9: �tevilo besed in znakov klju£nih besed primarnega vzorca gradiv glede na ²tevilo klju£nihbesed gradiv

Dodatni vzorec slovenskih prispevkovV raziskavah na podro£ju ekstrakcije metapodatkov zasledimo predvsem dva tipa virov:spletne strani in znanstveno-raziskovalni prispevki. Da bomo laºje preverili u£inkovitostin uporabnost ekstrakcije klju£nih besed iz primarnega vzorca ter laºje odgovorili na za-stavljena raziskovalna vpra²anja, smo za sekundarni vzorec pripravili nabor slovenskihznanstveno-raziskovalnih prispevkov. Viri v tak²nih prispevkih imajo napram izobraºe-valnim gradivom v kontekstu algoritmov za ekstrakcijo klju£nih besed, vi²je strukturiranozgradbo in vsebujejo ve£ smiselno povezanega teksta.

V zbornikih ²tirih konferenc Splet izobraºevanja in raziskovanja z IKT (Kranjska Gora)in konference Moodle.si (Koper) smo izbrali prispevke v slovenskem jeziku s polnim be-sedilom. Prispevke z zgolj povzetki in v tujem jeziku smo zavrgli. Statistiko ²tevilaklju£nih besed dodatnega vzorca gradiv za vsako konferenco prikazuje tabela 5.10. Gradiva

konferenca ²t. virov KBvsi KBavt KBavg KBσ KBmaxMoodleSi2007 19 93 87 4,89 1,17 7SIRikt2008 102 518 499 5,08 2,73 18SIRikt2009 114 685 649 6,01 4,16 27SIRikt2010 77 442 430 5,74 3,42 24SIRikt2011 159 689 664 4,33 1,47 14skupaj 471 2427 2329 5,15 2,99 27

Tabela 5.10: Statistika dodatnega vzorca virov, po konferenci in ²tevilu klju£nih besed

smo lo£ili po konferencah, ker vsaka predpisuje svojo strukturo (obliko prispevka, ²tevilopovzetkov, dolºino povzetkov, skupno dolºino prispevka, na£in citiranja, itn.). Ne gledena isti naziv konference, se prej omenjena struktura z leti spreminja.

Statistiko ²tevila besed in ²tevila znakov v besedah klju£nih besed prikazuje tabela 5.11.Napram primarnemu vzorcu gradiv je povpre£no ²tevilo klju£nih besed ve£je in bliºje obi£aj-

Page 119: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

94 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

konferenca BKBavg BKBσ BKBmax ZKBavg ZKBσ ZKBmaxMoodleSi2007 1,68 0,88 5 7,89 3,53 16SIRikt2008 1,78 1,11 9 8,13 3,70 28SIRikt2009 1,78 1,04 8 7,85 3,35 28SIRikt2010 1,77 0,94 8 8,02 3,57 28SIRikt2011 1,69 0,82 6 8,03 3,39 32skupaj 1,75 0,97 9 7,99 3,49 32

Tabela 5.11: Statistika dodatnega vzorca virov, po konferenci, ²tevilu besed in znakov besedklju£nih besed

nemu ²tevilu 5. Presenetljivo je maksimalno ²tevilo klju£nih besed mnogo ve£je, najve£jecelo 27. Prav tako je ve£je povpre£no in maksimalno ²tevilo znakov, celo 31. Podrobenpregled gradiv je pokazal, da ve£je ²tevilo znakov dosegajo besede, pisane s pomi²ljajem(zaradi teºjega avtomatiziranega razlo£evanja ²tevila besed, kot sta na primer �e-gradivo�in �informacijsko-komunikacijska�, se oba primera obravnavata kakor ena beseda). Kot jerazvidno iz tabele, avtorji zapi²ejo ve£ klju£nih besed (kar 95,96% od vseh zapisanih), kise tudi dejansko pojavijo v tekstu. Morda lahko to dejstvo pripi²emo temu, da so avtorjibolj disciplinirani glede izbire klju£nih besed in da gradiva vsebujejo ve£jo koli£ino teksta, kiobi£ajno v povzetku, uvodu ali v teoreti£nem delu obravnava podro£je, opisano s klju£nimibesedami. Vsekakor tako podane klju£ne besede znatno manj vplivajo na u£inkovitostekstrakcije.

Podobno statistiko glede na ²tevilo klju£nih besed, kakor pri primarnem vzorcu, poda-jamo v tabeli 5.12 in graf povpre£nega in maksimalnega ²tevila besed klju£nih besed in

²t. klj. bes. ²t. virov BKBavg BKBσ BKBmax ZKBavg ZKBσ ZKBmax1 2 3,00 1,00 4 6.33 3.04 122 16 1,75 0,87 4 7.82 3.21 153 84 2,13 1,33 9 7.41 3.42 164 136 1,78 0,94 8 8.11 3.61 285 123 1,71 0,86 6 8.27 3.67 326 45 1,70 0,90 5 8.06 3.64 227 12 1,82 1,26 8 7.24 3.34 178 12 1,81 1,13 7 8.48 3.5 209 3 1,81 1,06 6 8.63 3.69 1710 16 1,64 0,90 8 7.71 3.08 1411 2 1,23 0,52 3 7.41 3.11 1212 7 1,45 0,73 6 8.39 3.04 1514 4 1,77 0,91 5 7.98 2.9 1418 4 1,76 0,82 4 7.97 3.45 2419 2 1,32 0,46 2 7.28 2.7 1222 1 1,32 0,47 2 8.83 2.97 1424 1 1,67 0,62 3 8.68 2.64 1427 1 1,59 0,56 3 6.21 2.23 11

skupaj 471 1,75 0,97 9 7,99 3,49 32

Tabela 5.12: Statistika dodatnega vzorca gradiv, po ²tevilu klju£nih besed gradiv

znakov besed klju£nih besed na sliki 5.10. Napram sliki 5.9 lahko vidimo bolj razgiban graf,brez opaznega trenda vpliva ²tevila klju£nih besed na ²tevilo besed v klju£nih besedah in

Page 120: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.4 Vzorci gradiv 95

Slika 5.10: �tevilo besed in znakov klju£nih besed dodatnega vzorca gradiv glede na ²tevilo klju£nihbesed gradiv

²tevilo znakov v besedah klju£nih besed. Vsekakor izrazit graf maksimalnega ²tevila znakovv besedah klju£nih besed nakazuje, da bo v bodo£e potrebno druga£e upo²tevati zloºenke.

Podobno kot v primarnem vzorcu, smo prispevke pretvorili v preprost tekst z orodjemTika, jih avtomatizirano pre£istili, nato smo podobno naredili tudi z orodjem pdftotext.Tabela 5.13 prikazuje statistiko velikosti datotek, podobno kakor tabela 5.4 primarnegavzorca gradiv. Originalne datoteke so zasedale 174,4 MB, medtem ko pretvorjene od

konferenca original Tika TikaC pdftotext pdftotextCavg σ max avg σ max avg σ max avg σ max avg σ max

MoodleSi2007 465,59 280,59 1118,06 18,94 5,36 29,20 18,56 5,25 28,40 18,65 5,28 28,65 18,55 5,26 28,48SIRikt2008 378,46 260,43 2083,93 11,50 3,22 25,65 11,22 3,15 25,00 11,27 3,15 25,08 11,19 3,14 25,00SIRikt2009 494,30 372,38 3020,66 16,45 4,11 35,99 15,92 4,03 34,75 16,05 4,04 34,92 15,92 4,03 34,74SIRikt2010 361,74 239,39 1299,94 18,48 4,08 35,61 17,74 3,91 28,31 18,17 4,05 35,17 17,59 3,88 28,12SIRikt2011 294,97 197,75 1456,77 14,99 4,72 31,51 14,69 4,53 27,06 14,73 4,63 31,12 14,51 4,47 26,29skupaj 379,10 282,75 3020,66 15,32 4,17 35,99 14,89 4,04 34,75 15,02 4,10 35,17 14,80 4,01 34,74

Tabela 5.13: Statistika dodatnega vzorca virov, po velikosti datotek v KB

6,8 MB do 7,0 MB. Ponovno lahko po pretvarjanju v tekst opazimo znatno zmanj²anjedatotek, na od 3,90% do 4,01%, kar lahko pripi²emo dejstvu, da tudi prispevki vsebujejoznatno koli£ino netekstualne informacije in strukturnih informacij dokumentov in informacijo oblikovanju vsebine dokumentov.

Po vzoru Hulthove [22], ki je uspe²nost ekstrakcije preverjala le na povzetkih, namestona celotnih besedilih, smo za vse prispevke lo£eno pripravili slovenske povzetke. Ekstrak-cijo bomo evalvirali tudi na povzetkih, medtem ko je to za izobraºevalne vire nemogo£e,ker ti praviloma ne vsebujejo povzetkov, le kratke eno- ali najve£ dvo-stav£ne opise gradiv.Statistiko povzetkov podaja tabela 5.14, pri £emer STavg ozna£uje povpre£no ²tevilo

Page 121: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

96 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

STavg STσ STmax BSTavg BSTsigma ZBSavg ZBSσMoodleSi2007 6,42 2,74 13 18,42 5,93 6,10 0,59SIRikt2008 7,45 3,91 23 19,38 4,83 5,97 0,42SIRikt2009 5,60 2,82 17 19,68 6,51 6,05 0,50SIRikt2010 6,97 3,06 14 20,36 4,76 6,10 0,45SIRikt2011 6,74 2,71 14 20,45 6,62 5,98 0,43skupaj 6,64 3,05 23 19,94 5,87 6,02 0,45

Tabela 5.14: Statistika povzetkov dodatnega vzorca virov, ²tevilo stavkov, besed v stavkih inznakov v besedah

stavkov povzetkov, STσ standardni odklon ²tevila stavkov povzetkov, STmax maksimalno²tevilo stavkov v povzetkih, BSTavg povpre£no ²tevilo besed v stavku, BSTσ standardniodklon ²tevila besed v stavku, ZBSavg povpre£no ²tevilo znakov v besedah in ZBSσ stan-dardni odklon ²tevila znakov v besedah.

Ker je v tabelah 5.4 in 5.13 razvidna znatna sprememba velikosti datotek in ker smo popregledu nekaterih tekstovnih datotek (dobljenih z orodjem Tika in pdftotext) izobraºe-valnih virov opazili neurejenost pretvorjenega teksta, smo izmed prispevkov tega vzorcaza dodatno evalvacijo vpliva pretvornikov dokumentov naklju£no izbrali po dva prispevkaiz vsake konference in ro£no pripravili o£i²£eno verzijo dokumenta. O£i²£ena verzija nevsebuje podatkov, za katere menimo, da predstavljajo redundantno informacijo v kontek-stu ekstrakcije klju£nih besed: podatki avtorjev, povzetki, klju£ne besede, opombe, slikein pripadajo£i teksti, tabele in pripadajo£e slike, formule, citiranja virov, seznam virov inpredstavitev avtorjev ter podatkov o konferenci. Popravljene so bile tudi vse delitve besed(na koncu vrstic) in stavki so bili vedno zapisani v isti vrstici. Dodatno smo naredili tudipreprosti kopiraj & prilepi iz dokumenta PDF v tekstovno datoteko, za katerega pri£aku-jemo, da se bo odrezal slab²e od namenskih pretvornikov teksta. V tabelah 5.15 in 5.16podajamo podrobno statistiko desetih naklju£no izbranih prispevkov. Vsak prispevek jeidenti�ciran z za£etno ²tevilko strani prispevka v pripadajo£em zborniku. Vsi prispevki soimeli na vsaki strani podatke konference, kar v tabeli ni posebej poudarjeno. V tabeli 5.16oznaka k&p ozna£uje tekst, dobljen s kopiraj in prilepi, medtem ko oznaka clean ozna£ujero£no o£i²£en tekst.

Vrednosti v tabeli razkrivajo, da je vzorec po svojih karakteristikah pisan. Vsebujetako kratke, kakor dolge tekste (od 5 do 10 strani), z razli£nim ²tevilom prej omenjenihlastnosti (slike, tabele, formule, itn.), ki jih o£i²£en tekst ve£ ne vsebuje. Predvsem podatkiavtorjev, povzetki, klju£ne besede, viri in predstavitve avtorjev so predstavljali signi�kantnokoli£ino teksta prispevka in kot taki nedvomno vplivajo na proces ekstrakcije. Seznam virovin predstavitev avtorjev (²e posebej evidentno, kjer je bilo ve£ avtorjev prispevka) je vsaklahko predstavljal tudi po pol strani teksta.

Page 122: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.5 Kriteriji ujemanja 97

MoodleSi2007 SIRikt2008 SIRikt2009 SIRikt2010 SIRikt201172 108 337 385 172 421 247 573 331 1059

predstavitev avtorjev X X X X X X X X²t. slik 2 11 0 4 1 1 2 6 5 5²t. tabel 2 1 0 0 0 1 0 0 0 0²t. virov 11 5 6 2 8 6 0 8 13 17²t. citiranj virov 10 5 5 0 2 3 0 0 17 17²t. avtorjev 2 2 2 2 4 1 4 1 3 2²t. opomb 0 0 0 0 0 1 0 0 0 0²t. formul 0 0 0 4 0 0 0 0 0 3²t. delitev besed 0 0 0 0 0 0 34 14 31 32²t. strani 10 10 5 6 7 7 8 7 6 7

²t. klju£nih besed 5 5 3 2 4 5 9 11 5 5BKBavg 1,40 1,40 2,0 1,00 2,50 2,40 1,33 1,50 2,00 1,80BKBσ 0,49 0,49 0,50 0,47 0,00 0,82 0,00 0,49 0,73 0,40BKBmax 2 2 3 1 3 3 2 3 2 2ZKBavg 7,71 7,71 9,33 10,00 9,00 8,42 8,75 7,86 9,60 9,11ZKBσ 3,95 3,73 2,93 3,24 1,36 5,37 0,00 2,75 2,59 2,18ZKBmax 16 13 16 10 14 13 15 13 12 12

²t. znakov povzetekSLO 623 725 753 712 481 587 1434 295 958 797²t. besed povzetekSLO 89 99 102 105 65 82 204 42 133 110²t. znakov povzetekANG - - 719 575 535 572 1618 327 841 899²t. besed povzetekANG - - 103 91 81 79 265 56 118 146

Tabela 5.15: Statistika naklju£no izbranih prispevkov dodatnega vzorca virov, prvi del

MoodleSi2007 SIRikt2008 SIRikt2009 SIRikt2010 SIRikt201172 108 337 385 172 421 247 573 331 1059

²t. znakovT iki 28529 13935 11126 10386 19968 16073 21814 14254 19034 20524²t. znakovpdf totext 27983 13666 10907 10174 19552 15598 21555 14147 18883 20300²t. znakovk&p 27701 13681 10907 10177 19556 15715 21528 14064 18758 20192²t. znakovclean 23371 10332 5778 5884 13438 10539 16127 7498 13140 14288

²t. besedT iki 4341 1972 1543 1675 2952 2339 3229 1983 2693 3027²t. besedpdf totext 4178 1964 1506 1646 2951 2325 3116 1839 2517 2836²t. besedk&p 4047 1968 1506 1647 2952 2325 3154 1852 2534 2869²t. besedclean 3393 1445 792 964 1994 8936 2307 1062 1800 1988

²t. vrsticT iki 732 333 217 228 370 306 390 365 410 442²t. vrsticpdf totext 705 389 194 222 346 459 358 262 265 330²t. vrstick&p 459 291 170 180 312 280 306 215 230 278²t. vrsticclean 303 192 131 83 202 168 329 121 177 192

Tabela 5.16: Statistika naklju£no izbranih prispevkov dodatnega vzorca virov, drugi del

5.5 Kriteriji ujemanja

Kot je bilo poudarjeno v podpoglavju 4.3, se pri ra£unanju u£inkovitosti ekstrakcije klju£nihbesed medsebojno primerjajo avtorske in strojno generirane klju£ne besede. Pri tem jepomembno, kako in katere besede prepoznamo kot ekvivalentne. Eden od pristopov jekorenjenje, vendar uporabljena orodja v nadaljevanju le-tega za slovenski jezik ne vsebujejo.

Page 123: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

98 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Neodvisen od jezika je pristop z n-rezanjem, predstavljen v podpoglavju 4.4. Primereujemanj z 4-, 5- in 6-rezanjem prikazujejo tabele 5.17, 5.18 in 5.19. Manj²a kot je vred-

aktivnobrem

eaktivnost

arhitektura

arhitekturara£unalnika

elektrika

elektri£ninaboj

elektri£no

nihalo

elektron

elektroskop

elektrostatika

kvader

kvadrant

kvadrat

lo£evanje

lo£ila

lo£ilo

aktivno breme Xaktivnost Xarhitektura Xarhitektura ra£unalnika Xelektrika X X X Xelektri£ni naboj Xelektri£no nihalo Xelektron X X X Xelektroskop X X X Xelektrostatika X X X Xkvader X X Xkvadrant X X Xkvadrat X X Xlo£evanje X X Xlo£ila X X Xlo£ilo X X X

Tabela 5.17: Primer ujemanja klju£nih besed s 4-rezanjem

aktivnobrem

eaktivnost

arhitektura

arhitekturara£unalnika

elektrika

elektri£ninaboj

elektri£no

nihalo

elektron

elektroskop

elektrostatika

kvader

kvadrant

kvadrat

lo£evanje

lo£ila

lo£ilo

aktivno breme Xaktivnost Xarhitektura Xarhitektura ra£unalnika Xelektrika X X X Xelektri£ni naboj Xelektri£no nihalo Xelektron X X X Xelektroskop X X X Xelektrostatika X X X Xkvader Xkvadrant X Xkvadrat X Xlo£evanje Xlo£ila X Xlo£ilo X X

Tabela 5.18: Primer ujemanja klju£nih besed s 5-rezanjem

nost n pri rezanju, ve£je je ujemanje.

Ker ujemanje temelji na podobnosti in smo u£inkovitost le-tega preverili s skriptami,zapisanimi v programskem jeziku PHP, smo eksperimentalno uvedli ²e tri funkcije, ki jihponuja PHP: soundex, metaphone in similar_text. Medtem ko prvi dve kot rezultat vrnetaniz in smo ju uporabili za vsako besedo podane klju£ne besede, vrne funkcija similar_text

Page 124: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.5 Kriteriji ujemanja 99

aktivnobrem

eaktivnost

arhitektura

arhitekturara£unalnika

elektrika

elektri£ninaboj

elektri£no

nihalo

elektron

elektroskop

elektrostatika

kvader

kvadrant

kvadrat

lo£evanje

lo£ila

lo£ilo

aktivno breme Xaktivnost Xarhitektura Xarhitektura ra£unalnika Xelektrika X X X Xelektri£ni naboj Xelektri£no nihalo Xelektron X X X Xelektroskop X X X Xelektrostatika X X X Xkvader Xkvadrant X Xkvadrat X Xlo£evanje Xlo£ila X Xlo£ilo X X

Tabela 5.19: Primer ujemanja klju£nih besed s 6-rezanjem

bajka

bas

base

bog

elektrika

elektrom

eter

elektron

elektroskop

elektrostatika

plaz

plen

ples

plima

plin

plju£a

plo²£ina

bajka X X X Xbas X X X Xbase X X X Xbog X X X Xelektrika X X X X Xelektrometer X X X X Xelektron X X X X Xelektroskop X X X X Xelektrostatika X X X X Xplaz X X Xplen X X X Xples X X Xplima X X X Xplin X X X Xplju£a X X Xplo²£ina X X X X

Tabela 5.20: Primer ujemanja klju£nih besed s soundex

celica

cello

rak

reka

roka

senca

sila

slika

slog

sluh

sneg

sol

solo

zanka

zenica

zlog

celica X X X Xcello X X X X Xrak X X Xreka X X Xroka X X Xsenca X X X Xsila X X X X Xslika X X X Xslog X X X Xsluh X X X X Xsneg X X X Xsol X X X X Xsolo X X X X Xzanka X X X Xzenica X X X Xzlog X X X X

Tabela 5.21: Primer ujemanja klju£nih besed z metaphone

Page 125: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

100 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

delovanje

dvom

estno²tevilo

elektri£ninaboj

elektri£no

nihalo

faznahitrost

iskanje

kotnahitrost

petm

estno²tevilo

pisanje

plavanje

risanje

sevanje

trajanje

trom

estno²tevilo

urejanje

valovanje

delovanje X X X Xdvomestno ²tevilo X X Xelektri£ni naboj X Xelektri£no nihalo X Xfazna hitrost X Xiskanje X X X Xkotna hitrost X Xpetmestno ²tevilo X X Xpisanje X X X X Xplavanje X X X X X Xrisanje X X X X X Xsevanje X X X X X X X Xtrajanje X X X Xtromestno ²tevilo X X Xurejanje X X X Xvalovanje X X X X

Tabela 5.22: Primer ujemanja klju£nih besed s similar_text 60

delovanje

dvom

estno²tevilo

elektri£ninaboj

elektri£no

nihalo

faznahitrost

iskanje

kotnahitrost

petm

estno²tevilo

pisanje

plavanje

risanje

sevanje

trajanje

trom

estno²tevilo

urejanje

valovanje

delovanje X X X Xdvomestno ²tevilo X X Xelektri£ni naboj X Xelektri£no nihalo X Xfazna hitrost X Xiskanje X X X Xkotna hitrost X Xpetmestno ²tevilo X X Xpisanje X X X Xplavanje X X Xrisanje X X X Xsevanje X X X X Xtrajanje X Xtromestno ²tevilo X X Xurejanje X Xvalovanje X X X

Tabela 5.23: Primer ujemanja klju£nih besed s similar_text 70

celo²tevil£no vrednost, ki ponazarja odstotek podobnosti. Primere ujemanj s pravkar za-pisanimi funkcijami prikazujejo tabele 5.20, 5.21, 5.22, 5.23 in 5.24. Vrednosti 60, 70in 80 pri funkciji similar_text dolo£ajo minimalni odstotek podobnosti, da sta dve klju£nibesedi prepoznani kot ujemajo£i.

Celotno ²tevilo ujemanj vseh klju£nih besed (druga z drugo) iz primarnega vzorca virovprikazuje tabela 5.25. �e se klju£na beseda kb1 ujema s klju£no besedo kb2 to predstavljaeno ujemanje, in £e se kb2 ujema s kb1, to predstavlja drugo ujemanje. Za tak prikazsmo se odlo£ili, ker je nenavadno ²tevilo ujemanj pri funkciji similar_text 80 pokazalo, da

Page 126: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 101

delovanje

dvom

estno²tevilo

elektri£ninaboj

elektri£no

nihalo

faznahitrost

iskanje

kotnahitrost

petm

estno²tevilo

pisanje

plavanje

risanje

sevanje

trajanje

trom

estno²tevilo

urejanje

valovanje

delovanje Xdvomestno ²tevilo X X Xelektri£ni naboj X Xelektri£no nihalo X Xfazna hitrost Xiskanje X X Xkotna hitrost Xpetmestno ²tevilo X X Xpisanje X X Xplavanje Xrisanje X X Xsevanje Xtrajanje Xtromestno ²tevilo X X Xurejanje Xvalovanje X

Tabela 5.24: Primer ujemanja klju£nih besed s similar_text 80

kriterij ²t. ujemanj4-rezanje 4865-rezanje 1826-rezanje 84soundex 822metaphone 310similar_text 60 11166similar_text 70 2316similar_text 80 485

Tabela 5.25: �tevilo ujemanj klju£nih besed z razli£nimi kriteriji ujemanj

je pomemben vrstni red podanih klju£nih besed. Izkazalo se je namre£:

similar_text 80("koordinatno izhodi²£e","koordinatna os") = 59, 46%

similar_text 80("koordinatna os","koordinatno izhodi²£e") = 64, 86%

Najbolj se natan£nemu ujemanju pribliºata 6-rezanje in 5-rezanje in najmanj funkciji simi-lar_text 60 in similar_text 70. S funkcijo 7-rezanje bi v primerjavi z drugimi v tabeli 5.25imeli le 48 ujemanj in s funkcijo similar_text 90 le 62 ujemanj. Natan£nej²a analiza, vkateri bi upo²tevali tudi sopomenke, nadpomenke, druga£e zapisane iste klju£ne besede,tipkarske napake itn. bi pokazala bolj realno primerjavo. Poudarimo na tem mestu, da jefunkcija metaphone prvotno razvita izklju£no za angle²ke besede. V nadaljevanju bomofunkcije similar_text v tabelah in slikah pisali kot similar60, similar70 in similar80.

5.6 Eksperiment 1

Kot smo zapisali v podpoglavju 5.3, smo prvi eksperiment izvedli v petih korakih. V prvemsmo poiskali optimalne parametre orodja Kea na primarnem vzorcu gradiv, ki smo jih nato

Page 127: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

102 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

uporabili v preostalih ²tirih korakih. Od teh je bil drugi korak ekstrakcija klju£nih besed naprimarnem vzorcu slovenskih gradiv (2211 gradiv), tretji korak ekstrakcija klju£nih besedna primarnem vzorcu angle²kih gradiv (376), £etrti korak ekstrakcija na dodatnem vzorcugradiv (471 prispevkov) in peti korak na naklju£ni mnoºici dodatnega vzorca gradiv (10prispevkov).

5.6.1 Optimalni parametri orodja Kea

Orodje Kea omogo£a uporabo naslednjih parametrov:

• ²tevilo izhodnih klju£nih besed (NKB): po vzoru literature smo izbrali 5, 10 in 15;

• uporaba globalne frekvence klju£nih besed (GFR): izbrali smo obe moºni vrednosti(uporaba=1, neuporaba=0);

• najve£je ²tevilo besed v klju£ni besedi (MAX): glede na predhodno analizo gradiv,smo izbrali 4 in 5;

• najmanj²e ²tevilo pojavitev klju£ne besede (PKB): izbrali smo 1 in 2;

• najmaj²e ²tevilo besed v klju£ni besedi (MIN): izbrali smo 1;

• uporaba lastnih imen (LIM): izbrali smo obe moºni vrednosti (uporaba=1, neu-poraba=0);

• na£in korenjenja: izbrali smo opcijo NoStemmer (brez korenjenja), ker korenjenja zaslovenski jezik ne podpira;

• besednjak stop besed: izbrali smo NoStopWords (brez stop besed), ker orodje nepodpira stop besed slovenskega jezika.

Od na²tetih parametrov se GFR in MAX uporabljata pri strojnem u£enju in NKB le priekstrakciji klju£nih besed. Poudarimo na tem mestu, da je seznam parametrov trenutnodostopnega orodja dopolnjen napram prvotnemu seznamu iz leta 1999 [13, 53].

Skupaj bomo preverili razli£ne vrednosti petih parametrov: NKB (5, 10, 15), GFR (0,1), MAX (4, 5), PKB (1, 2) in LIM (0, 1), t.j. 48 moºnih kombinacij parametrov. Ker jeu£inkovitost strojnega u£enja odvisna od kvalitete in velikosti u£ne mnoºice, smo za vsakood vnaprej de�niranih velikosti u£ne mnoºice, izbrali 5 naklju£no izbranih u£nih mnoºic,preostale dokumente pa uporabili za evalvacijo. Z naklju£nimi mnoºicami se ºelimo £imbolj pribliºati temu, da mora biti u£na mnoºica £im bolj reprezentativna. Izbrane velikostiu£nih mnoºic so 10, 20, 30, 40, 50, 60, 70, 80, 90 in 100 dokumentov. Iz zapisanegasledi, da smo orodje Kea uporabili 2.400 krat, uporabili smo dva ra£unalnika s procesorjemi7 2600K in 16GB delovnega pomnilnika. Zaradi znatne koli£ine zagonov orodja bomoza evalvacijo uporabili le natan£no ujemanje, s £imer bo iskanje optimalnih parametrovpodvrºeno izklju£no delovanju orodja in ne tudi na£inu izra£una ocene evalvacije.

Za ilustracijo podajmo nekaj primerov ekstrakcije klju£nih besed iz istega izobraºeval-nega vira, v odvisnosti od izbranih parametrov, velikosti u£ne mnoºice, naklju£nega primerau£ne mnoºice in ²tevila iskanih klju£nih besed:

Page 128: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 103

• NKB = 5, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=30:nadzirajo razli£ne, nadzirajo, moºganov, razli£ne dele, dele telesa

• NKB = 5, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=100:nadzirajo, razli£ne, nadzirajo razli£ne, razli£ne dele, moºganov

• NKB = 5, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=100(druga£na mnoºica):nadzirajo, nadzirajo razli£ne, moºganov, zaznavati, misliti

• NKB = 5, GFR = 0,MAX = 5, PKB = 1, LIM = 0, velikost u£ne mnoºice=100:moºganov nadzirajo, dele, deli, telesa

• NKB = 10, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=30:nadzirajo razli£ne, nadzirajo, moºganov, razli£ne dele, dele telesa, telesa razli£ni,razli£ni deli, deli moºganov, nam zaznavati, zaznavati

• NKB = 10, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=100:nadzirajo, razli£ne, nadzirajo razli£ne, razli£ne dele, moºganov, zaznavati, misliti,£ustvovati, pomniti, ºiv£evje

• NKB = 15, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=30:nadzirajo razli£ne, nadzirajo, moºganov, razli£ne dele, dele telesa, telesa razli£ni,razli£ni deli, deli moºganov, nam zaznavati, zaznavati, misliti, £ustvovati in pomniti,£ustvovati, pomniti, moºgani

• NKB = 15, GFR = 0,MAX = 4, PKB = 1, LIM = 0, velikost u£ne mnoºice=100:nadzirajo, razli£ne, nadzirajo razli£ne, razli£ne dele, moºganov, zaznavati, misliti,£ustvovati, pomniti, ºiv£evje, usklajeno, nadzira, dihanje, bitje, ºivci

Iz primerov je lepo razvidno, da ve£je ²tevilo klju£nih besed pri istih parametrih in u£nimnoºici, dodaja klju£ne besede v seznam. Prav tako se vidi vpliv druga£ne mnoºice priisti velikosti in druga£nih parametrih. Kljub parametru, ki dovoljuje ve£je ²tevilo besed vklju£nih besedah, je orodje generiralo klju£ne besede z najve£ dvema besedama.

V tabelah C.1-C.4 v prilogi C podajamo rezultate povpre£nih vrednosti natan£nosti(nat), priklica (pri) in f-mere (f-1) za razli£ne velikosti u£nih mnoºic, vrednosti so izraºenev odstotkih (enako velja v nadaljevanju magistrskega dela). Podobno v tabelah 5.26-5.29 podajamo rezultate maksimalnih vrednosti. Zaradi obseºnosti tabel smo vrednostistandardnih odklonov izpustili. Dodatno tabela C.4 prikazuje tudi povpre£je vseh vrednostiin tabela 5.29 pri kateri velikosti u£ne mnoºice so bile doseºene maksimalne vrednostinatan£nosti, priklica in f-mere. Najbolj²i rezultati za razli£na ²tevila klju£nih besed soprikazani poudarjeno. Iz zadnje tabele je tako razvidno, da so najbolj optimalne vrednostiparametrov za 5, 10 ali 15 klju£nih besed vedno GFR = 1, MAX = 4, PKB = 1 inLIM = (0, 1). Velikost u£ne mnoºice pri najbolj²ih rezultatih so 100 pri 5 in 15 klju£nihbesedah ter 90 pri 10 klju£nih besedah, po pri£akovanju pa se rezultat slab²a z ve£jim²tevilom klju£nih besed.

Page 129: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

104 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

10 (max) 20 (max) 30 (max)NKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,51 5,82 5,00 4,86 6,27 5,39 5,03 6,52 5,595 0 4 1 1 4,51 5,82 5,00 4,86 6,27 5,39 5,03 6,52 5,595 0 4 2 0 4,27 5,35 4,65 4,69 5,94 5,13 4,34 5,40 4,715 0 4 2 1 4,27 5,35 4,65 4,69 5,94 5,13 4,34 5,40 4,715 0 5 1 0 4,48 5,79 4,97 4,85 6,26 5,38 5,05 6,54 5,615 0 5 1 1 4,48 5,79 4,97 4,85 6,26 5,38 5,05 6,54 5,615 0 5 2 0 4,24 5,32 4,62 4,68 5,94 5,13 4,34 5,40 4,715 0 5 2 1 4,24 5,32 4,62 4,68 5,94 5,13 4,34 5,40 4,715 1 4 1 0 4,51 5,82 5,00 8,73 9,87 8,99 10,46 11,57 10,635 1 4 1 1 4,51 5,82 5,00 8,73 9,87 8,99 10,46 11,57 10,635 1 4 2 0 4,27 5,35 4,65 4,69 5,94 5,13 5,73 7,28 6,285 1 4 2 1 4,27 5,35 4,65 4,69 5,94 5,13 5,73 7,28 6,285 1 5 1 0 4,48 5,79 4,97 8,73 9,87 8,99 10,48 11,56 10,635 1 5 1 1 4,48 5,79 4,97 8,73 9,87 8,99 10,48 11,56 10,635 1 5 2 0 4,24 5,32 4,62 4,68 5,94 5,13 5,70 7,24 6,255 1 5 2 1 4,24 5,32 4,62 4,68 5,94 5,13 5,70 7,24 6,25

10 0 4 1 0 3,59 9,18 5,09 3,58 8,79 4,98 3,90 9,45 5,3310 0 4 1 1 3,59 9,18 5,09 3,58 8,79 4,98 3,90 9,45 5,3310 0 4 2 0 3,45 8,28 4,73 3,39 8,13 4,64 3,43 8,13 4,6710 0 4 2 1 3,45 8,28 4,73 3,39 8,13 4,64 3,43 8,13 4,6710 0 5 1 0 3,56 9,12 5,05 3,57 9,17 5,07 3,94 9,43 5,4010 0 5 1 1 3,56 9,12 5,05 3,57 9,17 5,07 3,94 9,43 5,4010 0 5 2 0 3,42 8,23 4,69 3,37 8,11 4,62 3,39 8,08 4,6310 0 5 2 1 3,42 8,23 4,69 3,37 8,11 4,62 3,39 8,08 4,6310 1 4 1 0 3,59 9,18 5,09 5,66 12,96 7,68 6,38 14,44 8,6110 1 4 1 1 3,59 9,18 5,09 5,66 12,96 7,68 6,38 14,44 8,6110 1 4 2 0 3,45 8,28 4,73 3,39 8,13 4,64 3,85 9,36 5,3010 1 4 2 1 3,45 8,28 4,73 3,39 8,13 4,64 3,85 9,36 5,3010 1 5 1 0 3,56 9,12 5,05 5,66 12,94 7,68 6,33 14,24 8,5210 1 5 1 1 3,56 9,12 5,05 5,66 12,94 7,68 6,33 14,24 8,5210 1 5 2 0 3,42 8,23 4,69 3,37 8,11 4,62 3,82 9,31 5,2610 1 5 2 1 3,42 8,23 4,69 3,37 8,11 4,62 3,82 9,31 5,26

15 0 4 1 0 2,91 11,10 4,55 3,06 11,02 4,70 3,31 11,43 5,0015 0 4 1 1 2,91 11,10 4,55 3,06 11,02 4,70 3,31 11,43 5,0015 0 4 2 0 2,90 9,79 4,28 2,87 9,69 4,24 2,87 9,66 4,2415 0 4 2 1 2,90 9,79 4,28 2,87 9,69 4,24 2,87 9,66 4,2415 0 5 1 0 2,90 11,05 4,53 3,05 11,08 4,69 3,34 11,40 5,0415 0 5 1 1 2,90 11,05 4,53 3,05 11,08 4,68 3,34 11,40 5,0415 0 5 2 0 2,88 9,77 4,26 2,84 9,61 4,20 2,84 9,60 4,2015 0 5 2 1 2,88 9,77 4,26 2,84 9,61 4,20 2,84 9,60 4,2015 1 4 1 0 2,91 11,10 4,55 4,43 14,98 6,68 4,76 16,18 7,1915 1 4 1 1 2,91 11,10 4,55 4,43 14,98 6,68 4,76 16,18 7,1915 1 4 2 0 2,90 9,79 4,28 2,87 9,69 4,24 3,09 10,57 4,5915 1 4 2 1 2,90 9,79 4,28 2,87 9,69 4,24 3,09 10,57 4,5915 1 5 1 0 2,90 11,05 4,53 4,43 14,97 6,67 4,76 16,15 7,1815 1 5 1 1 2,90 11,05 4,53 4,43 14,97 6,67 4,76 16,15 7,1815 1 5 2 0 2,88 9,77 4,26 2,84 9,61 4,20 3,06 10,52 4,5615 1 5 2 1 2,88 9,77 4,26 2,84 9,61 4,20 3,06 10,52 4,56

Tabela 5.26: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nih mnoºic 10, 20 in 30

Page 130: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 105

40 (max) 50 (max) 60 (max)NKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,48 5,81 4,99 4,75 6,31 5,33 4,58 5,97 5,115 0 4 1 1 4,48 5,81 4,99 4,75 6,31 5,33 4,58 5,97 5,115 0 4 2 0 4,78 6,10 5,26 4,26 5,37 4,64 4,59 5,82 5,025 0 4 2 1 4,78 6,10 5,26 4,26 5,37 4,64 4,59 5,82 5,025 0 5 1 0 4,62 5,99 5,14 4,73 6,21 5,29 4,57 5,95 5,095 0 5 1 1 4,62 5,99 5,14 4,73 6,21 5,29 4,57 5,95 5,095 0 5 2 0 4,75 6,05 5,22 4,49 5,81 4,97 4,52 5,74 4,955 0 5 2 1 4,75 6,05 5,22 4,49 5,81 4,97 4,52 5,74 4,955 1 4 1 0 10,58 11,98 10,93 10,99 12,60 11,42 11,54 13,33 12,025 1 4 1 1 10,58 11,98 10,93 10,99 12,60 11,42 11,54 13,33 12,025 1 4 2 0 6,10 7,66 6,66 6,13 7,79 6,73 6,46 8,18 7,085 1 4 2 1 6,10 7,66 6,66 6,13 7,79 6,73 6,46 8,18 7,085 1 5 1 0 10,58 11,98 10,92 10,99 12,60 11,42 11,54 13,33 12,025 1 5 1 1 10,58 11,98 10,92 10,99 12,60 11,42 11,54 13,33 12,025 1 5 2 0 6,07 7,62 6,63 6,31 8,09 6,96 6,43 8,13 7,045 1 5 2 1 6,07 7,62 6,63 6,31 8,09 6,96 6,43 8,13 7,04

10 0 4 1 0 3,71 9,00 5,14 3,71 9,30 5,22 3,68 9,26 5,1610 0 4 1 1 3,71 9,00 5,14 3,71 9,30 5,22 3,68 9,26 5,1610 0 4 2 0 3,52 8,52 4,83 3,39 8,10 4,63 3,35 8,10 4,6010 0 4 2 1 3,52 8,52 4,83 3,39 8,10 4,63 3,35 8,10 4,6010 0 5 1 0 3,71 9,24 5,15 3,70 9,26 5,20 3,68 9,24 5,1610 0 5 1 1 3,71 9,24 5,15 3,70 9,26 5,20 3,68 9,24 5,1610 0 5 2 0 3,48 8,45 4,78 3,35 8,09 4,59 3,29 7,99 4,5310 0 5 2 1 3,48 8,45 4,78 3,35 8,09 4,59 3,29 7,99 4,5310 1 4 1 0 6,41 14,79 8,74 6,34 14,78 8,67 6,75 15,74 9,2010 1 4 1 1 6,41 14,79 8,74 6,34 14,78 8,67 6,75 15,74 9,2010 1 4 2 0 4,04 9,74 5,55 4,03 9,65 5,52 4,17 10,12 5,7410 1 4 2 1 4,04 9,74 5,55 4,03 9,65 5,52 4,17 10,12 5,7410 1 5 1 0 6,42 14,80 8,75 6,34 14,76 8,67 6,75 15,73 9,1910 1 5 1 1 6,42 14,80 8,75 6,34 14,76 8,67 6,75 15,73 9,1910 1 5 2 0 4,02 9,72 5,53 4,05 9,90 5,59 4,11 9,98 5,6610 1 5 2 1 4,02 9,72 5,53 4,05 9,90 5,59 4,11 9,98 5,66

15 0 4 1 0 3,37 11,59 5,11 3,45 11,56 5,18 3,35 11,80 5,0915 0 4 1 1 3,37 11,59 5,11 3,45 11,56 5,18 3,35 11,80 5,0915 0 4 2 0 2,98 10,11 4,42 2,83 9,50 4,17 2,78 9,34 4,0915 0 4 2 1 2,98 10,11 4,42 2,83 9,50 4,17 2,78 9,34 4,0915 0 5 1 0 3,37 11,49 5,08 3,45 11,53 5,18 3,34 11,79 5,0915 0 5 1 1 3,37 11,49 5,08 3,45 11,53 5,18 3,34 11,79 5,0915 0 5 2 0 2,96 10,08 4,39 2,81 9,53 4,16 2,74 9,29 4,0615 0 5 2 1 2,96 10,08 4,39 2,81 9,53 4,16 2,74 9,29 4,0615 1 4 1 0 4,74 16,46 7,21 4,59 16,36 7,00 5,00 17,20 7,5715 1 4 1 1 4,74 16,46 7,21 4,59 16,36 7,00 5,00 17,20 7,5715 1 4 2 0 3,22 10,96 4,79 3,13 10,60 4,64 3,21 11,05 4,7815 1 4 2 1 3,22 10,96 4,79 3,13 10,60 4,64 3,21 11,05 4,7815 1 5 1 0 4,74 16,43 7,21 4,58 16,35 6,99 5,00 17,20 7,5715 1 5 1 1 4,74 16,43 7,21 4,58 16,35 6,99 5,00 17,20 7,5715 1 5 2 0 3,20 10,92 4,76 3,15 10,83 4,69 3,19 11,00 4,7515 1 5 2 1 3,20 10,92 4,76 3,15 10,83 4,69 3,19 11,00 4,75

Tabela 5.27: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nih mnoºic 40, 50 in 60

Page 131: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

106 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

70 (max) 80 (max) 90 (max)NKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,86 6,33 5,41 4,75 6,26 5,32 5,44 6,65 5,705 0 4 1 1 4,86 6,33 5,41 4,75 6,26 5,32 5,44 6,65 5,705 0 4 2 0 4,54 5,86 5,02 4,75 6,04 5,22 4,85 6,21 5,345 0 4 2 1 4,54 5,86 5,02 4,75 6,04 5,22 4,85 6,21 5,345 0 5 1 0 4,89 6,44 5,48 4,80 6,25 5,33 5,27 6,60 5,665 0 5 1 1 4,89 6,44 5,48 4,80 6,25 5,33 5,27 6,60 5,665 0 5 2 0 4,73 5,96 5,17 4,68 5,96 5,14 4,88 6,26 5,385 0 5 2 1 4,73 5,96 5,17 4,68 5,96 5,14 4,88 6,26 5,385 1 4 1 0 11,56 13,37 12,06 11,85 13,63 12,30 12,37 14,13 12,825 1 4 1 1 11,56 13,37 12,06 11,85 13,63 12,30 12,37 14,13 12,825 1 4 2 0 6,53 8,31 7,18 6,80 8,75 7,52 6,79 8,62 7,465 1 4 2 1 6,53 8,31 7,18 6,80 8,75 7,52 6,79 8,62 7,465 1 5 1 0 11,56 13,37 12,06 11,85 13,63 12,30 12,36 14,11 12,815 1 5 1 1 11,56 13,37 12,06 11,85 13,63 12,30 12,36 14,11 12,815 1 5 2 0 6,49 8,26 7,14 6,78 8,73 7,50 7,00 8,88 7,685 1 5 2 1 6,49 8,26 7,14 6,78 8,73 7,50 7,00 8,88 7,68

10 0 4 1 0 3,69 9,00 5,08 3,74 9,63 5,31 3,97 9,39 5,3910 0 4 1 1 3,69 9,00 5,08 3,74 9,63 5,31 3,97 9,39 5,3910 0 4 2 0 3,32 7,97 4,53 3,51 8,44 4,81 3,45 8,28 4,7210 0 4 2 1 3,32 7,97 4,53 3,51 8,44 4,81 3,45 8,28 4,7210 0 5 1 0 3,69 9,11 5,08 3,83 9,63 5,37 3,81 9,34 5,1410 0 5 1 1 3,69 9,11 5,08 3,83 9,63 5,37 3,81 9,34 5,1410 0 5 2 0 3,34 8,02 4,58 3,47 8,37 4,76 3,47 8,37 4,7610 0 5 2 1 3,34 8,02 4,58 3,47 8,37 4,76 3,47 8,37 4,7610 1 4 1 0 6,78 15,87 9,29 7,16 16,76 9,79 7,38 17,01 10,0510 1 4 1 1 6,78 15,87 9,29 7,16 16,76 9,79 7,38 17,01 10,0510 1 4 2 0 4,22 10,19 5,80 4,40 10,69 6,07 4,31 10,48 5,9510 1 4 2 1 4,22 10,19 5,80 4,40 10,69 6,07 4,31 10,48 5,9510 1 5 1 0 6,78 15,88 9,29 7,16 16,76 9,79 7,37 17,00 10,0410 1 5 1 1 6,78 15,88 9,29 7,16 16,76 9,79 7,37 17,00 10,0410 1 5 2 0 4,20 10,18 5,79 4,37 10,67 6,04 4,34 10,57 5,9910 1 5 2 1 4,20 10,18 5,79 4,37 10,67 6,04 4,34 10,57 5,99

15 0 4 1 0 3,40 11,89 5,11 3,42 11,95 5,18 3,36 11,56 5,0615 0 4 1 1 3,40 11,89 5,11 3,42 11,95 5,18 3,36 11,56 5,0615 0 4 2 0 2,75 9,33 4,07 2,85 9,66 4,22 2,79 9,40 4,1215 0 4 2 1 2,75 9,33 4,07 2,85 9,66 4,22 2,79 9,40 4,1215 0 5 1 0 3,40 11,81 5,11 3,41 11,93 5,17 3,29 11,53 4,9615 0 5 1 1 3,40 11,81 5,11 3,41 11,93 5,17 3,29 11,53 4,9615 0 5 2 0 2,75 9,38 4,08 2,82 9,60 4,18 2,86 9,70 4,2415 0 5 2 1 2,75 9,38 4,08 2,82 9,60 4,18 2,86 9,70 4,2415 1 4 1 0 4,94 17,39 7,54 5,30 18,36 8,04 5,28 18,29 8,0315 1 4 1 1 4,94 17,39 7,54 5,30 18,36 8,04 5,28 18,29 8,0315 1 4 2 0 3,25 11,08 4,83 3,37 11,61 5,04 3,31 11,39 4,9415 1 4 2 1 3,25 11,08 4,83 3,37 11,61 5,04 3,31 11,39 4,9415 1 5 1 0 4,94 17,36 7,53 5,30 18,36 8,04 5,28 18,29 8,0315 1 5 1 1 4,94 17,36 7,53 5,30 18,36 8,04 5,28 18,29 8,0315 1 5 2 0 3,23 11,07 4,81 3,35 11,58 5,01 3,33 11,49 4,9815 1 5 2 1 3,23 11,07 4,81 3,35 11,58 5,01 3,33 11,49 4,98

Tabela 5.28: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nih mnoºic 70, 80 in 39

Page 132: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 107

100 (max) maxNKB GFR MAX PKB LIM nat. pri. f-1 nat. vel. pri. vel. f-1 vel.

5 0 4 1 0 5,04 6,56 5,61 5,44 90 6,65 90 5,70 90

5 0 4 1 1 5,04 6,56 5,61 5,44 90 6,65 90 5,70 90

5 0 4 2 0 4,61 5,99 5,11 4,85 90 6,21 90 5,34 905 0 4 2 1 4,61 5,99 5,11 4,85 90 6,21 90 5,34 905 0 5 1 0 5,04 6,57 5,61 5,27 90 6,60 90 5,66 905 0 5 1 1 5,04 6,57 5,61 5,27 90 6,60 90 5,66 905 0 5 2 0 4,60 5,93 5,06 4,88 90 6,26 90 5,38 905 0 5 2 1 4,60 5,93 5,06 4,88 90 6,26 90 5,38 905 1 4 1 0 12,58 14,44 13,07 12,58 100 14,44 100 13,07 100

5 1 4 1 1 12,58 14,44 13,07 12,58 100 14,44 100 13,07 100

5 1 4 2 0 7,02 8,95 7,74 7,02 100 8,95 100 7,74 1005 1 4 2 1 7,02 8,95 7,74 7,02 100 8,95 100 7,74 1005 1 5 1 0 12,58 14,44 13,07 12,58 100 14,44 100 13,07 100

5 1 5 1 1 12,58 14,44 13,07 12,58 100 14,44 100 13,07 100

5 1 5 2 0 7,05 8,99 7,76 7,05 100 8,99 100 7,76 1005 1 5 2 1 7,05 8,99 7,76 7,05 100 8,99 100 7,76 100

10 0 4 1 0 4,02 9,65 5,54 4,02 100 9,65 100 5,54 100

10 0 4 1 1 4,02 9,65 5,54 4,02 100 9,65 100 5,54 100

10 0 4 2 0 3,42 8,16 4,67 3,52 40 8,52 40 4,83 4010 0 4 2 1 3,42 8,16 4,67 3,52 40 8,52 40 4,83 4010 0 5 1 0 3,99 9,55 5,49 3,99 100 9,63 80 5,49 10010 0 5 1 1 3,99 9,55 5,49 3,99 100 9,63 80 5,49 10010 0 5 2 0 3,44 8,27 4,71 3,48 40 8,45 40 4,78 4010 0 5 2 1 3,44 8,27 4,71 3,48 40 8,45 40 4,78 4010 1 4 1 0 7,27 16,93 9,93 7,38 90 17,01 90 10,05 90

10 1 4 1 1 7,27 16,93 9,93 7,38 90 17,01 90 10,05 90

10 1 4 2 0 4,39 10,70 6,06 4,40 80 10,70 100 6,07 8010 1 4 2 1 4,39 10,70 6,06 4,40 80 10,70 100 6,07 8010 1 5 1 0 7,27 16,93 9,93 7,37 90 17,00 90 10,04 9010 1 5 1 1 7,27 16,93 9,93 7,37 90 17,00 90 10,04 9010 1 5 2 0 4,41 10,80 6,10 4,41 100 10,80 100 6,10 10010 1 5 2 1 4,41 10,80 6,10 4,41 100 10,80 100 6,10 100

15 0 4 1 0 3,39 11,93 5,17 3,45 50 11,95 80 5,18 80

15 0 4 1 1 3,39 11,93 5,17 3,45 50 11,95 80 5,18 80

15 0 4 2 0 2,81 9,43 4,14 2,98 40 10,11 40 4,42 4015 0 4 2 1 2,81 9,43 4,14 2,98 40 10,11 40 4,42 4015 0 5 1 0 3,37 11,85 5,13 3,45 50 11,93 80 5,18 50

15 0 5 1 1 3,37 11,85 5,13 3,45 50 11,93 80 5,18 50

15 0 5 2 0 2,87 9,72 4,25 2,96 40 10,08 40 4,39 4015 0 5 2 1 2,87 9,72 4,25 2,96 40 10,08 40 4,39 4015 1 4 1 0 5,34 18,73 8,14 5,34 100 18,73 100 8,14 100

15 1 4 1 1 5,34 18,73 8,14 5,34 100 18,73 100 8,14 100

15 1 4 2 0 3,36 11,63 5,04 3,37 80 11,63 100 5,04 10015 1 4 2 1 3,36 11,63 5,04 3,37 80 11,63 100 5,04 10015 1 5 1 0 5,34 18,72 8,14 5,34 100 18,72 100 8,14 10015 1 5 1 1 5,34 18,72 8,14 5,34 100 18,72 100 8,14 10015 1 5 2 0 3,37 11,68 5,04 3,37 100 11,68 100 5,04 10015 1 5 2 1 3,37 11,68 5,04 3,37 100 11,68 100 5,04 100

Tabela 5.29: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, maksimalne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikosti u£nih mnoºic 100 in maksi-mumi po vseh u£nih mnoºicah

Page 133: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

108 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Podrobnej²i pogled pokaºe, da Kea parametra za upo²tevanje lastnega imena ne upo-²teva ali pa ga zaradi slovenskega jezika ne zna upo²tevati, £eprav bi prepoznava le-tegamorala biti preprosta. Z uporabo globalne frekvence klju£nih besed smo dobili bolj²e rezul-tate ekstrakcije klju£nih besed, podobno kot v [13, 53, 54]. Ker je ta uporaba speci�£naza strojno u£enje in ekstrakcijo virov iz istega podro£ja, smo v tabeli z nagnjeno pisavozapisali najbolj²e rezultate brez uporabe tega parametra, kjer pa ponovno velja MAX = 4,PKB = 1 in LIM = (0, 1).

Ali se rezultati ekstrakcije pri posameznih parametrih statisti£no zna£ilno razlikujejo,smo v statisti£nem paketu SPSS preverili s Friedmanovim testom. Tabela 5.30 prikazujepovpre£ne range za Friedmanov test, upo²tevane so bile vse velikosti u£nih mnoºic.Vrednost parametra LIM = 1 smo izpustili iz prej navedenih razlogov. Tabela 5.31 prika-

parametri avg rang (5) avg rang (10) avg rang (15)

GFR = 0,MAX = 4, PKB = 1, LIM = 0 4,00 4,57 5,23GFR = 0,MAX = 4, PKB = 2, LIM = 0 2,91 2,47 2,48GFR = 0,MAX = 5, PKB = 1, LIM = 0 3,70 4,23 4,65GFR = 0,MAX = 5, PKB = 2, LIM = 0 1,77 1,37 1,39GFR = 1,MAX = 4, PKB = 1, LIM = 0 7,39 7,42 7,49

GFR = 1,MAX = 4, PKB = 2, LIM = 0 5,09 4,99 4,36GFR = 1,MAX = 5, PKB = 1, LIM = 0 7,17 7,14 7,07GFR = 1,MAX = 5, PKB = 2, LIM = 0 3,97 3,81 3,33

Tabela 5.30: Povpre£ni rangi za statistiko s Friedmanovim testom

zuje rezultat testov. Friedmanov test z rezultatom zavrne ni£elno statisti£no hipotezo, da

test\²t. klju£nih besed 5 10 15

Chi-Square 229,486 256,433 264,565

Friedman Asymp. Sig ,000 ,000 ,000Kendall's W ,656 ,733 ,756

Tabela 5.31: Rezultati statisti£nih testov, N = 50, df = 7, α = 0, 05, za razli£no ²tevilo klju£nihbesed

se vzorci statisti£no zna£ilno ne razlikujejo, Kendallov W test pa s koe�cientom skladnostipotrjuje, da rezultati niso naklju£ni. Ker pri iskanju optimuma i²£emo najbolj²e rezultatein so vsi rezultati ekstrakcije na isti absolutni lestvici, iz tabele 5.30 vidimo, da so najbolj²irezultati (zapisano poudarjeno) dobljeni s prej zapisano kombinacijo parametrov.

Da ti parametri zares dajo rezultate, ki sodijo v najbolj²o skupino, smo preverili ²es testom Tukey HSD (honestly signi�cance di�erence), katerega rezultati so podani vtabelah C.26-C.28 v prilogi C, za razli£no ²tevilo klju£nih besed. Oznaka VU v tabelahozna£uje velikost u£ne mnoºice, zaradi omejitev statisti£nega paketa SPSS so upo²tevanele velikosti u£nih mnoºic 80, 90 in 100. Homogenost varianc pri tem ni bila izpolnjena.�eprav med ²tirimi nabori parametrov iz skupine v povpre£ju najbolj²ih dobljenih rezultatovni statisti£no zna£ilne razlike in jih lahko smatramo kot najbolj²i nabor parametrov, smose odlo£ili za uporabo le enega, ki je v povpre£ju vrnil najbolj²e rezultate v primerjavi z

Page 134: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 109

ostalimi. V nadaljevanju bomo torej uporabili parametre GFR = 1, MAX = 4, PKB = 1in LIM = 0 pri velikosti u£ne mnoºice 100.

Vpliv velikosti u£ne mnoºice na u£inkovitost ekstrakcije klju£nih besed kaºejo tudi gra�na sliki 5.11. Gra� na sliki so po vzoru [13, 53, 54] in so barvno lo£eni v odvisnosti od

Slika 5.11: Vpliv velikosti u£ne mnoºice na u£inkovitost ektrakcije klju£nih besed, natan£nost,priklic in f-mero za razli£no ²tevilo ekstraktanih klju£nih besed (modra: GFR = 1; rde£a: GFR =0)

uporabe globalne frekvence klju£nih besed (GFR). Iz slik lahko vidimo, da se z ve£anjemu£ne mnoºice pri£akovano izbolj²ujejo natan£nost, priklic in f-mera. Po [13, 53, 54] prineki velikosti pridemo do optimalnega rezultata, ki se z ve£anjem mnoºice ve£ ne izbolj²uje,kar predvidevamo da bi bilo po velikosti 100 dokumentov pri GFR = 1, medtem ko gra�nakazujejo, da je pri GFR = 0 ta optimum ºe doseºen. Razviden je tudi vpliv ²tevilaklju£nih besed na natan£nost in priklic - z ve£anjem ²tevila klju£nih besed natan£nostpada, medtem ko se priklic ve£a. Prav tako je moºno lepo razbrati, da so pri uporabiparametra globalne frekvence (modra barva) rezultati skoraj vedno bolj²i od ekstrakcij breztega parametra (rde£a barva), opazna pa sta dva trenda pri uporabi globalne frekvence -vi²je vrednosti so doseºene pri MAX = 4, niºje pri MAX = 5.

Page 135: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

110 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

5.6.2 Ekstrakcija klju£nih besed iz primarnega vzorca gradiv (1)

Ekstrakcijo klju£nih besed iz primarnega vzorca gradiv smo preverili s petimi orodji. Prirezultatih orodja Kea so uporabljeni parametri prej²njega koraka. Orodje SAmgIY pred-stavlja razli£ico, ki koristi le Yahoo! Term Extractor. Primer avtorskih klju£nih besed inrezultatov orodij nad istim virom je naslednji:

• avtorsko podane klju£ne besede:u£benik, kazalo, motivacija, naravoslovje

• Kea (brez avtomatiziranega £i²£enja):trditev, motivacija, list, u£benik, kazalo

• Kea (z avtomatiziranim £i²£enjem):trditev, motivacija, list, u£benik, kazalo

• TextRank (brez avtomatiziranega £i²£enja):_ _ _, tako da bi u£enci, poi²£i poglavje sladkovodne semenke, poglavja rastline vmorju, u£benik ²e enkrat

• TextRank (z avtomatiziranim £i²£enjem):obmorske ptice se, u£beniku ptice v gozdu, u£benik ²e enkrat, zraven dopi²i pravilno,b hrane

• SAmgI (brez avtomatiziranega £i²£enja):ptice, galebi, kolman, valja, fotogra�je

• SAmgI (z avtomatiziranim £i²£enjem):ptice, galebi, kolman, valja, fotogra�je

• SAmgIY (brez avtomatiziranega £i²£enja):ptice, galebi, kolman, valja, fotogra�je

• SAmgIY (z avtomatiziranim £i²£enjem):ptice, galebi, kolman, valja, fotogra�je

• Yahoo! Term Extractor (brez avtomatiziranega £i²£enja):ptice, galebi, kolman, valja, fotogra�je

• Yahoo! Term Extractor (z avtomatiziranim £i²£enjem):ptice, galebi, kolman, valja, fotogra�je

Iz primera lahko vidimo, da je orodje Kea najbliºje avtorsko podanim klju£nim besedam,TextRank glede na strukturo klju£nih besed najdlje, medtem ko SAmgI, SAmgIY in Yahoo!Term Extractor vrnejo enak rezultat (za ta primer). Prav tako lahko vidimo, da se priTextRanku pojavi razlika v verzijah z in brez avtomatiziranega £i²£enja, generiral je celopopolnoma nesmiselno klju£no besedo _ _ _.

Page 136: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 111

Tabele C.5-C.13 v prilogi C prikazujejo povpre£ne rezultate ekstrakcije z razli£nimiorodji (Kea, SAmgI, SAmgIY , Yahoo! Term Extractor in TextRank) na razli£nih mnoºicahtekstovnih datotek (Tika in pre£i²£eni TikaC) in razli£nimi kriteriji ujemanja. Podobnotabele C.14-C.22 v prilogi C prikazujejo najbolj²e rezultate.

Iz tabel je razvidna zelo pestra u£inkovitost orodij in doseºene vrednosti pri razli£nihformatih gradiva. Niti eno orodje ni uspelo ekstraktati vsaj ene ustrezne klju£ne besede priformatih app/force-download in text/plain, zato ta dva formata v nadaljevanju izpu²£amo.Povzetek v povpre£ju najbolj²ih rezultatov in s katerim orodjem je bilo doseºeno, prikazujetabela 5.32. Stolpec TikaC ozna£uje ali je bil bolj²i rezultat dobljen z avtomatiziranim£i²£enjem tekstovne datoteke vira, pri £emer x pomeni, da je £i²£enje doprineslo bolj²irezultat in o, da je bil rezultat enako dober.

²t. klju£nih besed 5 10 15format kriterij favgmax orodje TikaC favgmax orodje TikaC favgmax orodje TikaC

app/msword

enakost 10,42 Kea 8,06 Kea 6,52 Kea4-rezanje 15,35 Kea 12,22 Kea 10,54 Kea5-rezanje 14,01 Kea 10,97 Kea 9,42 Kea x6-rezanje 12,7 Kea x 10,39 Kea 8,54 Kea xsoundex 15,88 Kea x 12,86 Kea 10,64 Kea xmetaphone 14,4 Kea 11,76 Kea 9,49 Kea xsimilar60 19,09 Kea x 15,22 Kea 13,46 Kea xsimilar70 16,19 Kea o 13,12 Kea 11,51 Kea xsimilar80 14,4 Kea x 11,5 Kea 9,64 Kea x

app/octet-stream

enakost 9,4 Kea o 8,13 Kea 6,2 Kea o4-rezanje 13,93 Kea 13,26 Kea 10,69 Kea5-rezanje 13,19 Kea 12,57 Kea 10,25 Kea6-rezanje 11,85 Kea 11 Kea 9,2 Kea xsoundex 14,32 Kea x 13,35 Kea 11,1 Keametaphone 12,45 Kea x 12,07 Kea 9,56 Keasimilar60 17,42 Kea x 15,26 Kea 13,62 Keasimilar70 14,58 Kea x 14,42 Kea 11,81 Keasimilar80 13,03 Kea x 12,7 Kea 10,17 Kea

app/pdf

enakost 8,09 Kea 6,77 Kea 5,54 Kea4-rezanje 9,85 Kea 9,37 Kea 8,28 Kea o5-rezanje 9,49 Kea 9,01 Kea 7,93 Kea6-rezanje 9,23 Kea 8,45 Kea 7,2 Keasoundex 11,93 Kea 10,26 Kea 8,71 Keametaphone 11,23 Kea 9,75 Kea 8,06 Keasimilar60 15,14 Kea 11,33 Kea 11,15 Kea xsimilar70 13,19 Kea 10,6 Kea 9,33 Keasimilar80 11,07 Kea 9,5 Kea 8,26 Kea

app/vnd.ms-excel

enakost 16,2 Kea o 10,07 Kea o 9,16 Kea4-rezanje 16,2 Kea o 12,64 Kea o 9,16 Kea o5-rezanje 16,2 Kea o 12,64 Kea o 9,16 Kea o6-rezanje 16,2 Kea o 12,64 Kea o 9,16 Kea osoundex 23,61 Kea o 17,4 Kea o 12,67 Kea ometaphone 23,61 Kea o 14,84 Kea o 12,67 Keasimilar60 23,61 Kea o 24,11 TextRank x 23,63 TextRank xsimilar70 23,61 Kea o 20,41 TextRank x 19,93 TextRank xsimilar80 23,61 Kea o 19,96 Kea o 12,67 Kea o

app/vnd.ms-powerpoint

enakost 21,06 Kea 15,18 Kea 10,87 Kea4-rezanje 24,53 Kea x 18,73 Kea 13,34 Kea5-rezanje 22,78 Kea x 17,42 Kea 13,07 Kea6-rezanje 22,27 Kea x 16,46 Kea 12,11 Keasoundex 24,74 Kea x 19,4 Kea 14 Keametaphone 23,89 Kea 18,87 Kea 13,21 Keasimilar60 28,11 Kea x 21,4 Kea 16,45 Keasimilar70 26,49 Kea x 20,71 Kea 14,84 Keasimilar80 23,1 Kea x 18,69 Kea 12,67 Kea

app/vnd.oasis.opendoc.pres

enakost 11,11 Kea o 7,14 Kea 5,26 Kea o4-rezanje 11,11 Kea o 7,14 Kea o 5,26 Kea o5-rezanje 11,11 Kea o 7,14 Kea 5,26 Kea o6-rezanje 11,11 Kea o 7,14 Kea 5,26 Kea osoundex 11,11 Kea o 7,14 Kea 5,26 Kea ometaphone 11,11 Kea o 7,14 Kea 5,26 Kea osimilar60 11,11 Yahoo

SAmgIYKea

o 7,14 YahooSAmgIYKea

o 5,26 YahooSAmgIYKea

o

similar70 11,11 Kea o 7,14 Kea 5,26 Kea osimilar80 11,11 Kea o 7,14 Kea 5,26 Kea o

app/x-zip-compressed

enakost 14,21 Kea o 8,79 Kea 9,3 Kea o4-rezanje 14,21 Kea o 11,33 Kea 13,2 Kea o5-rezanje 14,21 Kea o 9,93 Kea 12,19 Kea o6-rezanje 14,21 Kea o 9,93 Kea 11,18 Kea osoundex 14,21 Kea o 9,93 Kea 13,05 Kea ometaphone 14,21 Kea o 9,93 Kea 13,05 Kea osimilar60 14,21 Kea o 11,33 Kea o 14,06 Kea osimilar70 14,21 Kea o 9,93 Kea o 13,05 Kea osimilar80 14,21 Kea o 9,93 Kea o 12,19 Kea o

app/zip

enakost 5,56 Kea o 3,57 SAmgIYKea

o 2,63 SAmgIYKea

o

4-rezanje 11,81 Kea o 7,42 Kea o 8,04 Kea o5-rezanje 11,81 Kea o 7,42 Kea o 8,04 Kea o6-rezanje 5,56 Kea o 3,57 SAmgIY

Keao 2,63 SAmgIY

Keao

soundex 18,06 Kea o 11,26 Kea x 8,19 Kea ometaphone 18,06 Kea o 11,26 Kea x 8,19 Kea osimilar60 18,06 Kea o 11,26 Kea x 10,82 Kea osimilar70 18,06 Kea o 11,26 Kea x 10,82 Kea osimilar80 18,06 Kea o 7,42 Kea o 10,82 Kea o

Page 137: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

112 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

imsccv1p0

enakost 8,39 Kea x 6,29 Kea x 1,84 Kea o4-rezanje 8,8 Kea x 7,3 Kea x 2,22 Kea o5-rezanje 8,8 Kea x 7,3 Kea x 2,22 Kea o6-rezanje 8,8 Kea x 7,04 Kea x 2,03 Kea osoundex 8,8 Kea x 7,3 Kea x 2,4 Kea ometaphone 8,39 Kea x 7,04 Kea x 2,21 Kea osimilar60 11,75 Kea x 11,67 Kea x 4,15 Kea xsimilar70 9,16 Kea x 8,32 Kea x 2,8 Kea xsimilar80 8,8 Kea x 7,3 Kea x 2,03 Kea o

scormv1p2

enakost 3,39 Kea o 5,7 Kea x 2,67 Kea x4-rezanje 4,39 Kea o 7,14 Kea x 3,46 Kea x5-rezanje 4,39 Kea o 7,14 Kea x 3,46 Kea x6-rezanje 3,92 Kea o 7,14 Kea x 3,46 Kea xsoundex 4,39 Kea o 7,14 Kea x 3,46 Kea xmetaphone 3,39 Kea o 6,8 Kea x 3,46 Kea xsimilar60 5,46 Kea o 8,8 Kea 4,2 Kea xsimilar70 4,39 Kea o 7,46 Kea x 3,73 Kea xsimilar80 3,92 Kea o 7,14 Kea x 3,46 Kea x

scormv2004

enakost 19,79 Kea o 9,38 Kea o 4,34 Kea4-rezanje 19,79 Kea o 11,68 Kea o 5,64 Kea x5-rezanje 19,79 Kea o 11,68 Kea o 5,64 Kea x6-rezanje 19,79 Kea o 11,08 Kea o 4,78 TextRank

Keao

soundex 19,79 Kea o 11,68 Kea o 5,64 Kea xmetaphone 19,79 Kea o 11,08 Kea o 4,8 TextRank xsimilar60 23,22 Kea o 18,58 Kea o 9,54 Kea xsimilar70 19,79 Kea o 12,83 Kea o 6,96 Kea xsimilar80 19,79 Kea o 11,08 Kea o 5,22 TextRank x

text/html

enakost 11,21 Kea 8,67 Kea 6,65 Kea4-rezanje 11,94 Kea 9,99 Kea 7,76 Kea5-rezanje 11,81 Kea 9,83 Kea 7,63 Kea6-rezanje 11,66 Kea 9,54 Kea 7,27 Keasoundex 11,97 Kea 10,22 Kea 7,9 Keametaphone 11,8 Kea 9,92 Kea 7,67 Keasimilar60 15,85 Kea 12,65 Kea 11,94 Keasimilar70 13,56 Kea 11,35 Kea 10,01 Keasimilar80 12,12 Kea 10,34 Kea 7,98 Kea

text/xml

enakost 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY x4-rezanje 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY x5-rezanje 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY x6-rezanje 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY xsoundex 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY xmetaphone 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY xsimilar60 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY xsimilar70 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY xsimilar80 14,29 SAmgIY x 14,29 SAmgIY x 14,29 SAmgIY x

Tabela 5.32: Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15 klju£nihbesed iz primarnega vzorca gradiv, po formatu, kriteriju ujemanja in na£inu priprave tekstovnedatoteke vira

Proti pri£akovanju verzije z avtomatiziranim £i²£enjem niso dominirale. Ob 104 bolj²ihrezultatih z £i²£enjem, 124 enakih rezultatih in 123 bolj²ih rezultatih brez £i²£enja, lahkosklepamo, da v povpre£ju tak²no avtomatizirano £i²£enje ne doprinese k bolj²i ekstrakcijiklju£nih besed.

Vizualne predstavitve nekaterih podatkov iz tabel C.5-C.22 z razli£nimi pogledi naizra£unane f-mere prikazujejo slike 5.12-5.14. Na sliki 5.12 lahko vidimo razliko meddvema razli£nima formatoma gradiv in superiornost orodja Kea napram drugim orodjem priekstrakciji 5 klju£nih besed. Oznake -C pri orodjih predstavljajo verzije z avtomatiziranim£i²£enjem teksta. Podobno vidimo na sliki 5.13 grafe za 10 klju£nih besed in na sliki 5.14za 15 klju£nih besed. Ve£je kot je ²tevilo generiranih klju£nih besed, manj²a je dobljena f-mera, kar je lepo razvidno iz grafov orodja Kea, manj²o spremembo pa vidimo pri preostalihorodjih, kar lahko pripi²emo ºe v osnovi nizkim vrednostim. Prav tako je razvidno, da sez ve£anjem ²tevila klju£nih besed ohranja pribliºna oblika grafa in primerljivost razli£nihkriterijev ujemanja.

Vpliv ve£anja ²tevila klju£nih besed za �ksni kriterij ujemanja (enakost) glede na formatgradiva, podaja slika 5.15. Oblika se ponovno pribliºno ohranja in podro£je grafov se manj-²a. Lepo je tudi razvidno pri katerih tipih gradiv je ekstrakcija klju£nih besed u£inkovitej²a:gradivih za PowerPoint, Excel, gradivih v SCORM 2004 in gradivih v obliki spletnih strani.

Page 138: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 113

Slika 5.12: U£inkovitost ekstrakcije klju£nih besed za dva formata gradiv, vsa orodja in razli£nekriterije ujemanja, 5 klju£nih besed

Slika 5.13: U£inkovitost ekstrakcije klju£nih besed za dva formata gradiv, vsa orodja in razli£nekriterije ujemanja, 10 klju£nih besed

Slika 5.14: U£inkovitost ekstrakcije klju£nih besed za dva formata gradiv, vsa orodja in razli£nekriterije ujemanja, 15 klju£nih besed

Page 139: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

114 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Slika 5.15: U£inkovitost ekstrakcije klju£nih besed za razli£no ²tevilo klju£nih besed, vsa orodja inenakost za kriterij ujemanja

Zanimiv pogled podaja tudi slika 5.16, kjer za ekstrakcijo 5 klju£nih besed vidimovpliv razli£nih kriterijev ujemanja. Ponovno se iz podobnosti oblik grafov vidi primerljivostrazli£nih kriterijev ujemanja.

Kar prikazujejo gra� na sliki 5.16, prikazuje tudi tabela 5.33, v kateri vidimo rezultate

kriterij N podmnoºica za α = ,051 2 3 4 5 6

enakost 11055 2,81896-rezanje 11055 3,1585 3,15855-rezanje 11055 3,3045 3,3045similar80 11055 3,5238 3,5238 3,5238metaphone 11055 3,5426 3,5426 3,54264-rezanje 11055 3,6112 3,6112soundex 11055 3,7557similar70 11055 4,4177similar60 11055 5,7023Sig. 0,2298 0,1059 0,3656 0,7402 1 1

Tabela 5.33: Rezultat testa Tukey HSD za razli£ne kriterije ujemanja

statisti£nega testa Tukey HSD, ki razvrsti kriterije ujemanja po zna£ilnostih statisti£nihrazlik. Kriteriju enakosti se najbolj pribliºa kriterij 6-rezanja, kriteriji 6-rezanje, 5-rezanje,similar_text 80, metaphone, 4-rezanje in soundex so primerljivi, medtem ko kriterija simi-lar_text 70 in 60 najbolj izstopata v povpre£ni f-meri. Vendar, £e pogledamo tabeli 5.22in 5.23, lahko ºe na majhnem vzorcu opazimo ve£ napak, iz £esar sklepamo, da ve£japovpre£na vrednost f-mere najverjetneje zajema tudi ve£je ²tevilo napak pri ujemanju.Kriterija enakosti in 6-rezanje tako najbolj strogo obravnavata ujemanje, vendar razlikes preostalimi kriteriji (razen similar_text 70 in 60) niso velike. Iz tega bi morda lahkosklepali, da so preproste funkcije kriterijev ujemanja (npr. 6-rezanje) dovolj dobre in nipotreben razvoj speci�£nih metod korenjenja za slovenski jezik, vendar bi za dokon£nopotrditev tega bila potrebna podrobnej²a kvalitativna analiza.

Page 140: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 115

Slika 5.16: U£inkovitost ekstrakcije klju£nih besed za 5 klju£nih besed, vsa orodja in razli£nekriterije ujemanja

Page 141: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

116 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Skupni pregled, kolikokrat je bilo katero od orodij najbolj²e pri povpre£nih f-merahglede na tabelo 5.32, prikazuje tabela 5.34. Tabela potrjuje, kar je bilo razvidno tudi iz

²t. kl. besed kriterij TextRank Yahoo! SAmgI SAmgIY Kea

5

enakost 0 0 0 1 124-rezanje 0 0 0 1 125-rezanje 0 0 0 1 126-rezanje 0 0 0 1 12soundex 0 0 0 1 12metaphone 0 0 0 1 12similar60 0 1 0 1 11similar70 0 0 0 1 12similar80 0 0 0 1 12

10

enakost 0 0 0 2 114-rezanje 0 0 0 1 125-rezanje 0 0 0 1 126-rezanje 0 0 0 2 11soundex 0 0 0 1 12metaphone 0 0 0 1 12similar60 1 1 0 1 10similar70 1 0 0 1 11similar80 0 0 0 1 12

15

enakost 0 0 0 2 114-rezanje 0 0 0 1 125-rezanje 0 0 0 1 126-rezanje 1 0 0 2 10soundex 0 0 0 1 12metaphone 1 0 0 1 11similar60 1 1 0 1 10similar70 1 0 0 1 11similar80 1 0 0 1 11skupaj 7 3 0 31 310

Tabela 5.34: Statistika kolikokrat je bilo katero od orodij najbolj²e pri povpre£nih vrednostihf-mere

prej podanih podrobnej²ih tabel in grafov: orodja TextRank, Yahoo! Term Extractor inSAmgIY so v manj²em ²tevilu primerov najbolj²a, medtem ko je orodje Kea veliko bolj²e(v 88,32% primerov). Razvidno je tudi, da z ve£anjem ²tevila klju£nih besed orodje Keanekoliko izgublja v prid drugim orodjem.

5.6.3 Ekstrakcija klju£nih besed iz primarnega vzorca gradiv (2)

Vsa uporabljena orodja so primarno namenjena ekstrakciji klju£nih besed iz angle²kih tek-stov, kar je ob nizkem odstotku dejansko prisotnih klju£nih besed najverjetneje dodatnoomejevalo u£inkovitost ekstrakcije v prej²njem koraku. Podobno ekstrakcijo kot v prej-²njem koraku, t.j. po formatih, razli£nih kriterijih ujemanja in razli£nem ²tevilu klju£nihbesed, smo ponovili na angle²kih gradivih primarnega vzorca. Za orodje Kea smo uporabiliparametre, dobljene v prvem koraku, Porterjevo korenjenje in vgrajen seznam angle²kihstop besed. Primer avtorskih klju£nih besed in rezultatov orodij nad istim virom je nasled-nji:

Page 142: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 117

• avtorsko podane klju£ne besede:position, displacement, colos, mechanics

• Kea (brez avtomatiziranega £i²£enja):displacements, positions, particle, start positions, directed displacements

• Kea (z avtomatiziranim £i²£enjem):displacements, positions, particle, directed displacements, directed

• TextRank (brez avtomatiziranega £i²£enja):position p(, actual movement, delta )r, delta )r, position

• TextRank (z avtomatiziranim £i²£enjem):position p(, actual movement, position, start positions, displacements

• SAmgI (brez avtomatiziranega £i²£enja):start positions, displacements, displacement, particle, delta

• SAmgI (z avtomatiziranim £i²£enjem):start positions, displacements, displacement, particle, delta

• SAmgIY (brez avtomatiziranega £i²£enja):start positions, displacements, displacement, particle, delta

• SAmgIY (z avtomatiziranim £i²£enjem):start positions, displacements, displacement, particle, delta

• Yahoo! Term Extractor (brez avtomatiziranega £i²£enja):start positions, displacements, displacement, particle, delta

• Yahoo! Term Extractor (z avtomatiziranim £i²£enjem):start positions, displacements, displacement, particle, delta

Orodje TextRank je za podani primer ponovno generiralo najslab²e klju£ne besede,medtem ko razlika med preostalimi orodji ni ve£ tako o£itna kot pri slovenskem jeziku.Ponovno lahko vidimo razliko pri uporabi avtomatiziranega £i²£enja, v tem primeru priorodjih Kea in TextRank. Kljub temu, da so v primeru ponovno enaki rezultati orodijSAmgI, SAmgIY in Yahoo! Term Extractor, je do razlike pri²lo pri drugih primerih, kjerSAmgI in SAmgIY nista generirala niti ene klju£ne besede (kljub ponovljenim poskusomuporabe).

V povpre£ju najbolj²a orodja prikazuje tabela 5.35. Kot je razvidno iz rezultatov, jeorodje Kea bilo vedno najbolj²e, medtem ko je avtomatizirano o£i²£en tekst omogo£ilbolj²e rezultate le v malce ve£ kot polovici primerov. Primerjava rezultatov s tabelo 5.32pokaºe primerljive rezultate pri formatu imsccv1p0 za 5 in 10 klju£nih besed, v ostalihprimerih je bila ekstrakcija na angle²kih gradivih znatno bolj²a. Odstotkovno primerjavo,kako dobri so bili rezultati ekstrakcije pri angle²kih gradivih napram slovenskim, prikazujetabela 5.36. Iz rezultatov lahko vidimo, da ekstrakcija slovenskih klju£nih besed v ve£inine dosega u£inkovitosti ekstrakcije iz angle²kih gradiv.

Page 143: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

118 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

²t. klju£nih besed 5 10 15format kriterij favgmax orodje TikaC favgmax orodje TikaC favgmax orodje TikaC

imsccv1p0

enakost 6,51 Kea x 5,31 Kea x 4,72 Kea x4-rezanje 10,26 Kea x 8,24 Kea x 6,90 Kea x5-rezanje 9,54 Kea x 7,76 Kea x 6,55 Kea x6-rezanje 8,83 Kea x 7,28 Kea x 6,19 Kea xsoundex 8,83 Kea x 7,28 Kea x 6,19 Kea xmetaphone 6,51 Kea x 5,31 Kea x 4,72 Kea xsimilar60 12,58 Kea x 9,74 Kea x 7,97 Kea xsimilar70 10,97 Kea x 8,71 Kea x 7,26 Kea xsimilar80 8,83 Kea x 7,28 Kea x 6,19 Kea x

scormv1p2

enakost 6,72 Kea x 6,28 Kea 4,96 Kea o4-rezanje 12,86 Kea x 10,59 Kea 8,15 Kea o5-rezanje 11,84 Kea x 9,91 Kea 7,63 Kea o6-rezanje 11,32 Kea x 9,57 Kea 7,38 Kea osoundex 11,32 Kea x 9,57 Kea 7,38 Kea ometaphone 6,72 Kea x 6,28 Kea 4,96 Kea osimilar60 15,04 Kea x 11,62 Kea 8,91 Kea osimilar70 13,38 Kea x 10,93 Kea 8,40 Kea osimilar80 11,32 Kea x 9,57 Kea 7,38 Kea o

text/html

enakost 17,07 Kea 12,52 Kea 9,71 Kea4-rezanje 21,06 Kea 15,80 Kea 12,39 Kea5-rezanje 20,52 Kea 15,22 Kea 11,89 Kea6-rezanje 19,46 Kea 14,43 Kea 11,20 Keasoundex 19,71 Kea 14,79 Kea 11,50 Keametaphone 17,61 Kea 13,10 Kea 10,18 Keasimilar60 27,92 Kea 22,61 Kea 18,23 Keasimilar70 24,11 Kea 18,92 Kea o 15,14 Keasimilar80 21,44 Kea 16,31 Kea o 12,90 Kea

Tabela 5.35: Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15 klju£nihbesed iz angle²kih gradiv primarnega vzorca gradiv, po formatu in kriteriju ujemanja

format 5 10 15imsccv1p0 100,89% 96,67% 266,12%scormv1p2 263,86% 130,03% 206,94%text/html 168,23% 154,29% 151,05%

Tabela 5.36: Odstotkovna primerjava u£inkovitosti ekstrakcije angle²kih gradiv napram slovenskim

5.6.4 Ekstrakcija klju£nih besed iz dodatnega vzorca gradiv (1)

Na podoben na£in smo naredili tudi analizo u£inkovitosti ekstrakcije klju£nih besed izdodatnega vira. Ob orodju Tika smo dodatno uporabili orodje pdftotext in povzetkeprispevkov. Primer avtorskih klju£nih besed in rezultatov orodij nad istim virom je vzgo²£eni obliki naslednji:

• avtorsko podane klju£ne besede:e-izobraºevanje, kombinirano e-izobraºevanje, moodle, terciarno izobraºevanje

• Kea:Tika: moodle, e-izobraºevanje, kombinirano, ikt, u£iteljTikaC: moodle, e-izobraºevanje, kombinirano, ikt, u£itelj

Page 144: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 119

pdftotext: moodle, izobraºevanje, kombinirano, ikt, u£iteljpdftotextC: moodle, izobraºevanje, kombinirano, ikt, u£iteljpovzetek: priprava vsebin, priprava vsebin za, vsebin za, ve£ £asa, izvedbo

• TextRank:Tika: sul£i£, moodle, %, predmeta, slikaTikaC: sul£i£, moodle, %, predmeta, slikapdftotext: sul£i£, moodle, predmeta, slikapdftotextC: sul£i£, moodle, predmeta, slikapovzetek: kombiniran model e-izobraºevanja temelji, prikazujemo primer uvajanjae-izobraºevanja, od u£iteljev zahteva

• SAmgI:Tika: viktorija, lesjak, smo, saba, kpTikaC: viktorija, lesjak, smo, saba, kppdftotext: viktorija, lesjak, moodle, koper, smopdftotextC: viktorija, lesjak, moodle, koper, smopovzetek: smo, za, od

• SAmgIY :Tika: viktorija, lesjak, smo, saba, kpTikaC: viktorija, lesjak, smo, saba, kppdftotext: viktorija, lesjak, smo, saba, kppdftotextC: viktorija, lesjak, smo, saba, kp povzetek: smo, za, od

• Yahoo! Term Extractor:Tika: viktorija, lesjak, smo, saba, kpTikaC: [error]pdftotext: viktorija, lesjak, smo, saba, kppdftotextC: viktorija, lesjak, smo, saba, kppovzetek: smo, za, od

Orodje Kea je ponovno najbliºje avtorsko podanim klju£nim besedam. Razen pri orodjuTextRank ni vidnega vpliva pretvornikov Tika in pdftotext, izrazito slab rezultat je videntudi pri uporabi povzetka. Razviden je tudi primer, ko orodje Yahoo! Term Extractorni vrnilo nobene klju£ne besede (kljub ponovljenem poskusu uporabe) in da na rezultatekstrakcije vplivajo podatki avtorjev in konference.

V tabelah C.23-C.25 v prilogi C podajamo povpre£ne vrednosti dobljene f-mere. Zaorodje Kea smo uporabili parametre iz prvega koraka. Skupen povzetek najbolj²ih orodijpodaja tabela 5.37, pri £emer T predstavlja uporabo orodja Tika, oznaka P orodje pdftotextin dodatna oznaka C avtomatizirano £i²£enje teksta. Ponovno je evidentna superiornostorodja Kea in pestrost verzij z in brez avtomatiziranega £i²£enja tako orodja Tika, kakororodja pdftotext. Najpomembnej²e v tabeli so vrednosti f-mere, ki so vi²je od vrednostif-mere, dobljene pri slovenskih gradivih primarnega vzorca, iz £esar lahko zaklju£imo, daje z orodjem Kea mogo£e dobiti bolj²e rezultate iz slovenskih tekstov ob druga£ni vsebini

Page 145: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

120 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

²t. klju£nih besed 5 10 15format kriterij favgmax orodje favgmax orodje favgmax orodje

MoodleSi2007

enakost 34,39 KeaT 29,61 KeaP 22,69 KeaP4-rezanje 35,63 KeaT 30,41 KeaP 23,28 KeaP5-rezanje 35,63 KeaT 30,41 KeaP 23,28 KeaP6-rezanje 35,63 KeaT 30,41 KeaP 23,28 KeaPsoundex 35,63 KeaT 30,41 KeaP 23,28 KeaPmetaphone 35,63 KeaT 30,41 KeaP 23,28 KeaPsimilar60 39,50 KeaT 36,23 KeaP 28,71 KeaTsimilar70 38,87 KeaP 33,20 KeaT 25,99 KeaPsimilar80 36,01 KeaP 31,20 KeaT 23,86 KeaT

SIRikt2008

enakost 19,64 KeaPC 20,01 KeaPC 17,59 KeaTC4-rezanje 21,52 KeaPC 21,32 KeaPC 18,47 KeaTC5-rezanje 20,81 KeaPC 20,59 KeaPC 18,04 KeaTC6-rezanje 20,00 KeaPC 20,46 KeaPC 18,04 KeaTCsoundex 21,79 KeaPC 21,47 KeaPC 18,69 KeaTCmetaphone 21,55 KeaPC 21,06 KeaPC 18,38 KeaTCsimilar60 26,11 KeaTC 25,80 KeaTC 22,36 KeaTCsimilar70 24,74 KeaPC 24,46 KeaPC 21,22 KeaTCsimilar80 22,91 KeaPC 22,21 KeaPC 19,23 KeaTC

SIRikt2009

enakost 21,05 KeaPC 19,65 KeaPC 16,49 KeaTC4-rezanje 21,97 KeaPC 20,39 KeaPC 17,33 KeaTC5-rezanje 21,78 KeaPC 20,26 KeaPC 17,24 KeaTC6-rezanje 21,78 KeaPC 19,98 KeaPC 16,95 KeaTCsoundex 21,91 KeaPC 20,18 KeaPC 17,18 KeaTCmetaphone 21,66 KeaPC 20,05 KeaPC 17,00 KeaTCsimilar60 25,06 KeaPC 24,55 KeaPC 21,28 KeaTCsimilar70 23,79 KeaPC 22,60 KeaPC 19,42 KeaTCsimilar80 23,11 KeaPC 21,21 KeaPC 17,96 KeaTC

SIRikt2010

enakost 22,92 KeaPC 20,39 KeaTC 17,72 KeaPC4-rezanje 24,61 KeaP 21,55 KeaP 18,74 KeaPC5-rezanje 24,35 KeaP 21,34 KeaPC 18,48 KeaPC6-rezanje 24,29 KeaPC 21,34 KeaPC 18,38 KeaPCsoundex 24,61 KeaP 21,75 KeaPC 19,18 KeaPCmetaphone 23,5 KeaPC 20,74 KeaTC 18,47 KeaPCsimilar60 30,52 KeaP 27,21 KeaP 23,37 KeaPCsimilar70 28,04 KeaP 25,12 KeaP 21,56 KeaPCsimilar80 25,09 KeaPC 21,90 KeaP 19,35 KeaPC

SIRikt2011

enakost 24,14 KeaT 19,27 KeaT 15,10 KeaPC4-rezanje 25,18 KeaT 20,39 KeaT 16,00 KeaPC5-rezanje 25,06 KeaT 20,39 KeaT 15,93 KeaPC6-rezanje 24,81 KeaT 20,22 KeaT 15,76 KeaTsoundex 25,07 KeaT 20,40 KeaT 16,13 KeaPCmetaphone 25,07 KeaT 20,22 KeaT 15,87 KeaTCsimilar60 29,19 KeaT 24,36 KeaT 19,75 KeaPCsimilar70 27,27 KeaT 22,56 KeaT 18,05 KeaPCsimilar80 25,93 KeaT 21,32 KeaT 16,77 KeaT

Tabela 5.37: Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15 klju£nihbesed iz dodatnega vzorca gradiv, po konferenci in kriteriju ujemanja

tekstov. V 79 primerih je avtomatizirano £i²£enje doprineslo bolj²i rezultat, v 56 primerihpa smo bolj²i rezultat dobili brez tega £i²£enja. Ker se je ekstrakcija iz povzetkov odrezala

Page 146: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.6 Eksperiment 1 121

slab²e od drugih orodij, lahko zaradi tega predvidevamo, da bi druga£en pristop ocenjevanjau£inkovitosti ekstrakcije klju£nih besed Hulthove [22] rezultiral v vi²jih vrednostih.

Dodatno smo orodje Kea uporabili s parametri ekstrakcije iz angle²kih tekstov, s £imersmo dobili slab²e rezultate, podrobnosti £esar podajamo v prilogi D.

5.6.5 Ekstrakcija klju£nih besed iz dodatnega vzorca gradiv (2)

Dosedanja ekstrakcija je pokazala, da avtomatizirano £i²£enje ne zagotavlja vedno naj-bolj²e rezultate ekstrakcije klju£nih besed. V drugem koraku smo v povpre£ju dobili slab²erezultate, medtem ko v £etrtem koraku bolj²e. Prav tako je prej²nji korak pokazal, das pretvornikom (orodjem) pdftotext lahko dobimo bolj²e rezultate, kakor s pretvornikomTika, vendar ne v vseh primerih. Iz rezultatov sklepamo, da pretvorniki in avtomatizirano£i²£enje vplivajo na ekstrakcijo klju£nih besed.

Idealen pretvornik bi morda bil tak, ki bi pripravil tekst, ki je identi£en originalu (vdrugem formatu) in brez tiste vsebine, ki zagotovo ni v obi£ajnih klju£nih besedah. Kotsmo zapisali v podpoglavju 5.4, pri tem mislimo na podatke avtorjev, povzetke (le-teh jelahko ve£, v razli£nih jezikih), klju£ne besede, opombe, slike in pripadajo£e tekste, tabelein pripadajo£e slike, formule, citiranja virov, seznam virov in predstavitev avtorjev ter po-datkov o konferenci. Za odstranitev povzetkov smo se odlo£ili na podlagi slabih rezultatovprej²njega koraka, £eprav se zavedamo da smo s tem morda odstranili pomembne infor-macije, medtem ko smo klju£ne besede odstranili zato, da ne bi vplivale na postopekekstrakcije iz preostale vsebine.

Da bi ugotovili, ali bi to res bil idealen pretvornik, smo ro£no pripravili rezultatetak²nega pretvornika nad izbranimi desetimi prispevki. Dodatno smo pripravili verzijo spreprosto operacijo kopiraj in prilepi iz originalnega prispevka v urejevalnik besedil.

Tabela 5.38 prikazuje dobljene rezultate za vsak prispevek iz konference, za razli£nepretvornike in izbrane kriterije ujemanja za ekstrakcijo 5 klju£nih besed. Orodje Kea jebilo uporabljeno s parametri iz prvega koraka tega eksperimenta in Bayesovim modelom izdrugega koraka. U£enje orodja namre£ ni bilo moºno zaradi le 10-tih vhodnih dokumentov,kar je prav gotovo dodatno vplivalo na u£inkovitost orodja. Kljub temu so vsi najbolj²irezultati bili dobljeni z orodjem Kea, vendar se je izkazalo, da za dva prispevka (573 in 331)nobena kombinacija pretvornika in orodja ni vrnila niti ene klju£ne besede, kot so jo zapisaliavtorji prispevkov. Veliko rezultatov je istih (zaradi majhnega vzorca je to dejstvo tolikobolj o£itno), vrednosti pa razkrivajo, da ro£no o£i²£ena verzija prispevka ne zagotavljabolj²e ekstrakcije klju£nih besed. Kljub majhnemu vzorcu je presenetljivo, da smo z verzijok&p dobili vedno rezultate, enake najbolj²im.

Iz tabele bi lahko sklepali, da pretvorniki ne vplivajo toliko na ekstrakcijo, kot smona za£etku pri£akovali, za dokon£no potrditev tega pa bi morali ekstrakcijo narediti naangle²kih besedilih in mnogo ve£jem vzorcu.

Page 147: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

122 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

MoodleSi2007 SIRikt2008 SIRikt2009 SIRikt2010 SIRikt201172 108 337 385 172 421 247 573 331 1059

clean

enakost 40 40 25 28,57 22,22 20 14,29 0 0 205-rezanje 40 40 25 28,57 22,22 20 14,29 0 0 20soundex 40 40 25 28,57 22,22 20 14,29 0 0 20metaphone 40 40 25 28,57 22,22 20 14,29 0 0 20similar70 40 40 25 28,57 22,22 20 14,29 0 0 40

povzetek

enakost 0 0 25 0 0 20 0 0 0 05-rezanje 0 0 25 0 22,22 20 0 0 0 0soundex 0 0 25 0 22,22 20 0 0 0 0metaphone 0 0 25 0 22,22 20 0 0 0 0similar70 0 0 50 0 22,22 20 0 0 0 0

k&p

enakost 40 60 25 28,57 22,22 0 71,43 0 0 805-rezanje 40 60 25 28,57 22,22 0 71,43 0 0 80soundex 40 60 25 28,57 22,22 0 71,43 0 0 80metaphone 40 60 25 28,57 22,22 0 71,43 0 0 80similar70 40 60 25 28,57 22,22 0 71,43 0 0 80

Tika

enakost 40 40 0 28,57 22,22 0 71,43 0 0 805-rezanje 40 40 0 28,57 22,22 0 71,43 0 0 80soundex 40 40 0 28,57 22,22 0 71,43 0 0 80metaphone 40 40 0 28,57 22,22 0 71,43 0 0 80similar70 40 40 25 28,57 22,22 0 71,43 0 0 80

TikaC

enakost 40 40 0 28,57 22,22 0 71,43 0 0 805-rezanje 40 40 0 28,57 22,22 0 71,43 0 0 80soundex 40 40 0 28,57 22,22 0 71,43 0 0 80metaphone 40 40 0 28,57 22,22 0 71,43 0 0 80similar70 40 40 25 28,57 22,22 0 71,43 0 0 80

pdftotext

enakost 40 60 25 28,57 22,22 0 71,43 0 0 805-rezanje 40 60 25 28,57 22,22 0 71,43 0 0 80soundex 40 60 25 28,57 22,22 0 71,43 0 0 80metaphone 40 60 25 28,57 22,22 0 71,43 0 0 80similar70 40 60 25 28,57 22,22 0 71,43 0 0 80

pdftotextC

enakost 40 60 25 28,57 22,22 0 71,43 0 0 805-rezanje 40 60 25 28,57 22,22 0 71,43 0 0 80soundex 40 60 25 28,57 22,22 0 71,43 0 0 80metaphone 40 60 25 28,57 22,22 0 71,43 0 0 80similar70 40 60 25 28,57 22,22 0 71,43 0 0 80

Tabela 5.38: U£inkovitost ekstrakcije 5 klju£nih besed iz naklju£no izbranih prispevkov dodatnegavzorca virov

5.7 Eksperiment 2

Poudarek drugega eksperimenta je na ve£jezi£nem povpra²evanju po izobraºevalnih gradi-vih. Le-ta so podana v slovenskem jeziku in imajo seznam slovenskih in angle²kih klju£nihbesed. Z uporabo treh strojnih prevajalnikov naravnih jezikov (Google translate, MicrosoftBing in Amebis Presis) smo iz slovenskega jezika v angle²ki jezik prevedli seznam av-torsko podanih klju£nih besed in z ekstrakcijo dobljene klju£ne besede ter vsebino gradiv(z uporabo avtomatiziranega £i²£enja teksta). Medtem ko dobljeni seznam angle²kih besedºe predstavlja rezultat, ki ga lahko ocenimo napram prvotnim angle²kim klju£nim besedams prej uporabljenimi metrikami (natan£nost, priklic in f-mera), smo nad prevedeno vsebinogradiv uporabili ²e orodja za ekstrakcijo klju£nih besed iz prvega eksperimenta, t.j. Kea,Yahoo! Term Extractor, SAmgI, SAmgIY in TextRank.

Primer angle²kih avtorskih klju£nih besed, prevodov slovenskih klju£nih besed in rezul-tatov orodij nad istim prevedenim virom je v zgo²£eni obliki naslednji:

• avtorsko podane angle²ke klju£ne besede:

Page 148: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.7 Eksperiment 2 123

crossword, mesopotamia, phoenicians, mediterranean

• prevodi avtorsko podanih slovenskih klju£nih besed:Google translate: crossword, mesopotamia, phoenicians, mediterraneanMicrosoft Bing: crossword, mesopotamia, punic, the mediterraneanAmebis Presis: crossword, mesopotamia, phoenicians, mediterranean

• Kea (prevod pred ekstrakcijo):Google translate: mesopotamia, river, babylonians, sumerians, gilgame²uMicrosoft Bing: mesopotamia, river, k, babylonians, eastAmebis Presis: mesopotamia, river, sumerians, it, reading

• Kea (prevod po ekstrakciji):Google translate: crosswords, east, country, history, readingMicrosoft Bing: ink crossword, east, country, history, readingAmebis Presis: crossword, east, state, history, reading

• TextRank (prevod pred ekstrakcijo):Google translate: d ojlsivne poptosio tle, text, important technical advance, 10thsyllabic script, khmezopotamijaplzmpod obopisrurukfagarrelie neklinopislbMicrosoft Bing: important sumero literary work, major technical acquisition, easternmediterranean horizontally, oldest civilizations mesopotamia, textAmebis Presis: important sumerian literary work, clay wall tiles, text, oldest civiliza-tions mesopotamia, nine-year primary school

• TextRank (prevod po ekstrakciji):Google translate: _ _ _, sumersko important literary work, oldest civilizationevolved, land immigrated to israel, forced to read at least twiceMicrosoft Bing: _ _ _, important sumero literary work, developed the oldest civi-lization, the land is moved israelis, forced at least twice to readAmebis Presis: _ _ _, important sumerian literarily work, developed of oldestcivilization, country immigrated israeli, made at least twice to read through

• SAmgI (prevod pred ekstrakcijo):Google translate: mediterranean landscape, babylonian king, saul david, sumeriancities, syllabic scriptMicrosoft Bing: babylonian king, tir carnet, eastern mediterranean, asia 4, verticalsolutionAmebis Presis: mediterranean landscape, babylonian king, saul david, sumeriancities, syllabic script

• SAmgI (prevod po ekstrakciji):Google translate: hamurabi, mesopotamia, text, byblos, riverMicrosoft Bing: hamurabi, mesopotamia, text, byblos, riverAmebis Presis: hamurabi, mesopotamia, of text, biblos, river

• SAmgIY (prevod pred ekstrakcijo):Google translate: mediterranean landscape, babylonian king, saul david, sumerian

Page 149: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

124 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

cities, syllabic scriptMicrosoft Bing: babylonian king, tir carnet, eastern mediterranean, asia 4, verticalsolutionAmebis Presis: mediterranean landscape, babylonian king, saul david, sumeriancities, syllabic script

• SAmgIY (prevod po ekstrakciji):Google translate: hamurabi, text, river, history, niceMicrosoft Bing: hamurabi, text, river, history, niceAmebis Presis: hamurabi, of text, river, history, beautifully

• Yahoo! Term Extractor (prevod pred ekstrakcijo):Google translate: mediterranean landscape, babylonian king, saul david, sumeriancities, syllabic scriptMicrosoft Bing: babylonian king, tir carnet, eastern mediterranean, asia 4, verticalsolutionAmebis Presis: babylonian king, tir carnet, eastern mediterranean, asia 4, verticalsolution

• Yahoo! Term Extractor (prevod po ekstrakciji):Google translate: hamurabi, text, river, history, niceMicrosoft Bing: hamurabi, text, river, history, niceAmebis Presis: wall tiles, clay wall, yellow river, babylonians, syllabic

Iz primera so razvidni razli£ni prevodi strojnih prevajalnikov istih slovenskih besed innepopolnost prevodov, ki vpliva na rezultat - ²e posebej je evidentno pri orodju TextRank,medtem ko je pri orodju Kea prevajalnik ohranil slovensko besedo gilgame²u. Ve£ja razno-likost je razvidna v rezultatih, kjer je bil najprej narejen prevod in ²ele nato ekstrakcijaklju£nih besed. Medtem ko v prej²njih primerih ni bilo razlike med SAmgI in SAmgIY , jetukaj primer tega.

Podrobnosti povpre£nih rezultatov dobljenih f-mer po formatih gradiv prikazujejo tabeleE.1-E.3 v prilogi E. Rezultati so razdeljeni na pridobivanje gradiv iz prevodov klju£nihbesed (prvi trije stolpci), ekstrakcije klju£nih besed prevedenih gradiv z razli£nimi orodjiiz prvega eksperimenta (srednji stolpci) in na prevode z ekstrakcijo dobljenih klju£nihbesed teh istih gradiv (desni stolpci). Oznake GT, MB in AP ozna£ujejo prej omenjenestrojne prevajalnike, medtem ko oznaki EP in PE pri orodjih ozna£ujeta vrstni red operacijekstrakcije (E) in prevajanja (P). Za orodje Kea smo ponovno uporabili izbrane parametreiz prvega koraka prvega eksperimenta. Znatno najbolj²i rezultati so bili vedno pridobljeniiz prevodov klju£nih besed gradiv, na kar je prav gotovo vplival nizek odstotek klju£nihbesed, ki se dejansko pojavijo v vsebini gradiv, morda nepopolni prevodi prej omenjenihstrojnih prevajalnikov in predvsem, da so se avtorji virov potrudili za £im bolj²i prevodklju£nih besed. Rezultate gradiv formata application/force-downolad in text/plain smoponovno izpustili, ker so bila orodja pri njihovi obravnavi neuspe²na.

Pomembnej²o statistiko, t.j. podrobnosti povpre£nih rezultatov dobljenih f-mer po pre-vajalniku, orodju, pristopu in kriteriju ujemanja prikazujejo tabele E.4-E.6 v prilogi E.

Page 150: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.7 Eksperiment 2 125

Kak²en je vpliv strojnih prevajalnikov na uspe²nost ve£jezi£nega povpra²evanja pogradivih (iskanje s prevedenimi klju£nimi besedami), prikazuje tabela E.7 v prilogi E, vkateri podajamo, kolikokrat je kateri od prevajalnikov v povpre£ju omogo£il najbolj²e rezul-tate. Povzeto ²tevilo najbolj²ih primerov iz pravkar podane tabele vidimo v tabeli 5.39.V levem delu tabele podajamo se²tete vrednosti ²tevila najbolj²ih primerov in v desnem

prevajalnik 5 10 15 5 10 15GT (Google translate) 21 24 24 58,83% 60,05% 60,05%MB (Microsoft Bing) 14 12 12 6,67% 5,68% 5,68%AP (Amebis Presis) 30 29 29 34,50% 34,28% 34,28%

Tabela 5.39: Kolikokrat je bil kateri od prevodov najbolj²i

odstotkovni pogled na uteºeno (upo²tevanje vseh virov) u£inkovitosti posameznih stroj-nih prevajalnikov. Kot lahko vidimo, s strojnim prevajalnikom Google translate dobimo vpovpre£ju najbolj²e rezultate (ob upo²tevanju vpliva formata gradiva).

Zaradi kompleksnosti drugega eksperimenta (v kontekstu vseh faktorjev vpliva) smonaredili podrobnej²o statisti£no analizo f-mer z upo²tevanjem le kriterija enakosti pri 5klju£nih besedah. S testom ANOVA v kombinaciji s testom Tukey HSD smo poiskali aliobstajajo statisti£no zna£ilne razlike in kateri od strojnih prevajalnikov pri tem izstopa. Napodlagi podatkov v tabeli 5.40, ki podaja opisno statistiko f-mer prevodov prej omenjenih

prevajalnik N avg σ std. napaka 95% interval zaupanja min maxsp. meja zg. meja

MB 2211 28,1303 23,1161 0,4916 27,1662 29,0944 0 90,9091GT 2211 41,3806 24,4608 0,5202 40,3605 42,4008 0 90,9091AP 2211 27,4056 23,6134 0,5022 26,4208 28,3904 0 90,9091

skupaj 6633 32,3055 24,5872 0,3018933468 31,7137 32,8973 0 90,9091

Tabela 5.40: Opisna statistika dobljenih f-mer po strojnem prevajanju avtorskih klju£nih besed

strojnih prevajalnikov, smo z Levenovim testom ugotovili, da velja homogenost variancin s testom ANOVA pokazali, da se rezultati vsaj enega strojnega prevajalnika statisti£nozna£ilno razlikujejo. S testom Tukey HSD, katerega rezultate podajata tabeli 5.41 in 5.42,lahko vidimo, da rezultati prevajalnika Google translate izstopajo z najbolj²o povpre£novrednostjo f-mere, medtem ko se Microsoft Bing in Amebis Presis statisti£no zna£ilnomed seboj ne razlikujeta. Pri ve£jem ²tevilu klju£nih besed, je rezultat testa Tukey HSDpodoben.

V drugem eksperimentu nas je zanimala tudi situacija, ko avtorske klju£ne besedeniso podane (ker le-te signi�kantno vplivajo na u£inkovitost iskanja), t.j. imamo zgoljvir, katerega klju£ne besede moramo ²ele pridobiti z ekstrakcijo. Tabela E.8 v prilogi Eprikazuje, katera kombinacija orodja, strojnega prevajalnika in pristopa je bila v povpre£junajbolj²a glede na format gradiva. Pri oznaki orodij smo uporabili prej uvedene oznake;tako na primer KeaPEGT predstavlja orodje Kea in ekstrakcijo klju£nih besed po strojnem

Page 151: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

126 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

(I) prevajalnik (J) prevajalnik avg razlike (I-J) std. napaka Sig. 95% interval zaupanjasp. meja zg. meja

MB GT -13,2503 0,7139 0,0000 -14,9239 -11,5768AP 0,7248 0,7139 0,5673 -0,9488 2,3983

GT MB 13,2503 0,7139 0,0000 11,5768 14,9239AP 13,9751 0,7139 0,0000 12,3015 15,6486

AP MB -0,7248 0,7139 0,5673 -2,3983 0,9488GT -13,9751 0,7139 0,0000 -15,6486 -12,3015

Tabela 5.41: Primerjava povpre£nih dobljenih f-mer po strojnem prevajanju avtorskih klju£nihbesed

prevajalnik N podmnoºica za α = ,051 2

AP 2211 27,4056MB 2211 28,1303GT 2211 41,3806Sig. 0,5673 1,0000

Tabela 5.42: Rezultat testa Tukey HSD dobljenih f-mer po strojnem prevajanju avtorskih klju£nihbesed

prevajanju gradiva s strojnim prevajalnikom Google translate. Povzetek te tabele prikazujetabela 5.43. Rezultati so vodoravno lo£eni na ²tevilo klju£nih besed in strojne prevajalnike,

kombinacija 5 10 15 skupaj GT MB APKeaEPMB 9 13 1 23 23KeaEPAP 13 4 5 22 22TextRankEPGT 5 2 14 21 21KeaEPGT 7 8 3 18 18TextRankEPAP 4 5 3 12 12YahooEPGT 0 2 9 11 11TextRankEPMB 1 3 2 6 6SAmgIEPGT 1 2 3 6 6SAmgIY EPGT 0 2 2 4 4YahooEPAP 0 0 2 2 2KeaPEGT 21 19 15 55 55KeaPEMB 8 11 10 29 29YahooPEGT 1 1 0 2 2

EPGT 13 16 31 60 60

PEGT 22 20 15 57 57

EPAP 17 9 10 36 36

EPMB 10 16 3 29 29

PEMB 8 11 10 29 29

EP 40 41 44 125 60 29 36

PE 30 31 25 86 57 29skupaj 70 72 69 211 117 58 36

Tabela 5.43: Kolikokrat je bil kateri od prevodov, pristopov in kombinacij najbolj²i, za razli£no²tevilo klju£nih besed

Page 152: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.7 Eksperiment 2 127

navpi£no pa na speci�£ne kombinacije (posebej sta lo£ena pristopa najprej ekstrakcije natoprevajanja in obratno), kombinacijo pristopa in strojnega prevajalnika (brez orodja) ter sampristop.

Iz tabele je razvidno, da v povpre£ju nekoliko bolj²e (125 krat oziroma 59,24% odvseh primerov) rezultate dobimo tako, da najprej naredimo ekstrakcijo klju£nih besedin nato prevod iz slovenskega jezika v angle²ki jezik (EP). Glede na tretji korak prvegaeksperimenta, kjer smo pokazali, da je ekstrakcija klju£nih besed iz angle²kega jezikabolj u£inkovita od ekstrakcije klju£nih besed iz slovenskega jezika, je presenetljivo, da niprevladoval obraten pristop (najprej prevod vsebine vira in nato ekstrakcija klju£nih besediz prevedene vsebine - PE), zaradi £esar smo naredili kompleksnej²o statisti£no analizo zupo²tevanjem vseh faktorjev vpliva, razen formata gradiv.

Rezultati razli£nih pristopov (EP ali PE) v kombinaciji z razli£nimi orodji (Kea, Tex-tRank, SAmgI, SAmgIY ali Yahoo! Term Extractor) in razli£nimi prevajalniki (MB, GT aliAP) za razli£ne kriterije ujemanja, so zbrani v tabelah E.9-E.11 v prilogi E. Pri iskanjunajbolj²e izmed omenjenih kombinacij, smo uporabili test ANOVA s testom Tukey HSD.Opisno statistiko za omenjena testa, podaja tabela 5.44. Uporabili smo le kriterij enakosti

N avg σ std. napaka 95% interval zaupanja min maxsp. meja zg. meja

PE

KeaMB 2211 5,1850 10,9673 0,2332 4,7276 5,6424 0,00 60,00SAmgIMB 2211 2,3885 7,4331 0,1581 2,0785 2,6985 0,00 57,14SAmgIY MB 2211 2,3593 7,4001 0,1574 2,0507 2,6680 0,00 57,14TextRankAP 2211 2,6309 7,7261 0,1643 2,3087 2,9531 0,00 60,00YahooMB 2211 2,2665 7,1625 0,1523 1,9678 2,5652 0,00 44,44KeaGT 2211 5,5254 11,3974 0,2424 5,0501 6,0008 0,00 66,67SAmgIGT 2211 2,4232 7,3877 0,1571 2,1151 2,7313 0,00 44,44SAmgIY GT 2211 2,4119 7,3722 0,1568 2,1044 2,7194 0,00 44,44TextRankGT 2211 2,8332 8,0231 0,1706 2,4986 3,1678 0,00 50,00YahooGT 2211 2,3638 7,2980 0,1552 2,0594 2,6682 0,00 44,44KeaAP 2211 3,9204 9,7639 0,2076 3,5132 4,3276 0,00 60,00SAmgIAP 2211 2,4232 7,3877 0,1571 2,1151 2,7313 0,00 44,44SAmgIY AP 2211 2,4119 7,3722 0,1568 2,1044 2,7194 0,00 44,44TextRankAP 2211 2,5152 7,6394 0,1625 2,1966 2,8338 0,00 50,00YahooAP 2211 2,1555 7,1039 0,1511 1,8593 2,4518 0,00 66,67skupaj 33165 2,9209 8,2725 0,0454 2,8319 3,0100 0,00 66,67

EP

KeaMB 2211 5,0864 10,6946 0,2274 4,6403 5,5324 0,00 60,00SAmgIMB 2211 0,5691 3,7475 0,0797 0,4128 0,7254 0,00 44,44SAmgIY MB 2211 0,6018 3,8463 0,0818 0,4414 0,7622 0,00 44,44TextRankAP 2211 0,5062 3,4785 0,0740 0,3611 0,6513 0,00 44,44YahooMB 2211 1,0692 5,0716 0,1079 0,8577 1,2807 0,00 44,44KeaGT 2211 5,1085 10,7584 0,2288 4,6598 5,5571 0,00 72,73SAmgIGT 2211 0,7458 4,1908 0,0891 0,5710 0,9205 0,00 44,44SAmgIY GT 2211 0,7623 4,2453 0,0903 0,5853 0,9394 0,00 44,44TextRankGT 2211 0,5888 3,6618 0,0779 0,4361 0,7415 0,00 36,36YahooGT 2211 1,3809 5,6253 0,1196 1,1463 1,6155 0,00 44,44KeaAP 2211 5,3668 11,2024 0,2382 4,8996 5,8340 0,00 72,73SAmgIAP 2211 0,5712 3,7667 0,0801 0,4141 0,7283 0,00 44,44SAmgIY AP 2211 0,6205 3,9248 0,0835 0,4568 0,7842 0,00 44,44TextRankAP 2211 0,4906 3,4562 0,0735 0,3465 0,6348 0,00 44,44YahooAP 2211 0,8930 4,5103 0,0959 0,7049 1,0811 0,00 44,44skupaj 33165 1,6241 6,3926 0,0351 1,5553 1,6929 0,00 72,73

Tabela 5.44: Opisna statistika dobljenih f-mer pri pristopih PE, EP in razli£nih orodij za ekstrakcijoklju£nih besed

Page 153: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

128 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

in 5 klju£nih besed. Homogenost varianc, kot pogoj za test ANOVA, je izpolnjena. Rezul-tate testa ANOVA prikazuje tabela 5.45. Le-ti razkrivajo, da se rezultati razli£nih pristopovz razli£nimi kombinacijami orodij in prevajalnikov statisti£no razlikujejo.

vsota kvadratov df avg kvadrat F Sig.

PE med pristopoma 35601,057 14 2542,933 37,735 0,000znotraj pristopa 2233938,926 33,150 67,389skupaj 2269539,983 33,164

EP med pristopoma 107082,273 14 7648,734 203,139 0,000znotraj pristopa 1248187,212 33,150 37,653skupaj 1355269,485 33,164

Tabela 5.45: Rezultat testa ANOVA za pristopa PE in EP ter kombinacije orodij in prevajalnikovznotraj pristopov

Nadaljnja analiza s testom Tukey HSD za pristop PE je prikazana v tabeli 5.46 in zapristop EP v tabeli 5.47. Test je rezultate za vsak pristop razvrstil v tri statisti£no zna£ilne

generator N podmnoºica za α = ,051 2 3

YahooAP 2211 2,1555YahooMB 2211 2,2665SAmgIY MB 2211 2,3593YahooGT 2211 2,3638SAmgIMB 2211 2,3885SAmgIY GT 2211 2,4119SAmgIY AP 2211 2,4119SAmgIGT 2211 2,4232SAmgIAP 2211 2,4232TextRankAP 2211 2,5152TextRankAP 2211 2,6309TextRankGT 2211 2,8332KeaAP 2211 3,9204KeaMB 2211 5,1850KeaGT 2211 5,5254Sig. 0,278 1,000 0,989

Tabela 5.46: Rezultat testa Tukey HSD za razli£ne kombinacije orodij in prevajalnikov za pristopPE

skupine. Pri obeh pristopih so kot najbolj²i izstopali rezultati orodja Kea. Pri pristopu PEsta najbolj²e rezultate dosegli kombinaciji orodja Kea in strojnih prevajalnikov MicrosoftBing in Google translate, medtem ko je bila kombinacija orodja Kea in prevajalnika AmebisPresis tretja najbolj²a. Rezultati ostalih kombinacij so bili v povpre£ju ²e slab²i in se medseboj niso statisti£no zna£ilno razlikovali. Pri pristopu EP so vsi trije strojni prevajalnikiv kombinaciji z orodjem Kea statisti£no zna£ilno izstopali in dosegli v povpre£ju najbolj²e

Page 154: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.7 Eksperiment 2 129

generator N podmnoºica za α = ,051 2 3

TextRankAP 2211 0,4906TextRankAP 2211 0,5062SAmgIMB 2211 0,5691SAmgIAP 2211 0,5712TextRankGT 2211 0,5888SAmgIY MB 2211 0,6018SAmgIY AP 2211 0,6205SAmgIGT 2211 0,7458SAmgIY GT 2211 0,7623 0,7623YahooAP 2211 0,8930 0,8930YahooMB 2211 1,0692 1,0692YahooGT 2211 1,3809KeaMB 2211 5,0864KeaGT 2211 5,1085KeaAP 2211 5,3668Sig. 0,107 0,057 0,974

Tabela 5.47: Rezultat testa Tukey HSD za razli£ne kombinacije orodij in prevajalnikov za pristopEP

rezultate. V tabeli 5.47 lahko vidimo tudi povezavo med orodjema SAmgIY in Yahoo!Term Extractor, ki ju je test razvrstil v isto skupino. Orodji namre£ temeljita na istemservisu ekstrakcije klju£nih besed.

V povpre£ju najbolj²i rezultati pri 5 klju£nih besedah in enakosti za kriterij ujemanjaso bili dobljeni s kombinacijo KeaPEGT in drugi najbolj²i s kombinacijo KeaEPAP , kar jenakazovala tudi tabela 5.43.

V naslednjem koraku smo preverili ali se rezultati za druga£no ²tevilo klju£nih besed zati dve kombinaciji (KeaPEGT in KeaEPAP ) statisti£no zna£ilno razlikujejo v smislu u£inkovi-tej²ega ve£jezi£nega povpra²evanja po gradivih z ve£jim ²tevilom klju£nih besed. Ponovnosmo s testom ANOVA in Tukey HSD poiskali obstoj statisti£no zna£ilnih razlik in katero²tevilo klju£nih besed v povpre£ju vodi do bolj²ih rezultatov povpra²evanja. Tabele E.12-E.17 prikazujejo rezultate obeh testov za obe kombinaciji. Oba testa sta pokazala, dase rezultati pri 5, 10 in 15 klju£nih besedah statisti£no zna£ilno razlikujejo, pri tem pa sonajbolj²i rezultati doseºeni pri 5 klju£nih besedah. Iz tega razloga v nadaljevanju izpu²£amoanalizo ve£jezi£nega povpra²evanja za 10 in 15 klju£nih besed, dovolj dober indikatorrezultatov je tabela 5.43.

Preverili smo tudi vpliv strojnih prevajalnikov na ve£jezi£no povpra²evanje pristopovPE in EP. Za kriterij enakosti pri 5 klju£nih besedah, tabela 5.48 prikazuje u£inkovitostposameznih prevajalnikov. V povpre£ju strojni prevajalnik Google translate pripomore knajbolj²im rezultatom pri obeh pristopih, kar je ponovno v skladu s tabelo 5.43.

Page 155: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

130 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

prevajalnik PE EP

GT avg 3,11 1,72N 11055 11055σ 8,529 6,497

max 67 73MB avg 2,97 1,57

N 11055 11055σ 8,335 6,271

max 60 60AP avg 2,69 1,59

N 11055 11055σ 7,937 6,407

max 67 73

Tabela 5.48: Statistika dobljenih f-mer razli£nih strojnih prevajalnikov glede na pristopa PE in EPza kriterij enakosti in 5 klju£nih besed

V prvem eksperimentu smo na podlagi rezultatov v tabelah in grafov u£inkovitosti ek-strakcije klju£nih besed pri²li do poenostavljenega zaklju£ka, da so kriteriji ujemanja medsabo primerljivi in ne vplivajo bistveno na iskanje najbolj²ega orodja za ekstrakcijo klju£nihbesed. Pri tem smo izpostavili, da so kriteriji soundex, metaphone in similar_text bilirazviti speci�£no za angle²ki jezik. Ker je ve£jezi£no povpra²evanje po gradivih v na²emeksperimentu tesneje povezano z angle²kim jezikom, nas je posledi£no ponovno zani-mal vpliv kriterijev ujemanja na iskanje najbolj²ega pristopa oziroma kombinacije pristopa,orodja in prevajalnika za ve£jezi£no povpra²evanje po gradivih.

Vpliv kriterijev ujemanja smo preverili s testom ANOVA v kombinaciji s testom TukeyHSD, ponovno smo upo²tevali le f-mero in 5 klju£nih besed, poudarek smo dali kriterijemujemanja in pristopoma PE in EP. Podobno kot prej, tabela 5.49 podaja opisno statistiko,ki sluºi testoma, tabela 5.50 rezultat testa Tukey HSD za pristop PE in tabela 5.51 rezultattesta Tukey HSD za pristop EP. V zadnjih dveh tabelah je iz grupiranja kriterijev razvidno,da med kriterijem enakosti in kriterijem metaphone ni statisti£no zna£ilnih razlik. Todejstvo je izrazitej²e pri pristopu PE, medtem ko je test pri pristopu EP kriterij metaphoneuvrstil tudi v skupino kriterijev 6-rezanje, soundex, 5-rezanje in similar80. Prav tako jeopazno, da z najvi²jimi povpre£nimi vrednostmi f-mere izstopata kriterija similar_text 70 in60, kar nakazuje tudi tabela 5.25, iz £esar ponovno sklepamo, da pri ujemanju najverjetnejenaredita tudi najve£ napak. Kljub temu, da je kriterij metaphone bil najbliºje kriterijuenakosti, bi za kon£no evalvacijo ustreznosti tega kriterija namesto kriterija enakosti, bilapotrebna podrobnej²a kvalitativna analiza.

�e izra£unamo povpre£je f-mer vseh orodij in prevajalnikov pri enakosti za kriterijujemanja in 5 klju£nih besed, ugotovimo, da je pristop PE s povpre£no vrednostjo f-mere2,92% bolj²i od pristopa EP, ki je imel povpre£no f-mero enako 1,62%. Kljub procentualnoprecej²nji razliki, so rezultati ne glede na pristop slabi. Moºne vzroke za slabe rezultatesmo delno ºe navedli pri statistiki avtorsko podanih klju£nih besed in vsebovanosti le-tehv gradivih. Poleg tega pa so bile opazne napake tako pri ekstraciji klju£nih besed kot

Page 156: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.7 Eksperiment 2 131

kriterij N avg σ std. napaka 95% interval zaupanja min maxsp. meja zg. meja

PE

4-rezanje 11055 4,2271 9,9643 0,09477 4,0413 4,4129 0 66,675-rezanje 11055 4,038 9,73472 0,09259 3,8565 4,2194 0 66,676-rezanje 11055 3,8069 9,47696 0,09013 3,6303 3,9836 0 66,67enakost 11055 3,1115 8,52944 0,08112 2,9525 3,2705 0 66,67

metaphone 11055 3,2418 8,71135 0,08285 3,0794 3,4042 0 66,67similar60 11055 9,2312 13,5683 0,12905 8,9783 9,4842 0 72,73similar70 11055 6,6383 11,78197 0,11206 6,4187 6,858 0 72,73similar80 11055 4,3888 10,04113 0,0955 4,2016 4,576 0 66,67soundex 11055 3,9094 9,60407 0,09134 3,7303 4,0884 0 72,73skupaj 99495 4,7326 10,4324 0,03307 4,6677 4,7974 0 72,73

EP

4-rezanje 11055 2,3589 7,71367 0,07336 2,2151 2,5027 0 90,915-rezanje 11055 2,2003 7,4419 0,07078 2,0616 2,3391 0 90,916-rezanje 11055 2,1108 7,27914 0,06923 1,9751 2,2465 0 90,91enakost 11055 1,7173 6,49704 0,06179 1,5961 1,8384 0 72,73

metaphone 11055 2,0162 7,18405 0,06833 1,8823 2,1501 0 90,91similar60 11055 4,1499 9,87085 0,09388 3,9659 4,3339 0 90,91similar70 11055 2,8364 8,3332 0,07926 2,6811 2,9918 0 90,91similar80 11055 2,2431 7,49597 0,07129 2,1033 2,3828 0 90,91soundex 11055 2,1969 7,4452 0,07081 2,0581 2,3357 0 90,91skupaj 99495 2,4255 7,776 0,02465 2,3772 2,4739 0 90,91

Tabela 5.49: Opisna statistika dobljenih f-mer pri pristopih PE, EP in razli£nih kriterijih ujemanja

kriterij N podmnoºica za α = ,051 2 3 4 5

enakost 11055 3,1115metaphone 11055 3,24186-rezanje 11055 3,8069soundex 11055 3,90945-rezanje 11055 4,0380 4,03804-rezanje 11055 4,2271 4,2271similar80 11055 4,3888similar70 11055 6,6383similar60 11055 9,2312

Sig. 0,99 0,059 0,212 1 1

Tabela 5.50: Rezultat testa Tukey HSD za razli£ne kriterije ujemanja za pristop PE

kriterij N podmnoºica za α = ,051 2 3 4 5

enakost 11055 1,7173metaphone 11055 2,0162 2,01626-rezanje 11055 2,1108 2,1108soundex 11055 2,1969 2,19695-rezanje 11055 2,2003 2,2003similar80 11055 2,2431 2,24314-rezanje 11055 2,3589similar70 11055 2,8364similar60 11055 4,1499

Sig. 0,096 0,421 0,294 1 1

Tabela 5.51: Rezultat testa Tukey HSD za razli£ne kriterije ujemanja za pristop EP

Page 157: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

132 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

tudi pri prevajanju, ki so dodatno vplivale na u£inkovitost medjezi£nega povpr²evanja oz.generiranja klju£nih besed kot metapodatkov. Nekaj teh napak je bilo podanih tudi v tempoglavju.

Zanimiv pogled je podan tudi v tabeli 5.52, kjer ºelimo pokazati, v kolik²ni meri se

kriterij E EPMB EPGT EPAP PEMB PEGT PEAP

4-rezanje avg 3,61 2,00 2,36 1,84 4,08 4,23 3,71N 11055 11055 11055 11055 11055 11055 11055σ 9,90 7,12 7,71 6,85 9,72 9,96 9,32

max 90,91 90,91 90,91 72,73 66,67 66,67 66,675-rezanje avg 3,30 1,84 2,20 1,75 3,89 4,04 3,52

N 11055 11055 11055 11055 11055 11055 11055σ 9,58 6,81 7,44 6,69 9,49 9,73 9,06

max 90,91 72,73 90,91 72,73 66,67 66,67 66,676-rezanje avg 3,16 1,76 2,11 1,71 3,65 3,81 3,34

N 11055 11055 11055 11055 11055 11055 11055σ 9,40 6,66 7,28 6,61 9,21 9,48 8,85

max 90,91 72,73 90,91 72,73 66,67 66,67 66,67enakost avg 2,82 1,57 1,72 1,59 2,97 3,11 2,69

N 11055 11055 11055 11055 11055 11055 11055σ 8,95 6,27 6,50 6,41 8,34 8,53 7,94

max 90,91 60,00 72,73 72,73 60,00 66,67 66,67metaphone avg 3,54 1,74 2,02 1,93 3,16 3,24 2,84

N 11055 11055 11055 11055 11055 11055 11055σ 9,94 6,73 7,18 7,18 8,64 8,71 8,17

max 90,91 60,00 90,91 90,91 72,73 66,67 66,67similar60 avg 5,70 4,29 4,15 3,85 8,36 9,23 8,04

N 11055 11055 11055 11055 11055 11055 11055σ 11,88 10,10 9,87 9,58 13,05 13,57 12,85

max 90,91 90,91 90,91 90,91 72,73 72,73 72,73similar70 avg 4,42 2,87 2,84 2,70 5,79 6,64 5,73

N 11055 11055 11055 11055 11055 11055 11055σ 10,77 8,38 8,33 8,16 11,18 11,78 11,03

max 90,91 72,73 90,91 72,73 66,67 72,73 66,67similar80 avg 3,52 2,03 2,24 1,95 4,26 4,39 3,81

N 11055 11055 11055 11055 11055 11055 11055σ 9,85 7,17 7,50 7,03 9,82 10,04 9,37

max 90,91 66,67 90,91 72,73 66,67 66,67 66,67soundex avg 3,76 1,83 2,20 1,83 3,80 3,91 3,43

N 11055 11055 11055 11055 11055 11055 11055σ 10,18 6,79 7,45 6,84 9,37 9,60 8,96

max 90,91 72,73 90,91 72,73 72,73 72,73 72,73

skupaj avg 3,76 2,22 2,43 2,13 4,44 4,73 4,12N 99495 99495 99495 99495 99495 99495 99495σ 10,11 7,47 7,78 7,35 10,08 10,43 9,75

max 90,91 90,91 90,91 90,91 72,73 72,73 72,73

Tabela 5.52: Povpre£ne vrednosti f-mer razli£nih pristopov in ekstrakcije klju£nih besed iz virov vslovenskem jeziku, za razli£ne kriterije ujemanja

zaradi vpliva strojnega prevajalnika zmanj²a u£inkovitost povpra²evanja v angle²kem jeziku

Page 158: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

5.7 Eksperiment 2 133

napram u£inkovitosti povpra²evanja v slovenskem jeziku nad isto mnoºico klju£nih besed,ki smo jih dobili z razli£nimi orodji za ekstrakcijo (E). Pri ra£unanju povpre£ne vrednostiso upo²tevani samo rezultati na podlagi 5 klju£nih besed. Iz stolpcev EPMB, EPGT inEPAP ter E lahko izra£unamo, da so rezultati po prevajanju in povpra²evanju v angle²kemjeziku v povpre£ju slab²i za 38,74%, med tem ko so rezultati pristopa PE v povpre£juizbolj²ali rezultat povpra²evanja v angle²kem jeziku napram povpra²evanju v sloven²£ini za22,73%.

Iz vsega zapisanega v drugem eksperimentu lahko sklepamo, da je orodje Kea domini-ralo tudi v drugem eksperimentu. Med strojnimi prevajalniki v povpre£ju nekoliko bolj²erezultate dobimo pri uporabi prevajalnika Google translate. Povpre£na f-mera vseh rezul-tatov z Google translate namre£ zna²a 7,24%, s prevajalnikom Microsoft Bing 5,80% in sprevajalnikom Amebis Presis 5,41%. Prav tako lahko iz drugega eksperimenta sklepamo,da v primeru, ko:

• obstajajo avtorsko podane klju£ne besede, najbolj u£inkovito ve£jezi£no povpra²e-vanje dobimo s prevodom teh klju£nih besed v iskalni jezik. Pri tem se je najboljeodrezal strojni prevajalnik Google translate.

• ne obstajajo avtorsko podane klju£ne besede in lahko uporabimo le eno kombi-nacijo pristopa, orodja in strojnega prevajalnika, v povpre£ju najbolj²e rezultate do-bimo s kombinacijo KeaPEGT . V kolikor imamo na voljo dve kombinaciji, je mordapriporo£ljivo uporabiti tudi kombinacijo KeaEPAP in smiselno kombinirati dobljeneklju£ne besede obeh kombinacij. V primeru ve£ih kombinacij pa je smiselna uporabaorodja Kea z obema pristopoma in vsemi tremi strojnimi prevajalniki ter smiselnokombinacijo dobljenih klju£nih besed vseh kombinacij.

Ve£plastnost zadnje alineje pripisujemo dejstvu, da orodje Kea ni specializirano zaekstrakcijo klju£nih besed iz virov v slovenskem jeziku, kar smo potrdili tudi v prvemeksperimentu in da so lahko strojni prevajalniki uspe²nej²i pri prevajanju stavkov namestole besed, ker iz konteksta vsebine stavka ustrezneje prevedejo posamezne besede ali fraze.Vsekakor to podro£je zasluºi v prihodnosti ve£ pozornosti.

Page 159: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

134 Poglavje 5: Evalvacija u£inkovitosti ekstrakcije klju£nih besed

Page 160: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Poglavje 6

Zaklju£ek

Dandanes je dostop do informacij tako raznolik in vsakdanji, da je odkrivanje in iskanjeºelenih virov pogosto predvsem �ltriranje pomembnih informacij v mnoºici vseh informacij.Osnova �ltriranja so metapodatki virov in u£inkovito povpra²evanje po izobraºevalnih virihnedvomno temelji na kvalitetnih metapodatkih.

V magistrskem delu smo obravnavali razli£ne de�nicije metapodatkov, od obi£ajnihdo popolne, podane s strani organizacije NISO. Dotaknili smo se tudi dveh delitev tipovmetapodatkov, osnovnega namena in uporabe metapodatkov za elektronske in neelektron-ske vire, kje se metapodatki nahajajo, kako so zapisani in podali smo razli£ne poglede nakvaliteto metapodatkov. Za slednje skupaj z nekaterimi drugimi avtorji ugotavljamo, dapredstavlja pomembno oviro pri pridobivanju virov. Obstaja namre£ precej²nje ²tevilo di-gitalnih knjiºnic (tri od njih smo intenzivno uporabili za pridobivanje izobraºevalnih virov),vendar stanje metapodatkov odraºa predvsem stanje ob vzpostavitvi knjiºnic in za£etnihvnosih gradiv ter pripadajo£ih metapodatkov. V tem £asu je razvoj izobraºevalnih elek-tronskih gradiv napredoval, skladi²£a pa ²e vedno vsebujejo starej²a gradiva ali pa URLpovezave mnogih metapodatkov kaºejo na neobstoje£e naslove. Pri slednjem v kontekstuprej omenjene kvalitete govorimo o slabo kvalitetnih metapodatkih.

Vedno ve£je zavedanje pomena (kvalitetnih) metapodatkov, je obrodilo ²tevilne re²itvein delne re²itve problema metapodatkov. Nekatere organizacije so pri£ele s kampanjamiizobraºevanja uporabnikov spleta in digitalnih knjiºnic o pomenu in pomembnosti metapo-datkov, drugi so razvili metapodatkovne standarde in pripadajo£a orodja, ki se £im boljtrudijo poenostaviti breme kreiranja metapodatkov. Tretja skupina izhaja iz dejstva, daje ro£no kreiranje teºko in zahteva £love²ke, £asovne in �nan£ne vire, zato zagovarjajorazvoj orodij, ki metapodatke generirajo avtomatizirano.

V osrednjem delu teoreti£nega dela magistrskega dela smo podali izbor nekaterih orodijza kreiranje in upravljanje z metapodatki, za ustvarjanje digitalnih skladi²£ in pridobivanjevirov iz njih ter nekatera druga orodja, povezana z metapodatki. V izboru je mogo£ezaslediti tudi nekaj orodij, nastalih ob za£etkih t.i. metapodatkovnega gibanja, ki ºal ve£ne obstajajo ali pa so postali del novej²ih orodij. Medtem ko je izbor orodij splo²en, smo vmagistrskem delu dali poudarek orodjem za ekstrakcijo metapodatkovnih elementov. Kerklju£ne besede, kot eden od metapodatkovnih elementov, predstavljajo najpomembnej²oinformacijo pri povpra²evanju po virih oziroma prvi nivo �ltriranja pomembnih informacij,smo se omejili le ne orodja za ekstrakcijo klju£nih besed in podrobneje obravnavamo algo-

135

Page 161: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

136 Poglavje 6: Zaklju£ek

ritme delovanja petih tak²nih orodij (GenEx, Kea, TextRank, B&C in pristop Hulthove).Razli£na orodja uporabljajo razli£ne tehnike in pristope, na kratko smo se dotaknili naj-pomembnej²ih: korenjenje besed, omejevanje z mejami fraz, upo²tevanje stop besed instop fraz, evolucijske algoritme za optimizacijo parametrov, strojno u£enje in procesiranjenaravnih jezikov. Korenjenje, stop besede in stop fraze ter procesiranje naravnih jezikov soneposredno povezani z naravnimi jeziki in zahtevajo lo£ene pristope za vsak naravni jezik.Po pri£akovanju na tem podro£ju dominira angle²ki jezik, medtem ko za slovenski jezikobstajajo le omejene re²itve. V magistrskem delu se jih nismo posluºili, vsekakor pa bododeleºne pozornosti pri nadaljevanju raziskovanja tega podro£ja.

V literaturi ob vsakem novem orodju za ekstrakcijo klju£nih besed lahko zasledimo tudiprimerjavo u£inkovitosti s katerim od tedanjih orodij. Pri tem obi£ajno uporabijo uveljav-ljene metrike iz podro£ja pridobivanja informacij, kot so natan£nost, priklic in f-mera, koturavnoteºeno metriko natan£nosti in priklica. Ker je prvi dve metriki mogo£e izkoristitiv prid visokim rezultatom, f-mera vsekakor predstavlja bolj realno metriko, zaradi £esarsmo jo privzeli kot osrednjo metriko empiri£nega dela magistrskega dela. Pri ocenjevanjuu£inkovitosti za kriterije ujemanja avtorji obi£ajno uporabijo pristop korenjenja besed, leredko oziroma skoraj nikoli pa uporabijo natan£no ujemanje klju£nih besed. Razli£ni krite-riji ujemanja rezultirajo v razli£no visokih vrednostih uporabljenih metrik, kar lahko avtorjiizkoristijo za izkaz vi²je u£inkovitosti svojih orodij. Za slovenski jezik smo ºal ponovnoprikraj²ani za nekatere pristope, ker objavljeni pristopi korenjenja temeljijo predvsem napravilih tvorbe angle²kih besed. Kljub temu, da lahko za kriterije ujemanja uporabimo karnekaj pristopov (v empiri£nem delu smo ob natan£nem ujemanju uporabili tudi n-rezanjein speci�£ne fukcije soundex, metaphone in similar text, ki se jih sicer posluºujejo razvi-jalci spletnih aplikacij), je za natan£nej²o evalvacijo u£inkovitosti orodij potreben razvojpristopa, speci�£nega za slovenski jezik.

Zadanih raziskovalnih vpra²anj smo se lotili v empiri£nem delu magistrskega dela,preko dveh eksperimentov ekstrakcije klju£nih besed nad dvema realnima vzorcema vi-rov: izobraºevalnimi gradivi in znanstveno-raziskovalnimi prispevki. Gradiva smo pridobiliiz treh digitalnih skladi²£ (ARIADNE �nder, Atlas in Learning Resource Exchange forschools) z uporabo protokola OAI-PMH, medtem ko prispevke iz zbornikov ²tirih sloven-skih znanstveno-raziskovalnih konferenc.

V prvem eksperimentu smo v petih korakih poiskali odgovor na prvi dve raziskovalnivpra²anji: katero izmed uporabljenih orodij za ekstrakcijo klju£nih besed je najbolj²e zaekstrakcijo klju£nih besed iz slovenskih virov, ter ali je ekstrakcija klju£nih besed iz sloven-skih virov primerljivo u£inkovita z ekstrakcijo iz angle²kih virov?. Uporabili smo ²tiri orodja(Kea, Yahoo! Term Extractor, TextRank in SAmgI) oziroma pet razli£ic orodij (SAmgI inSAmgIY ).

V prvem koraku smo z razli£no velikimi u£nimi mnoºicami in parametri poiskali £im boljoptimalne parametre orodja Kea in pri tem ugotovili, da na ekstrakcijo pomembno vplivauporaba globalne frekvence klju£nih besed, format gradiva in po pri£akovanju tudi velikostu£ne mnoºice. Iskanje optimuma smo omejili tudi z iskanjem 5, 10 in 15 klju£nih besedter dvema razli£nima pristopoma priprave tekstov (z in brez avtomatiziranim £i²£enjemteksta). Kljub obseºnemu iskanju optimuma, bi le-temu v bodo£e bilo potrebno posvetiti

Page 162: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

137

ve£ poudarka in raz²iriti velikost u£nih mnoºic, pove£ati vpliv naklju£ja, iskati ve£ razli£nih²tevil klju£nih besed, uporabiti ve£ razli£nih formatov virov in ve£je ²tevilo virov. Nanizek rezultat sta po na²em prepri£anju pomembno vplivali dve dejstvi: orodje Kea nispecializirano za slovenski jezik in predvsem izredno nizek odstotek (27,67%) avtorskopodanih klju£nih besed, ki so se dejansko tudi nahajale v vsebini gradiv. Ne glede nakvaliteto orodja za ekstrakcijo klju£nih besed, je namre£ vsako orodje sposobno ekstrakcijele besed oziroma fraz, ki se dejansko nahajajo v vsebini vira in so zatorej navzgor omejena vu£inkovitosti. Da je orodje Kea sposobno bolj²e ekstrakcije, smo v drugem koraku preverilina angle²kih izobraºevalnih virih in dobili bolj²e rezultate ekstrakcije. Posledi£ni sklep je,da potrebujemo bolj²e orodje za ekstrakcijo klju£nih besed iz slovenskih tekstov. Mordaje dovolj dobra osnova ºe orodje Kea, ki bi ga nadgradili s podporo slovenskemu jeziku.

V tretjem koraku smo optimalne parametre orodja Kea uporabili skupaj s prej omenjen-imi ²tirimi razli£icami orodij in poiskali katero orodje daje najbolj²e rezultate. Prepri£ljivonajbolj²e je bilo orodje Kea, kar predstavlja odgovor na prvo raziskovalno vpra²anje. Dobolj²ih rezultatov smo v nekaterih primerih pri²li z avtomatizirano o£i²£enim tekstom.

V £etrtem in petem koraku smo u£inkovitost ekstrakcije klju£nih besed preverili nadznanstveno-raziskovalnimi prispevki. Ugotovili smo, da so bili dobljeni rezultati bolj²inapram ekstrakciji iz izobraºevalnih gradiv in s tem pokazali vpliv gradiv na ekstrakcijoter zmoºnost orodja Kea, da doseºe bolj²e rezultate za slovenski jezik. Kljub vsemu so bilirezultati niºji od rezultatov v koraku 2 in rezultatov v literaturi, zaradi £esar sklepamo, dau£inkovitost ekstrakcije klju£nih besed iz slovenskih tekstov ²e ne dosega u£inkovi-

tosti ekstrakcije iz angle²kih tekstov, kar predstavlja odgovor na drugo raziskovalnovpra²anje. Hkrati s tem potrjujemo potrebo po razvoju u£inkovitega orodja za ekstrakcijoklju£nih besed iz slovenskega jezika. V teh dveh korakih smo pokazali tudi, da ekstrakcijazgolj iz povzetkov ne daje dovolj dobrih rezultatov in da pristop priprave tekstov za orodjavpliva na njihov rezultat. Ker je le-ta bil v£asih bolj²i, v£asih slab²i, bi skupaj z razvo-jem orodja za ekstrakcijo bilo potrebno upo²tevati tudi delovanje pretvornikov in £i²£enjevhodnega teksta.

Zadnjega raziskovalnega vpra²anja smo se lotili v drugem eksperimentu, v kateremsmo iskali najprimernej²i pristop za ve£jezi£no povpra²evanje po izobraºevalnih gradivih inodgovor na vpra²anje kateri izmed pristopov ve£jezi£nega povpra²evanja je bolj u£inkovitza iskanje slovenskih gradiv z angle²kimi iskalnimi besedami? Primerjali smo tri pristope:prevod obstoje£ih avtorskih klju£nih besed v iskalni jezik, prevod vsebine gradiv v iskalnijezik z naknadno ekstrakcijo klju£nih besed v iskalnem jeziku in ekstrakcijo klju£nih besedv prvotnem jeziku gradiva in naknadnim prevajanjem v iskalni jezik. Dobljen odgovortretjega raziskovalnega vpra²anja je ve£plasten. V kolikor ºe obstajajo klju£ne besede,

dobimo znatno bolj²e rezultate s prevajanjem le-teh v iskalni jezik. V nasprotnem

primeru so v povpre£ju najbolj²i rezultati dobljeni s kombinacijo prevoda slovenskega

vira v angle²ki jezik s strojnim prevajalnikom Google translate in nato ekstrakcijo

klju£nih besed z orodjem Kea. Statisti£no primerljive rezultate, a nekoliko slab²e,

dobimo s kombinacijo ekstrakcije klju£nih besed iz slovenskih virov z orodjem Kea

in nato prevodom v angle²ki jezik s strojnim prevajalnikom Amebis Presis. Dodatnose je pokazalo, da je ponovno dominiralo orodje Kea in da so v povpre£ju bolj²i rezultatidobljeni s strojnim prevajalnikom Google translate. Ker razli£ne kombinacije pristopov z

Page 163: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

138 Poglavje 6: Zaklju£ek

orodjem Kea in strojnih prevajalnikov med seboj niso izstopale, bi bilo po razvoju orodja zaekstrakcijo klju£nih besed iz slovenskih virov in bodo£ih spremembah strojnih prevajalnikovnaravnih jezikov, potrebno ponovno posvetiti pozornost ve£jezi£nemu povpra²evanju povirih.

Cilji magistrskega dela so bili doseºeni, v nekaterih pogledih tudi preseºeni. Celostnosmo obravnavali metapodatke in avtomatizirano generiranje klju£nih besed razli£nih virov,kot najpomembnej²im metapodatkovnim elementom za opis gradiv. Poiskali smo najbolj²eorodje za ekstrakcijo klju£nih besed iz slovenskih tekstov, pokazali da potrebujemo bolj²eorodje in da najve£je uspehe pri iskanju gradiv v tujih jezikih doseºemo s prevodi obstoje£ihklju£nih besed oziroma kombinacijo pristopov ekstrakcije klju£nih besed in prevajanjem vtuji jezik. Predvsem slednje je pomemben rezultat za upravitelje digitalnih knjiºnic z viriv razli£nih jezikih. Pomemben doprinos je tudi v obravnavi pristopov in tehnik, ki lahkosluºijo za razvoj bolj²ega orodja.

Page 164: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Dodatek A

Klju£ne besede primarnega vzorca

Gradiva primarnega vzorca so bila opisana z naslednjimi unikatnimi klju£nimi besedami:10, 100, 1000, 20, 2d trk, 2d valovanje, 3d, a. pesek, abakus, abeceda, ac vezje, afrika, agregatno stanje, ahajci, aids, aktivnobreme, aktivnost, aleksandrov, aleksnader veliki, alga, algoritem, alkohol, alpe, alpski svet, amerika, ampermeter, amperov za-kon, amperova zanka, amplituda, anagram, analiza, angloamerika, anica £ernej, anica £ernejeva, animacija, animacija gibanja,anketa, antika, apnenec, arabci, arhimed, arhitektura, arhitektura ra£unalnika, aritmetika, asociacija, aspect_showcase, as-tronavt, astronomija, atene, atlas, atletika, atwoodov stroj, avstralija, avstrija, avto, baftna plo²£ad, bajka, baker, bakterija,balisti£ni preizkus, balkan, balon, bankir, barbar, barometer, barva, barvanje, barvni spekter, bas, base, basen, baterija, belakrajina, bela svetloba, bernoullijeva ena£ba, beseda, besedilo, bibavica, biologija, bit, bitje, bivali²£e, blisk, boben, bog, bolezen,boltzmannov faktor, borza, bosna, bostonska £ajanka, botanika, bralne teºave, bralno razumevanje, branje, brat, brata grimm,bratov²£ina sinjega galeba, braytonov cikel, brisanje, bron, buba, butalci, cankar, cantata, carnotov stroj, celica, celina, cello,celo ²tevilo, cena, centripetalna sila, cerkev, cesarstvo, chamber orchestra, children choir, choir, civilizacija, clarinet, colos,concerto, coulombov zakon, cpe, cunami, cvet, cvetje, £arobni kvadrat, £arobno ²tevilo, £as, £as padanja, £asovni interval,£ebela, £ebelarstvo, £elada, £ip, £len, £lenonoºec, £lovek, £love²ko telo, £revo, £rka, £rkovanje, £rni peter, £udovite dogodi-v²£ine vajenca hlapi£a, £utila, £utilo, daljica, daljnogled, dalj²a pot, dan, datoteka, datote£ni sistem, davki, decimalno ²tevilo,dedek, de�nicija, de�nicija dela, de�nicija pospe²ka, deformacija, dejavnosti, dejstvo, deklaracija o neodvisnosti, dekli²ki zbor,del celote, delavnica, delec, delilnik napetosti, delitelj, deljenje, deljivost, delo, delo gravitacije, delo sile, delo vzmeti, delovanje,delovno okolje, demokracija, detektiv, deº, deºevne kaplje, deºevni gozd, diagram, diagram a/t, diagram gibanja, diagram r/t,diagram s/t, diagram sil, diagram v/t, diagram ºarkov, didakti£na igra, dielektrik, dielektri£na konstanta, dielektri£no zrcalo,dihala, dihanje, dinamika teko£in, dinami£ni tlak, dinami£ni vzgon, dinarsko gorstvo, dipol, direktorij, dogodek, dojen£ek, doku-ment, dokumentacija, dolo£anje poloºaja, dolo£evanje gibanja, dolºina, dolºina vrvice, dom, doma£e branje, domina, domine,domi²ljija, dopplerjev pojav, doºivljajski spis, dragotin, drama, dramatizacija, draºgo²e, drevesna struktura, drevo, drsni upor,druga svetovna vojna, drugi keplerjev zakon, drugi newtonov zakon, drugi zakon termodinamike, druºba, druºina, druºinskodrevo, drºava, du²eno nihanje, dvigalo, dvoatomarni plin, dvojna reºa, dvokali£nica, dvomestno ²tevilo, e-po²ta, egipt, ekologija,ekosistem, ekskurzija, eksotika, ekvator, ekviparticijski teorem, ekvipotencialna krivulja, ekvipotencialna ploskev, ela peroci,elasti£ni trk, elektrika, elektri£na sila, elektri£ni generator, elektri£ni naboj, elektri£ni potencial, elektri£ni pretok, elektri£no ni-halo, elektri£no polje, elektromagnetni valovi, elektromagnetno valovanje, elektron, elektroskop, elektrostatika, elektrostati£nolepenje, elipti£na polarizacija, elipti£ni tir, em, em valovanje, embalaºa, enako, enakomerno gibanje, enakomerno kroºenje,enakomerno linearno gibanje, enakomerno pospe²eno gibanje, enakopravnost, ena£ba, ena£ba hitrosti, ena£ba le£e, ena£bameta, ena£ba pospe²ka, ena£ba poti in £asa, ena£ba valovanja, ena£ba zveznosti, enciklopedija, energija, energija nihanja,energija sistema, energija trka, energija vzmeti, engelbert humperdinck, enokali£nica, enosmerni tok, enostaven trk, enota,entropija, ergonomija, evizus, evropa, evropski dan, faktor, faradayev zakon, faraon, fazna hitrost, fazni premik, fazni prostor,fazni zamik, female choir, feni£ani, fermatov princip, feromagnetizem, ferrisov vrtiljak, fevdalizem, �esa, �lm, �lter, �refox,�zika, �zikalno nihalo, �zlet, �avta, �ute, folk song, folklora, format datoteke, format izrazov, format podatkov, fosil, fotoa-parat, fotogra�ja, fotosinteza, fourierjeva vrsta, fran levstik, france bevk, france pre²eren, franki, frekvenca, fuºina, galilejevatransformacija, galvanometer, gaussov zakon, gaussova ploskva, geocentri£ni sistem, geogra�ja, geografska lega, geometrija,geslo, gibalna koli£ina, gibalna koli£ina vzmeti, gibanja telesa po kroºnici, gibanje, gibanje na klancu, gibanje s konstantnohitrostjo, gibanje v prostoru, gibanje v ravnini, gibraltarska oºina, gimnastika, gimp, girl choir, gladiator, glagol, glas, glasba,glasbena vzgoja, glasbilo, glava, glavno mesto, glavonoºec, gledali²ka igra, gledali²£e, gliva, globina padca, gnezdo, goba, gobjiples, godec, gora, gori²£e, gori²£na razdalja, gorni²tvo, gorovje, gorsko cvetje, gosenica, gospodarstvo, gostota, goti, govornapredstavitev, gozd, grad, gradnik tokokroga, graf, graf hitrosti, graf napetosti, graf pospe²ka, graf poti, graf razdalje, gra�£niuporabni²ki vmesnik, gramofon, gravitacija, gravitacijski pospe²ek, gravitacijski zakon, gravitacijsko polje, grb, grelnik, grki,gr£ija, gr£ija kolonizacija, gr²ki bogovi, habsburºani, haiku, hanibal, harmoniki, harmoni£no nihalo, harmoni£no nihanje, harrypotter, heliocentri£ni sistem, herbarij, hidravli£no dvigalo, hieroglif, himna, histogram, hitrost, hitrost krogle, hitrost kroºenja,hitrost na klancu, hitrost vetra, hiv, hi²a, hladilnik, homo sapiens, hookeov zakon, hot potatoes, hrana, hro²£, hrustanec,

139

Page 165: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

140 Poglavje A: Klju£ne besede primarnega vzorca

hrva²ka, html, humanizem, huygensov princip, hvaleºni medved, i.b.maºurani¢, idealni plin, iglavec, igra, igra za mirne roke,imenovalec, impedanca, indeks, indijanec, indikator hitrosti, individualno delo, induciran tok, indukcija, induktivnost, industrija,inercialni sistem, informacija, informacijska druºba, informacijski sistem, informatika, integral poti, integrirano razvojno okolje,integrirano vezje, interakcija, interaktivna naloga, interaktivnost, interferenca, internet, intervju, invalid, iskanje, islam, italija,ivan tav£ar, izdelava, izdelek, izgovor, izgubljeni de£ek, izkopanina, izkoristek, izlet, izmeni£ni tok, izolacija, izparevanje, izvedba,izvir em, izvor, izvorna koda, j. k. rowling, jabolko, jaj£ece, jakost magnetnega polja, jakost toka, jan hus, janez menart, jankoin metka, java, jedilnik, jedro, jezik, josip broz tito, joulov poskus, joºe galet, jug, jugoslavija, juºna amerika, juºna evropa,jxyzet, kajenje, kaktus, kalorimetrija, kamen modrosti, kamena doba, kanalizacija, kantata, kapaciteta, karantanija, karel veliki,karte, kartica, kartogra�ja, kasetofon, kazalo, kazal£ni diagram, kekec, kemija, keplerjevi zakoni, kette, kilogram, kinematika,kinematika v dveh dimenzijah, kinematika v eni dimenziji, kineti£na energija, kineti£na teorija, kip, kip svobode, kircho�ovzakon, kisik, klarinet, klavir, kljunasto merilo, klju£, klju£na beseda, kloro�l, kmet, kmetijstvo, knez, kneºji kamen, knjiga,knjiºevnost, knjiºni junak, koaksialni kabel, kocka, kodiranje, koe�cient vra£anja, koe�cient ²irjenja, koledovanje, koli£ina, kolo,komet, komorni sestav, kompas, komponenta, komponenta hitrosti, komponenta pospe²ka, komponenta sile, komponenta vek-torja, komunikacija, koncentracija, konceptualni model, koncert, kondenzator, koni£no nihalo, koni£no nihanje, konj, konkavnale£a, konkavno zrcalo, konstanta g, konstanta sila, konstanta vzmeti, konstantna hitrost, konstantni pospe²ek, konstantnogibanje, kontaktna sila, kontrast, kontrola animacije, konveksna le£a, konveksno zrcalo, konzervativna sila, koodinatna os,koordinata, koordinatna os, koordinatni sistem, koordinatno izhodi²£e, kopiranje, kopno, korenina, kost, kot, kot odmika, ko-taljenje, kotna hitrost, kotni moment, kotni odmik, kotni pospe²ek, kova£, kovina, koºa, kraj, kraj²anje, kraj²anje ulomka,kratka beseda, kratka vaja, kra²ki pojav, kri, kriptogra�ja, kristjan, kri²tof kolumb, kriºanka, krog, krogelni kondezator, krogla,kroglno polje, kropa, kroºek, kroºenje, kroºenje planeta, kroºna polarizacija, kroºno gibanje, krvni obtok, krvni tlak, kr²£anstvo,kultura, kulturni praznik, kvader, kvadrant, kvadrat, kvadriranje, kviz, labirint, ladja, lan, laserska resonan£na votlina, lastnost,lastnosti le£e, latentna talilna temperatura, lc vezje, led, legenda, lenzov zakon, leonardo da vinci, lepenje, leposlovje, les, lethelihopterja, letalo, letalsko krilo, letni £as, leto, levi devºej, le£a, lik, likovna vzgoja, linearna funkcija, linearna hitrost, linearnapolarizacija, linearna regresija, linux, list, listavec, liter, liturgical lyric, liturgi£no besedilo, ljudska pesem, ljudski ples, ljudstvo,logika, logi£no razmi²ljanje, lokalno omreºje, lom svetlobe, lomni koli£nik, longitudinalno valovanje, lov za zakladom, lo£evanje,lo£ila, lo£ilo, luna, lutka, lutkovna predstava, lu£, magnet, magnetna igla, magnetna poljska gostota, magnetna sila, magnetnipol, magnetni pretok, magnetno polje, maji, makedonija, maketa, maksimalna hitrost, mala £rka, male choir, mama, mamut,manj²a sila, manufaktura, mapa, marko polo, martin krpan, masa, masni spektometer, masno sredi²£e, mass, matematika,matemati£no nihalo, material, mavrica, maxwell-boltzmannova porazdelitev, ma²a, med, mediteran, medmreºje, medosebniodnosi, mehanika, mehkuºec, meja, meja elasti£nosti, merilo, meritev, merjenje, merjenje hitrosti, merjenje pospe²ka, merjenjepredmetov, merska enota, mesto, meta rainer, metamorfoza, meter, metulj, mezopotamija, me²ani zbor, me²£an, microsoftword, microsoft windows, microsoft word, mikroogranizem, mikroskop, mili, milijon, minuta, mirovna dolºina, mirujo£a to£ka,mirujo£e teko£ine, miselni vzorec, miti, mixed choir, mi²ica, mladinski zbor, mnenje, mnogoceli£ar, mnoºenje, model uklona,moderna, molekula, morje, morska deklica, morska zvezda, morski jeºek, most, motiv, motivacija, motor, motor z notran-jim izgorevanjem, mozilla, mo£, mo£ upora, mo²ki zbor, moºgani, mravlji²£e, mrest, mreºa, muca copatarica, multimedija,muzej, naboj, nadzor, nadzvo£na hitrost, naelektrenje, nafta, nahrbtnik, najvi²ja to£ka, naloga, namakanje, napetost, napetostkondenzatorja, napetost strune, napetost vrvi, napitek, narava, naravne snovi, naravni park, naravno ²tevilo, naravoslovje,naravoslovni dan, narod, naselitev, naselje, nastavitve strani, natan£nost, nauk, navada, navidezna slika, navidezni pomnilnik,navodila, navodilo, navor, navpi£ni met, na£rt, na²a muca, neandertalec, neenakomerno kroºenje, neena£ba, negativna hitrost,negativni pospe²ek, neharmoni£no nihanje, neolitik, neproºni trk, netopnost, neumetnostno besedilo, nevesta, nevidnost, nevi-hta, newtonovi zakoni, nezakonska mati, nihalo, nihanje, nikalna poved, noga, normalizacija, normalna komponenta, nos,nosilnost, nosna votlina, nota, notranja energija, notranja sila, notranja upornost baterij, nova zelandija, novica, novo leto,no£, numeri£ni zapis sile, ob bistrem potoku je mlin, obala, obdelava podatkov, obhodni £as, obleka, oblikovanje, oblikovanjebesedila, obnova, obodna hitrost, obogatena resni£nost, obremenitev, ocena, ocenjevanje, odboj, odbojka, odbojni kot, odbojnival, oddajnik, odgovor, odjemalec, odklon, odloºi²£e, odmev, odmik, odnosi, odpadek, odpriranje, odstavek, odstotek, odvisnigovor, odvisnost, odziv bremena, od²tevanje, ogenj, oglas, ogla²evanje, ohmov zakon, ohranitev energije, ohranitev gibalnekoli£ine, ohranitev vrtilne koli£ine, ohranitveni zakon, oko, okolje, oksidacija, olimpijada, oljka, ol²eva, omreºje, onesnaºe-vanje, opazovalni sistem, opazovanje, opazovanje gibanja, openo�ce, opera, operacijski sistem, operacijski sistem linux, opis,opismenjevanje, oprema, opti£na aplikacija, opti£na os, opti£ni element, opti£no vlakno, orbita, orchestra, organ, organizem,organska kemija, orgle, orientacija, orkester, orodje, os nihanja, osebni podatek, osebni ra£unalnik, osebni zaimek, oseka, os-mica, osnovni pojmi informatike, oson£je, ostanek, otok, otro²ki zbor, otro²tvo, ottov motor, oznaka sile, o£ala, paglavec,pajek, paleolitik, pali£ni magnet, panonska niºina, papir, parabola, paralelogram, paralelogramsko pravilo, parcialni tlak, pas,past, pefekt, pelod, percepcija, perioda, periodi£no gibanje, perzija, pesem, petje, petmestno ²tevilo, piano, pika, pikapolonica,piramida, piran, pirh, pisanje, pisatelj, pisava, pisni vir, pisno izraºanje, pitagora, pitagorov izrek, planet, planinarjenje, plavanje,plavº, plaz, plen, plenilec, ples, plesen, plima, plin, plinska ena£ba, plju£a, plo²£ina, plo²£ina grafa hitrosti, pobarvanka, po-barvati, podaja, podatek, podatki, podatkovna baza, podkvasti magnet, podnebje, podobno, podobnost, podrast, podrobnost,poem, poezija, pogon, pohodni²tvo, poklic, pol, polarizacija, polarizacijski �lter, polarizator, polarne koordinate, poletje v ²koljki,policaj, policist, politika, polje, polmer, polnjenje, polotok, poloºaj, poloºaj v 3d prostoru, polº, pomlad, pomnilnik, pomo£,popestritev, popolni odboj, poravnava, porazdelitev hitrosti, poro£ilo, poskus, posledica, poslu²anje, pospe²ek, pospe²ek prizavoju, pospe²eni opazovalni sistem, pospe²eno gibanje, postopek, pot, potenca, potencial, potencialna energija, potenciranje,potovanje, potres, pouk, povezava, povpre£je, povpre£na hitrost, povzetek, pozitivno razmi²ljanje, pozornost, po²evni met,

Page 166: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

141

po²tevanka, po²tni odjemalec, poºarni zid, poºiralnik, prakti£no delo, praterski vrtiljak, pravilo, pravilo desne roke, pravljica,pravokotna komponenta, pravokotna sila, pravokotni koordinatni sistem, pravokotnik, pravopis, prazgodovina, prazgodovniski£lovek, praznik, praznik dela, pra£lovek, pra²nik, pra²tevilo, prebavila, prebivalec, predloga, predmet, prednost, predpisi, pred-stavitev, predstavitev podatkov, preglednica, pregovor, prehod, prehrana, prehranjevalna veriga, preimenovanje, prekinitev,prelude, preludij, premi govor, premica, premik, preobremenitev, prepoznavanje, preseljevanje, preslikava, presoja, preteklost,pretvorba, prevajanje toplote, prevara, prevodnik, prevodnost, prevozna sredstva, preºihov voranc, pridevnik, prijemali²£e sile,prikaz pospe²ka, prilagoditev, primerjanje, primerjava, primerjava hitrosti, primoº trubar, pripomo£ek, pripoved, pripovedovalec,priprava, pristani²£e, privla£nost, prizma, problem, proces, procesna enota, procesor, program, programiranje, programskaoprema, programski jezik, programsko inºenirstvo, projekt, promet, prometni znak, propad, prosti pad, prostornina, prostorskastopnja, protokol, proºni trk, proºnostna energija, prst, prvi newtonov zakon, prvi zakon termodinamike, prvo leto sluºim, ptica,pti£ja perspektiva, pu²£ava, pv diagram, radialni pospe²ek, radian, ragnhild scamell, rak, rastje, rastlina, rastlinstvo, ravninskonihalo, ravno zrcalo, ravnovesje, ravnovesje sil, ravnovesje sistema, ravnovesna lega, razdalja, razdalja med viri, razdalja meta,razelektritev, razhro²£evanje, raziskovalec, raziskovanje, razlika hitrosti, razlika sil, razli£nost, razmerje mas, razmi²ljanje, raz-poreditev, razporeditev sil, razpredelnica, razpr²ilna le£a, razstavljanje gibanja, razstavljanje sile, razteg vrvice, razteznostnikoe�cient, raztopina, razumevanje, razvada, razvoj, razvrstitev, raz²irjanje plina, ra£unalnik, ra£unalni²ka arhitektura, ra£u-nalni²ka gra�ka, ra£unalni²ka varnost, ra£unalni²ki kriminal, ra£unalni²ki virus, ra£unalni²ko omreºje, ra£unalni²tvo, ra£unanje,ra£unovodstvo, ra£unska operacija, ra²pla, rc vezje, rcl vezje, recikliranje, register, reka, relacijski model, relativno gibanje, re-ligija, renesansa, republika, resonanca, resona£na krivulja, resona£ni val, rezultanta sil, rezultat, re²itev, reºa, riba, ribolov, rim,rima, rimljani, rimski bogovi, rimski imperij, risanje, risba, ritem, rl vezje, rojstni dan, roka, rokavica, romul in rem, rotacija,rotacijska energija, rt, ruda, rudarstvo, rudnik, sadje, sadovnjak, sahara, samoinduktivnost, samospev, samostalnik, sapnik,satelit, savana, sedemmestno ²tevilo, selektor hitrosti, semafor, seme, senat, senca, servis, sesalec, sestavljeni preteklik, ses-tavljeno gibanje, sestavljeno ²tevilo, sevanje, sever, severna afrika, severna amerika, seznam, se£ovlje, se²etevanje, se²tevanje,se²tevanje sil, se²tevanje vektorjev, sferi£no elektri£no polje, shranjevanje, sila, sila bremena, sila gravitacije, sila na planet, silaodbojnosti, sila privla£nosti, sila teºe, sila vrvice, sila vzmeti, silnica polja, simbioza, simetrija, simulacija, sistem delcev, sistemle£, sistem nihal, sistem teles, sistem vzmeti, skalarni produkt, sklad, sklanjanje, sklep, sklepanje, sklon, skupinska hitrost,skupinsko delo, skupna gibalna koli£ina, skupni val, slabost, slika, slika le£e, slika predmeta, slikanica, slog, slon, slovani, slovar,slovenec, slovenija, sloven²£ina, slovnica, slovni²ki £as, sluh, slu²no razumevanje, smeh, smer toka, smer trka, smeti, smisel,sneg, snov, sodelovanje, sol, soline, solo, sonce, son£na ura, son£ni sistem, sopomenka, sorodstvo, speci�£na toplota, spev, spis,spletna stran, spletni brskalnik, splo²na plinska ena£ba, spodrsavanje, spol, spomin, spored, spreganje, sprejemnik, spremembahitrosti, sprememba sile, spremenljivka, sql, srbija, sredi²£e koordinatnega sistema, sredi²£e mase, srednja vrednost, srednjivek, sredozemlje, stabilnost, stanje vzmeti, stara gr£ija, star²i, statika, statistika, stavba, stavek, steganogra�ja, sti£ne sile,stoje£e valovanje, stonegenge, storitev, strani neba, streha nad glavo, streºnik, stric, strmina grafa, strojna oprema, strpnost,struktura, struna, sudoku, sunek sile, supb, superpozicija valov, su²a, suºenj, svet, svetloba, svetlobni vir, sveto pismo, svetoba,svetovni splet, ²estmestna ²tevilo, ²irjenje, ²koljka, ²kripec, ²ola, ²ola v naravi, ²olanje, ²olsko glasilo, ²panija, ²parta, ²port,²portna vzgoja, ²tetje, ²tevilo, ²tevil£enje strani, ²tirimestno ²tevilo, tabela, tabla, tangencialna hitrost, tangencialni pospe²ek,tangram, tcp/ip, tehnika, teko£ina, temperatura, temperaturni raztezek, terminologija, termodinamika, termopile, test, teta,teºi²£e, teºka masa, teºni pospe²ek, teºnost, thunderbird, tir planeta, tir sonca, tiskalnik, tkivo, tlak, tlak teko£ine, tlak v cevi,tlak zvoka, tlaka, tla£an, tloris, tok, tokokrog, tokovna plo²£a, tokovni krog, tomaº habe, tombola, ton, tone seli²kar, topilo,toplota, toplotna prevodnost, toplotni stik, toplotni stroj, toplotno ravnovesje, toplozra£ni balon, topnost, topologija, tornado,to£ka, to£ka na paraboli, to£kaski naboj, trajanje, trajanje note, trajektorija, transformator, transverzalno valovanje, tranzistor,trava, travnik, trdilna poved, trditev, trdno stanje, trenje, trenutna hitrost, tretji newtonov zakon, trgovec, trgovina, trikotnik,trilobit, trk, troja, trojanski konj, tromestno ²tevilo, tropi, trubar, tuljava, turizem, uganka, uho, ujemanje, ujemanje gibanja,uklon, uklonska mreºica, uklonska reºa, ukrivljena pot, ukrivljeno zrcalo, ukrivljenost, ukrivljenost le£e, ulomek, umetnost,umetnostno besedilo, upor, uporaba, uporaba animacije, uporaba mi²ke, uporaba zemljevida, uporabni²ki vmesnik, upornost,upravljanje s pomnilnikom, ura, urejanje, urejanje slik, urejenost, urejevalnik besedil, urejevalnik besedila, usmerjenost koordi-natne osi, usta, usta votlina, ustvarjalnost, utrip, utrjevanje, uvod, u£benik, u£enje, u£ilnica, u£itelj, u£na metoda, u£ni list, vaja,vajenec hlapi£, valjasti kondenzator, valovanje, valovanje na vrvi, valovna fronta, valovna posoda, val£ek, varnost, vas, vdor,vejica, vektor, vektor hitrosti, vektor pospe²ka, vektor premika, vektor sile, vektorska koli£ina, vektorski produkt, vektorskood²tevanje, vektorsko polje, velika no£, velika za£etnica, velike tiskane £rke, velike £rke, velikost, vera, verjetnostna porazdelitev,verz, veselje, vesolje, veter, vezje, veznik, ve£mestno ²tevilo, vhodna enota, vibracija, vid, video, violon£elo, virus, viskoznost,viso²ka kronika, vitan mal, vi²ina meta, vleka traktorja, vle£na sila, vmesnik, vnos izrazov, vnos podatkov, voda, vodni cikel,vodni mlin, vodomet, vodoravni met, vodovod, voice, vojna, volkulja, voltmeter, von neumannov model, vozilo, vozi£ek, vpliv,vpra²anje, vreme, vrste valov, vrt, vrtanje, vrtenje, vrtenje zemlje, vrtilna kineti£na energija, vrtilna koli£ina, vsiljeno nihanje,vstavljanje, vulkan, vzajemno u£inkovanje, vzbujeno nihanje, vzgoja, vzgon, vzhod, vzmet, vzporedna vezava, vzrok, vztrajnamasa, vztrajnostni moment, wan, wheatstonov most, youth choir, zabava, zagon, zahod, zahodna afrika, zaklad, zaklju£ek,zakon o ohranitvi energije, zakon o ohranitvi naboja, zaliv, zanimivost, zanimivosti, zanka, zapis, zaporedje, zaporedna vezava,zastava, zaustavitev, za£etek, za£etna hitrost, za£etni glas, za£etni kotni poloºaj, za£etni pogoji, za£etni poloºaj, za²£ita, zbirnijezik, zbor, zda, zdravje, zdravljica, zdruºitev gibanj, zelenjava, zemlja, zemljepisno ime, zemljevid, zenica, zgodba, zgodovina,zgradba o£esa, zima, zlog, znak, znamka, znanje, znanost, zna£ilnost, zna£ka, zorni kot, zrak, zra£ni upor, zrcalo, zunanjaenergija, zunanja sila, zvezek, zvok, zvo£nik, ºaba, ºarnica, ºelezna doba, ºelezo, ºelodec, ºenin, ºenski zbor, ºival, ºivalskesledi, ºivec, ºivljenje, ºivljenjsko okolje, ºiv£evje, ºi£na zanka, ºupan£i£, ºuºelka

Page 167: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

142 Poglavje A: Klju£ne besede primarnega vzorca

Page 168: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Dodatek B

Klju£ne besede dodatnega vzorca

Gradiva dodatnega vzorca so bila opisana z naslednjimi unikatnimi klju£nimi besedami:- klju£ne kompetence sporazumevanja -novi pristopi 1. razred 1. razred O� 1. triletje 2 letnik 3. razred 3. razred osnovne ²ole3D-model 4 razred 4. razred O� 4.razred 802.1x 9-letna osnovna ²ola AAI � infrastruktura za preverjanje istovetnosti uporab-nikov in ARP Inspection Activote Activslate Activstudio Activtablet Adobe Flash Arnes Artrage Ata Smrk AuthorPoint BC NakloBlend FL Blend.FL BlendFL Blended Learning Bloomova taksonomska stopnja znanja Bohinj CAD programska orodja CADprogramsko orodje za tehni£no risanje CAD-CAM CBAS CD zgo²£enka CMS CMS Made Simple CMS programi CWDM CabriGeometry II Plus Cabri Geometry II.Plus ChemSketch Cloud Computing Common Cartridge �rnu£e £asovni zamik £ebelarstvo£lovek £ustva DEX-i DHCP snooping DOSS DWDMDelo na daljavo Didakti£na uporaba ra£unalnika Diigo E-gradiva E-listovnikE-²olstvo E-²tudijske skupine EPHRAS Earth Google Eko bonton Elektronska revolucija Europass Europass jezikovna izkaznicaEuropass ºivljenjepis Facebook Fakulteta za elektrotehniko Filozofska fakulteta France Pre²eren FrontPage GES� TrbovljeGIS GPS GSM Gapminder Desktop GeoGebra Geogra�ja Pomo£ Geometrija Gimnazija Jesenice Gmail Gmail.javen Goethejevabalada Erlkönig Google Google Apps Google Beleºnica Google Docs Google Page Creator Google Zemlja Google map GooglovKoledar GÉANT2 H.323 Hot Potatoes IKT IKT (informacijsko komunikacijske tehnologije) IKT - oprema IKT naravoslovjeIKT pri pouku angle²£ine IKT pri pouku sloven²£ine IKT sredstva IKT tim IKT v izobraºevanju IKT v razredu IKT v ²oli IKT-opremljenost telovadnic IPv6 IRC ITALC ITEMS IaaS Improving Teacher Education in Math and Science Informacijski sistemInformatika Informatizacija ²ole Integrated Teaching Elearning Modules InterWrite Interaktivna tabla Interaktivnost InternetIzobraºevanje Izobraºevanje na daljavo Joomla K12LTSP LAMS LAN LDAP LDAP-imenik LEFO LMS LTFE LTSP terminalstreºnik Laboratorij za telekomunikacije LanSchool Learning Design LimeSurvey Linux Ljubljansko barje Lo.Polis London GridLuna Lunin mrk Lunine mene M-kompetenca MMS Mac OS X Mahara Mednarodno projektno sodelovanje Medpredmetno sode-lovanje Messenger Microsoft Live@edu Microsoft Liveedu Microsoft SharePoint Services Microsoft Windows Server Mind42Miselni vzorci Miselni vzorec Modno oblikovanje Moodle MySQL NAUK NGI NING NURBS Obuti ma£ek Odprtokodna pro-gramska oprema Operacijski sistemi Otrok PHP PISA PortableApps com Suite TM Prezi Primoº Trubar Projektno u£no deloPromethean Prva gimnazija Maribor QR-koda Quizmaker RADIUS ROBOTC Ra£unalni²tvo v oblaku RedHat Fedora CoreLinux distribucija Ri� SCORM SCORM/AICC e-gradiva SIRikt.323-videokonference SMS SOAP SPSS SWOT-analiza ScratchSec-ond Life Second Life Semi£ Severi Skype Slojoomla Slovenija Slovenija - moja deºela Sloven²£ina: spletna stran SmartSmernice za e-izobraºevanje Smrkci Sonce Son£ev mrk Son£eve pege Spletna predstavitev Spletno u£no okolje Srednja ²olaJesenice The Geometer's Sketchpad Tony Buzan Tracker Tux Paint Typo3 USB klju£ UTP VLAN VOX VOX-konferenca Vide-ofon Virtuemart Vi²ja ²ola Von Neumann WAN WSDL Waste Train Web 2.0 WebQuest Wienov zakon Wikipedija WindowsWindows Movie Maker Windows SharePoint Services XML XMind XSLT Xperimania ZRS� Zakon o varstvu osebnih podatkovZgodnje Pou£evanje Tujega Jezika (ZPTJ) abstraktno razmi²ljanje administracija aktivna vloga u£itelja aktivne metode aktivnodelo u£encev aktivno sodelovanje aktivno u£enje aktivnost algoritmi in programski jeziki alkohol alkoholizem alkoholno vrenjeanaliti£na geometrija analiza primera angle²£ina angle²£ina kot drugi jezik animacija animacije animacijske prosojnice animirani�lm anketa ankete aplet apleti argumentacija arhitektura arhitektura ra£unalni²kih sistemov asociativna dinamika asociativnigib astronomija astronomija v osnovni ²oli astronomska opazovanja atomarna gradiva avditivni avditivni u£ni stil avtenti£enpouk avtenti£na dokazila avtenti£no u£enje avtonomno u£enje avtorizacijo avtorsko orodje barve beleºenje na spletnih stranehbesedilne naloge biologija blended. me²an bliºnja okolica bliºnjica blog bodo£i u£itelji bogate spletne aplikacije bolni²ni£ni u£iteljibralna pismenost bralne spretnosti bralno doºivetje bralno razumevanje branje celostno certi�kat Kakovost za prihodnost vzgojein izobraºevanja cilji cirilica cms dan datoteke dejavniki branja in pisanja delavnica delo in u£enje v spletni u£ilnici delo na daljavodelo na terenu delo v razredu delovna obveznost u£iteljev demonstracijsko sredstvo deveti razred diagram didaktika didaktikadela na daljavo didakti£na analiza didakti£na igra didakti£na ra£unalni²ka igra didakti£na recenzija didakti£na uporaba didak-ti£ne igre didakti£ni pripomo£ek didakti£ni pripomo£ki didakti£no gradivo didakti£no orodje diferenciacija digitalna fotogra�jadigitalna identiteta digitalna kompetenca digitalna pismenost digitalna tehnologija digitalna vezja digitalna zmoºnost digitalneanimacije digitalne kompetence digitalne slikarske tehnike digitalne tehnologije digitalni fotoaparat digitalni izdelki digitalnogradivo digitalno opismenjevanje dihanje dijak dijak s posebnimi potrebami dija²ka skupnost dija²ki dom dija²ki domovi di-nami£na geometrija dinami£na in stati£ns spletna stran dinami£na simbolizacija dinami£ne naloge dinami£ne spletne vsebinedinami£ni sistemi dinami£no spletno gostovanje dinami£nost disleksija dnevi dejavnosti dogodek dokumentacija dolgotrajno

143

Page 169: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

144 Poglavje B: Klju£ne besede dodatnega vzorca

bolni otroci/ mladostniki doma£a naloga domenska prijava dovoljenja drugo vzgojno-izobraºevalno obdobje druºabna omreºjadruºabno omreºje druºbeno omreºje dvig kvalitete pri u£enju in pou£evanju dvodimenzionalno risanje e � gradiva e-dnevnike-gradiva e-gradivo e-izbraºevanje e-izobraºevanje e-jezikovni portfolio e-knjiºna polica e-kompetence e-kompetentni u£itelj tu-jih jezikov e-kompetentnost u£itelja e-komuniciranje e-listovnik e-plakat e-portfelj e-portfolijo e-portfolio e-pou£evanje e-po²tae-preverjanje e-prosojnice e-redovalnica e-slovar e-sodelovanje e-storitve e-u£enje e-u£ilnica e-u£na gradiva e-vklju£enost e-zbornica e-²olstvo e-²tudij eListovnik ePortfelj eProDas-Rob1 eXe educational process ekologija ekompetentni star²i ekonomijaeksperiment eksperimenti elektronika elektronska gradiva elektronska po²ta elektronska tabla elektronska vadnica elektronskepredstavitve elektronske preglednice elektronske prosojnice elektronski plakat elektronski u£benik elektronski £ip elektronskopisalo elektrotehnika emulator enoten sistem prijave estetika ethernet evalvacija evalvacija spletnih u£ilnic evidentiranje mal-ice evklidska geometrija evropska romantika �zika �ash preto£ni video �ipchart fonolo²ko procesiranje formativno spremljanjeznanja forum foto zapisi fotoaparat fotogra�ja fotogra�ranje fotografska razstava fotografski kroºek franco²£ina frazeologijafrekvenca sr£nih utripov frizerstvo funkcionalnost galerija generiranje vaj in nalog geogra�ja geologija geometrija geometrijatransformacij georeferenciranje gimnazija glasba glasovalne naprave oz. sistem glina globalno dolo£anje poloºaja gluhi in naglu²nigovorjenje govorni korpus gps gradiva gradiva za e-izobraºevanje gra�£ni prikaz gra�£no ra£unalo grafomotori£ne motnje gridheterogene skupine hitro in zanesljivo ra£unanje hitrost hkratno oblikovanje vsebin homogene skupine hot potatoes html i-tabla iMindMap iTabla igra igra vlog igre ikt kompetence indikatorji za e-kompetentno ²olo individualizacija individualizacijain diferenciacija individualizacija izobraºevanja individualizirani program dela informacije informacijska celovitost informacijskain komunikacijska tehnologija informacijska in komunikacijska tehnologija (IKT) informacijska infrastruktura informacijska pis-menost informacijska tehnologija informacijska varnost informacijske storitve informacijski sistem informacijsko komunikacijskasredstva informacijsko komunikacijska tehnologija informacijsko komunikacijska tehnologija (IKT) informacijsko komunikacijskatehnologija � IKT informacijsko sredi²£e informacijsko-komunikacijska tehnologija informacijsko-komunikacijska tehnologija(IKT) informacijsko-telekomunikacijska sredstva informacijskokomunikacijska tehnologija informatika informatizacija informa-tizacija ²ole informatizacija ²olstva informiranje inovativni u£ni pristopi inovativno pou£evanje in u£enje inovativnost institu-cionalna prehrana integracija interakivna tabla interaktiven pouk interaktivna e-gradiva interaktivna lutka interaktivna lutkovnapredstava interaktivna predavanja interaktivna tabla interaktivna vizualizacija interaktivne geometrijske slike interaktivne nalogeinteraktivne prosojnice interaktivne ra£unalni²ke simulacije interaktivne table interaktivne vaje interaktivne vsebine interaktivniatlas interaktivni pouk interaktivno u£enje interaktivnost interdisciplinarnost internet internetna stran internetne storitve in-ternetni forum interoperabilnost interpretacija interpretativno branje intranet invalidi iskanje informacij italijan²£ina iteraktivnatablica izbirni predmet izbirni predmeti iz astronomije izdelava e-gradiv izdelava gradiv izgorevanje u£iteljev izgovarjava izidizkustveno u£enje izobraºevalna e-gradiva izobraºevalna tehnologija izobraºevalni portal izobraºevanje izobraºevanje na daljavoizobraºevanje na domu izobraºevanje odraslih izobraºevanje u£iteljev izometri£na projekcija izvajanje in vrednotenje u£negaprocesa s pomo£jo IKT izvedba predmeta izvorna koda izvoz osebnih podatkov iz²tevanke javen jezik okolja jezik strokejezikovna in likovna ustvarjalnost jezikovna kopel jezikovne spretnosti jezikovni pouk kadrovski pogoji kakovost kakovost izo-braºevanja kamera kazalniki kakovosti kemija kinesteti£ni kinesteti£ni u£ni stil kiparstvo klasi£en laboratorijski pristop delaklasi£na obravnava klasi£ne tehnologije klepetalnice klju£ne kompetence klju£ni indikatorji izvedbe knjiºnica v vrtcu kolabo-rativno u£enje kombinirana oblika e-izobraºevanja kombinirani pouk kombinirano kombinirano (e-)izobraºevanje kombiniranoe-izobraºevanje kombinirano pou£evanje in u£enje kombinirano u£enje kompetence kompetence v informacijski in komunikacijskitehnologiji kompozicija komunikacija komunikacija na daljavo koncept koncept izdelave e-gradiv konceptualni pouk konstruiranjekonstrukcijska risba konstruktivisti£no u£enje konstruktivizem konstruktivna risba konstruktivno u£no okolje kontekst kotiranjeko²arka kratek risani �lm kreativnost kriteriji za izbiranje ra£. did. iger kriteriji za vrednotenje kriti£na presoja kriti£no mi²ljenjekuharstvo kultura kulturna dedi²£ina kulturna dedi²£ina Bohinja kulturni dan kulturni dogodek kustos kvaliteta elektronskihgradiv kvalitetno pou£evanje kviz kvizi laboratorijsko delo lastna izku²nja lastni didakti£ni pripomo£ki lastnosti vsakdanjih pred-metov lcd projektor legenda lekcija leto le£a likovna vzgoja likovni izdelki likovni pedagog likovno izraºanje likovno snovanjelogika lutka m-izobraºevanje matematika matemati£no modeliranje materialne zaloge mediji medijska pismenost medkulturnopovezovanje medmreºje in elektronska po²ta mednarodni projekt mednarodno sodelovanje medpredmetna povezanost medpred-metna povezava medpredmetno povezovanje medpredmetno povezovanje nem²£ine in sloven²£ine medrazredno povezovanje inspoznavanje u£encev med²olsko sodelovanje mehatronika mentor merilec sr£nega utripa meritev meritve z IKT merjenje mesecmet kocke metoda raziskovanja metode dela metodologija me²ano u£enje mini prenosnik miselni vzorci mlaj²i u£enci mnenjauporabnikov mobilen mobilne storitve model kombiniranega usposabljanja u£iteljev modeli evalvacije modeli organskih molekulmodeliranje moderiranje moodle motivacija motivacijski vidik motorji z notranjim izgorevanjem movie maker mo£ mi²ic moºnostizbire mreºni projekt iEARN LC mreºni projekti multimedija multimedijska e-gradiva multimedijski portali mysql nadarjeni dijakinadarjeni u£enci nadarjenost nadzor ra£unalnikov naklju£je naloge naloge spletnega raziskovanja napaka napredne u£ne kockenaravoslovje naravoslovna pismenost naravoslovne kompetence naravoslovni predmeti naro£anje artiklov nasilje navodila za vajona£ini laboratorijskega dela na£rtovanje na£rtovanje pouka na£rtovanje zdrave prehrane na² koti£ek neformalno sodelovanjenem²£ina neodjavljena malica neosvetljena opti£na vlakna net-generacije neverbalna komunikacija neºelena sporo£ila novi na£iniizobraºevanja novi u£ni na£rti za nem²£ino obdelava podatkov obdelava slik oblak oblike dela oblikovanje oblikovanje besedilaoblikovanje iz DAS mase oblikovanje spletnih strani obravnava umetnostnih in neumetnostnih besedil pri pouku sloven²£ineobremenitev obremenitev ²tudenta ob£a geogra�ja ocenjevanje ocenjevanje uspe²nosti ocenjevanje v moodlu ocenjevanje vspletni u£ilnici oddaljeni nadzor oddelek podalj²anega bivanja odlagali²£a odpadkov odnosi v ²oli odprta koda odprti u£ni sistemiodprtokodna programska oprema odvisnost odzivi uporabnikov od²tevanje ogla²evanje ogla²evano besedilo oko okolje omejendostop do interneta online-vaje opazovanje opismenjevanje opomnik opremljanje ²ole opremljenost optika optimizacija opti£ne

Page 170: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

145

komunikacije organizacija organizacija dela na ²oli organizacija pouka organizacija vzgojno-izobraºevalnega dela organska oblikaorientacija v ravnini orodja orodja IKT osebni odzivni sistem osebni odzivniki osebni podatek osebni podatki osebni ra£unal-nik osmoza osnove programiranja osnovna na£ela osnovna ²ola osnovno²olci osve²£enost otroci otroci s posebnimi potrebamiotrok ovire o£esne napake pakiranje gradiv panj panjska kon£nica panorama pedago²ki delavci pedago²ki proces percepcijaperspektiva pesmi petrokemija photo �lter php pilotska uporaba pisanje pisna / bralna zmoºnost pisno sporo£anje plagiatorstvoplanet planeti planiranje podalj²ano bivanje podatki podcast podjetnostno u£enje podpora pod£rtovanje pogodbena obdelavaosebnih podatkov poizkus poker pomen zemljevida ponavljanje ponovna uporaba popolna zbirka prenosnih aplikacij popravl-janje napak portfolijo portfolio otroka posebne potrebe poskus poslovni partnerji poslu²anje posnetek stanja posredno delopouk pouk geogra�je pouk matematike pouk na daljavo pouk naravoslovja pouk nem²£ine pouk sloven²£ine pouk tujih jezikovpouku pou£evanje pou£evanje in u£enje ob IKT pou£evanje in u£enje programiranja pou£evanje in u£enje z IKT pou£evanjematematike pou£evanje ²portne vzgoje povezava povratna informacija poznavanje po²tevanka prakti£ni pouk prakti£ni primeriprakti£no usposabljanje pravljica pravna informatika pravno izobraºevanje pravokotna projekcija predloge programov predlogespletnih strani predmet Spoznavanje okolja v 3. razredu osnovne ²ole predmetnik predopismenjevalne zmoºnosti predstavitevpredstavitvena risba predstavitvene tehnike pred²olski otroci pred²olski otrok preglednica prekrivanje prenosljivost prenosnikprenova informacijskega sistema prenova omreºja prenova poklicnega in strokovnega ²olstva preventiva preverjanje preverjanjein ocenjevanje znanja preverjanje znanja pridobivanje znanja prilagoditve primer dobre prakse primeri dela v spletni u£ilniciprimeri dobrih praks primeri iz prakse priporo£ilo priprava na Cankarjevo tekmovanje problemsko zastavljene naloge profesorra£unalni²tva in informatike program program Lime Survey program Slikar program ozave²£anja programi dinami£ne geometrijeprogrami za izdelavo interaktivnih nalog programiranje programiranje v paru programska oprema programske opreme programskijeziki programski modul program£ek projekcija projekcije projekt projekt e-²olstvo projektiranje projektna mapa projektna nalogaprojektne naloge projektni spletnik projektni teden projektno delo projektno u£no delo projektno u£no delo � u£enci projektnovodenje projektor promoviranje naravoslovja prosti pad prostorska predstava prostorska slika protokol IP prva triada prvi glasprvi razred prvo triletje raba ra£unalnika ravnatelj razdalje v vesolju raziskava raziskovalne naloge raziskovalni pouk raziskovalnodelo raziskovalno u£enje raziskovanje raziskovanje in razvoj raziskovanje na daljavo razporeditev £rk razredna stopnja razredniSpletko razredni pouk razredni projekt razrednik razsevni diagram razvedrilna matematika razvijanje e-kompetentnosti razvijanjematemati£nih predstav razvijanje pismenosti razvoj razvoj in spremljanje ustvarjalnosti na umetnostnem podro£ju razvoj kolek-cije razvoj koordinacije razvoj kurikula razvoj orientacije razvoj zaznavanja razvojna skupina za e-nem²£ino ra£unalnik ra£unalnikpri likovni vzgoji ra£unalnik z ob£utljivim zaslonom ra£unalnikar � organizator informacijske dejavnosti ra£unalniki ra£unalni²kadetekcija plagiatorstva ra£unalni²ka igrica ra£unalni²ka orodja ra£unalni²ka pismenost ra£unalni²ka projekcija ra£unalni²ka zbirkanalog za avtomatsko sestavo pisnega preizkusa znanja ra£unalni²ke didakti£ne igre ra£unalni²ke igre ra£unalni²ke predstavitvera£unalni²ke simulacije ra£unalni²ki portfolio ra£unalni²ki program ra£unalni²ki program PhotoFiltre ra£unalni²ki program Slikarra£unalni²ki program � �time shift� ra£unalni²ki programi ra£unalni²ko merjenje oz vrednotenje znanja ra£unalni²ko podprtlaboratorij ra£unalni²ko podprt porfolio ra£unalni²ko podprte laboratorijske vaje ra£unalni²ko podprto preverjanje in ocenjevanjeznanja ra£unalni²ko podprto sodelovalno u£enje ra£unalni²ko podprto vrednotenja ra£unalni²tvo ra£unalni²tvo v oblaku ra£u-nalo redne u£ne ure in interesna dejavnost redovalnica re�ektiranje rekonstrukcija obla£il risanje risba robot robotika ru²£inas £asom in s seboj samopodoba samore�eksija samostojno delo samostojno u£enje samostojnost scorm second life seminarjiza u£itelje senzor sestavljanje ra£unalnika se²tevanje shranjevanje podatkov simetrala daljice simetrija obraza simulacija simu-lacije simulacije in merjenja v elektrotehniki sinhrona komunikacija sinteza zakonov sistem upravljanja u£nih aktivnosti sistemupravljanja u£nih vsebin sistemi za upravljanje z vsebinami sistemizacija sistemsko mi²ljenje skiciranje skladi²£a u£nih gradivskokovito branje skupina skupine v Moodlu skupinska dinamika skupinsko delo skupinsko u£enje skupki v Moodlu skupni zaz-namki slikanje slikanje in risanje z ra£unalnikom slikovni material slojoomla sloodle slovenska romantika slovenske osnovne ²olesloven²£ina snemanje socialna programska oprema socialno omreºje sodelovalni projekti sodelovalno delo sodelovalno pou£e-vanje sodelovalno u£enje sodelovanje sodelovanje s star²i sodobna likovna umetnost sodobne strategije pou£evanja sodobnetehnologije sodobne tehnologije pou£evanja sodobni pristop sodobni u£ni cilji sodobno pou£evanje sonce soodlo£anje souporabasoustvarjanje speci�kacije spekter svetlobe splet splet 2.0 spletilnica spletna aplikacija spletna doma£a naloga spletna identitetaspletna izobraºevalna televizija spletna knjiºnica spletna konferenca spletna orodja spletna pisarna spletna redovalnica spletnasocialna omreºja spletna storitev spletna storitev 21Classes spletna stran spletna tipogra�ja spletna u£ilnica spletna u£ilnicaMoodle spletna zbornica spletne klepetalnice spletne konference spletne konference VOX spletne naloge spletne prevare spletneskupnosti spletne socialne mreºe spletne storitve spletne strani spletne videokonference spletni dnevnik spletni forum spletni gisspletni portal spletni portali spletni pro�l spletni slovar£ek spletni u£benik spletni vpra²alnik spletni vpra²alniki spletnik spletnik(blog) spletno ban£ni²tvo spletno nadlegovanje (ang. cyberbullying) spletno orodje spletno u£enje spletno u£no okolje spletnou£no okolje Moodle spodbudno u£no okolje spoznavanje informacijsko komunikacijske tehnologije spoznavanje narave in druºbesprememba spretnosti sprotne informacije srce srednja ²ola srednje²olci in odrasli sr£ni utrip standard standardi standardizacijastarej²i star²i statistika stavnica stilne predloge stiska stopnje interaktivnosti stopnje projekta storitev storitve storitve Spleta2.0 stres stres in delovno mesto streºniki strip striºenje strojna oprema stroka strokovna terminologija strokovna terminologijav sloven²£ini in angle²£ini stro²ki strujanje strukturirano oºi£enje svetlobno onesnaºenje svetlobno onesnaºevanje svetovni splet²ola ²ola 2.0 ²ole s prilagojenim programom ²olska dokumentacija ²olska kuhinja ²olska prehrana ²olska uprava ²olske ekskurzije²olske �nance in administracija ²olski kurikul ²olski management ²olski menagement ²olski prevozi ²olski sistem ²olsko spleti²£e²olstvo ²port ²portna vzgoja ²portni pedagog ²portni program Zlati son£ek ²tevila tabelska slika tanki odjemalci teden tehnikatehnika in tehnologija tehni£na gimnazija tehni£na recenzija tehni£no risanje tehni²ka dokumentacija tehni²ki dan tehni²ko izo-braºevanje tehnolo²ke inovacije tekmovanje tekmovanje iz znanja tekmovanje z vrstniki telo terciarno izobraºevanje terensko

Page 171: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

146 Poglavje B: Klju£ne besede dodatnega vzorca

delo test v moodlu testi teºava teºave z branjem in s pisanjem teºni pospe²ek timsko delo timsko delovanje timsko pou£evanjetipkovnica tisk tradicionalni frontalni pouk trajnostni razvoj transformacije trendi e-izobraºevanja trodimenzionalno modeliranjetuj jezik tujci tuji jezik tuji jeziki turizem umetnost univerza upodobitev uporaba uporaba IKT pri pouku uporaba informa-cijskokomunikacijske tehnologije pri pouku geogra�je uporaba ra£unalnika uporaba ra£unalnika pri pouku uporabne spletnestrani uporabniki uporabniku prijazen vmesnik uporabni²ki vmesnik uprava upravljanje upravljanje ra£unalnikov upravljanje ra£u-nalni²kih u£ilnic upravljanje vsebin upravljanje z informacijsko strojno opremo upravljanje znanja urejanje urejevalnik besedilurejevalniki besedil urejevalniki spletnih strani urjenje urnik uspe²nost usposabljanje u£iteljev tujih jezikov usposabljanje u£iteljevv spletni u£ilnici ustno ocenjevanje znanja ustvarjalno timsko delo ustvarjalnost uvajanje u£enci u£enci priseljenci u£enec u£enjeu£enje angle²£ine u£enje drug od drugega u£enje na daljavo u£enje programiranja u£enje ra£unalni²tva in informatike u£enjeu£enja u£enje z igro u£enje z odkrivanjem u£enje za ºivljenje u£ilo u£inkovito u£enje u£itelj u£iteljev vpliv na gradiva u£iteljevaspletna stran u£iteljeva vloga u£itelji u£itelji tujih jezikov u£na motivacija u£na pomo£ na daljavo u£na programska orodjau£na tehnologija u£na ura u£na ura na osnovno²olski ravni u£na vsebina u£ne teorije u£ne teºave u£ni na£rt u£ni programskijezik u£ni stili u£ni tipi u£encev u£ni u£inek u£ni videoposnetek u£ni videoposnetek statistika u£no okolje u£no podjetje vabilavaje varna raba interneta varna uporaba in higiena na omreºju varnost varnost IP varovanje varovanje omreºja in varnoststoritev varovanje osebnih podatkov varovanje zasebnosti vdelava pisav verjetnost vesoljski poleti ve£-jezikovna pesem ve£jamotivacija ve£parametrski odlo£itveni problem ve£predstavnost ve£to£kovna tehnologija ve£to£kovni videokonferen£ni streºnik(MCU) video video konferen£no sre£anje video kroºek video na zahtevo video portal video posnetki video vodi£i video vse-bine video-vodi£i za Joomlo videoanaliza videocast videokonferenca videokonference videokonferen£ni pogovor videopripravavideovodi£i vidni obseg vidno in slu²no razlo£evanje viharjenje moºganov virtualizacija virtualna skupnost virtualne laboratori-jske vaje virtualni asistent virtualni laboratorij virtualni streºnik virtualni svetovi virtualno u£no okolje visoka lo£ljivost (HD)visoko²olsko izobraºevanje vizualizacija vizualna kultura vizualni vizualni programski jezik vizualni u£ni stil vloga u£enca vlogevmesnik Interakt vodenje projekta vodenje videokonference vodenje ²ole vodenje/gospodarjenje vpra²alniki vrednotenje vrtecvsebina vsebinska recenzija vseºivljenjsko u£enje vstopna spletna skupnost vti£nik vzdrºevanje vzdrºljivost vzgojitelj vzgojiteljivzgojno-izobraºevalna ustanova vzgojno-izobraºevalni proces wiki zadnji glas zahteva zaloºba zanesljivost zasebnost zaslonskaslika zaupanje zavarovanje osebnih podatkov za£etno pou£evanje programiranja za²£ita pred nezaºeleno vsebino zbiranje po-datkov zbirka gradiv zbornica zemljevid zgodnje u£enje tujega jezika zgodovina zgodovina Etru²£anov zgodovina astronomijezgodovinski atlas zgradba atoma zlati rez zmoºnosti znanje zrcaljenje zvezde zvok ºepno ra£unalo ºivljenje zvezd

Page 172: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Dodatek C

Rezultati eksperimenta 1

147

Page 173: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

148 Poglavje C: Rezultati eksperimenta 1

10 (avg) 20 (avg) 30 (avg)NKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,30 5,55 4,77 4,34 5,60 4,81 4,42 5,77 4,935 0 4 1 1 4,30 5,55 4,77 4,34 5,60 4,81 4,42 5,77 4,935 0 4 2 0 4,12 5,16 4,48 4,28 5,39 4,67 4,17 5,27 4,565 0 4 2 1 4,12 5,16 4,48 4,28 5,39 4,67 4,17 5,27 4,565 0 5 1 0 4,28 5,52 4,74 4,34 5,61 4,82 4,63 6,06 5,175 0 5 1 1 4,28 5,52 4,74 4,34 5,61 4,82 4,63 6,06 5,175 0 5 2 0 4,10 5,14 4,46 4,25 5,35 4,64 4,14 5,22 4,525 0 5 2 1 4,10 5,14 4,46 4,25 5,35 4,64 3,99 5,03 4,355 1 4 1 0 4,30 5,55 4,77 5,26 6,51 5,69 8,57 9,74 8,865 1 4 1 1 4,30 5,55 4,77 5,26 6,51 5,69 8,57 9,74 8,865 1 4 2 0 4,12 5,16 4,48 4,28 5,39 4,67 4,53 5,75 4,975 1 4 2 1 4,12 5,16 4,48 4,28 5,39 4,67 4,53 5,75 4,975 1 5 1 0 4,28 5,52 4,74 5,28 6,53 5,71 8,70 9,91 9,015 1 5 1 1 4,28 5,52 4,74 5,28 6,53 5,71 8,70 9,91 9,015 1 5 2 0 4,10 5,14 4,46 4,25 5,35 4,64 4,50 5,70 4,935 1 5 2 1 4,10 5,14 4,46 4,25 5,35 4,64 4,50 5,70 4,93

10 0 4 1 0 3,44 8,80 4,88 3,40 8,60 4,80 3,51 8,82 4,9310 0 4 1 1 3,44 8,80 4,88 3,40 8,60 4,80 3,51 8,82 4,9310 0 4 2 0 3,34 7,97 4,56 3,33 7,96 4,55 3,31 7,92 4,5210 0 4 2 1 3,34 7,97 4,56 3,33 7,96 4,55 3,31 7,92 4,5210 0 5 1 0 3,42 8,72 4,84 3,41 8,64 4,82 3,54 8,91 4,9810 0 5 1 1 3,42 8,72 4,84 3,41 8,64 4,82 3,54 8,91 4,9810 0 5 2 0 3,30 7,93 4,52 3,30 7,92 4,51 3,27 7,87 4,4910 0 5 2 1 3,30 7,93 4,52 3,30 7,92 4,51 3,27 7,87 4,4910 1 4 1 0 3,44 8,80 4,88 3,81 9,43 5,34 5,46 12,53 7,4210 1 4 1 1 3,44 8,80 4,88 3,81 9,43 5,34 5,46 12,53 7,4210 1 4 2 0 3,34 7,97 4,56 3,33 7,96 4,55 3,44 8,28 4,7210 1 4 2 1 3,34 7,97 4,56 3,33 7,96 4,55 3,44 8,28 4,7210 1 5 1 0 3,42 8,72 4,84 3,83 9,47 5,36 5,50 12,63 7,4810 1 5 1 1 3,42 8,72 4,84 3,83 9,47 5,36 5,50 12,63 7,4810 1 5 2 0 3,30 7,93 4,52 3,30 7,92 4,51 3,41 8,24 4,6810 1 5 2 1 3,27 7,84 4,48 3,30 7,92 4,51 3,41 8,24 4,68

15 0 4 1 0 2,84 10,81 4,44 2,85 10,60 4,42 3,03 11,02 4,6615 0 4 1 1 2,84 10,81 4,44 2,85 10,60 4,42 3,03 11,02 4,6615 0 4 2 0 2,82 9,52 4,17 2,80 9,42 4,13 2,79 9,37 4,1115 0 4 2 1 2,82 9,53 4,17 2,80 9,42 4,13 2,79 9,37 4,1115 0 5 1 0 2,82 10,74 4,41 2,87 10,63 4,44 3,01 10,98 4,6315 0 5 1 1 2,82 10,74 4,41 2,86 10,62 4,44 3,01 10,98 4,6315 0 5 2 0 2,80 9,49 4,14 2,78 9,39 4,11 2,76 9,33 4,0815 0 5 2 1 2,80 9,49 4,14 2,78 9,39 4,11 2,76 9,33 4,0815 1 4 1 0 2,84 10,81 4,44 3,13 11,39 4,82 4,21 14,33 6,3615 1 4 1 1 2,84 10,81 4,44 2,97 10,79 4,57 4,21 14,33 6,3615 1 4 2 0 2,82 9,51 4,17 2,80 9,42 4,13 2,86 9,65 4,2215 1 4 2 1 2,68 9,06 3,96 2,80 9,42 4,13 2,86 9,65 4,2215 1 5 1 0 2,82 10,74 4,41 3,14 11,42 4,84 4,21 14,39 6,3715 1 5 1 1 2,82 10,74 4,41 3,11 11,30 4,79 4,21 14,39 6,3715 1 5 2 0 2,80 9,49 4,14 2,78 9,39 4,11 2,83 9,61 4,2015 1 5 2 1 2,80 9,49 4,14 2,78 9,39 4,11 2,83 9,61 4,20

Tabela C.1: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nih mnoºic 10, 20 in 30

Page 174: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

149

40 (avg) 50 (avg) 60 (avg)NKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,33 5,57 4,79 4,63 6,07 5,18 4,32 5,70 4,845 0 4 1 1 4,33 5,57 4,79 4,63 6,07 5,18 4,32 5,70 4,845 0 4 2 0 4,30 5,42 4,70 4,11 5,19 4,49 4,26 5,39 4,665 0 4 2 1 4,30 5,42 4,70 4,11 5,19 4,49 4,26 5,39 4,665 0 5 1 0 4,41 5,74 4,91 4,55 5,92 5,07 4,33 5,71 4,855 0 5 1 1 4,41 5,74 4,91 4,55 5,92 5,07 4,33 5,71 4,855 0 5 2 0 4,27 5,38 4,66 4,17 5,29 4,57 4,21 5,33 4,615 0 5 2 1 4,27 5,38 4,66 4,17 5,29 4,57 4,21 5,33 4,615 1 4 1 0 8,75 9,97 9,06 9,92 11,40 10,32 10,84 12,40 11,235 1 4 1 1 8,75 9,97 9,06 9,92 11,40 10,32 10,84 12,40 11,235 1 4 2 0 5,26 6,61 5,74 5,10 6,42 5,56 6,01 7,59 6,575 1 4 2 1 5,26 6,61 5,74 5,10 6,42 5,56 6,01 7,59 6,575 1 5 1 0 8,79 10,07 9,12 9,82 11,24 10,19 10,85 12,40 11,245 1 5 1 1 8,79 10,07 9,12 9,82 11,24 10,19 10,85 12,40 11,245 1 5 2 0 5,23 6,58 5,71 5,11 6,45 5,59 5,97 7,55 6,545 1 5 2 1 5,23 6,58 5,71 5,11 6,45 5,59 5,97 7,55 6,54

10 0 4 1 0 3,42 8,60 4,81 3,48 8,87 4,92 3,38 8,59 4,7710 0 4 1 1 3,42 8,60 4,81 3,48 8,87 4,92 3,18 8,07 4,4810 0 4 2 0 3,35 8,03 4,58 3,26 7,78 4,45 3,24 7,75 4,4210 0 4 2 1 3,35 8,03 4,58 3,26 7,78 4,45 3,24 7,75 4,4210 0 5 1 0 3,50 8,88 4,94 3,46 8,70 4,87 3,41 8,67 4,8110 0 5 1 1 3,50 8,88 4,94 3,46 8,70 4,87 3,41 8,67 4,8110 0 5 2 0 3,31 7,96 4,53 3,27 7,85 4,47 3,19 7,66 4,3710 0 5 2 1 3,31 7,96 4,53 3,27 7,85 4,47 3,19 7,66 4,3710 1 4 1 0 5,46 12,63 7,44 6,02 14,03 8,23 6,43 14,91 8,7710 1 4 1 1 5,46 12,63 7,44 6,02 14,03 8,23 6,43 14,91 8,7710 1 4 2 0 3,73 9,00 5,12 3,66 8,77 5,01 3,95 9,55 5,4310 1 4 2 1 3,73 9,00 5,12 3,66 8,77 5,01 3,95 9,55 5,4310 1 5 1 0 5,53 12,89 7,56 5,96 13,78 8,12 6,46 14,97 8,8010 1 5 1 1 5,53 12,89 7,56 5,96 13,78 8,12 6,46 14,97 8,8010 1 5 2 0 3,70 8,95 5,09 3,64 8,78 5,00 3,91 9,48 5,3810 1 5 2 1 3,70 8,95 5,09 3,64 8,78 5,00 3,91 9,48 5,38

15 0 4 1 0 3,13 11,04 4,77 3,04 11,05 4,68 2,96 10,81 4,5615 0 4 1 1 3,13 11,04 4,77 3,04 11,05 4,68 2,96 10,81 4,5615 0 4 2 0 2,82 9,48 4,16 2,73 9,16 4,03 2,71 9,09 3,9915 0 4 2 1 2,82 9,48 4,16 2,73 9,16 4,03 2,71 9,09 3,9915 0 5 1 0 3,07 11,14 4,72 3,04 10,88 4,66 2,99 10,93 4,6015 0 5 1 1 3,07 11,14 4,72 3,04 10,88 4,66 2,99 10,93 4,6015 0 5 2 0 2,79 9,45 4,13 2,73 9,23 4,04 2,68 9,04 3,9615 0 5 2 1 2,79 9,45 4,13 2,73 9,23 4,04 2,68 9,04 3,9615 1 4 1 0 4,27 14,60 6,46 4,48 15,54 6,81 4,77 16,51 7,2415 1 4 1 1 4,27 14,60 6,46 4,48 15,54 6,81 4,77 16,51 7,2415 1 4 2 0 3,03 10,27 4,49 2,95 9,96 4,36 3,10 10,56 4,6015 1 4 2 1 3,03 10,27 4,49 2,95 9,96 4,36 3,10 10,56 4,6015 1 5 1 0 4,21 14,66 6,41 4,46 15,32 6,76 4,80 16,64 7,2915 1 5 1 1 4,21 14,66 6,41 4,46 15,32 6,76 4,80 16,64 7,2915 1 5 2 0 3,00 10,24 4,46 2,94 9,98 4,35 3,07 10,53 4,5715 1 5 2 1 3,00 10,24 4,46 2,94 9,98 4,35 3,07 10,53 4,57

Tabela C.2: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nih mnoºic 40, 50 in 60

Page 175: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

150 Poglavje C: Rezultati eksperimenta 1

70 (avg) 80 (avg) 90 (avg)NKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,48 5,83 4,99 4,55 5,92 5,07 4,84 5,99 5,245 0 4 1 1 4,48 5,83 4,99 4,55 5,92 5,07 4,84 5,99 5,245 0 4 2 0 4,27 5,40 4,67 4,47 5,70 4,91 4,62 5,88 5,075 0 4 2 1 4,27 5,40 4,67 4,47 5,70 4,91 4,62 5,88 5,075 0 5 1 0 4,50 5,85 5,01 4,68 6,11 5,22 4,79 5,92 5,175 0 5 1 1 4,50 5,85 5,01 3,90 5,08 4,34 4,79 5,92 5,175 0 5 2 0 4,36 5,53 4,78 4,41 5,63 4,85 4,61 5,87 5,065 0 5 2 1 4,36 5,53 4,78 4,41 5,63 4,85 4,61 5,87 5,065 1 4 1 0 10,75 12,27 11,12 11,08 12,82 11,55 11,57 13,15 11,955 1 4 1 1 10,75 12,27 11,12 11,08 12,82 11,55 11,57 13,15 11,955 1 4 2 0 6,06 7,65 6,63 6,54 8,33 7,19 6,64 8,43 7,295 1 4 2 1 6,06 7,65 6,63 6,54 8,33 7,19 6,64 8,43 7,295 1 5 1 0 10,79 12,32 11,17 11,10 12,83 11,57 11,58 13,16 11,965 1 5 1 1 10,79 12,32 11,17 11,10 12,83 11,57 11,58 13,16 11,965 1 5 2 0 6,08 7,69 6,65 6,52 8,30 7,17 6,66 8,46 7,315 1 5 2 1 6,08 7,69 6,65 6,52 8,30 7,17 6,66 8,46 7,31

10 0 4 1 0 3,48 8,78 4,90 3,59 8,90 5,02 3,70 9,07 5,1510 0 4 1 1 3,48 8,78 4,90 3,59 8,90 5,02 3,70 9,07 5,1510 0 4 2 0 3,28 7,84 4,48 3,36 8,05 4,60 3,38 8,10 4,6310 0 4 2 1 3,28 7,84 4,48 3,36 8,05 4,60 3,38 8,10 4,6310 0 5 1 0 3,48 8,79 4,91 3,73 9,29 5,22 3,65 8,94 5,0810 0 5 1 1 3,48 8,79 4,91 3,73 9,29 5,22 3,65 8,94 5,0810 0 5 2 0 3,28 7,88 4,49 3,33 8,01 4,56 3,38 8,12 4,6310 0 5 2 1 3,28 7,88 4,49 3,33 8,01 4,56 3,38 8,12 4,6310 1 4 1 0 6,48 14,98 8,82 6,67 15,54 9,11 6,89 15,91 9,3810 1 4 1 1 6,48 14,98 8,82 6,67 15,54 9,11 6,89 15,91 9,3810 1 4 2 0 4,00 9,69 5,50 4,23 10,29 5,84 4,24 10,29 5,8510 1 4 2 1 4,00 9,69 5,50 4,23 10,29 5,84 4,24 10,29 5,8510 1 5 1 0 6,48 14,98 8,82 6,78 15,85 9,27 6,86 15,83 9,3310 1 5 1 1 6,48 14,98 8,82 6,78 15,85 9,27 6,86 15,83 9,3310 1 5 2 0 3,99 9,70 5,50 4,21 10,27 5,82 4,23 10,29 5,8410 1 5 2 1 3,99 9,70 5,50 4,21 10,27 5,82 4,23 10,29 5,84

15 0 4 1 0 3,05 11,05 4,69 3,12 11,14 4,78 3,10 11,16 4,7615 0 4 1 1 3,05 11,05 4,69 3,12 11,14 4,78 3,10 11,16 4,7615 0 4 2 0 2,71 9,10 4,00 2,78 9,31 4,09 2,77 9,28 4,0815 0 4 2 1 2,71 9,10 4,00 2,78 9,31 4,09 2,77 9,28 4,0815 0 5 1 0 3,05 11,06 4,69 2,98 10,64 4,57 3,08 11,11 4,7315 0 5 1 1 3,05 11,06 4,69 2,80 9,97 4,28 3,08 11,11 4,7315 0 5 2 0 2,71 9,17 4,01 2,75 9,28 4,06 2,78 9,37 4,1015 0 5 2 1 2,71 9,17 4,01 2,75 9,28 4,06 2,78 9,37 4,1015 1 4 1 0 4,80 16,60 7,28 4,92 17,05 7,47 5,03 17,44 7,6415 1 4 1 1 4,80 16,60 7,28 4,92 17,05 7,47 5,03 17,44 7,6415 1 4 2 0 3,12 10,65 4,63 3,27 11,19 4,86 3,26 11,15 4,8515 1 4 2 1 3,12 10,65 4,63 3,27 11,19 4,86 3,26 11,15 4,8515 1 5 1 0 4,79 16,59 7,28 5,04 17,47 7,66 5,01 17,38 7,6115 1 5 1 1 4,79 16,59 7,28 5,04 17,47 7,66 5,01 17,38 7,6115 1 5 2 0 3,11 10,67 4,63 3,25 11,17 4,84 3,26 11,20 4,8615 1 5 2 1 3,11 10,67 4,63 3,25 11,17 4,84 3,26 11,20 4,86

Tabela C.3: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikostih u£nih mnoºic 70, 80 in 90

Page 176: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

151

100 (avg) avgNKB GFR MAX PKB LIM nat. pri. f-1 nat. pri. f-1

5 0 4 1 0 4,60 6,02 5,14 4,48 5,80 4,975 0 4 1 1 4,60 6,02 5,14 4,48 5,80 4,975 0 4 2 0 4,49 5,75 4,94 4,31 5,45 4,715 0 4 2 1 4,49 5,75 4,94 4,31 5,45 4,715 0 5 1 0 4,59 6,02 5,13 4,51 5,84 5,015 0 5 1 1 4,59 6,02 5,13 4,43 5,74 4,925 0 5 2 0 4,49 5,75 4,94 4,30 5,45 4,715 0 5 2 1 4,49 5,75 4,94 4,29 5,43 4,695 1 4 1 0 11,97 13,71 12,41 9,30 10,75 9,705 1 4 1 1 11,97 13,71 12,41 9,30 10,75 9,705 1 4 2 0 6,84 8,72 7,53 5,54 7,00 6,065 1 4 2 1 6,84 8,72 7,53 5,54 7,00 6,065 1 5 1 0 11,96 13,68 12,40 9,31 10,77 9,715 1 5 1 1 11,96 13,68 12,40 9,31 10,77 9,715 1 5 2 0 6,84 8,72 7,53 5,53 6,99 6,055 1 5 2 1 6,84 8,72 7,53 5,53 6,99 6,05

10 0 4 1 0 3,58 8,99 5,02 3,50 8,80 4,9210 0 4 1 1 3,58 8,99 5,02 3,48 8,75 4,8910 0 4 2 0 3,30 7,94 4,53 3,31 7,93 4,5310 0 4 2 1 3,30 7,94 4,53 3,31 7,93 4,5310 0 5 1 0 3,57 8,97 5,01 3,52 8,85 4,9510 0 5 1 1 3,57 8,97 5,01 3,52 8,85 4,9510 0 5 2 0 3,31 7,99 4,54 3,29 7,92 4,5110 0 5 2 1 3,31 7,99 4,54 3,29 7,92 4,5110 1 4 1 0 7,13 16,52 9,72 5,78 13,53 7,9110 1 4 1 1 7,13 16,52 9,72 5,78 13,53 7,9110 1 4 2 0 4,32 10,54 5,97 3,82 9,23 5,2510 1 4 2 1 4,32 10,54 5,97 3,82 9,23 5,2510 1 5 1 0 7,13 16,53 9,72 5,79 13,57 7,9310 1 5 1 1 7,13 16,53 9,72 5,79 13,57 7,9310 1 5 2 0 4,31 10,55 5,97 3,80 9,21 5,2310 1 5 2 1 4,31 10,55 5,97 3,80 9,20 5,23

15 0 4 1 0 3,22 11,53 4,92 3,03 11,02 4,6715 0 4 1 1 3,22 11,53 4,92 3,03 11,02 4,6715 0 4 2 0 2,74 9,24 4,05 2,77 9,30 4,0815 0 4 2 1 2,74 9,24 4,05 2,77 9,30 4,0815 0 5 1 0 3,22 11,55 4,93 3,01 10,97 4,6415 0 5 1 1 3,22 11,55 4,93 3,00 10,90 4,6115 0 5 2 0 2,77 9,40 4,10 2,76 9,31 4,0715 0 5 2 1 2,77 9,40 4,10 2,76 9,31 4,0715 1 4 1 0 5,24 18,14 7,96 4,37 15,24 6,6515 1 4 1 1 5,24 18,14 7,96 4,35 15,18 6,6215 1 4 2 0 3,32 11,44 4,96 3,05 10,38 4,5315 1 4 2 1 3,32 11,44 4,96 3,04 10,33 4,5115 1 5 1 0 5,25 18,16 7,96 4,37 15,28 6,6615 1 5 1 1 5,25 18,16 7,96 4,37 15,27 6,6515 1 5 2 0 3,32 11,49 4,97 3,03 10,38 4,5115 1 5 2 1 3,32 11,49 4,97 3,03 10,38 4,51

Tabela C.4: U£inkovitost ekstrakcije klju£nih besed z orodjem Kea, povpre£ne vrednostinatan£nosti, priklica in f-mere pri razli£nih parametrih pri velikosti u£nih mnoºic 100 in povpre£jepo vseh u£nih mnoºicah

Page 177: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

152 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

app/force-download

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

app/msw

ord

enakost

2,51

2,97

2,65

2,57

3,04

2,72

0,64

0,77

0,68

2,67

3,06

2,8

0,78

0,96

0,84

2,57

3,01

2,71

0,92

1,26

1,05

0,99

1,31

1,11

9,22

12,24

10,42

9,16

12,19

10,36

4-re

zanje

4,09

4,79

4,25

4,22

4,9

4,37

0,97

1,29

1,09

3,86

4,68

4,15

1,11

1,49

1,24

3,76

4,62

4,06

1,19

1,67

1,37

1,32

1,76

1,48

13,45

18,31

15,35

13,32

18,12

15,2

5-re

zanje

3,5

3,99

3,57

3,56

4,05

3,64

0,84

1,07

0,92

3,27

3,92

3,49

0,97

1,27

1,08

3,17

3,86

3,4

1,06

1,48

1,21

1,19

1,57

1,33

12,26

16,72

14,01

12,19

16,64

13,94

6-re

zanje

3,17

3,58

3,21

3,23

3,64

3,28

0,84

1,07

0,92

33,56

3,19

0,97

1,27

1,08

2,9

3,5

3,1

1,06

1,48

1,21

1,12

1,48

1,26

11,14

15,08

12,68

11,14

15,11

12,7

soundex

4,74

5,58

4,94

4,8

5,64

5,01

1,04

1,38

1,16

4,41

5,48

4,8

1,17

1,57

1,32

4,47

5,53

4,84

1,19

1,67

1,37

1,39

1,87

1,57

13,84

19,03

15,87

13,84

19,04

15,88

metaphone

4,34

5,39

4,7

4,34

5,39

4,7

1,04

1,38

1,16

4,27

5,33

4,66

1,17

1,57

1,32

4,34

5,39

4,7

1,19

1,67

1,37

1,32

1,79

1,49

12,59

17,21

14,4

12,52

17,13

14,33

similar60

6,19

7,43

6,52

6,2

7,39

6,53

1,37

1,79

1,52

5,97

7,36

6,47

1,63

2,2

1,84

5,97

7,31

6,43

3,15

4,16

3,53

3,26

4,39

3,7

16,49

22,46

18,82

16,68

22,84

19,09

similar70

4,93

5,71

5,08

5,08

5,92

5,27

1,11

1,46

1,23

4,85

5,89

5,21

1,24

1,65

1,39

4,68

5,73

5,03

1,6

2,16

1,81

1,73

2,32

1,96

14,17

19,32

16,19

14,17

19,32

16,19

similar80

3,63

4,57

3,96

3,83

4,81

4,17

0,97

1,29

1,09

4,01

4,97

4,36

1,11

1,49

1,24

3,91

4,92

4,27

1,25

1,74

1,44

1,52

2,02

1,71

12,59

17,17

14,39

12,59

17,2

14,4

app/octet-stre

am

enakost

1,77

2,49

2,05

1,94

2,65

2,21

0,16

0,27

0,2

1,94

2,58

2,19

0,32

0,54

0,4

2,1

2,85

2,39

0,65

0,74

0,67

1,29

1,47

1,36

8,23

11,22

9,4

8,23

11,22

9,4

4-re

zanje

3,59

4,85

4,08

3,43

4,61

3,89

0,97

1,26

1,08

3,27

4,27

3,67

1,88

2,3

2,03

3,7

4,81

4,12

0,97

1,28

1,08

1,61

21,76

12,1

16,79

13,93

11,94

16,63

13,77

5-re

zanje

2,42

3,39

2,79

2,58

3,55

2,96

0,48

0,63

0,54

2,42

3,21

2,73

0,75

0,9

0,79

2,85

3,75

3,19

0,97

1,28

1,08

1,61

21,76

11,45

15,89

13,19

11,29

15,73

13,03

6-re

zanje

2,26

3,12

2,59

2,42

3,28

2,75

0,48

0,63

0,54

2,42

3,21

2,73

0,75

0,9

0,79

2,69

3,48

2,98

0,81

1,01

0,88

1,45

1,73

1,56

10,32

14,21

11,85

10,16

14,05

11,69

soundex

3,71

4,92

4,18

3,87

5,15

4,38

1,29

1,67

1,44

3,71

4,81

4,15

1,88

2,23

24,14

5,35

4,61

0,97

1,28

1,08

1,61

21,76

12,26

16,95

14,1

12,42

17,26

14,32

metaphone

2,9

3,84

3,26

3,06

4,07

3,46

0,97

1,26

1,08

2,9

3,74

3,23

1,45

1,83

1,59

3,23

4,27

3,64

0,97

1,28

1,08

1,61

21,76

10,65

14,7

12,23

10,81

15,01

12,45

similar60

56,72

5,67

56,75

5,68

2,42

3,2

2,73

4,84

6,34

5,44

3,01

3,83

3,31

5,27

6,95

5,91

3,58

4,89

4,08

4,62

5,95

5,13

15

20,66

17,22

15,16

20,93

17,42

similar70

3,71

4,99

4,2

3,87

5,22

4,4

1,45

1,94

1,64

3,71

4,88

4,17

2,04

2,5

2,2

4,14

5,42

4,63

1,65

2,18

1,85

2,63

3,24

2,86

12,58

17,59

14,54

12,58

17,7

14,58

similar80

2,74

3,75

3,13

3,06

4,11

3,48

0,97

1,2

1,06

2,9

3,78

3,25

1,13

1,47

1,26

3,23

4,31

3,65

1,13

1,48

1,26

1,77

2,27

1,96

11,29

15,65

12,99

11,29

15,75

13,03

app/pdf

enakost

1,58

2,05

1,77

1,52

1,97

1,7

1,4

1,82

1,57

1,52

1,97

1,7

1,4

1,82

1,57

1,52

1,97

1,7

0,43

0,51

0,46

0,49

0,6

0,54

7,23

9,35

8,09

7,05

9,13

7,89

4-re

zanje

2,25

2,88

2,5

2,25

2,86

2,5

2,13

2,71

2,36

2,39

3,04

2,65

2,13

2,75

2,38

2,31

2,94

2,56

0,79

1,03

0,88

1,09

1,5

1,25

8,75

11,47

9,85

8,51

11,16

9,58

5-re

zanje

2,07

2,62

2,29

2,01

2,55

2,22

1,88

2,4

2,09

2,07

2,62

2,29

1,88

2,4

2,09

2,07

2,62

2,29

0,73

0,93

0,81

0,97

1,32

1,11

8,45

11,04

9,49

8,21

10,72

9,22

6-re

zanje

1,76

2,26

1,96

1,76

2,26

1,96

1,58

2,03

1,76

1,76

2,26

1,96

1,58

2,03

1,76

1,76

2,26

1,96

0,73

0,93

0,81

0,97

1,32

1,11

8,21

10,75

9,23

7,96

10,44

8,96

soundex

3,16

3,54

3,13

3,16

3,54

3,13

2,25

2,93

2,52

2,57

3,36

2,89

2,37

3,16

2,68

2,61

3,46

2,95

1,09

1,42

1,22

1,16

1,56

1,32

10,58

13,93

11,93

10,46

13,79

11,8

metaphone

2,43

2,51

2,28

2,49

2,59

2,35

1,58

2,03

1,76

1,96

2,54

2,19

1,64

2,13

1,84

1,88

2,44

2,11

1,34

1,81

1,53

1,52

2,11

1,75

9,97

13,09

11,23

9,85

12,95

11,1

similar60

3,65

4,79

4,1

3,59

4,74

4,05

3,34

4,34

3,74

3,54

4,59

3,96

3,47

4,56

3,9

3,59

4,72

4,04

2,55

3,39

2,89

2,67

3,61

3,04

13,37

17,78

15,14

13,25

17,64

15,01

similar70

2,92

3,83

3,28

2,98

3,94

3,36

2,61

3,38

2,92

2,93

3,81

3,28

2,74

3,61

3,08

3,04

4,01

3,43

1,76

2,33

1,99

2,07

2,83

2,37

11,67

15,43

13,19

11,55

15,29

13,06

similar80

2,13

2,67

2,35

2,13

2,7

2,36

1,95

2,45

2,15

2,19

2,78

2,43

1,95

2,45

2,15

2,19

2,78

2,43

1,22

1,61

1,37

1,52

2,11

1,75

9,85

12,86

11,07

9,67

12,64

10,87

app/vnd.m

s-excel

enakost

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

6,67

9,72

7,87

13,33

20,83

16,2

13,33

20,83

16,2

4-re

zanje

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

6,67

9,72

7,87

13,33

20,83

16,2

13,33

20,83

16,2

5-re

zanje

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

6,67

9,72

7,87

13,33

20,83

16,2

13,33

20,83

16,2

6-re

zanje

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

6,67

9,72

7,87

13,33

20,83

16,2

13,33

20,83

16,2

soundex

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

10

15,28

12,04

20

29,17

23,61

20

29,17

23,61

metaphone

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

10

15,28

12,04

20

29,17

23,61

20

29,17

23,61

similar60

00

00

00

00

00

00

00

00

00

13,33

18,06

15,28

16,67

23,61

19,44

20

29,17

23,61

20

29,17

23,61

similar70

00

00

00

00

00

00

00

00

00

13,33

18,06

15,28

16,67

23,61

19,44

20

29,17

23,61

20

29,17

23,61

similar80

00

00

00

00

00

00

00

00

00

6,67

9,72

7,87

10

15,28

12,04

20

29,17

23,61

20

29,17

23,61

Tabela

C.5:Statistika

povpre£nihvrednostiu£inkovitostiekstrakcije

5klju£nih

besedizprim

arnegavzorca

gradiv,po

formatu,

kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira

zavsa

orodja,prvidel

Page 178: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

153

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

app/vnd.m

s-powerpoint

enakost

2,37

2,94

2,59

2,89

3,82

3,25

00

02,37

3,22

2,7

0,33

0,33

0,33

3,29

4,14

3,62

1,84

2,41

2,05

1,84

2,41

2,05

18,95

24,41

21,06

18,68

24,19

20,82

4-rezanje

4,61

5,37

4,9

5,66

6,78

6,09

0,92

0,99

0,95

5,2

6,25

5,6

0,59

0,66

0,62

5,39

6,45

5,79

3,16

3,79

3,4

3,16

3,79

3,4

22,11

28,22

24,51

22,11

28,27

24,53

5-rezanje

3,29

3,82

3,49

4,34

5,22

4,67

00

03,16

3,97

3,46

0,33

0,33

0,33

4,08

4,89

4,38

3,16

3,79

3,4

3,16

3,79

3,4

20,53

26,25

22,75

20,53

26,29

22,78

6-rezanje

2,63

3,16

2,83

3,68

4,56

4,02

00

03,16

3,97

3,46

0,33

0,33

0,33

4,08

4,89

4,38

2,89

3,46

3,1

2,89

3,46

3,1

20

25,81

22,24

20

25,86

22,27

soundex

4,34

5,11

4,64

5,39

6,51

5,82

0,92

0,99

0,95

5,2

6,32

5,62

0,59

0,66

0,62

5,39

6,51

5,82

3,42

4,23

3,72

3,42

4,23

3,72

22,37

28,36

24,71

22,37

28,4

24,74

metaphone

3,82

4,34

4,02

4,34

5,22

4,67

0,66

0,66

0,66

4,14

5,02

4,48

0,33

0,33

0,33

4,34

5,22

4,67

3,16

4,08

3,5

3,16

4,08

3,5

21,58

27,5

23,89

21,32

27,28

23,66

similar60

7,76

9,45

8,42

8,82

10,86

9,6

2,24

2,79

2,46

8,36

10,22

9,07

1,38

1,58

1,47

8,82

10,86

9,6

4,47

5,53

4,87

4,74

5,79

5,13

25,53

32

28,08

25,53

32,04

28,11

similar70

5,13

6,03

5,49

6,18

7,43

6,67

1,18

1,32

1,24

5,99

7,24

6,47

0,86

0,99

0,91

6,18

7,43

6,67

3,42

4,41

3,79

3,68

4,67

4,05

23,95

30,33

26,47

23,95

30,37

26,49

similar80

3,55

4,08

3,75

4,61

5,48

4,94

00

03,68

4,56

4,02

0,33

0,33

0,33

4,61

5,48

4,94

2,89

3,53

3,13

2,89

3,53

3,13

20,79

26,64

23,08

20,79

26,69

23,1

app/vnd.oasis.opendoc.pres

enakost

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

soundex

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

similar60

10

12,5

11,11

10

12,5

11,11

00

010

12,5

11,11

00

010

12,5

11,11

00

00

00

10

12,5

11,11

10

12,5

11,11

similar70

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

similar80

00

00

00

00

00

00

00

00

00

00

00

00

10

12,5

11,11

10

12,5

11,11

app/x-zip-compressed

enakost

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

00

00

00

12,73

16,97

14,21

12,73

16,97

14,21

4-rezanje

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

5-rezanje

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

6-rezanje

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

soundex

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

metaphone

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

similar60

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

5,45

7,58

6,31

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

similar70

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

similar80

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

2,27

2,02

1,82

1,52

1,65

1,82

1,52

1,65

12,73

16,97

14,21

12,73

16,97

14,21

app/zip

enakost

00

00

00

00

00

00

00

00

00

00

00

00

56,25

5,56

56,25

5,56

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

14,58

11,81

10

14,58

11,81

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

14,58

11,81

10

14,58

11,81

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

56,25

5,56

56,25

5,56

soundex

00

00

00

00

00

00

00

00

00

00

00

00

15

22,92

18,06

15

22,92

18,06

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

15

22,92

18,06

15

22,92

18,06

similar60

00

00

00

00

00

00

00

00

00

00

00

00

15

22,92

18,06

15

22,92

18,06

similar70

00

00

00

00

00

00

00

00

00

00

00

00

15

22,92

18,06

15

22,92

18,06

similar80

00

00

00

00

00

00

00

00

00

00

00

00

15

22,92

18,06

15

22,92

18,06

imsccv1p0

enakost

00

00

00

00

00

00

00

00

00

0,36

0,45

0,4

0,36

0,45

0,4

7,64

8,55

7,99

89

8,39

4-rezanje

00

00

00

00

00

00

00

00

00

1,09

1,27

1,17

1,09

1,27

1,17

89

8,39

8,36

9,45

8,8

5-rezanje

00

00

00

00

00

00

00

00

00

1,09

1,27

1,17

1,09

1,27

1,17

89

8,39

8,36

9,45

8,8

6-rezanje

00

00

00

00

00

00

00

00

00

1,09

1,27

1,17

1,09

1,27

1,17

89

8,39

8,36

9,45

8,8

soundex

00

00

00

00

00

00

00

00

00

1,82

21,9

1,09

1,27

1,17

89

8,39

8,36

9,45

8,8

metaphone

00

00

00

00

00

00

00

00

00

1,09

1,27

1,17

1,09

1,27

1,17

7,64

8,55

7,99

89

8,39

similar60

0,36

0,45

0,4

0,36

0,45

0,4

0,36

0,45

0,4

0,36

0,45

0,4

0,36

0,45

0,4

0,36

0,45

0,4

2,18

2,45

2,3

2,18

2,45

2,3

10,91

12

11,34

11,27

12,45

11,75

similar70

00

00

00

00

00

00

00

00

00

1,09

1,27

1,17

1,09

1,27

1,17

8,36

9,36

8,76

8,73

9,82

9,16

similar80

00

00

00

00

00

00

00

00

00

1,09

1,27

1,17

1,09

1,27

1,17

89

8,39

8,36

9,45

8,8

Tabela

C.6:Statistikapovpre£nihvrednostiu£inkovitostiekstrakcije

5klju£nihbesedizprimarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,

na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,drugid

el

Page 179: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

154 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

scorm

v1p2

enakost

00

00

00

00

00

00

00

00

00

00

00

00

3,33

3,45

3,39

3,33

3,45

3,39

4-re

zanje

00

00

00

00

00

00

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

4,29

4,52

4,39

4,29

4,52

4,39

5-re

zanje

00

00

00

00

00

00

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

4,29

4,52

4,39

4,29

4,52

4,39

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

3,81

4,05

3,92

3,81

4,05

3,92

soundex

00

00

00

00

00

00

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

4,29

4,52

4,39

4,29

4,52

4,39

metaphone

00

00

00

00

00

00

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

3,33

3,45

3,39

3,33

3,45

3,39

similar60

00

00,48

0,48

0,48

00

00,48

0,48

0,48

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

5,24

5,79

5,46

5,24

5,79

5,46

similar70

00

00

00

00

00

00

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

4,29

4,52

4,39

4,29

4,52

4,39

similar80

00

00

00

00

00

00

00

00

00

0,48

0,48

0,48

0,48

0,48

0,48

3,81

4,05

3,92

3,81

4,05

3,92

scorm

v2004

enakost

2,5

3,13

2,78

2,5

3,13

2,78

1,67

2,08

1,85

2,5

3,13

2,78

1,67

2,08

1,85

2,5

3,13

2,78

0,83

1,04

0,93

0,83

1,04

0,93

18,33

21,88

19,79

18,33

21,88

19,79

4-re

zanje

3,33

3,96

3,61

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

5-re

zanje

3,33

3,96

3,61

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

6-re

zanje

3,33

3,96

3,61

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

soundex

3,33

3,96

3,61

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

metaphone

3,33

3,96

3,61

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

similar60

5,83

6,67

6,2

5,83

6,67

6,2

3,33

3,96

3,61

5,83

6,67

6,2

3,33

3,96

3,61

5,83

6,67

6,2

55,63

5,28

5,83

6,46

6,11

21,67

25,42

23,22

21,67

25,42

23,22

similar70

4,17

4,79

4,44

4,17

4,79

4,44

2,5

2,92

2,69

4,17

4,79

4,44

2,5

2,92

2,69

4,17

4,79

4,44

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

similar80

3,33

3,96

3,61

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

3,33

3,96

3,61

2,5

2,92

2,69

2,5

2,92

2,69

18,33

21,88

19,79

18,33

21,88

19,79

text/htm

l

enakost

0,67

0,8

0,71

0,68

0,8

0,71

0,36

0,5

0,41

0,74

0,86

0,76

0,36

0,5

0,41

0,72

0,82

0,73

0,65

0,79

0,7

0,49

0,63

0,54

11,82

11,37

11,21

11,58

11,1

10,97

4-re

zanje

1,21

1,29

1,2

1,34

1,36

1,3

0,75

0,86

0,77

1,38

1,4

1,34

0,76

0,87

0,78

1,38

1,37

1,32

0,9

1,09

0,97

0,72

0,91

0,79

12,47

12,22

11,94

12,29

12,01

11,75

5-re

zanje

0,79

0,92

0,83

0,79

0,92

0,83

0,39

0,54

0,44

0,85

0,98

0,88

0,39

0,54

0,44

0,83

0,94

0,85

0,9

1,09

0,97

0,72

0,91

0,79

12,36

12,07

11,81

12,16

11,83

11,6

6-re

zanje

0,79

0,92

0,83

0,79

0,92

0,83

0,39

0,54

0,44

0,85

0,98

0,88

0,39

0,54

0,44

0,83

0,94

0,85

0,82

0,97

0,87

0,66

0,81

0,71

12,23

11,89

11,66

12

11,65

11,44

soundex

1,21

1,41

1,26

1,19

1,38

1,24

0,57

0,79

0,65

1,33

1,46

1,33

0,59

0,81

0,67

1,19

1,38

1,24

0,95

1,12

10,76

0,93

0,82

12,5

12,23

11,97

12,34

12,05

11,8

metaphone

1,24

1,44

1,3

1,23

1,42

1,28

0,57

0,8

0,65

1,37

1,5

1,37

0,59

0,82

0,67

1,23

1,42

1,28

0,93

1,1

0,99

0,72

0,88

0,78

12,36

12,03

11,8

12,16

11,8

11,59

similar60

2,7

2,98

2,75

2,81

3,03

2,83

1,77

2,08

1,85

2,86

3,06

2,86

1,8

2,1

1,88

2,83

3,04

2,84

4,08

4,73

4,26

3,89

4,53

4,08

15,9

16,86

15,85

15,72

16,68

15,67

similar70

1,76

1,95

1,78

1,87

21,86

1,02

1,27

1,09

1,93

2,07

1,92

1,04

1,28

1,11

1,87

21,86

2,35

2,74

2,46

2,21

2,62

2,34

13,89

14,15

13,56

13,69

13,94

13,36

similar80

0,93

1,04

0,95

0,9

10,91

0,39

0,54

0,44

0,98

1,08

0,99

0,42

0,58

0,48

0,9

10,91

1,31

1,53

1,38

1,14

1,33

1,2

12,63

12,42

12,12

12,44

12,19

11,91

text/plain

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

text/xml

enakost

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

4-re

zanje

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

5-re

zanje

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

6-re

zanje

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

soundex

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

metaphone

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar60

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar70

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar80

10

12,5

11,11

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

Tabela

C.7:Statistika

povpre£nihvrednostiu£inkovitostiekstrakcije

5klju£nih

besedizprim

arnegavzorca

gradiv,po

formatu,

kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira

zavsa

orodja,tretjidel

Page 180: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

155

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

app/force-download

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

app/msw

ord

enakost

2,22

4,38

2,75

2,15

4,16

2,65

0,59

1,13

0,72

2,36

4,38

2,87

0,64

1,24

0,79

2,26

4,35

2,77

0,79

1,9

1,09

0,92

2,21

1,28

5,68

14,58

8,06

5,64

14,47

84-rezanje

3,68

7,2

4,47

3,71

7,24

4,51

0,96

2,05

1,23

3,44

6,99

4,36

0,92

1,94

1,18

3,31

6,96

4,25

12,39

1,38

1,17

2,8

1,62

8,57

22,33

12,22

8,55

22,33

12,2

5-rezanje

3,13

5,87

3,71

3,11

5,76

3,67

0,79

1,65

12,86

5,6

3,56

0,76

1,54

0,95

2,74

5,57

3,45

0,97

2,31

1,33

1,1

2,6

1,52

7,68

20,16

10,97

7,66

20,16

10,96

6-rezanje

2,87

5,42

3,4

2,84

5,31

3,34

0,79

1,65

12,66

5,2

3,3

0,76

1,54

0,95

2,54

5,18

3,19

0,97

2,31

1,33

1,07

2,52

1,47

7,28

19,05

10,39

7,27

19,05

10,38

soundex

4,08

7,7

4,89

4,07

7,68

4,88

0,92

1,95

1,18

3,66

7,42

4,65

0,89

1,84

1,13

3,77

7,63

4,76

1,02

2,39

1,4

1,27

2,97

1,74

8,99

23,63

12,86

8,95

23,52

12,79

metaphone

3,62

7,35

4,57

3,58

7,25

4,51

0,92

1,95

1,18

3,51

7,1

4,45

0,89

1,84

1,13

3,62

7,32

4,56

1,02

2,39

1,4

1,23

2,89

1,69

8,22

21,65

11,76

8,11

21,32

11,6

similar60

5,03

10,14

6,21

4,97

9,99

6,17

1,29

2,76

1,68

4,81

10,01

6,17

1,32

2,87

1,73

4,8

9,98

6,14

2,82

6,48

3,81

2,9

6,69

3,92

10,65

27,95

15,22

10,53

27,67

15,06

similar70

4,23

8,14

5,09

4,21

8,19

5,12

1,02

2,21

1,32

3,97

8,07

5,02

0,99

2,1

1,27

3,88

8,07

4,95

1,46

3,29

1,97

1,57

3,59

2,13

9,19

24,02

13,12

9,11

23,8

13

similar80

3,15

6,69

4,05

3,11

6,58

3,99

0,89

1,87

1,14

3,38

6,8

4,27

0,86

1,76

1,08

3,32

6,91

4,25

1,16

2,69

1,59

1,36

3,11

1,85

8,04

21,19

11,5

7,96

20,97

11,39

app/octet-stream

enakost

1,31

3,25

1,86

1,23

3,01

1,74

0,2

0,43

0,27

1,24

2,94

1,74

0,36

0,9

0,51

1,32

3,21

1,86

0,32

0,74

0,44

0,91

2,03

1,24

5,65

14,97

8,13

5,56

14,84

8,03

4-rezanje

2,63

5,98

3,6

2,48

5,74

3,42

1,04

2,35

1,44

2,41

5,4

3,3

1,53

3,02

1,95

2,73

5,94

3,64

0,59

1,55

0,85

1,17

2,84

1,64

9,19

24,52

13,26

9,03

24,29

13,06

5-rezanje

1,69

4,15

2,39

1,61

3,91

2,27

0,38

0,79

0,51

1,54

3,58

2,14

0,71

1,26

0,85

1,87

4,11

2,49

0,59

1,55

0,85

1,17

2,84

1,64

8,71

23,25

12,57

8,55

23,02

12,37

6-rezanje

1,61

3,88

2,27

1,53

3,64

2,14

0,38

0,79

0,51

1,54

3,58

2,14

0,71

1,26

0,85

1,79

3,84

2,36

0,4

1,01

0,56

0,99

2,3

1,37

7,66

20,09

11

7,5

19,87

10,8

soundex

2,76

6,29

3,8

2,67

6,21

3,71

1,06

2,33

1,45

2,62

5,87

3,6

1,57

31,98

2,93

6,41

3,93

0,59

1,55

0,85

1,17

2,84

1,64

9,27

24,54

13,35

9,03

24,11

13,04

metaphone

2,23

5,22

3,1

2,08

4,97

2,91

0,88

1,92

1,2

2,01

4,64

2,79

1,2

2,59

1,62

2,17

5,17

3,04

0,59

1,55

0,85

1,17

2,84

1,64

8,39

22,18

12,07

8,15

21,64

11,74

similar60

3,69

8,76

5,15

3,49

8,45

4,9

1,81

4,33

2,53

3,36

8,05

4,71

2,37

5,07

3,13

3,74

8,66

5,12

2,69

6,26

3,64

3,91

8,49

5,13

10,56

28,33

15,26

10,32

27,9

14,95

similar70

2,73

6,36

3,79

2,62

6,28

3,67

1,16

2,59

1,6

2,54

5,94

3,55

1,67

3,27

2,13

2,87

6,48

3,89

1,33

3,15

1,83

2,21

4,64

2,89

10

26,65

14,42

9,6

25,89

13,89

similar80

1,86

4,52

2,62

1,84

4,48

2,59

0,61

1,36

0,84

1,77

4,14

2,47

0,89

2,03

1,23

1,93

4,68

2,72

0,84

2,28

1,21

1,33

3,31

1,88

8,79

23,55

12,7

8,63

23,32

12,5

app/pdf

enakost

1,13

2,8

1,6

1,07

2,65

1,51

1,04

2,65

1,48

1,07

2,65

1,51

1,04

2,65

1,48

1,07

2,65

1,51

0,28

0,66

0,39

0,29

0,68

0,41

4,75

12,11

6,77

4,5

11,51

6,43

4-rezanje

1,62

4,02

2,29

1,56

3,86

2,2

1,53

3,86

2,17

1,66

4,03

2,33

1,5

3,79

2,13

1,59

3,93

2,24

0,55

1,28

0,76

0,73

1,78

1,02

6,57

16,74

9,37

6,42

16,37

9,16

5-rezanje

1,47

3,59

2,06

1,38

3,36

1,93

1,34

3,36

1,91

1,41

3,44

1,98

1,34

3,36

1,91

1,41

3,44

1,98

0,52

1,18

0,71

0,67

1,6

0,93

6,33

16,03

9,01

6,17

15,66

8,8

6-rezanje

1,25

3,09

1,77

1,22

3,01

1,72

1,16

2,94

1,66

1,22

3,01

1,72

1,16

2,94

1,66

1,22

3,01

1,72

0,52

1,18

0,71

0,67

1,6

0,93

5,93

15,07

8,45

5,75

14,63

8,2

soundex

2,51

4,67

2,89

2,45

4,44

2,78

1,74

4,29

2,45

1,91

4,46

2,63

1,78

4,29

2,49

1,88

4,36

2,58

0,83

1,98

1,16

0,9

2,14

1,26

7,18

18,41

10,26

6,93

17,84

9,92

metaphone

1,96

3,51

2,15

1,96

3,43

2,13

1,23

3,13

1,75

1,42

3,38

1,97

1,23

3,13

1,75

1,35

3,28

1,88

1,09

2,6

1,53

1,15

2,69

1,59

6,81

17,56

9,75

6,6

17,05

9,45

similar60

2,69

6,37

3,74

2,58

6,14

3,59

2,48

6,07

3,49

2,62

6,22

3,64

2,54

6,07

3,54

2,58

6,12

3,59

1,84

4,39

2,54

2,11

4,97

2,91

7,94

20,29

11,33

7,75

19,87

11,08

similar70

2,18

5,2

3,03

2,09

4,97

2,9

2,01

4,97

2,84

2,15

5,15

32,06

4,97

2,88

2,12

5,05

2,95

1,2

2,91

1,69

1,46

3,49

2,05

7,42

19,01

10,6

7,18

18,43

10,26

similar80

1,5

3,68

2,11

1,41

3,45

1,98

1,38

3,45

1,95

1,44

3,53

2,02

1,38

3,45

1,95

1,44

3,53

2,02

0,84

1,93

1,16

1,06

2,5

1,48

6,66

16,94

9,5

6,42

16,36

9,15

app/vnd.m

s-excel

enakost

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

6,67

20,83

10,07

6,67

20,83

10,07

4-rezanje

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

8,33

26,39

12,64

8,33

26,39

12,64

5-rezanje

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

8,33

26,39

12,64

8,33

26,39

12,64

6-rezanje

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

8,33

26,39

12,64

8,33

26,39

12,64

soundex

00

00

00

00

00

00

00

00

00

7,38

15,28

9,6

7,78

15,28

9,97

11,67

34,72

17,4

11,67

34,72

17,4

metaphone

00

00

00

00

00

00

00

00

00

7,38

15,28

9,6

7,78

15,28

9,97

10

29,17

14,84

10

29,17

14,84

similar60

00

00

00

00

00

00

00

00

00

18,1

34,72

22,91

19,31

34,72

24,11

13,33

40,28

19,96

13,33

40,28

19,96

similar70

00

00

00

00

00

00

00

00

00

15,71

29,17

19,57

16,53

29,17

20,41

13,33

40,28

19,96

13,33

40,28

19,96

similar80

00

00

00

00

00

00

00

00

00

7,38

15,28

9,6

7,78

15,28

9,97

13,33

40,28

19,96

13,33

40,28

19,96

Tabela

C.8:Statistikapovpre£nihvrednostiu£inkovitostiekstrakcije

10klju£nihbesedizprimarnega

vzorca

gradiv,p

oform

atu,

kriteriju

ujem

anja,

na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,prvidel

Page 181: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

156 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

app/vnd.m

s-powerpoint

enakost

2,24

5,7

3,18

1,97

5,18

2,83

0,79

2,35

1,17

2,37

6,78

3,48

0,86

1,8

1,1

2,5

5,5

3,3

1,05

2,63

1,48

1,05

2,63

1,48

10,79

26,51

15,18

10,13

25,11

14,29

4-re

zanje

3,95

8,77

5,29

3,68

8,25

4,94

1,58

3,27

2,01

4,14

9,47

5,53

0,99

2,06

1,27

3,55

7,92

4,75

2,11

5,33

2,97

2,11

5,33

2,97

13,29

32,81

18,73

12,89

31,89

18,18

5-re

zanje

3,42

7,37

4,53

3,16

6,84

4,18

0,92

2,61

1,35

2,89

7,79

4,17

0,99

2,06

1,27

3,03

6,51

3,99

2,11

5,33

2,97

2,11

5,33

2,97

12,37

30,5

17,42

11,97

29,58

16,86

6-re

zanje

2,63

6,45

3,7

2,37

5,92

3,35

0,92

2,61

1,35

2,76

7,52

3,99

0,99

2,06

1,27

2,89

6,25

3,82

1,97

52,79

1,97

52,79

11,71

28,75

16,46

11,32

27,83

15,91

soundex

4,39

9,56

5,85

4,08

9,04

5,46

1,87

3,79

2,38

4,67

10,59

6,25

1,28

2,59

1,65

4,08

9,04

5,46

2,24

5,77

3,18

2,24

5,77

3,18

13,82

33,66

19,4

13,42

32,74

18,84

metaphone

3,86

8,33

5,12

3,55

7,81

4,73

1,74

3,53

2,21

4,14

9,36

5,52

1,15

2,32

1,47

3,55

7,81

4,73

2,24

6,05

3,22

2,11

5,61

3,02

13,42

32,87

18,87

12,89

31,73

18,15

similar60

6,23

14,23

8,47

5,92

13,71

8,08

2,4

5,04

3,12

6,12

13,95

8,26

2,07

4,71

2,79

5,92

13,71

8,08

3,55

9,01

5,03

3,82

9,39

5,35

15,26

36,97

21,4

15,13

36,58

21,2

similar70

4,78

10,48

6,4

4,47

9,96

6,01

24,12

2,57

5,07

11,51

6,8

1,41

2,92

1,84

4,47

9,96

6,01

2,5

6,82

3,61

2,5

6,64

3,58

14,74

35,96

20,71

14,61

35,57

20,51

similar80

3,42

7,37

4,53

3,16

6,84

4,18

0,92

2,61

1,35

3,03

8,11

4,36

0,99

2,06

1,27

3,16

6,84

4,18

2,11

5,5

31,97

5,07

2,8

13,29

32,61

18,69

12,89

31,69

18,14

app/vnd.oasis.o

pendoc.pres

enakost

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

04-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

512,5

7,14

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

06-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

0soundex

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

0metaphone

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

0sim

ilar60

512,5

7,14

512,5

7,14

00

05

12,5

7,14

00

05

12,5

7,14

00

00

00

512,5

7,14

512,5

7,14

similar70

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

0sim

ilar80

00

00

00

00

00

00

00

00

00

00

00

00

512,5

7,14

00

0

app/x-zip

-compresse

d

enakost

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

1,82

5,3

2,7

0,91

2,27

1,3

0,91

2,27

1,3

00

00

00

6,36

15

8,79

5,45

13,18

7,58

4-re

zanje

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

1,82

5,3

2,7

0,91

2,27

1,3

0,91

2,27

1,3

0,91

1,52

1,14

1,82

4,55

2,53

8,18

19,55

11,33

7,27

17,73

10,12

5-re

zanje

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

1,82

5,3

2,7

0,91

2,27

1,3

0,91

2,27

1,3

0,91

1,52

1,14

0,91

1,52

1,14

7,27

16,52

9,93

6,36

14,7

8,72

6-re

zanje

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

1,82

5,3

2,7

0,91

2,27

1,3

0,91

2,27

1,3

0,91

1,52

1,14

0,91

1,52

1,14

7,27

16,52

9,93

6,36

14,7

8,72

soundex

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

2,73

7,12

3,91

0,91

2,27

1,3

0,91

2,27

1,3

0,91

1,52

1,14

0,91

1,52

1,14

7,27

16,52

9,93

6,36

14,7

8,72

metaphone

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

2,73

7,12

3,91

0,91

2,27

1,3

0,91

2,27

1,3

0,91

1,52

1,14

0,91

1,52

1,14

7,27

16,52

9,93

6,36

14,7

8,72

similar60

0,91

2,27

1,3

1,82

4,55

2,6

2,73

7,58

45,45

14,7

7,91

0,91

2,27

1,3

1,82

4,55

2,6

2,73

6,82

3,83

2,73

7,58

3,93

8,18

19,55

11,33

8,18

19,55

11,33

similar70

0,91

2,27

1,3

1,82

4,55

2,6

2,73

7,58

43,64

9,39

5,21

0,91

2,27

1,3

1,82

4,55

2,6

1,82

4,55

2,53

1,82

4,55

2,53

7,27

16,52

9,93

7,27

16,52

9,93

similar80

0,91

2,27

1,3

0,91

2,27

1,3

1,82

5,3

2,7

1,82

5,3

2,7

0,91

2,27

1,3

0,91

2,27

1,3

0,91

1,52

1,14

0,91

1,52

1,14

7,27

16,52

9,93

7,27

16,52

9,93

app/zip

enakost

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

2,5

6,25

3,57

2,5

6,25

3,57

4-re

zanje

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

514,58

7,42

514,58

7,42

5-re

zanje

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

514,58

7,42

514,58

7,42

6-re

zanje

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

2,5

6,25

3,57

2,5

6,25

3,57

soundex

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

514,58

7,42

7,5

22,92

11,26

metaphone

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

514,58

7,42

7,5

22,92

11,26

similar60

2,5

6,25

3,57

2,5

6,25

3,57

00

05

12,5

7,14

00

02,5

6,25

3,57

00

00

00

514,58

7,42

7,5

22,92

11,26

similar70

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

514,58

7,42

7,5

22,92

11,26

similar80

00

00

00

00

02,5

6,25

3,57

00

00

00

00

00

00

514,58

7,42

514,58

7,42

imsccv1p0

enakost

00

00

00

00

00

00

00

00

00

0,36

0,91

0,52

0,36

0,91

0,52

4,18

9,73

5,81

4,55

10,45

6,29

4-re

zanje

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,91

2,09

1,26

1,09

2,55

1,52

4,91

11,36

6,81

5,27

12,09

7,3

5-re

zanje

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,91

2,09

1,26

1,09

2,55

1,52

4,91

11,36

6,81

5,27

12,09

7,3

6-re

zanje

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,91

2,09

1,26

0,91

2,09

1,26

4,73

10,91

6,55

5,09

11,64

7,04

soundex

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

0,18

0,36

0,24

0,36

0,82

0,5

1,27

2,82

1,75

1,09

2,55

1,52

4,91

11,36

6,81

5,27

12,09

7,3

metaphone

00

00

00

00

00

00

00

00

00

0,73

1,73

1,02

0,91

2,18

1,28

4,73

10,91

6,55

5,09

11,64

7,04

similar60

0,36

0,82

0,5

0,55

1,27

0,76

0,36

0,82

0,5

0,55

1,27

0,76

0,36

0,82

0,5

0,73

1,64

11,45

3,27

2,01

1,82

4,18

2,53

819,06

11,19

8,36

19,79

11,67

similar70

00

00,18

0,45

0,26

00

00,18

0,45

0,26

00

00,18

0,45

0,26

0,91

2,09

1,26

1,09

2,55

1,52

5,45

12,55

7,56

613,88

8,32

similar80

00

00

00

00

00

00

00

00

00

0,91

2,09

1,26

1,09

2,55

1,52

4,91

11,36

6,81

5,27

12,09

7,3

Tabela

C.9:Statistika

povpre£nihvrednostiu£inkovitostiekstrakcije

10klju£nih

besedizprim

arnegavzorca

gradiv,poform

atu,kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira

zavsa

orodja,drugidel

Page 182: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

157

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

scorm

v1p2

enakost

00

00

00

00

00

00

00

00

00

00

00,24

0,6

0,34

3,81

8,89

5,31

4,05

9,88

5,7

4-rezanje

00

00,24

0,6

0,34

00

00

00

00

00

00

0,24

0,48

0,32

0,48

1,07

0,66

4,76

11,87

6,75

512,86

7,14

5-rezanje

00

00,24

0,6

0,34

00

00

00

00

00

00

0,24

0,48

0,32

0,48

1,07

0,66

4,76

11,87

6,75

512,86

7,14

6-rezanje

00

00,24

0,6

0,34

00

00

00

00

00

00

00

00,24

0,6

0,34

4,76

11,87

6,75

512,86

7,14

soundex

00

00,24

0,6

0,34

00

00

00

00

00

00

0,24

0,48

0,32

0,71

1,87

1,02

4,76

11,87

6,75

512,86

7,14

metaphone

00

00

00

00

00

00

00

00

00

0,24

0,48

0,32

0,71

1,87

1,02

4,52

11,27

6,41

4,76

12,26

6,8

similar60

00

00,48

1,07

0,66

00

00,24

0,48

0,32

00

00

00

0,24

0,48

0,32

0,95

2,46

1,36

6,19

15,67

8,8

5,95

15,08

8,46

similar70

00

00,24

0,6

0,34

00

00

00

00

00

00

0,24

0,48

0,32

0,95

2,46

1,36

5,24

13,13

7,43

5,24

13,33

7,46

similar80

00

00

00

00

00

00

00

00

00

0,24

0,48

0,32

0,71

1,87

1,02

4,76

11,87

6,75

512,86

7,14

scorm

v2004

enakost

1,25

3,13

1,79

1,25

3,13

1,79

0,83

2,08

1,19

1,25

3,13

1,79

0,83

2,08

1,19

1,25

3,13

1,79

0,42

1,04

0,6

2,92

7,29

4,17

6,67

16,11

9,38

6,67

16,11

9,38

4-rezanje

2,08

52,94

2,08

52,94

1,67

3,96

2,34

2,08

52,94

1,67

3,96

2,34

2,08

52,94

2,08

4,79

2,9

512,08

7,06

8,33

19,86

11,68

8,33

19,86

11,68

5-rezanje

2,08

52,94

2,08

52,94

1,67

3,96

2,34

2,08

52,94

1,67

3,96

2,34

2,08

52,94

2,08

4,79

2,9

512,08

7,06

8,33

19,86

11,68

8,33

19,86

11,68

6-rezanje

1,67

3,96

2,34

1,67

3,96

2,34

1,25

2,92

1,75

1,67

3,96

2,34

1,25

2,92

1,75

1,67

3,96

2,34

2,08

4,79

2,9

4,58

11,04

6,47

7,92

18,82

11,08

7,92

18,82

11,08

soundex

2,08

52,94

2,08

52,94

1,67

3,96

2,34

2,08

52,94

1,67

3,96

2,34

2,08

52,94

2,08

4,79

2,9

512,08

7,06

8,33

19,86

11,68

8,33

19,86

11,68

metaphone

2,08

52,94

2,08

52,94

1,67

3,96

2,34

2,08

52,94

1,67

3,96

2,34

2,08

52,94

1,67

3,96

2,34

4,58

11,25

6,51

7,92

18,82

11,08

7,92

18,82

11,08

similar60

3,38

7,71

4,68

3,38

7,71

4,68

2,08

52,94

3,38

7,71

4,68

2,08

52,94

3,38

7,71

4,68

3,33

7,5

4,6

7,08

16,67

9,92

13,33

31,11

18,58

13,33

31,11

18,58

similar70

2,5

5,83

3,49

2,5

5,83

3,49

1,67

3,96

2,34

2,5

5,83

3,49

1,67

3,96

2,34

2,5

5,83

3,49

2,08

4,79

2,9

512,08

7,06

9,17

21,74

12,83

9,17

21,74

12,83

similar80

2,08

52,94

2,08

52,94

1,67

3,96

2,34

2,08

52,94

1,67

3,96

2,34

2,08

52,94

2,08

4,79

2,9

512,08

7,06

7,92

18,82

11,08

7,92

18,82

11,08

text/htm

l

enakost

0,55

1,13

0,69

0,55

1,13

0,7

0,32

0,83

0,45

0,6

1,19

0,74

0,32

0,83

0,45

0,6

1,15

0,72

0,53

1,16

0,7

0,45

0,97

0,58

6,72

13,3

8,67

6,53

12,91

8,42

4-rezanje

1,05

1,88

1,27

1,03

1,84

1,25

0,69

1,42

0,9

1,06

1,86

1,27

0,72

1,47

0,93

1,07

1,85

1,27

0,79

1,74

1,05

0,66

1,42

0,86

7,65

15,69

9,99

7,49

15,36

9,78

5-rezanje

0,65

1,29

0,81

0,64

1,28

0,8

0,34

0,87

0,48

0,68

1,31

0,83

0,35

0,91

0,5

0,68

1,29

0,82

0,75

1,65

10,64

1,37

0,83

7,54

15,41

9,83

7,37

15,06

9,61

6-rezanje

0,65

1,29

0,81

0,64

1,28

0,8

0,34

0,87

0,48

0,68

1,31

0,83

0,35

0,91

0,5

0,68

1,29

0,82

0,68

1,46

0,9

0,58

1,23

0,75

7,33

14,89

9,54

7,15

14,53

9,31

soundex

0,99

1,93

1,23

0,99

1,91

1,22

0,49

1,25

0,69

1,11

1,97

1,29

0,51

1,31

0,73

0,99

1,91

1,22

0,83

1,78

1,09

0,67

1,44

0,88

7,82

16,03

10,22

7,61

15,6

9,94

metaphone

1,02

1,95

1,25

1,02

1,95

1,25

0,48

1,23

0,68

1,13

1,99

1,31

0,5

1,27

0,7

1,02

1,95

1,25

0,79

1,68

1,03

0,62

1,31

0,81

7,63

15,46

9,92

7,45

15,09

9,69

similar60

2,19

4,17

2,74

2,15

4,08

2,69

1,44

3,09

1,91

2,23

4,15

2,76

1,47

3,17

1,96

2,18

4,12

2,72

3,65

7,65

4,71

3,56

7,43

4,58

9,5

20,54

12,65

9,25

20,01

12,32

similar70

1,49

2,76

1,81

1,46

2,69

1,78

0,92

2,04

1,23

1,52

2,78

1,84

0,95

2,09

1,26

1,47

2,71

1,79

2,1

4,41

2,69

2,01

4,14

2,55

8,6

18,11

11,35

8,41

17,72

11,09

similar80

0,78

1,5

0,95

0,76

1,46

0,93

0,37

0,96

0,52

0,81

1,52

0,98

0,39

1,01

0,56

0,77

1,48

0,94

1,18

2,49

1,53

1,06

2,13

1,32

7,9

16,29

10,34

7,78

16,05

10,19

text/plain

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

text/xml

enakost

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

4-rezanje

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

5-rezanje

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

6-rezanje

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

soundex

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

metaphone

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar60

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar70

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar80

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

Tabela

C.10:

Statistikapovpre£nih

vrednostiu£inkovitostiekstrakcije

10klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,tretjidel

Page 183: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

158 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

app/force-download

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

app/msw

ord

enakost

1,95

4,44

2,45

1,91

4,46

2,41

0,52

1,13

0,64

2,14

4,68

2,64

0,57

1,24

0,7

2,03

4,65

2,54

0,64

2,04

0,94

0,77

2,57

1,15

4,2

15,78

6,52

4,2

15,78

6,51

4-re

zanje

3,27

7,41

4,03

3,3

7,67

4,09

0,82

2,05

1,07

3,03

7,36

3,94

0,81

1,94

1,04

2,93

7,39

3,85

0,92

3,02

1,37

1,09

3,7

1,64

6,77

25,68

10,54

6,75

25,71

10,52

5-re

zanje

2,78

5,94

3,31

2,75

5,98

3,27

0,68

1,65

0,87

2,51

5,82

3,18

0,67

1,54

0,84

2,39

5,79

3,07

0,9

2,94

1,33

1,05

3,51

1,56

6,02

23,16

9,4

6,02

23,27

9,42

6-re

zanje

2,55

5,49

3,02

2,54

5,62

3,02

0,68

1,65

0,87

2,37

5,51

2,99

0,67

1,54

0,84

2,25

5,48

2,88

0,9

2,94

1,33

13,35

1,49

5,47

20,88

8,52

5,47

20,99

8,54

soundex

3,78

8,47

4,64

3,73

8,51

4,59

0,85

2,12

1,11

3,32

8,25

4,35

0,83

2,01

1,08

3,43

8,47

4,46

0,92

2,91

1,35

1,19

3,88

1,76

6,77

26,02

10,58

6,8

26,2

10,64

metaphone

3,34

8,11

4,33

3,27

8,09

4,24

0,85

2,12

1,11

3,18

7,94

4,16

0,83

2,01

1,08

3,29

8,16

4,27

0,92

2,91

1,35

1,16

3,8

1,72

6,03

23,24

9,44

6,07

23,42

9,49

similar60

4,51

11,09

5,73

4,39

10,94

5,62

1,12

2,93

1,51

4,19

10,84

5,57

1,15

3,04

1,55

4,25

10,99

5,63

2,49

7,42

3,53

2,65

8,07

3,78

8,59

33,03

13,43

8,6

33,14

13,46

similar70

3,9

9,01

4,81

3,86

9,2

4,83

0,92

2,38

1,22

3,56

8,91

4,65

0,9

2,27

1,19

3,53

9,08

4,67

1,36

4,04

1,95

1,49

4,7

2,18

7,37

28,05

11,49

7,37

28,16

11,51

similar80

2,76

6,95

3,62

2,72

73,58

0,78

1,87

12,98

7,22

3,85

0,76

1,76

0,97

2,92

7,32

3,83

1,07

3,29

1,56

1,25

4,02

1,84

6,13

23,32

9,56

6,18

23,58

9,64

app/octet-stre

am

enakost

1,14

3,45

1,69

1,05

3,21

1,57

0,22

0,63

0,33

1,09

3,15

1,6

0,36

1,1

0,53

1,14

3,41

1,69

0,27

1,01

0,42

0,64

2,03

0,96

3,92

15,34

6,2

3,92

15,34

6,2

4-re

zanje

2,4

6,38

3,4

2,07

5,94

30,87

2,55

1,29

2,04

5,6

2,94

1,36

3,02

1,77

2,32

6,14

3,22

0,57

2,02

0,87

0,97

3,2

1,47

6,72

27,03

10,69

6,67

26,9

10,61

5-re

zanje

1,53

4,56

2,26

1,38

4,11

2,03

0,38

0,99

0,54

1,36

3,78

1,98

0,69

1,47

0,85

1,63

4,31

2,25

0,57

2,02

0,87

0,97

3,2

1,47

6,45

25,79

10,25

6,4

25,66

10,17

6-re

zanje

1,47

4,29

2,17

1,32

3,84

1,94

0,38

0,99

0,54

1,36

3,78

1,98

0,69

1,47

0,85

1,58

4,05

2,16

0,38

1,48

0,59

0,8

2,66

1,21

5,75

22,67

9,11

5,81

22,94

9,2

soundex

2,54

6,69

3,6

2,35

6,88

3,45

12,73

1,46

2,3

6,28

3,31

1,45

31,86

2,61

7,08

3,67

0,57

2,02

0,87

0,97

3,2

1,47

6,99

27,98

11,1

6,88

27,58

10,93

metaphone

2,08

5,82

3,01

1,89

5,85

2,83

0,85

2,33

1,23

1,81

5,24

2,67

1,08

2,59

1,49

1,99

6,05

2,95

0,57

2,02

0,87

0,97

3,2

1,47

6,02

23,98

9,56

5,86

23,37

9,3

similar60

3,32

9,17

4,79

3,04

9,33

4,52

1,57

4,73

2,33

2,9

8,66

4,3

2,16

5,07

2,9

3,3

9,53

4,74

2,74

8,48

3,94

3,69

10,28

5,08

8,55

34,64

13,62

8,44

34,23

13,45

similar70

2,56

7,03

3,67

2,29

6,95

3,4

1,16

3,27

1,69

2,26

6,61

3,34

1,61

3,53

2,1

2,61

7,42

3,72

1,43

4,45

2,1

2,12

5,9

2,95

7,42

29,97

11,81

7,31

29,57

11,64

similar80

1,74

5,12

2,56

1,58

4,88

2,36

0,6

1,76

0,89

1,62

4,74

2,4

0,78

2,03

1,11

1,73

5,28

2,57

0,75

2,76

1,16

1,09

3,67

1,67

6,4

25,65

10,17

6,34

25,51

10,09

app/pdf

enakost

0,91

3,22

1,39

0,91

3,18

1,39

0,83

3,06

1,29

0,89

3,1

1,35

0,84

3,06

1,31

0,91

3,18

1,39

0,28

0,98

0,43

0,33

1,13

0,51

3,51

13,54

5,54

3,36

13

5,31

4-re

zanje

1,4

4,95

2,15

1,34

4,8

2,06

1,26

4,65

1,97

1,41

4,9

2,15

1,27

4,66

1,98

1,38

4,93

2,13

0,63

2,01

0,94

0,85

2,72

1,27

5,25

20,15

8,28

5,24

20,21

8,28

5-re

zanje

1,23

4,31

1,88

1,15

4,07

1,77

1,1

4,02

1,71

1,15

4,07

1,77

1,11

4,02

1,72

1,2

4,2

1,84

0,57

1,73

0,84

0,76

2,37

1,13

5,03

19,27

7,93

5,02

19,33

7,92

6-re

zanje

1,06

3,74

1,62

1,05

3,72

1,62

0,98

3,59

1,52

1,03

3,64

1,58

0,99

3,59

1,53

1,08

3,78

1,65

0,57

1,73

0,84

0,74

2,29

1,1

4,56

17,5

7,2

4,55

17,56

7,19

soundex

2,24

5,35

2,66

2,24

5,28

2,64

1,47

4,97

2,23

1,66

5,23

2,45

1,53

4,97

2,28

1,68

5,26

2,47

0,84

2,71

1,26

0,96

2,93

1,42

5,52

21,21

8,71

5,44

21,02

8,6

metaphone

1,75

4,09

1,98

1,79

4,17

2,03

1,03

3,71

1,59

1,24

4,04

1,84

1,04

3,71

1,6

1,21

4,08

1,82

1,09

3,33

1,61

1,2

3,5

1,74

5,11

19,67

8,06

519,32

7,9

similar60

2,41

7,71

3,57

2,29

7,44

3,41

2,16

7,21

3,25

2,29

7,34

3,4

2,25

7,28

3,35

2,29

7,37

3,41

1,98

6,29

2,93

2,24

7,01

3,3

6,98

27,13

11,04

7,04

27,48

11,15

similar70

1,86

5,99

2,77

1,78

5,78

2,65

1,68

5,68

2,55

1,83

5,94

2,73

1,76

5,76

2,64

1,84

5,97

2,75

1,21

3,85

1,81

1,48

4,65

2,2

5,91

22,76

9,33

5,85

22,64

9,24

similar80

1,23

4,29

1,88

1,2

4,21

1,83

1,12

4,06

1,74

1,19

4,21

1,83

1,13

4,06

1,75

1,24

4,35

1,9

0,84

2,48

1,24

1,08

3,19

1,58

5,24

20,07

8,26

5,16

19,87

8,15

app/vnd.m

s-excel

enakost

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

5,56

26,39

9,16

4,44

20,83

7,31

4-re

zanje

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

5,56

26,39

9,16

5,56

26,39

9,16

5-re

zanje

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

5,56

26,39

9,16

5,56

26,39

9,16

6-re

zanje

00

00

00

00

00

00

00

00

00

5,71

9,72

7,04

6,11

9,72

7,41

5,56

26,39

9,16

5,56

26,39

9,16

soundex

00

00

00

00

00

00

00

00

00

6,83

15,28

8,89

7,39

15,28

9,49

7,78

34,72

12,67

7,78

34,72

12,67

metaphone

00

00

00

00

00

00

00

00

00

6,83

15,28

8,89

7,39

15,28

9,49

7,78

34,72

12,67

6,67

29,17

10,82

similar60

00

00

00

00

00

00

00

00

00

17,39

34,72

22,01

18,92

34,72

23,63

8,89

40,28

14,52

8,89

40,28

14,52

similar70

00

00

00

00

00

00

00

00

00

15,01

29,17

18,68

16,14

29,17

19,93

7,78

34,72

12,67

7,78

34,72

12,67

similar80

00

00

00

00

00

00

00

00

00

6,83

15,28

8,89

7,39

15,28

9,49

7,78

34,72

12,67

7,78

34,72

12,67

Tabela

C.11:

Statistika

povpre£nihvrednosti

u£inkovitostiekstrakcije

15klju£nih

besediz

primarnega

vzorcagradiv,

poform

atu,kriteriju

ujemanja,

na£inupriprave

tekstovnedatoteke

viraza

vsaorodja,

prvidel

Page 184: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

159

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

app/vnd.m

s-powerpoint

enakost

1,93

6,84

2,98

1,78

6,32

2,75

0,53

2,35

0,85

2,26

8,51

3,53

0,68

1,8

0,89

2,35

6,64

3,27

0,7

2,63

1,09

0,7

2,63

1,09

6,93

26,14

10,87

6,75

25,61

10,61

4-rezanje

3,26

9,69

4,66

3,37

10,48

4,86

1,27

3,27

1,64

3,7

10,99

5,21

0,77

2,06

1,02

3,28

10,15

4,72

1,4

5,33

2,19

1,4

5,33

2,19

8,51

31,93

13,34

8,33

31,4

13,08

5-rezanje

2,86

8,29

4,04

2,97

9,08

4,24

0,61

2,61

0,99

2,53

9,3

3,94

0,77

2,06

1,02

2,88

8,75

4,11

1,4

5,33

2,19

1,4

5,33

2,19

8,33

31,34

13,07

8,16

30,81

12,81

6-rezanje

2,11

7,37

3,24

2,21

8,16

3,45

0,61

2,61

0,99

2,43

9,04

3,8

0,77

2,06

1,02

2,78

8,49

3,97

1,32

52,06

1,32

52,06

7,72

29,06

12,11

7,54

28,53

11,84

soundex

3,71

10,55

5,24

3,85

11,6

5,53

1,56

3,79

2,02

4,27

12,43

6,01

1,06

2,59

1,4

3,85

11,6

5,53

1,58

5,99

2,47

1,58

5,99

2,47

8,95

33,31

14

8,77

32,79

13,74

metaphone

3,35

9,32

4,69

3,49

10,37

4,98

1,48

3,53

1,89

3,9

11,21

5,45

0,97

2,32

1,27

3,49

10,37

4,98

1,61

6,27

2,53

1,52

5,83

2,38

8,42

31,67

13,21

8,25

31,14

12,94

similar60

5,23

16,25

7,62

5,38

17,3

7,92

2,09

5,64

2,84

5,54

16,82

7,97

1,76

5,31

2,51

5,38

17,3

7,92

3,17

11,45

4,91

3,12

10,94

4,79

10,53

38,84

16,45

10,35

38,31

16,19

similar70

3,88

11,14

5,5

4,03

12,19

5,8

1,65

4,12

2,16

4,44

13,03

6,28

1,15

2,92

1,54

4,03

12,19

5,8

1,96

7,61

3,08

2,05

7,87

3,22

9,47

35,35

14,84

9,3

34,82

14,58

similar80

2,86

8,29

4,04

3,05

9,34

4,38

0,61

2,61

0,99

2,71

9,89

4,21

0,77

2,06

1,02

3,05

9,34

4,38

1,67

6,29

2,6

1,58

5,86

2,46

8,07

30,48

12,67

7,81

29,69

12,27

app/vnd.oasis.opendoc.pres

enakost

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

soundex

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

similar60

3,33

12,5

5,26

3,33

12,5

5,26

00

03,33

12,5

5,26

00

03,33

12,5

5,26

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

similar70

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

similar80

00

00

00

00

00

00

00

00

00

00

00

00

3,33

12,5

5,26

3,33

12,5

5,26

app/x-zip-compressed

enakost

0,65

2,27

1,01

0,61

2,27

0,96

1,21

5,3

1,97

1,21

5,3

1,97

0,65

2,27

1,01

0,61

2,27

0,96

00

00

00

6,06

20,91

9,3

6,06

20,91

9,3

4-rezanje

0,65

2,27

1,01

0,61

2,27

0,96

1,21

5,3

1,97

1,21

5,3

1,97

0,65

2,27

1,01

0,61

2,27

0,96

0,61

1,52

0,87

1,21

4,55

1,88

8,48

31,52

13,2

8,48

31,52

13,2

5-rezanje

0,65

2,27

1,01

0,61

2,27

0,96

1,21

5,3

1,97

1,21

5,3

1,97

0,65

2,27

1,01

0,61

2,27

0,96

0,61

1,52

0,87

0,61

1,52

0,87

7,88

28,48

12,19

7,88

28,48

12,19

6-rezanje

0,65

2,27

1,01

0,61

2,27

0,96

1,21

5,3

1,97

1,21

5,3

1,97

0,65

2,27

1,01

0,61

2,27

0,96

0,61

1,52

0,87

0,61

1,52

0,87

7,27

25,45

11,18

7,27

25,45

11,18

soundex

1,26

4,09

1,92

1,21

4,09

1,87

1,21

5,3

1,97

1,82

7,12

2,88

0,65

2,27

1,01

1,21

4,09

1,87

0,61

1,52

0,87

0,61

1,52

0,87

8,48

30

13,05

8,48

30

13,05

metaphone

1,26

4,09

1,92

1,21

4,09

1,87

1,21

5,3

1,97

1,82

7,12

2,88

0,65

2,27

1,01

1,21

4,09

1,87

0,61

1,52

0,87

0,61

1,52

0,87

8,48

30

13,05

8,48

30

13,05

similar60

1,9

7,12

2,99

2,47

9,39

3,89

1,82

7,58

2,92

3,86

14,7

6,06

1,3

5,3

2,08

2,47

9,39

3,89

2,42

8,33

3,7

3,03

11,36

4,71

9,09

33,03

14,06

9,09

33,03

14,06

similar70

1,9

7,12

2,99

2,47

9,39

3,89

1,82

7,58

2,92

2,42

9,39

3,83

1,3

5,3

2,08

2,47

9,39

3,89

1,21

4,55

1,88

1,21

4,55

1,88

8,48

30

13,05

8,48

30

13,05

similar80

0,65

2,27

1,01

0,61

2,27

0,96

1,21

5,3

1,97

1,21

5,3

1,97

0,65

2,27

1,01

0,61

2,27

0,96

0,61

1,52

0,87

0,61

1,52

0,87

7,88

28,48

12,19

7,88

28,48

12,19

app/zip

enakost

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

1,67

6,25

2,63

1,67

6,25

2,63

4-rezanje

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

520,83

8,04

520,83

8,04

5-rezanje

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

520,83

8,04

520,83

8,04

6-rezanje

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

1,67

6,25

2,63

1,67

6,25

2,63

soundex

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

522,92

8,19

522,92

8,19

metaphone

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

522,92

8,19

522,92

8,19

similar60

1,67

6,25

2,63

1,67

6,25

2,63

00

05

20,83

8,04

00

01,67

6,25

2,63

00

00

00

6,67

29,17

10,82

6,67

29,17

10,82

similar70

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

6,67

29,17

10,82

6,67

29,17

10,82

similar80

00

00

00

00

01,67

6,25

2,63

00

00

00

00

00

00

6,67

29,17

10,82

6,67

29,17

10,82

imsccv1p0

enakost

00

00

00

00

00

00

00

00

00

0,36

1,27

0,56

0,36

1,27

0,56

1,21

3,88

1,84

1,21

3,88

1,84

4-rezanje

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,73

2,55

1,13

0,85

2,91

1,31

1,45

4,79

2,22

1,45

4,79

2,22

5-rezanje

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,73

2,55

1,13

0,85

2,91

1,31

1,45

4,79

2,22

1,45

4,79

2,22

6-rezanje

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,61

2,09

0,94

0,61

2,09

0,94

1,33

4,33

2,03

1,33

4,33

2,03

soundex

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,12

0,36

0,18

0,24

0,82

0,37

0,97

3,27

1,49

0,97

3,52

1,51

1,58

5,15

2,4

1,58

5,15

2,4

metaphone

00

00

00

00

00

00

00

00

00

0,61

2,18

0,95

0,85

3,15

1,33

1,45

4,7

2,21

1,45

4,7

2,21

similar60

0,24

0,82

0,37

0,36

1,27

0,56

0,24

0,82

0,37

0,36

1,27

0,56

0,24

0,82

0,37

0,49

1,64

0,76

1,33

4,55

2,06

1,82

6,24

2,8

2,55

9,24

3,97

2,67

9,61

4,15

similar70

00

00,12

0,45

0,19

00

00,12

0,45

0,19

00

00,12

0,45

0,19

0,85

2,91

1,31

0,97

3,52

1,51

1,7

5,85

2,61

1,82

6,21

2,8

similar80

00

00

00

00

00

00

00

00

00

0,73

2,55

1,13

0,97

3,52

1,51

1,33

4,33

2,03

1,33

4,33

2,03

Tabela

C.12:

Statistikapovpre£nih

vrednostiu£inkovitostiekstrakcije

15klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,drugid

el

Page 185: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

160 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

scorm

v1p2

enakost

00

00

00

00

00

00

00

00

00

00

00,16

0,6

0,25

1,59

5,12

2,42

1,75

5,71

2,67

4-re

zanje

00

00,16

0,6

0,25

00

00

00

00

00

00

0,16

0,48

0,24

0,32

1,07

0,49

2,06

7,5

3,21

2,22

8,1

3,46

5-re

zanje

00

00,16

0,6

0,25

00

00

00

00

00

00

0,16

0,48

0,24

0,32

1,07

0,49

2,06

7,5

3,21

2,22

8,1

3,46

6-re

zanje

00

00,16

0,6

0,25

00

00

00

00

00

00

00

00,16

0,6

0,25

2,06

7,5

3,21

2,22

8,1

3,46

soundex

00

00,16

0,6

0,25

00

00

00

00

00

00

0,16

0,48

0,24

0,48

1,87

0,75

2,06

7,5

3,21

2,22

8,1

3,46

metaphone

00

00

00

00

00

00

00

00

00

0,16

0,48

0,24

0,48

1,87

0,75

2,06

7,5

3,21

2,22

8,1

3,46

similar60

00

00,33

1,07

0,5

00

00,16

0,48

0,24

0,4

0,95

0,56

00

00,32

1,27

0,5

0,79

3,06

1,25

2,54

9,25

3,95

2,7

9,84

4,2

similar70

00

00,16

0,6

0,25

00

00

00

00

00

00

0,16

0,48

0,24

0,63

2,46

12,22

8,29

3,48

2,38

8,89

3,73

similar80

00

00

00

00

00

00

00

00

00

0,16

0,48

0,24

0,48

1,87

0,75

2,06

7,5

3,21

2,22

8,1

3,46

scorm

v2004

enakost

0,83

3,13

1,32

0,83

3,13

1,32

0,56

2,08

0,88

0,83

3,13

1,32

0,56

2,08

0,88

0,83

3,13

1,32

0,56

1,88

0,86

2,22

8,13

3,49

2,78

10,14

4,34

1,94

7,01

3,03

4-re

zanje

2,31

8,13

3,58

2,29

8,13

3,56

1,74

6,04

2,68

2,29

8,13

3,56

1,76

6,04

2,71

2,29

8,13

3,56

1,67

5,83

2,59

3,33

12,08

5,22

3,33

12,22

5,22

3,61

13,06

5,64

5-re

zanje

2,31

8,13

3,58

2,29

8,13

3,56

1,74

6,04

2,68

2,29

8,13

3,56

1,76

6,04

2,71

2,29

8,13

3,56

1,67

5,83

2,59

3,33

12,08

5,22

3,33

12,22

5,22

3,61

13,06

5,64

6-re

zanje

1,18

3,96

1,81

1,18

3,96

1,81

0,9

2,92

1,37

1,18

3,96

1,81

0,9

2,92

1,37

1,18

3,96

1,81

1,39

4,79

2,15

3,06

11,04

4,78

3,06

11,18

4,78

2,5

8,89

3,88

soundex

2,31

8,13

3,58

2,29

8,13

3,56

1,74

6,04

2,68

2,29

8,13

3,56

1,76

6,04

2,71

2,29

8,13

3,56

1,67

5,83

2,59

3,33

12,08

5,22

3,33

12,22

5,22

3,61

13,06

5,64

metaphone

2,31

8,13

3,58

2,29

8,13

3,56

1,74

6,04

2,68

2,29

8,13

3,56

1,76

6,04

2,71

2,29

8,13

3,56

1,39

52,17

3,06

11,25

4,8

3,06

11,18

4,78

2,22

8,06

3,47

similar60

3,33

10,83

5,04

3,38

10,83

5,08

2,01

7,08

3,12

3,38

10,83

5,08

2,03

7,08

3,15

3,38

10,83

5,08

3,06

10,42

4,71

5,28

18,33

8,18

5,83

21,32

9,13

6,11

22,15

9,54

similar70

2,59

8,96

42,64

8,96

4,05

1,74

6,04

2,68

2,64

8,96

4,05

1,76

6,04

2,71

2,64

8,96

4,05

1,67

5,83

2,59

3,33

12,08

5,22

4,17

15,49

6,54

4,44

16,32

6,96

similar80

2,31

8,13

3,58

2,29

8,13

3,56

1,74

6,04

2,68

2,29

8,13

3,56

1,76

6,04

2,71

2,29

8,13

3,56

1,67

5,83

2,59

3,33

12,08

5,22

3,06

11,18

4,78

2,5

8,89

3,88

text/htm

l

enakost

0,52

1,22

0,67

0,53

1,2

0,67

0,31

0,93

0,44

0,59

1,32

0,74

0,3

0,9

0,43

0,59

1,27

0,72

0,44

1,3

0,63

0,42

1,23

0,58

4,6

13,26

6,65

4,54

13,03

6,55

4-re

zanje

0,97

21,21

0,97

1,98

1,21

0,64

1,57

0,86

1,01

2,05

1,24

0,64

1,55

0,86

1,02

2,01

1,24

0,69

2,04

0,98

0,6

1,74

0,84

5,3

15,95

7,76

5,25

15,76

7,67

5-re

zanje

0,62

1,4

0,79

0,63

1,4

0,8

0,34

1,02

0,49

0,68

1,5

0,85

0,32

0,98

0,47

0,68

1,45

0,84

0,65

1,95

0,93

0,58

1,69

0,81

5,22

15,64

7,63

5,17

15,45

7,55

6-re

zanje

0,62

1,4

0,79

0,63

1,4

0,8

0,34

1,02

0,49

0,68

1,5

0,85

0,32

0,98

0,47

0,68

1,45

0,84

0,58

1,7

0,83

0,53

1,52

0,74

514,74

7,27

4,94

14,55

7,19

soundex

1,01

2,2

1,27

1,02

2,2

1,28

0,54

1,57

0,77

1,15

2,31

1,36

0,52

1,5

0,75

1,02

2,2

1,27

0,7

2,05

0,99

0,62

1,78

0,86

5,4

16,24

7,9

5,34

16,03

7,81

metaphone

1,02

2,18

1,27

1,03

2,18

1,28

0,52

1,51

0,75

1,15

2,27

1,36

0,51

1,47

0,73

1,04

2,2

1,29

0,68

1,94

0,95

0,58

1,66

0,81

5,26

15,65

7,67

5,2

15,44

7,58

similar60

1,99

4,44

2,57

1,96

4,37

2,53

1,32

3,44

1,83

2,08

4,5

2,65

1,3

3,41

1,81

24,43

2,57

3,47

9,49

4,75

3,44

9,33

4,69

825,8

11,94

7,97

25,74

11,89

similar70

1,36

2,92

1,7

1,36

2,91

1,71

0,84

2,26

1,17

1,43

3,04

1,78

0,82

2,21

1,15

1,37

2,93

1,72

1,97

5,4

2,67

1,93

5,15

2,58

6,79

21,02

10,01

6,75

20,94

9,96

similar80

0,75

1,64

0,93

0,74

1,62

0,92

0,37

1,15

0,54

0,81

1,74

10,36

1,1

0,52

0,76

1,65

0,94

1,1

3,1

1,52

1,02

2,78

1,37

5,44

16,49

7,98

5,41

16,36

7,93

text/plain

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

text/xml

enakost

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

4-re

zanje

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

5-re

zanje

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

6-re

zanje

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

soundex

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

metaphone

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar60

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar70

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

similar80

7,14

12,5

9,09

12,5

12,5

12,5

00

016,67

12,5

14,29

00

012,5

12,5

12,5

00

00

00

00

00

00

Tabela

C.13:

Statistika

povpre£nihvrednosti

u£inkovitostiekstrakcije

15klju£nih

besediz

primarnega

vzorcagradiv,

poform

atu,kriteriju

ujemanja,

na£inupriprave

tekstovnedatoteke

viraza

vsaorodja,

tretjidel

Page 186: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

161

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

app/force-download

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

app/msw

ord

enakost

50

50

44,44

50

50

44,44

50

50

44,44

50

50

44,44

50

50

44,44

50

50

44,44

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

4-rezanje

100

50

50

100

50

50

50

50

44,44

50

50

44,44

50

50

44,44

50

50

44,44

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

5-rezanje

100

50

50

100

50

50

50

50

44,44

50

50

44,44

50

50

44,44

50

50

44,44

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

6-rezanje

100

50

50

100

50

50

50

50

44,44

50

50

44,44

50

50

44,44

50

50

44,44

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

soundex

100

66,67

57,14

100

66,67

57,14

50

50

44,44

50

66,67

57,14

50

50

44,44

50

66,67

57,14

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

metaphone

50

66,67

57,14

50

66,67

57,14

50

50

44,44

50

66,67

57,14

50

50

44,44

50

66,67

57,14

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

similar60

100

66,67

57,14

100

66,67

57,14

50

50

44,44

50

66,67

57,14

50

66,67

50

50

66,67

57,14

40

50

44,44

33,33

33,33

28,57

60

75

66,67

60

75

66,67

similar70

100

66,67

57,14

100

66,67

57,14

50

50

44,44

50

66,67

57,14

50

50

44,44

50

66,67

57,14

40

50

44,44

25

33,33

28,57

60

75

66,67

60

75

66,67

similar80

50

50

44,44

50

50

44,44

50

50

44,44

50

66,67

57,14

50

50

44,44

50

66,67

57,14

40

50

44,44

20

33,33

25

60

75

66,67

60

75

66,67

app/octet-stream

enakost

20

33,33

25

40

50

44,44

20

33,33

25

40

50

44,44

20

33,33

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

4-rezanje

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

33,33

33,33

28,57

40

66,67

50

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

5-rezanje

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

33,33

33,33

28,57

40

66,67

50

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

6-rezanje

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

33,33

33,33

28,57

40

66,67

50

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

soundex

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

33,33

33,33

28,57

40

66,67

50

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

metaphone

20

33,33

25

40

50

44,44

20

33,33

25

40

50

44,44

20

33,33

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

similar60

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

33,33

33,33

28,57

40

66,67

50

50

66,67

57,14

66,67

66,67

66,67

60

75

66,67

60

75

66,67

similar70

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

33,33

33,33

28,57

40

66,67

50

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

similar80

40

66,67

50

40

66,67

50

20

33,33

25

40

66,67

50

20

33,33

25

40

66,67

50

40

33,33

36,36

40

33,33

36,36

60

75

66,67

60

75

66,67

app/pdf

enakost

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

4-rezanje

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

5-rezanje

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

6-rezanje

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

soundex

100

66,67

50

100

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

50

44,44

40

50

44,44

60

75

66,67

60

75

66,67

metaphone

100

33,33

40

100

33,33

40

20

33,33

25

25

33,33

28,57

20

33,33

25

20

33,33

25

40

66,67

50

40

66,67

50

60

75

66,67

60

75

66,67

similar60

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

40

66,67

50

60

75

66,67

60

75

66,67

60

75

66,67

60

75

66,67

similar70

20

33,33

25

20

33,33

25

20

33,33

25

25

33,33

28,57

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

60

75

66,67

60

75

66,67

similar80

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

60

75

66,67

60

75

66,67

app/vnd.m

s-excel

enakost

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

4-rezanje

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

5-rezanje

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

6-rezanje

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

20

33,33

25

20

33,33

25

soundex

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

metaphone

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

similar60

00

00

00

00

00

00

00

00

00

60

75

66,67

60

75

66,67

60

75

66,67

60

75

66,67

similar70

00

00

00

00

00

00

00

00

00

60

75

66,67

60

75

66,67

60

75

66,67

60

75

66,67

similar80

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

60

75

66,67

60

75

66,67

Tabela

C.14:

Statistikamaksimalnihvrednostiu£inkovitostiekstrakcije

5klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,prvidel

Page 187: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

162 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

app/vnd.m

s-powerpoint

enakost

40

50

44,44

40

50

44,44

00

040

50

44,44

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

4-re

zanje

40

50

44,44

40

50

44,44

25

25

25

40

66,67

50

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

5-re

zanje

40

50

44,44

40

50

44,44

00

040

50

44,44

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

6-re

zanje

40

50

44,44

40

50

44,44

00

040

50

44,44

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

soundex

40

50

44,44

40

50

44,44

25

25

25

40

66,67

50

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

metaphone

40

50

44,44

40

50

44,44

25

25

25

40

50

44,44

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

similar60

40

50

44,44

40

50

44,44

25

33,33

25

40

66,67

50

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

similar70

40

50

44,44

40

50

44,44

25

25

25

40

66,67

50

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

similar80

40

50

44,44

40

50

44,44

00

040

50

44,44

25

25

25

40

50

44,44

40

33,33

36,36

40

33,33

36,36

100

83,33

90,91

80

66,67

72,73

app/vnd.oasis.o

pendoc.pres

enakost

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

soundex

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

similar60

20

25

22,22

20

25

22,22

00

020

25

22,22

00

020

25

22,22

00

00

00

20

25

22,22

20

25

22,22

similar70

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

similar80

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

app/x-zip

-compresse

d

enakost

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

00

00

00

40

66,67

50

40

66,67

50

4-re

zanje

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

5-re

zanje

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

6-re

zanje

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

soundex

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

metaphone

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

similar60

20

25

22,22

20

25

22,22

20

25

22,22

20

33,33

25

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

similar70

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

similar80

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

16,67

18,18

20

16,67

18,18

40

66,67

50

40

66,67

50

app/zip

enakost

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

soundex

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

similar60

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

similar70

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

similar80

00

00

00

00

00

00

00

00

00

00

00

00

20

33,33

25

20

33,33

25

imsccv1p0

enakost

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

4-re

zanje

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

5-re

zanje

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

6-re

zanje

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

soundex

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

metaphone

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

similar60

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

40

50

44,44

40

50

44,44

60

60

60

60

60

60

similar70

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

similar80

00

00

00

00

00

00

00

00

00

20

25

22,22

20

25

22,22

60

60

60

60

60

60

Tabela

C.15:

Statistika

maksim

alnihvrednosti

u£inkovitostiekstrakcije

5klju£nih

besediz

primarnega

vzorcagradiv,

poform

atu,kriteriju

ujemanja,

na£inupriprave

tekstovnedatoteke

viraza

vsaorodja,

drugidel

Page 188: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

163

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

scorm

v1p2

enakost

00

00

00

00

00

00

00

00

00

00

00

00

40

40

40

40

40

40

4-rezanje

00

00

00

00

00

00

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

5-rezanje

00

00

00

00

00

00

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

40

40

40

40

40

40

soundex

00

00

00

00

00

00

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

metaphone

00

00

00

00

00

00

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

similar60

00

020

20

20

00

020

20

20

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

similar70

00

00

00

00

00

00

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

similar80

00

00

00

00

00

00

00

00

00

20

20

20

20

20

20

40

40

40

40

40

40

scorm

v2004

enakost

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

4-rezanje

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

5-rezanje

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

6-rezanje

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

soundex

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

metaphone

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

similar60

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

40

50

44,44

40

50

44,44

60

60

60

60

60

60

similar70

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

similar80

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

20

25

22,22

60

60

60

60

60

60

text/htm

l

enakost

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

25

33,33

25

33,33

33,33

25

80

60

61,54

80

60

61,54

4-rezanje

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

40

40

40

40

40

80

60

61,54

80

60

61,54

5-rezanje

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

40

40

40

40

40

80

60

61,54

80

60

61,54

6-rezanje

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

40

40

40

40

40

80

60

61,54

80

60

61,54

soundex

50

50

44,44

50

50

44,44

40

50

44,44

100

50

44,44

40

50

44,44

50

50

44,44

40

40

40

40

40

40

80

60

61,54

80

60

61,54

metaphone

50

50

44,44

50

50

44,44

40

50

44,44

100

50

44,44

40

50

44,44

50

50

44,44

40

40

40

40

40

40

80

60

61,54

80

60

61,54

similar60

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

100

50

50

100

50

66,67

80

60

61,54

80

60

61,54

similar70

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

100

50

50

100

50

66,67

80

60

61,54

80

60

61,54

similar80

50

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

40

50

44,44

50

50

44,44

50

50

44,44

50

40

40

80

60

61,54

80

60

61,54

text/plain

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

text/xml

enakost

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

4-rezanje

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

5-rezanje

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

6-rezanje

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

soundex

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

metaphone

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar60

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar70

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar80

20

25

22,22

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

Tabela

C.16:

Statistikamaksimalnihvrednostiu£inkovitostiekstrakcije

5klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,tretjidel

Page 189: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

164 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

app/force-download

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

app/msw

ord

enakost

50

50

40

50

50

40

50

50

40

50

50

40

50

50

40

50

50

40

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

4-re

zanje

100

50

50

100

50

50

50

50

40

50

50

40

50

50

40

50

50

40

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

5-re

zanje

100

50

50

100

50

50

50

50

40

50

50

40

50

50

40

50

50

40

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

6-re

zanje

100

50

50

100

50

50

50

50

40

50

50

40

50

50

40

50

50

40

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

soundex

100

66,67

57,14

100

66,67

57,14

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

metaphone

50

66,67

57,14

50

66,67

57,14

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

similar60

100

66,67

57,14

100

66,67

57,14

50

50

40

50

66,67

57,14

50

66,67

40

50

66,67

57,14

33,33

66,67

33,33

33,33

66,67

30,77

60

75

63,16

60

75

63,16

similar70

100

66,67

57,14

100

66,67

57,14

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

28,57

50

33,33

25

50

28,57

50

75

57,14

50

75

57,14

similar80

50

50

40

50

50

40

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

20

50

28,57

20

50

28,57

50

75

57,14

50

75

57,14

app/octet-stre

am

enakost

20

50

28,57

20

50

28,57

14,29

33,33

20

20

50

28,57

14,29

33,33

20

20

50

28,57

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

4-re

zanje

28,57

66,67

40

28,57

66,67

40

20

40

26,67

28,57

66,67

40

33,33

40

28,57

33,33

66,67

40

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

5-re

zanje

28,57

66,67

40

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

33,33

33,33

28,57

33,33

66,67

40

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

6-re

zanje

28,57

66,67

40

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

33,33

33,33

28,57

33,33

66,67

40

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

soundex

28,57

66,67

40

28,57

66,67

40

22,22

50

30,77

28,57

66,67

40

33,33

50

30,77

33,33

66,67

40

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

metaphone

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

similar60

28,57

66,67

40

28,57

66,67

40

22,22

50

30,77

28,57

66,67

40

33,33

50

30,77

33,33

66,67

40

50

66,67

57,14

66,67

66,67

66,67

30

75

42,86

30

75

42,86

similar70

28,57

66,67

40

28,57

66,67

40

22,22

50

30,77

28,57

66,67

40

33,33

50

30,77

33,33

66,67

40

25

33,33

28,57

33,33

50

33,33

30

75

42,86

30

75

42,86

similar80

28,57

66,67

40

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

20

33,33

25

20

50

28,57

30

75

42,86

30

75

42,86

app/pdf

enakost

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

11,11

33,33

15,38

16,67

33,33

20

30

75

42,86

30

75

42,86

4-re

zanje

20

66,67

30,77

20

66,67

30,77

20

66,67

30,77

25

66,67

30,77

20

66,67

30,77

20

66,67

30,77

22,22

50

30,77

16,67

33,33

22,22

30

75

42,86

30

75

42,86

5-re

zanje

20

66,67

30,77

20

66,67

30,77

20

66,67

30,77

20

66,67

30,77

20

66,67

30,77

20

66,67

30,77

22,22

50

30,77

16,67

33,33

22,22

30

75

42,86

30

75

42,86

6-re

zanje

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

22,22

50

30,77

16,67

33,33

22,22

30

75

42,86

30

75

42,86

soundex

100

66,67

40

100

66,67

40

20

66,67

30,77

25

66,67

30,77

20

66,67

30,77

20

66,67

30,77

22,22

50

30,77

33,33

50

40

30

75

42,86

30

75

42,86

metaphone

100

50

40

100

50

40

20

50

28,57

25

50

28,57

20

50

28,57

20

50

28,57

33,33

75

46,15

33,33

66,67

44,44

30

75

42,86

30

75

42,86

similar60

20

66,67

30,77

20

66,67

30,77

20

66,67

30,77

25

66,67

30,77

20

66,67

30,77

20

66,67

30,77

33,33

75

44,44

33,33

75

44,44

40

80

53,33

40

80

53,33

similar70

20

50

28,57

20

50

28,57

20

50

28,57

25

50

28,57

20

50

28,57

20

50

28,57

33,33

75

44,44

33,33

75

44,44

30

75

42,86

30

75

42,86

similar80

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

33,33

75

44,44

33,33

75

44,44

30

75

42,86

30

75

42,86

app/vnd.m

s-excel

enakost

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

10

33,33

15,38

10

33,33

15,38

4-re

zanje

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

20

66,67

30,77

20

66,67

30,77

5-re

zanje

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

20

66,67

30,77

20

66,67

30,77

6-re

zanje

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

20

66,67

30,77

20

66,67

30,77

soundex

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

30

75

42,86

30

75

42,86

metaphone

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

30

75

42,86

30

75

42,86

similar60

00

00

00

00

00

00

00

00

00

60

75

66,67

60

75

66,67

30

75

42,86

30

75

42,86

similar70

00

00

00

00

00

00

00

00

00

60

75

66,67

60

75

66,67

30

75

42,86

30

75

42,86

similar80

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

30

75

42,86

30

75

42,86

Tabela

C.17:Statistika

maksim

alnihvrednosti

u£inkovitostiekstrakcije

10klju£nih

besediz

primarnega

vzorcagradiv,

poform

atu,kriteriju

ujemanja,

na£inupriprave

tekstovnedatoteke

viraza

vsaorodja,

prvidel

Page 190: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

165

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

app/vnd.m

s-powerpoint

enakost

20

50

28,57

20

50

28,57

10

33,33

15,38

20

50

28,57

25

33,33

25

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

40

75

50

4-rezanje

25

50

28,57

25

50

28,57

25

40

26,67

25

66,67

30,77

25

40

26,67

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

5-rezanje

25

50

28,57

25

50

28,57

20

40

26,67

20

50

28,57

25

40

26,67

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

6-rezanje

20

50

28,57

20

50

28,57

20

40

26,67

20

50

28,57

25

40

26,67

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

soundex

25

50

28,57

25

50

28,57

25

40

26,67

25

66,67

30,77

25

40

26,67

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

metaphone

25

50

28,57

25

50

28,57

25

33,33

25

25

50

28,57

25

33,33

25

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

40

75

50

similar60

30

60

40

25

50

28,57

30

60

40

25

66,67

30,77

30

60

40

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

similar70

25

50

28,57

25

50

28,57

25

40

26,67

25

66,67

30,77

25

40

26,67

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

similar80

25

50

28,57

25

50

28,57

20

40

26,67

20

50

28,57

25

40

26,67

25

50

28,57

30

50

37,5

30

50

37,5

50

83,33

62,5

50

83,33

62,5

app/vnd.oasis.opendoc.pres

enakost

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

04-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

10

25

14,29

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

06-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

0soundex

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

0metaphone

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

0similar60

10

25

14,29

10

25

14,29

00

010

25

14,29

00

010

25

14,29

00

00

00

10

25

14,29

10

25

14,29

similar70

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

0similar80

00

00

00

00

00

00

00

00

00

00

00

00

10

25

14,29

00

0

app/x-zip-compressed

enakost

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

00

00

00

20

40

26,67

20

33,33

25

4-rezanje

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

10

16,67

12,5

10

33,33

15,38

30

50

37,5

30

50

37,5

5-rezanje

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

10

16,67

12,5

10

16,67

12,5

30

50

37,5

30

50

37,5

6-rezanje

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

10

16,67

12,5

10

16,67

12,5

30

50

37,5

30

50

37,5

soundex

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

10

16,67

12,5

10

16,67

12,5

30

50

37,5

30

50

37,5

metaphone

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

10

16,67

12,5

10

16,67

12,5

30

50

37,5

30

50

37,5

similar60

10

25

14,29

20

50

28,57

20

50

28,57

20

50

28,57

10

25

14,29

20

50

28,57

10

33,33

15,38

10

33,33

15,38

30

50

37,5

30

50

37,5

similar70

10

25

14,29

20

50

28,57

20

50

28,57

20

50

28,57

10

25

14,29

20

50

28,57

10

33,33

15,38

10

33,33

15,38

30

50

37,5

30

50

37,5

similar80

10

25

14,29

10

25

14,29

10

33,33

15,38

10

33,33

15,38

10

25

14,29

10

25

14,29

10

16,67

12,5

10

16,67

12,5

30

50

37,5

30

50

37,5

app/zip

enakost

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

25

14,29

10

25

14,29

4-rezanje

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

33,33

15,38

10

33,33

15,38

5-rezanje

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

33,33

15,38

10

33,33

15,38

6-rezanje

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

25

14,29

10

25

14,29

soundex

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

33,33

15,38

10

33,33

15,38

metaphone

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

33,33

15,38

10

33,33

15,38

similar60

10

25

14,29

10

25

14,29

00

020

50

28,57

00

010

25

14,29

00

00

00

10

33,33

15,38

10

33,33

15,38

similar70

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

33,33

15,38

10

33,33

15,38

similar80

00

00

00

00

010

25

14,29

00

00

00

00

00

00

10

33,33

15,38

10

33,33

15,38

imsccv1p0

enakost

00

00

00

00

00

00

00

00

00

10

25

14,29

10

25

14,29

30

60

40

30

60

40

4-rezanje

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

5-rezanje

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

6-rezanje

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

20

50

28,57

20

50

28,57

30

60

40

30

60

40

soundex

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

10

20

13,33

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

metaphone

00

00

00

00

00

00

00

00

00

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

similar60

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

30

75

42,86

30

75

42,86

30

75

42,86

similar70

00

010

25

14,29

00

010

25

14,29

00

010

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

similar80

00

00

00

00

00

00

00

00

00

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

Tabela

C.18:Statistikamaksimalnihvrednostiu£inkovitostiekstrakcije

10klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,drugid

el

Page 191: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

166 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

scorm

v1p2

enakost

00

00

00

00

00

00

00

00

00

00

010

25

14,29

30

75

42,86

30

75

42,86

4-re

zanje

00

010

25

14,29

00

00

00

00

00

00

10

20

13,33

10

25

14,29

30

75

42,86

30

75

42,86

5-re

zanje

00

010

25

14,29

00

00

00

00

00

00

10

20

13,33

10

25

14,29

30

75

42,86

30

75

42,86

6-re

zanje

00

010

25

14,29

00

00

00

00

00

00

00

010

25

14,29

30

75

42,86

30

75

42,86

soundex

00

010

25

14,29

00

00

00

00

00

00

10

20

13,33

10

33,33

15,38

30

75

42,86

30

75

42,86

metaphone

00

00

00

00

00

00

00

00

00

10

20

13,33

10

33,33

15,38

30

75

42,86

30

75

42,86

similar60

00

010

25

14,29

00

010

20

13,33

00

00

00

10

20

13,33

10

33,33

15,38

30

75

42,86

30

75

42,86

similar70

00

010

25

14,29

00

00

00

00

00

00

10

20

13,33

10

33,33

15,38

30

75

42,86

30

75

42,86

similar80

00

00

00

00

00

00

00

00

00

10

20

13,33

10

33,33

15,38

30

75

42,86

30

75

42,86

scorm

v2004

enakost

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

20

50

28,57

4-re

zanje

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

5-re

zanje

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

6-re

zanje

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

20

50

28,57

20

50

28,57

soundex

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

metaphone

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

similar60

11,11

25

14,29

11,11

25

14,29

10

25

14,29

11,11

25

14,29

10

25

14,29

11,11

25

14,29

20

50

28,57

30

75

42,86

30

75

42,86

30

75

42,86

similar70

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

similar80

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

10

25

14,29

20

50

28,57

20

50

28,57

30

75

42,86

30

75

42,86

text/htm

l

enakost

50

50

28,57

50

50

28,57

20

50

28,57

50

50

28,57

20

50

28,57

50

50

28,57

25

50

28,57

33,33

50

28,57

40

60

40

40

60

40

4-re

zanje

50

50

36,36

50

50

36,36

20

50

28,57

50

50

36,36

20

50

28,57

50

50

36,36

25

50

28,57

33,33

50

28,57

40

66,67

40

40

66,67

40

5-re

zanje

50

50

36,36

50

50

36,36

20

50

28,57

50

50

36,36

20

50

28,57

50

50

36,36

25

50

28,57

33,33

50

28,57

40

66,67

40

40

66,67

40

6-re

zanje

50

50

36,36

50

50

36,36

20

50

28,57

50

50

36,36

20

50

28,57

50

50

36,36

25

50

28,57

33,33

50

28,57

40

66,67

40

40

66,67

40

soundex

50

50

36,36

50

50

36,36

20

50

28,57

100

50

40

20

50

28,57

50

50

36,36

33,33

50

28,57

33,33

50

28,57

40

66,67

44,44

40

66,67

44,44

metaphone

50

50

44,44

50

50

44,44

20

50

28,57

100

50

44,44

20

50

28,57

50

50

44,44

33,33

50

28,57

33,33

50

28,57

50

66,67

50

50

66,67

50

similar60

50

50

44,44

50

50

44,44

25

50

33,33

50

50

44,44

25

50

33,33

50

50

44,44

100

50

50

100

50

66,67

40

66,67

44,44

40

66,67

40

similar70

50

50

44,44

50

50

44,44

20

50

28,57

50

50

44,44

20

50

28,57

50

50

44,44

100

50

50

100

50

66,67

40

66,67

44,44

40

66,67

40

similar80

50

50

36,36

50

50

36,36

20

50

28,57

50

50

36,36

20

50

28,57

50

50

36,36

50

50

36,36

50

50

40

40

66,67

40

40

66,67

40

text/plain

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

text/xml

enakost

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

4-re

zanje

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

5-re

zanje

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

6-re

zanje

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

soundex

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

metaphone

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar60

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar70

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar80

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

Tabela

C.19:Statistika

maksim

alnihvrednosti

u£inkovitostiekstrakcije

10klju£nih

besediz

primarnega

vzorcagradiv,

poform

atu,kriteriju

ujemanja,

na£inupriprave

tekstovnedatoteke

viraza

vsaorodja,

tretjidel

Page 192: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

167

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

app/force-download

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

app/msw

ord

enakost

50

50

40

50

50

40

50

50

40

50

50

40

50

50

40

50

50

40

20

50

25

20

50

25

50

83,33

57,14

50

83,33

57,14

4-rezanje

100

50

50

100

50

50

50

50

40

50

50

40

50

50

40

50

50

40

20

66,67

25

20

50

25

50

83,33

57,14

50

83,33

57,14

5-rezanje

100

50

50

100

50

50

50

50

40

50

50

40

50

50

40

50

50

40

20

66,67

25

20

50

25

50

83,33

57,14

50

83,33

57,14

6-rezanje

100

50

50

100

50

50

50

50

40

50

50

40

50

50

40

50

50

40

20

66,67

25

20

50

25

50

83,33

57,14

50

83,33

57,14

soundex

100

66,67

57,14

100

66,67

57,14

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

20

50

25

20

50

25

50

83,33

57,14

50

83,33

57,14

metaphone

50

66,67

57,14

50

66,67

57,14

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

20

50

25

20

50

25

50

83,33

57,14

50

83,33

57,14

similar60

100

66,67

57,14

100

66,67

57,14

50

50

40

50

66,67

57,14

50

66,67

40

50

66,67

57,14

33,33

66,67

33,33

33,33

66,67

28,57

50

83,33

57,14

50

83,33

57,14

similar70

100

66,67

57,14

100

66,67

57,14

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

28,57

50

33,33

25

50

28,57

50

83,33

57,14

50

83,33

57,14

similar80

50

50

40

50

50

40

50

50

40

50

66,67

57,14

50

50

40

50

66,67

57,14

20

50

25

20

50

25

50

83,33

57,14

50

83,33

57,14

app/octet-stream

enakost

14,29

50

22,22

14,29

50

21,05

14,29

33,33

20

14,29

50

21,05

14,29

33,33

20

14,29

50

21,05

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

4-rezanje

28,57

75

40

28,57

66,67

40

14,29

40

20

28,57

66,67

40

33,33

40

28,57

33,33

66,67

40

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

5-rezanje

28,57

75

40

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

33,33

33,33

28,57

33,33

66,67

40

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

6-rezanje

28,57

75

40

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

33,33

33,33

28,57

33,33

66,67

40

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

soundex

28,57

75

40

28,57

66,67

40

22,22

50

30,77

28,57

66,67

40

33,33

50

30,77

33,33

66,67

40

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

metaphone

22,22

75

33,33

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

22,22

50

30,77

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

similar60

28,57

75

40

28,57

66,67

40

22,22

50

30,77

28,57

66,67

40

33,33

50

30,77

33,33

66,67

40

50

66,67

57,14

66,67

66,67

66,67

26,67

75

38,1

26,67

75

38,1

similar70

28,57

75

40

28,57

66,67

40

22,22

50

30,77

28,57

66,67

40

33,33

50

30,77

33,33

66,67

40

25

33,33

28,57

33,33

50

33,33

26,67

75

38,1

26,67

75

38,1

similar80

28,57

75

40

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

14,29

33,33

20

28,57

66,67

40

13,33

33,33

19,05

13,33

50

21,05

26,67

75

38,1

26,67

75

38,1

app/pdf

enakost

20

50

22,22

20

50

22,22

13,33

50

21,05

20

50

22,22

13,33

50

21,05

20

50

22,22

11,11

33,33

15,38

16,67

33,33

20

20

75

31,58

20

75

31,58

4-rezanje

20

66,67

22,22

20

66,67

22,22

13,33

66,67

22,22

25

66,67

28,57

13,33

66,67

22,22

20

66,67

22,22

22,22

50

30,77

16,67

33,33

22,22

20

75

31,58

20

75

31,58

5-rezanje

20

66,67

22,22

20

66,67

22,22

13,33

66,67

22,22

20

66,67

22,22

13,33

66,67

22,22

20

66,67

22,22

22,22

50

30,77

16,67

33,33

22,22

20

75

31,58

20

75

31,58

6-rezanje

20

50

22,22

20

50

22,22

13,33

50

21,05

20

50

22,22

13,33

50

21,05

20

50

22,22

22,22

50

30,77

16,67

33,33

22,22

20

75

31,58

20

75

31,58

soundex

100

66,67

40

100

66,67

40

16,67

66,67

22,22

25

66,67

28,57

20

66,67

25

20

66,67

25

22,22

50

30,77

33,33

50

40

20

75

31,58

20

75

31,58

metaphone

100

50

40

100

50

40

13,33

50

21,05

25

50

28,57

13,33

50

21,05

20

50

22,22

33,33

75

46,15

33,33

75

44,44

20

75

31,58

20

75

31,58

similar60

20

66,67

25

20

66,67

25

16,67

66,67

22,22

25

66,67

28,57

20

66,67

25

20

66,67

25

33,33

75

44,44

33,33

75

44,44

20

75

31,58

20

75

31,58

similar70

20

50

25

20

50

25

16,67

50

22,22

25

50

28,57

20

50

25

20

50

25

33,33

75

44,44

33,33

75

44,44

20

75

31,58

20

75

31,58

similar80

20

50

22,22

20

50

22,22

13,33

50

21,05

20

50

22,22

13,33

50

21,05

20

50

22,22

33,33

75

44,44

33,33

75

44,44

20

75

31,58

20

75

31,58

app/vnd.m

s-excel

enakost

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

13,33

66,67

22,22

6,67

33,33

11,11

4-rezanje

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

13,33

66,67

22,22

13,33

66,67

22,22

5-rezanje

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

13,33

66,67

22,22

13,33

66,67

22,22

6-rezanje

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

13,33

66,67

22,22

13,33

66,67

22,22

soundex

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

20

75

31,58

20

75

31,58

metaphone

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

20

75

31,58

20

75

31,58

similar60

00

00

00

00

00

00

00

00

00

60

75

66,67

60

75

66,67

20

75

31,58

20

75

31,58

similar70

00

00

00

00

00

00

00

00

00

60

75

66,67

60

75

66,67

20

75

31,58

20

75

31,58

similar80

00

00

00

00

00

00

00

00

00

20

33,33

22,22

20

33,33

22,22

20

75

31,58

20

75

31,58

Tabela

C.20:Statistikamaksimalnihvrednostiu£inkovitostiekstrakcije

15klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,prvidel

Page 193: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

168 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

krite

rijn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

f

app/vnd.m

s-powerpoint

enakost

18,18

50

26,67

15,38

50

23,53

6,67

33,33

11,11

15,38

50

23,53

25

33,33

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

4-re

zanje

25

50

26,67

25

50

25

25

40

25

25

66,67

25

25

40

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

5-re

zanje

25

50

26,67

25

50

25

13,33

40

20

15,38

50

23,53

25

40

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

6-re

zanje

18,18

50

26,67

15,38

50

23,53

13,33

40

20

15,38

50

23,53

25

40

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

soundex

25

50

26,67

25

50

25

25

40

25

25

66,67

25

25

40

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

metaphone

25

50

26,67

25

50

25

25

33,33

25

25

50

25

25

33,33

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

similar60

25

75

31,58

25

75

31,58

25

75

31,58

25

75

31,58

25

75

31,58

25

75

31,58

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

similar70

25

50

26,67

25

50

25

25

40

25

25

66,67

25

25

40

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

similar80

25

50

26,67

25

50

25

13,33

40

20

15,38

50

23,53

25

40

25

25

50

25

20

50

28,57

20

50

28,57

20

75

31,58

20

75

31,58

app/vnd.oasis.o

pendoc.pres

enakost

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

4-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

5-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

6-re

zanje

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

soundex

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

similar60

6,67

25

10,53

6,67

25

10,53

00

06,67

25

10,53

00

06,67

25

10,53

00

00

00

6,67

25

10,53

6,67

25

10,53

similar70

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

similar80

00

00

00

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

app/x-zip

-compresse

d

enakost

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

00

00

00

26,67

80

40

26,67

80

40

4-re

zanje

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

6,67

16,67

9,52

6,67

33,33

11,11

26,67

80

40

26,67

80

40

5-re

zanje

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

6,67

16,67

9,52

6,67

16,67

9,52

26,67

80

40

26,67

80

40

6-re

zanje

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

6,67

16,67

9,52

6,67

16,67

9,52

26,67

80

40

26,67

80

40

soundex

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

6,67

16,67

9,52

6,67

16,67

9,52

26,67

80

40

26,67

80

40

metaphone

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

6,67

16,67

9,52

6,67

16,67

9,52

26,67

80

40

26,67

80

40

similar60

7,14

33,33

11,76

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

7,14

33,33

11,76

13,33

50

21,05

13,33

33,33

19,05

13,33

33,33

19,05

26,67

80

40

26,67

80

40

similar70

7,14

33,33

11,76

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

7,14

33,33

11,76

13,33

50

21,05

6,67

33,33

11,11

6,67

33,33

11,11

26,67

80

40

26,67

80

40

similar80

7,14

25

11,11

6,67

25

10,53

6,67

33,33

11,11

6,67

33,33

11,11

7,14

25

11,11

6,67

25

10,53

6,67

16,67

9,52

6,67

16,67

9,52

26,67

80

40

26,67

80

40

app/zip

enakost

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

4-re

zanje

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

13,33

50

21,05

13,33

50

21,05

5-re

zanje

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

13,33

50

21,05

13,33

50

21,05

6-re

zanje

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

soundex

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

6,67

33,33

11,11

6,67

33,33

11,11

metaphone

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

6,67

33,33

11,11

6,67

33,33

11,11

similar60

6,67

25

10,53

6,67

25

10,53

00

013,33

50

21,05

00

06,67

25

10,53

00

00

00

13,33

50

21,05

13,33

50

21,05

similar70

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

13,33

50

21,05

13,33

50

21,05

similar80

00

00

00

00

06,67

25

10,53

00

00

00

00

00

00

13,33

50

21,05

13,33

50

21,05

imsccv1p0

enakost

00

00

00

00

00

00

00

00

00

6,67

25

10,53

6,67

25

10,53

13,33

40

20

13,33

40

20

4-re

zanje

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

5-re

zanje

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

6-re

zanje

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

soundex

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

6,67

20

10

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

metaphone

00

00

00

00

00

00

00

00

00

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

similar60

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

7,14

25

10,53

20

75

31,58

20

75

31,58

20

66,67

30

20

66,67

30

similar70

00

06,67

25

10,53

00

06,67

25

10,53

00

06,67

25

10,53

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

similar80

00

00

00

00

00

00

00

00

00

13,33

50

21,05

13,33

50

21,05

13,33

40

20

13,33

40

20

Tabela

C.21:Statistika

maksim

alnihvrednosti

u£inkovitostiekstrakcije

15klju£nih

besediz

primarnega

vzorcagradiv,

poform

atu,kriteriju

ujemanja,

na£inupriprave

tekstovnedatoteke

viraza

vsaorodja,

drugidel

Page 194: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

169

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

Tika

TikaC

form

at

kriterij

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

np

fn

pf

scorm

v1p2

enakost

00

00

00

00

00

00

00

00

00

00

06,67

25

10,53

13,33

50

21,05

13,33

50

21,05

4-rezanje

00

06,67

25

10,53

00

00

00

00

00

00

6,67

20

10

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

5-rezanje

00

06,67

25

10,53

00

00

00

00

00

00

6,67

20

10

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

6-rezanje

00

06,67

25

10,53

00

00

00

00

00

00

00

06,67

25

10,53

13,33

50

21,05

13,33

50

21,05

soundex

00

06,67

25

10,53

00

00

00

00

00

00

6,67

20

10

6,67

33,33

11,11

13,33

50

21,05

13,33

50

21,05

metaphone

00

00

00

00

00

00

00

00

00

6,67

20

10

6,67

33,33

11,11

13,33

50

21,05

13,33

50

21,05

similar60

00

07,14

25

10,53

00

06,67

20

10

8,33

20

11,76

00

06,67

33,33

11,11

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

similar70

00

06,67

25

10,53

00

00

00

00

00

00

6,67

20

10

6,67

33,33

11,11

13,33

50

21,05

13,33

50

21,05

similar80

00

00

00

00

00

00

00

00

00

6,67

20

10

6,67

33,33

11,11

13,33

50

21,05

13,33

50

21,05

scorm

v2004

enakost

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

6,67

25

10,53

13,33

50

21,05

13,33

50

21,05

13,33

40

20

4-rezanje

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

5-rezanje

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

6-rezanje

8,33

25

11,76

8,33

25

11,76

8,33

25

11,76

8,33

25

11,76

8,33

25

11,76

8,33

25

11,76

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

40

20

soundex

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

metaphone

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

40

20

similar60

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

20

75

31,58

20

75

31,58

20

60

30

20

60

30

similar70

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

similar80

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

50

21,05

13,33

40

20

text/htm

l

enakost

50

50

28,57

50

50

28,57

20

50

22,22

50

50

28,57

20

50

22,22

50

50

28,57

25

50

25

33,33

50

25

33,33

60

40

33,33

60

40

4-rezanje

50

50

36,36

50

50

36,36

20

50

22,22

50

50

36,36

20

50

22,22

50

50

36,36

25

50

25

33,33

50

28,57

33,33

66,67

40

33,33

66,67

40

5-rezanje

50

50

36,36

50

50

36,36

20

50

22,22

50

50

36,36

20

50

22,22

50

50

36,36

25

50

25

33,33

50

28,57

33,33

66,67

40

33,33

66,67

40

6-rezanje

50

50

36,36

50

50

36,36

20

50

22,22

50

50

36,36

20

50

22,22

50

50

36,36

25

50

25

33,33

50

28,57

33,33

66,67

40

33,33

66,67

40

soundex

50

50

36,36

50

50

36,36

20

50

26,67

100

50

40

20

50

26,67

50

50

36,36

33,33

50

28,57

33,33

50

28,57

33,33

66,67

40

33,33

66,67

40

metaphone

50

50

44,44

50

50

44,44

20

50

26,67

100

50

44,44

20

50

26,67

50

50

44,44

33,33

50

28,57

33,33

50

28,57

33,33

66,67

40

33,33

66,67

40

similar60

50

50

44,44

50

50

44,44

25

50

33,33

50

50

44,44

25

50

33,33

50

50

44,44

100

60

50

100

60

66,67

33,33

75

43,48

33,33

75

43,48

similar70

50

50

44,44

50

50

44,44

20

50

22,22

50

50

44,44

20

50

22,22

50

50

44,44

100

50

50

100

50

66,67

33,33

66,67

43,48

33,33

66,67

43,48

similar80

50

50

36,36

50

50

36,36

20

50

22,22

50

50

36,36

20

50

22,22

50

50

36,36

50

50

36,36

50

50

40

33,33

66,67

40

33,33

66,67

40

text/plain

enakost

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

4-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

6-rezanje

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

soundex

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar60

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar80

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

text/xml

enakost

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

4-rezanje

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

5-rezanje

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

6-rezanje

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

soundex

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

metaphone

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar60

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar70

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

similar80

14,29

25

18,18

25

25

25

00

033,33

25

28,57

00

025

25

25

00

00

00

00

00

00

Tabela

C.22:Statistikamaksimalnihvrednostiu£inkovitostiekstrakcije

15klju£nih

besediz

primarnega

vzorca

gradiv,po

form

atu,

kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira

zavsaorodja,tretjidel

Page 195: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

170 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

form

at

krite

rijfavg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

MoodleSi2007

enakost

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

7,92

13,48

13,48

13,48

13,48

2,35

34,39

34,24

33,54

32,15

2,04

4-re

zanje

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

8,93

14,49

14,49

14,49

14,49

4,59

35,63

34,24

34,77

32,15

6,18

5-re

zanje

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

7,92

13,48

13,48

13,48

13,48

3,58

35,63

34,24

34,77

32,15

4,16

6-re

zanje

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

7,92

13,48

13,48

13,48

13,48

3,58

35,63

34,24

34,77

32,15

4,16

soundex

3,23

4,47

2,12

2,12

9,09

4,47

4,47

3,13

2,12

9,09

4,47

4,47

9,28

9,06

9,94

14,49

14,49

14,49

14,49

4,59

35,63

34,24

34,77

32,15

6,18

metaphone

3,23

4,47

2,12

2,12

9,09

4,47

4,47

2,12

2,12

9,09

4,47

4,47

9,28

8,05

8,93

14,49

14,49

14,49

14,49

4,59

35,63

34,24

34,77

32,15

5,17

similar60

7,33

6,71

5,99

712,26

10,58

10,58

5,99

8,24

12,26

10,58

10,58

13,15

13,15

13,11

14,49

14,49

14,49

14,49

10,92

39,5

39,35

38,87

38,49

15,74

similar70

6,4

6,71

5,07

6,08

11,25

9,66

9,66

5,07

6,08

11,25

9,66

9,66

12,23

10,99

12,1

14,49

14,49

14,49

14,49

9,81

38,49

38,34

38,87

37,48

11,27

similar80

5,48

6,71

3,13

3,13

10,32

6,71

6,71

3,13

3,13

10,32

6,71

6,71

10,29

9,06

11,18

14,49

14,49

14,49

14,49

6,18

35,63

34,24

36,01

33,38

7,41

SIRikt2008

enakost

00

0,25

0,25

1,01

00

0,25

0,25

1,29

00

0,25

0,25

1,29

5,3

5,08

5,41

5,6

1,16

14,12

19,51

15,17

19,64

3,1

4-re

zanje

0,57

0,37

0,62

0,62

1,53

0,57

0,37

0,62

0,42

1,81

0,37

0,37

0,62

0,62

1,84

7,65

7,44

7,97

8,03

2,29

15,8

21,19

17,2

21,52

10,88

5-re

zanje

0,57

0,37

0,62

0,62

1,53

0,57

0,37

0,62

0,42

1,81

0,37

0,37

0,62

0,62

1,84

7,44

7,22

7,51

7,57

2,29

15,09

20,48

16,5

20,81

10,2

6-re

zanje

0,2

0,2

0,44

0,44

1,36

0,2

0,2

0,44

0,25

1,64

0,2

0,2

0,44

0,44

1,66

6,71

6,5

6,98

7,05

2,08

14,48

19,87

15,65

20

8,6

soundex

0,37

0,37

0,62

0,62

2,01

0,37

0,37

0,62

0,42

2,01

0,37

0,37

0,62

0,62

2,04

8,4

8,19

8,52

8,59

2,29

16,07

21,46

17,67

21,79

10,07

metaphone

00

0,25

0,25

1,68

00

0,25

0,25

1,68

00

0,25

0,25

1,68

6,94

6,72

6,41

6,61

1,9

15,63

21,02

17,12

21,55

8,82

similar60

2,89

2,67

3,47

3,47

4,47

3,39

3,23

3,47

3,14

4,47

3,22

3,26

3,47

3,27

4,5

11,68

11,24

11,51

11,58

9,49

21,09

26,11

22,05

26,07

15,76

similar70

0,72

0,85

1,47

1,47

3,67

1,22

1,05

1,47

0,95

3,67

1,22

1,05

1,47

1,27

3,7

9,45

9,24

9,59

9,65

6,86

18,77

24,46

20,34

24,74

13,8

similar80

00,13

0,38

0,38

2,49

0,31

0,13

0,38

0,38

2,49

0,31

0,13

0,38

0,38

2,49

7,17

6,96

7,11

7,18

3,3

16,66

22,38

18,66

22,91

10,74

SIRikt2009

enakost

1,09

1,69

1,8

2,06

2,08

1,8

2,02

1,8

2,06

2,52

1,8

2,18

1,8

2,06

2,36

5,97

6,19

5,94

6,35

0,58

19,76

20,85

20,1

21,05

2,31

4-re

zanje

1,2

1,8

1,91

2,17

2,53

1,91

2,13

1,91

2,17

2,97

1,91

2,29

1,91

2,17

2,81

9,21

9,36

9,17

9,39

2,35

21,11

21,88

21,27

21,97

7,8

5-re

zanje

1,2

1,8

1,91

2,17

2,41

1,91

2,13

1,91

2,17

2,85

1,91

2,29

1,91

2,17

2,69

8,41

8,56

8,37

8,59

2,21

20,89

21,69

21,05

21,78

6,58

6-re

zanje

1,09

1,69

1,8

2,06

2,08

1,8

2,02

1,8

2,06

2,52

1,8

2,18

1,8

2,06

2,36

8,12

8,27

8,09

8,43

1,82

20,78

21,69

20,94

21,78

5,99

soundex

1,09

1,69

1,8

2,06

2,86

1,8

2,02

1,8

2,06

2,86

1,8

2,18

1,8

2,06

2,7

9,44

9,36

9,4

9,58

2,32

21,14

21,82

21,3

21,91

7,28

metaphone

1,09

1,69

1,8

2,06

2,96

1,8

2,02

1,8

2,06

2,96

1,8

2,18

1,8

2,06

2,8

7,09

7,02

7,06

7,43

1,09

20,77

21,57

20,93

21,66

6,41

similar60

5,27

5,97

6,31

6,57

6,02

6,39

6,61

6,31

6,57

6,16

6,31

6,85

6,31

6,57

613,06

12,48

13

12,46

9,59

24,59

24,97

24,52

25,06

12,52

similar70

2,94

3,48

3,65

3,92

4,79

3,73

3,89

3,65

3,92

4,79

3,65

4,19

3,65

3,92

4,63

11,63

11,27

11,73

11,41

6,76

23,32

23,7

23,12

23,79

10,64

similar80

2,15

2,53

2,86

3,12

3,93

2,86

2,94

2,86

3,12

3,93

2,86

3,24

2,86

3,12

3,78

9,73

9,88

9,7

9,84

3,62

22,36

23,02

22,52

23,11

8,94

SIRikt2010

enakost

1,6

1,34

1,87

1,87

2,46

1,6

1,6

1,87

1,87

2,2

1,6

1,6

2,01

2,01

2,78

6,87

6,91

6,85

6,9

1,27

19,63

21,48

22,82

22,92

3,56

4-re

zanje

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,57

2,57

2,51

2,51

3,04

9,6

9,72

10,14

9,97

3,8

21,37

23

24,61

24,54

9,75

5-re

zanje

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,57

2,57

2,51

2,51

3,04

8,8

8,91

9,33

9,16

3,48

21,11

22,74

24,35

24,29

9,29

6-re

zanje

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,31

2,31

2,51

2,51

3,04

8,27

8,39

8,81

8,64

2,66

20,76

22,55

24,18

24,29

7,23

soundex

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,57

2,57

2,51

2,51

3,04

10,36

10,48

10,38

10,47

3,48

21,37

23

24,61

24,54

9,46

metaphone

1,78

1,52

1,87

1,87

2,46

1,78

1,78

1,87

1,87

2,2

1,78

1,78

2,01

2,01

2,78

9,11

9,23

8,65

8,7

2,35

19,92

21,77

23,39

23,5

6,83

similar60

6,04

6,04

6,12

6,12

4,68

6,3

5,91

6,12

6,12

4,42

6,34

6,45

6,26

6,26

4,77

13,03

13,15

13,78

13,87

10,89

26,05

27,52

30,52

30,18

16,52

similar70

3,39

3,13

3,56

3,56

3,16

3,39

33,56

3,56

2,9

3,65

3,76

3,7

3,7

3,49

10,96

11,08

11,24

11,33

8,64

24,16

25,6

28,04

27,67

13,38

similar80

2,42

2,16

2,67

2,67

2,98

2,42

2,42

2,67

2,67

2,72

2,68

2,68

2,8

2,8

3,3

10,44

10,56

10,72

10,55

5,17

21,16

23,07

24,9

25,09

11,48

SIRikt2011

enakost

2,42

2,44

3,21

3,21

2,32

2,42

2,3

3,05

3,05

2,04

2,56

2,44

3,05

3,05

1,91

5,27

5,41

5,8

5,66

0,98

24,14

23,51

23,94

23,36

4,12

4-re

zanje

2,98

33,9

3,9

3,15

2,98

2,86

3,75

3,61

2,87

3,12

33,75

3,61

2,74

8,14

8,44

9,07

9,22

3,09

25,18

24,28

24,96

24,13

9,71

5-re

zanje

2,84

2,86

3,76

3,76

2,88

2,84

2,72

3,61

3,47

2,6

2,98

2,86

3,61

3,47

2,48

7,98

8,29

8,92

8,92

2,82

25,06

24,15

24,84

24

9,24

6-re

zanje

2,7

2,72

3,49

3,62

2,74

2,7

2,58

3,47

3,33

2,46

2,84

2,72

3,47

3,33

2,34

7,12

7,42

7,92

7,93

2,55

24,81

23,9

24,59

23,75

8,02

soundex

3,12

3,14

3,91

3,91

3,66

3,28

3,16

4,05

3,91

3,38

3,42

3,29

4,05

3,91

3,26

8,35

8,66

9,83

9,7

3,2

25,07

24,29

24,85

24,14

9,77

metaphone

2,7

2,72

3,49

3,49

3,03

2,86

2,73

3,49

3,49

2,75

32,87

3,49

3,49

2,63

6,66

6,95

87,72

2,15

25,07

24,29

24,71

24,14

7,97

similar60

6,2

6,72

8,2

8,2

5,15

6,86

6,58

8,34

8,2

4,87

76,87

8,21

8,01

4,81

10,73

11,17

12,1

12,08

9,06

29,19

27,7

28,58

27,73

15,83

similar70

4,2

4,22

5,39

5,39

4,26

4,36

4,23

5,39

5,39

3,98

4,49

4,37

5,26

5,26

3,91

9,01

9,46

10,28

10,61

6,04

27,27

26,22

27,13

26,44

12,46

similar80

3,37

3,39

4,44

4,44

3,13

3,53

3,4

4,44

4,44

2,85

3,67

3,54

4,44

4,44

2,59

7,12

7,41

8,06

8,19

4,15

25,93

24,73

25,34

24,51

9,36

Tabela

C.23:Statistika

u£inkovitostiekstrakcije5klju£nih

besedizdodatnega

vzorcagradiv,

pokonferenci,

kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira,

zavsa

orodja

Page 196: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

171

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

form

at

kriterij

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

MoodleSi2007

enakost

5,1

5,24

2,83

2,83

6,97

5,9

5,9

2,18

2,83

7,82

6,55

6,55

8,18

7,39

7,74

10,18

10,87

10,87

10,95

3,14

29,55

27,31

29,61

27,37

2,98

4-rezanje

5,1

5,24

2,83

2,83

8,68

5,9

5,9

2,18

2,83

8,68

6,55

6,55

8,18

7,39

8,67

10,87

11,57

11,57

11,65

5,55

30,35

27,31

30,41

27,37

7,29

5-rezanje

5,1

5,24

2,83

2,83

7,82

5,9

5,9

2,18

2,83

7,82

6,55

6,55

8,18

7,39

7,74

10,18

10,87

10,87

10,95

4,86

30,35

27,31

30,41

27,37

5,9

6-rezanje

5,1

5,24

2,83

2,83

7,82

5,9

5,9

2,18

2,83

7,82

6,55

6,55

8,18

7,39

7,74

10,18

10,87

10,87

10,95

4,86

30,35

27,31

30,41

27,37

5,9

soundex

5,1

5,24

2,83

2,83

9,53

5,9

5,9

2,87

2,83

9,53

6,55

6,55

8,18

8,08

9,52

10,87

11,57

11,57

11,65

5,55

30,35

27,31

30,41

27,37

8,09

metaphone

5,1

5,24

2,83

2,83

8,68

5,9

5,9

2,18

2,83

8,68

6,55

6,55

8,18

7,39

8,59

10,87

11,57

11,57

11,65

4,62

30,35

27,31

30,41

27,37

7,39

similar60

8,69

7,53

7,71

7,71

12,6

11,57

11,57

7,05

8,5

12,6

12,22

12,22

12,36

12,36

12,59

13,81

14,5

13,05

13,14

13,22

35,33

33,09

36,23

33,09

14,99

similar70

8,04

7,53

6,36

6,36

10,82

10,22

10,22

5,71

6,36

11,67

10,88

10,88

11,71

10,92

11,66

13,01

13,71

12,26

12,34

10,78

33,2

30,96

33,2

30,96

10,53

similar80

6,59

6,73

3,52

3,52

10,17

7,39

7,39

2,87

3,52

10,17

8,04

8,04

8,87

8,08

10,15

11,66

12,36

11,57

11,65

7,14

31,2

28,16

31,2

28,16

8,09

SIRikt2008

enakost

0,96

0,8

1,18

1,18

1,34

0,66

0,96

1,18

1,18

1,9

0,96

0,96

1,18

1,18

1,91

4,95

4,95

4,7

4,87

1,16

10,48

19,82

11,61

20,01

2,71

4-rezanje

1,56

1,35

1,79

1,67

2,07

1,5

1,83

1,79

1,79

2,63

1,69

1,69

1,79

1,79

2,53

7,24

7,24

7,07

7,24

3,27

12,38

21,13

13,65

21,32

8,92

5-rezanje

1,56

1,35

1,79

1,67

1,8

1,5

1,83

1,79

1,66

2,36

1,69

1,69

1,79

1,79

2,4

7,03

7,03

6,86

7,03

2,88

11,81

20,53

12,94

20,59

8,32

6-rezanje

1,21

1,09

1,54

1,41

1,68

1,02

1,45

1,54

1,4

2,24

1,31

1,31

1,54

1,54

2,28

6,44

6,44

6,4

6,57

2,42

11,4

20,28

12,53

20,46

7,27

soundex

1,56

1,28

1,92

1,8

2,68

1,5

1,69

1,92

1,79

2,68

1,69

1,69

1,92

1,92

2,58

7,95

7,95

7,91

8,08

2,99

12,67

21,42

13,94

21,47

8,35

metaphone

1,19

0,93

1,45

1,45

2,35

1,02

1,22

1,45

1,45

2,35

1,22

1,22

1,45

1,45

2,22

6,61

6,61

6,07

6,25

2,44

11,81

20,88

13,22

21,06

7,14

similar60

3,76

3,53

4,23

4,24

5,37

4,05

4,25

4,37

4,13

5,37

4,25

4,27

4,37

4,24

5,02

11,51

11,14

10,85

10,88

10,95

17,69

25,8

17,45

25,71

13,1

similar70

2,34

2,22

2,92

2,94

4,28

2,62

2,68

3,06

2,56

4,28

2,82

2,7

3,06

2,93

3,92

8,6

8,52

8,77

8,94

7,45

14,92

24,17

16,05

24,46

11,4

similar80

1,31

1,22

1,82

1,96

2,93

1,37

1,44

1,96

1,82

2,93

1,56

1,44

1,96

1,96

2,94

6,7

6,7

6,43

6,6

3,95

13,44

22,03

14,71

22,21

9,14

SIRikt2009

enakost

2,22

2,45

2,8

2,8

2,04

2,8

2,48

2,8

2,8

2,84

2,69

2,61

2,69

2,69

2,67

6,55

6,72

6,62

6,64

0,64

18,07

19,26

18,23

19,65

1,69

4-rezanje

2,31

2,53

2,89

2,89

2,66

2,89

2,56

3,01

2,89

3,24

3,02

2,81

2,9

2,78

3,07

9,2

9,36

9,27

9,29

2,26

19,6

20,11

19,53

20,39

6,15

5-rezanje

2,31

2,53

2,89

2,89

2,44

2,89

2,56

2,89

2,89

3,14

2,89

2,81

2,78

2,78

2,97

8,48

8,64

8,55

8,57

2,15

19,46

19,98

19,4

20,26

4,99

6-rezanje

2,22

2,45

2,8

2,8

2,14

2,8

2,48

2,8

2,8

2,84

2,81

2,72

2,69

2,69

2,67

8,35

8,52

8,42

8,44

1,83

19,19

19,7

19

19,98

4,56

soundex

2,22

2,57

2,92

2,92

3,25

2,92

2,6

3,05

2,92

3,25

3,05

2,84

2,94

2,81

3,08

9,45

9,47

9,53

9,54

2,24

19,64

19,9

19,57

20,18

5,81

metaphone

2,22

2,45

2,8

2,8

3,3

2,8

2,48

2,93

2,8

3,3

2,82

2,61

2,82

2,69

3,13

7,59

7,61

7,66

7,68

1,29

19,07

19,77

19,12

20,05

5,02

similar60

6,42

6,7

7,43

7,32

5,8

7,54

6,83

7,55

7,32

5,94

7,78

7,54

7,55

7,32

5,76

13,32

13,43

13,11

13,11

9,74

23,48

24,18

23,02

24,55

10,45

similar70

4,05

4,25

4,75

4,75

4,71

4,75

4,32

4,88

4,75

4,71

4,88

4,77

4,88

4,75

4,54

11,92

11,66

11,6

11,6

6,85

21,81

22,32

21,37

22,6

8,51

similar80

3,36

3,33

3,94

3,94

4,01

3,94

3,4

3,94

3,94

4,01

3,84

3,75

3,84

3,84

3,83

9,38

9,41

9,32

9,34

3,42

20,56

20,94

20,37

21,21

6,69

SIRikt2010

enakost

1,75

1,75

2,63

2,63

2,25

1,92

1,92

2,63

2,63

2,56

1,92

1,92

2,74

2,74

2,95

7,93

7,57

7,82

7,77

2,48

16,65

20,39

19,35

20,17

4,21

4-rezanje

2,5

2,5

3,32

3,25

2,73

2,67

2,51

3,32

3,32

2,73

2,67

2,67

3,35

3,35

3,12

10,88

10,53

11,54

11,37

4,31

18,26

21,49

21,55

21,51

9,6

5-rezanje

2,5

2,5

3,32

3,25

2,64

2,67

2,51

3,32

3,32

2,73

2,67

2,67

3,35

3,35

3,12

10,35

10

10,82

10,66

4,11

17,91

21,32

21,21

21,34

9,11

6-rezanje

2,23

2,23

3,23

3,16

2,43

2,41

2,25

3,23

3,23

2,73

2,41

2,41

3,26

3,26

3,12

9,44

9,09

10,1

9,94

3,59

17,78

21,18

20,9

21,34

7,57

soundex

2,41

2,41

3,23

3,16

2,91

2,58

2,42

3,23

3,23

2,73

2,58

2,58

3,26

3,26

3,12

11,39

11,04

12,05

11,88

4,6

18,42

21,73

21,71

21,75

9,79

metaphone

1,89

1,89

2,63

2,63

2,73

2,06

2,06

2,63

2,63

2,56

2,06

2,06

2,74

2,74

2,95

9,82

9,47

9,82

9,65

4,04

17

20,74

20,03

20,71

7,39

similar60

5,9

6,24

7,2

7,13

5,32

6,31

5,91

7,2

7,2

5,14

6,42

6,42

7,05

7,05

5,13

14,11

13,91

15,48

15,5

14,31

22,73

26,03

27,21

27,05

14,44

similar70

3,38

3,38

4,72

4,64

3,44

3,55

3,21

4,72

4,72

3,49

3,55

3,55

4,56

4,56

3,66

11,6

11,25

13,02

12,85

10,56

20,46

24,08

25,12

24,39

12,26

similar80

2,63

2,63

3,55

3,47

3,28

2,8

2,8

3,55

3,55

3,11

2,8

2,8

3,4

3,4

3,5

11,43

11,07

11,8

11,64

6,97

18,18

21,6

21,9

21,76

10,57

SIRikt2011

enakost

2,77

3,04

2,94

2,94

2,18

3,03

2,87

2,84

2,84

2,16

2,95

2,78

2,84

2,76

2,33

4,88

4,88

5,38

5,46

0,82

19,27

18,79

18,83

19,04

3,31

4-rezanje

3,47

3,83

3,73

3,73

3,13

3,82

3,74

3,55

3,55

3,02

3,74

3,57

3,55

3,46

3,18

7,22

7,3

8,14

8,31

2,53

20,39

19,58

19,77

19,73

8,28

5-rezanje

3,38

3,74

3,64

3,64

2,82

3,73

3,56

3,46

3,46

2,8

3,65

3,48

3,46

3,37

2,97

7,04

7,12

7,96

8,13

2,33

20,39

19,49

19,77

19,64

7,99

6-rezanje

3,21

3,56

3,38

3,46

2,62

3,56

3,39

3,28

3,28

2,61

3,47

3,31

3,28

3,2

2,77

6,37

6,36

7,22

7,3

2,15

20,22

19,32

19,69

19,47

7,02

soundex

3,82

4,17

3,91

3,97

3,51

4,26

4,1

3,91

3,91

3,28

4,18

4,01

3,91

3,89

3,45

7,45

7,44

8,86

8,89

2,69

20,4

19,75

19,78

19,91

8,43

metaphone

3,03

3,31

3,12

3,12

33,4

3,23

3,12

3,12

2,77

3,31

3,14

3,12

3,03

2,94

5,88

5,97

7,3

7,33

1,86

20,22

19,56

19,59

19,72

6,81

similar60

6,2

7,06

7,41

7,41

5,13

7,24

6,98

7,41

7,41

4,99

7,24

7,07

7,41

7,27

5,17

10,57

10,63

12,57

12,42

9,79

24,36

23,57

23,39

23,67

13,37

similar70

4,62

4,8

4,78

4,78

3,91

4,98

4,81

4,78

4,78

3,87

4,89

4,73

4,78

4,7

4,04

8,44

8,43

9,8

9,71

6,43

22,56

21,72

21,89

21,92

10,37

similar80

3,65

3,92

3,91

3,91

2,99

4,01

3,84

3,91

3,91

2,85

3,93

3,76

3,91

3,82

2,89

6,75

6,74

7,57

7,74

3,62

21,32

20,23

20,38

20,33

8,13

Tabela

C.24:Statistikau£inkovitostiekstrakcije10

klju£nih

besedizdodatnegavzorca

gradiv,po

konferenci,kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira,za

vsaorodja

Page 197: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

172 Poglavje C: Rezultati eksperimenta 1

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

form

at

krite

rijfavg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

MoodleSi2007

enakost

4,99

4,54

3,4

3,43

6,97

5,57

5,6

3,37

3,43

7,82

5,6

5,63

7,46

6,84

7,74

10,96

10,4

10,4

10,53

2,66

22,66

22,13

22,69

22,16

3,4

4-re

zanje

5,52

5,07

3,93

3,96

8,68

6,1

6,13

3,9

3,96

8,68

6,13

6,16

7,99

7,37

8,67

11,49

10,93

10,93

11,06

4,86

23,25

22,13

23,28

22,16

7,83

5-re

zanje

4,99

4,54

3,4

3,43

7,82

5,57

5,6

3,37

3,43

7,82

5,6

5,63

7,46

6,84

7,74

10,96

10,4

10,4

10,53

4,33

23,25

22,13

23,28

22,16

6,77

6-re

zanje

4,99

4,54

3,4

3,43

7,82

5,57

5,6

3,37

3,43

7,82

5,6

5,63

7,46

6,84

7,74

10,96

10,4

10,4

10,53

4,33

23,25

22,13

23,28

22,16

6,77

soundex

6,05

5,6

4,46

4,49

9,53

6,63

6,66

4,96

4,49

9,53

6,66

6,69

7,99

7,9

9,52

11,49

10,93

10,93

11,06

4,86

23,25

22,13

23,28

22,16

8,41

metaphone

5,52

5,07

3,93

3,96

8,68

6,1

6,13

3,9

3,96

8,68

6,13

6,16

7,46

6,84

8,59

11,49

10,93

10,93

11,06

3,93

23,25

22,13

23,28

22,16

7,3

similar60

8,81

7,3

8,3

8,36

12,3

11,06

11,08

8,95

9,03

12,3

11

11,06

12,31

12,28

12,29

14,81

14,25

13,75

13,87

12,54

28,71

27,54

27,66

26,49

12,9

similar70

8,28

7,3

7,19

7,22

10,52

9,98

9,97

7,84

7,27

11,37

9,92

9,95

11,25

10,63

11,36

13,69

13,14

12,05

12,17

10,25

25,93

24,87

25,99

24,87

9,61

similar80

6,66

6,18

4,46

4,49

9,99

7,25

7,24

5,05

4,49

9,99

7,24

7,27

9,1

8,49

9,98

12,07

11,52

10,93

11,06

6,98

23,86

22,75

23,86

22,75

8,41

SIRikt2008

enakost

0,97

0,83

1,32

1,32

1,45

0,86

1,04

1,25

1,32

2,01

1,04

1,04

1,32

1,32

2,17

4,63

4,45

4,44

4,44

1,14

8,24

17,59

917,34

2,08

4-re

zanje

1,61

1,51

2,06

2,06

1,99

1,68

2,02

1,98

2,08

2,55

1,85

1,85

2,06

1,96

2,74

6,76

6,66

6,44

6,62

3,33

9,9

18,47

10,64

18,21

7,44

5-re

zanje

1,61

1,51

1,95

1,95

1,89

1,68

1,96

1,88

1,86

2,45

1,85

1,85

1,96

1,86

2,64

6,5

6,4

6,27

6,46

2,79

9,37

18,04

10,12

17,88

6,95

6-re

zanje

1,34

1,24

1,76

1,76

1,79

1,31

1,59

1,69

1,66

2,35

1,49

1,49

1,76

1,66

2,54

6,04

5,95

5,92

6,1

2,39

8,97

18,04

9,82

17,78

6,16

soundex

1,53

1,47

2,27

2,35

2,63

1,6

1,87

2,2

2,08

2,63

1,78

1,87

2,27

2,18

2,82

7,32

7,22

7,03

7,12

3,12

10,11

18,69

10,85

18,53

6,95

metaphone

1,14

1,01

1,62

1,62

2,28

1,14

1,32

1,55

1,62

2,28

1,32

1,32

1,62

1,62

2,44

6,28

6,1

5,71

5,81

2,44

9,45

18,38

10,3

18,22

5,73

similar60

3,95

3,84

4,5

4,6

4,95

4,31

4,52

4,42

4,44

4,95

4,47

4,58

4,5

4,29

5,01

10,76

10,74

10,75

11,05

11,03

14,28

22,36

14,29

21,78

11,09

similar70

2,27

2,25

3,2

3,3

4,12

2,61

2,79

3,12

2,92

4,12

2,79

2,79

3,2

34,17

8,48

8,29

8,82

8,85

7,58

12,09

21,22

12,75

20,75

9,53

similar80

1,34

1,24

1,9

23,04

1,51

1,59

1,83

23,04

1,69

1,59

1,9

1,9

3,2

6,56

6,38

6,24

6,27

4,26

10,79

19,23

11,64

19,07

7,63

SIRikt2009

enakost

2,03

2,13

2,56

2,56

2,21

2,76

2,51

2,76

2,69

3,01

2,68

2,61

2,68

2,68

2,84

5,97

6,01

6,25

6,11

0,8

15,09

16,49

15,02

16,44

1,67

4-re

zanje

2,38

2,37

2,98

2,9

2,82

32,75

3,09

2,93

3,41

3,1

3,02

3,01

3,01

3,23

8,09

8,2

8,7

8,39

2,6

16,3

17,33

16,05

17,2

5,26

5-re

zanje

2,18

2,28

2,71

2,71

2,6

2,91

2,66

2,91

2,84

3,3

2,91

2,84

2,82

2,82

3,13

7,55

7,66

7,99

7,77

2,52

16,21

17,24

15,95

17,11

4,39

6-re

zanje

2,11

2,21

2,64

2,64

2,31

2,84

2,59

2,84

2,77

3,01

2,84

2,77

2,76

2,76

2,84

7,35

7,38

7,71

7,48

2,14

15,89

16,95

15,54

16,82

3,93

soundex

2,5

2,41

3,01

3,01

3,41

3,01

2,69

3,1

2,94

3,41

3,03

2,87

3,02

2,92

3,24

8,26

8,27

8,89

8,59

2,68

16,33

17,18

16,07

17,04

5metaphone

2,32

2,23

2,83

2,83

3,47

2,83

2,51

2,92

2,76

3,47

2,77

2,61

2,84

2,75

3,3

6,85

6,86

7,29

7,07

1,65

15,89

17

15,73

16,87

4,08

similar60

6,3

5,99

7,13

7,13

5,9

7,24

6,58

7,15

6,9

6,04

7,32

7,23

7,22

7,13

5,86

12,11

12,29

12,58

12,11

9,85

20,32

21,28

19,76

20,91

9,51

similar70

3,91

3,62

4,42

4,51

4,95

4,42

3,93

4,51

4,35

4,95

4,44

4,45

4,51

4,51

4,77

10,42

10,35

10,87

10,3

7,26

18,32

19,42

17,88

19,22

7,41

similar80

3,28

2,98

3,79

3,88

4,27

3,79

3,28

3,79

3,72

4,27

3,7

3,63

3,7

3,7

4,09

8,36

8,47

8,97

8,48

3,83

17,11

17,96

16,89

17,83

5,69

SIRikt2010

enakost

1,56

1,56

2,44

2,44

2,59

1,69

1,62

2,44

2,44

3,22

1,69

1,62

2,53

2,53

3,58

7,07

6,85

7,28

6,9

2,24

13,79

17,7

15,97

17,72

3,54

4-re

zanje

2,23

2,23

3,18

3,18

3,03

2,36

2,16

3,18

3,07

3,35

2,36

2,29

3,16

3,16

3,71

10,03

9,46

10,47

9,88

3,91

14,83

18,7

17,67

18,74

7,99

5-re

zanje

2,23

2,23

3,18

3,18

2,93

2,36

2,16

3,18

3,07

3,35

2,36

2,29

3,16

3,16

3,71

9,37

8,93

9,68

9,22

3,76

14,57

18,44

17,41

18,48

7,48

6-re

zanje

1,93

1,93

3,01

3,01

2,72

2,06

1,86

3,01

2,9

3,35

2,06

1,98

2,99

2,99

3,71

8,56

8,26

9,01

8,55

3,16

14,46

18,23

17,17

18,38

6,33

soundex

2,29

2,41

3,24

3,24

3,5

2,54

2,22

3,24

3,13

3,35

2,54

2,46

3,22

3,22

3,71

10,54

9,97

10,73

10,14

4,29

14,95

19,13

17,79

19,18

8,13

metaphone

1,67

1,67

2,44

2,44

3,37

1,8

1,72

2,44

2,44

3,22

1,8

1,72

2,53

2,53

3,58

8,85

8,42

8,92

8,32

3,82

14,05

18,32

16,55

18,47

6,32

similar60

5,65

6,04

6,87

7,01

5,23

6,17

5,58

6,87

6,76

5,08

6,17

6,09

6,72

6,85

5,21

13,75

13,27

14,55

14,05

13,82

18,86

23,09

22,45

23,37

12,52

similar70

2,97

2,97

4,3

4,3

3,99

3,1

2,77

4,3

4,19

4,05

3,1

3,02

4,14

4,14

4,19

11,47

10,99

12,23

11,61

10,08

16,71

21,3

20,33

21,56

10,27

similar80

2,26

2,26

3,27

3,27

3,83

2,39

2,32

3,27

3,16

3,67

2,39

2,32

3,12

3,12

4,03

10,43

10,08

10,67

10,18

6,5

15,06

19,2

18,18

19,35

8,97

SIRikt2011

enakost

2,32

2,59

2,52

2,52

2,49

2,58

2,46

2,45

2,45

2,86

2,72

2,59

2,64

2,57

2,92

5,04

5,24

5,35

5,27

0,89

14,99

15,04

14,46

15,1

3,08

4-re

zanje

2,9

3,24

3,31

3,31

3,39

3,23

3,17

3,17

3,24

3,66

3,37

3,24

3,36

3,3

3,65

6,98

7,37

7,72

7,77

2,7

15,95

15,94

15,16

16

7,1

5-re

zanje

2,77

3,1

3,18

3,18

3,03

3,1

2,97

3,04

3,04

3,4

3,23

3,11

3,23

3,17

3,46

6,91

7,31

7,59

7,64

2,45

15,89

15,88

15,16

15,93

6,82

6-re

zanje

2,64

2,98

2,91

2,98

2,86

2,97

2,85

2,84

2,84

3,23

3,1

2,98

2,97

2,9

3,29

6,34

6,67

7,1

7,02

2,3

15,76

15,68

15,1

15,74

6,1

soundex

3,16

3,49

3,43

3,48

4,01

3,56

3,44

3,43

3,48

3,84

3,69

3,57

3,56

3,55

3,9

7,35

7,69

8,34

8,15

2,73

15,89

16,07

15,17

16,13

7,34

metaphone

2,51

2,78

2,72

2,72

3,58

2,85

2,72

2,72

2,72

3,42

2,98

2,86

2,91

2,84

3,48

6,33

6,66

7,31

7,05

1,98

15,7

15,87

15,03

15,86

6,08

similar60

5,5

6,14

7,01

6,94

5,74

6,15

6,21

7,01

7,01

5,58

6,28

6,28

7,14

7,03

5,5

10,04

10,75

12,04

11,77

9,86

18,88

19,7

18,09

19,75

11,4

similar70

3,88

4,09

4,35

4,35

4,53

4,15

4,09

4,35

4,35

4,54

4,29

4,16

4,54

4,48

4,52

8,2

8,8

9,82

9,6

6,43

17,56

17,87

16,84

18,05

9,1

similar80

2,97

3,24

3,37

3,37

3,63

3,31

3,18

3,37

3,37

3,46

3,44

3,31

3,49

3,43

3,4

6,75

7,21

7,63

7,55

3,81

16,77

16,57

15,86

16,56

7,33

Tabela

C.25:Statistika

u£inkovitostiekstrakcije15

klju£nihbesed

izdodatnega

vzorcagradiv,

pokonferenci,

kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira,

zavsa

orodja

Page 198: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

173

parametri N podmnoºica za α = ,051 2 3 4

GFR=0, MAX=5, PKB=2, LIM=0, VU=80 5 4,8485GFR=0, MAX=4, PKB=2, LIM=0, VU=80 5 4,9111GFR=0, MAX=4, PKB=2, LIM=0, VU=100 5 4,9435GFR=0, MAX=5, PKB=2, LIM=0, VU=100 5 4,9445GFR=0, MAX=5, PKB=2, LIM=0, VU=90 5 5,0606GFR=0, MAX=4, PKB=1, LIM=0, VU=80 5 5,0671GFR=0, MAX=4, PKB=2, LIM=0, VU=90 5 5,0689GFR=0, MAX=5, PKB=1, LIM=0, VU=100 5 5,1291GFR=0, MAX=4, PKB=1, LIM=0, VU=100 5 5,1352GFR=0, MAX=5, PKB=1, LIM=0, VU=90 5 5,1736GFR=0, MAX=5, PKB=1, LIM=0, VU=80 5 5,2186GFR=0, MAX=4, PKB=1, LIM=0, VU=90 5 5,2364GFR=1, MAX=5, PKB=2, LIM=0, VU=80 5 7,1706GFR=1, MAX=4, PKB=2, LIM=0, VU=80 5 7,1923GFR=1, MAX=4, PKB=2, LIM=0, VU=90 5 7,2893GFR=1, MAX=5, PKB=2, LIM=0, VU=90 5 7,31478GFR=1, MAX=4, PKB=2, LIM=0, VU=100 5 7,5300GFR=1, MAX=5, PKB=2, LIM=0, VU=100 5 7,5314GFR=1, MAX=4, PKB=1, LIM=0, VU=80 5 11,5546GFR=1, MAX=5, PKB=1, LIM=0, VU=80 5 11,5716GFR=1, MAX=4, PKB=1, LIM=0, VU=90 5 11,9497 11,9497GFR=1, MAX=5, PKB=1, LIM=0, VU=90 5 11,9582 11,9582GFR=1, MAX=5, PKB=1, LIM=0, VU=100 5 12,3954GFR=1, MAX=4, PKB=1, LIM=0, VU=100 5 12,4128Sig. 0,9609 0,9821 0,9422 0,8175

Tabela C.26: Rezultat testa Tukey HSD dobljenih f-mer razli£nih parametrov orodja Kea za 5klju£nih besed

parametri N podmnoºica za α = ,051 2 3 4 5

GFR=0, MAX=4, PKB=2, LIM=0, VU=100 5 4,0485GFR=0, MAX=5, PKB=2, LIM=0, VU=80 5 4,0612GFR=0, MAX=4, PKB=2, LIM=0, VU=90 5 4,0790 4,0790GFR=0, MAX=4, PKB=2, LIM=0, VU=80 5 4,0890 4,0890GFR=0, MAX=5, PKB=2, LIM=0, VU=90 5 4,1045 4,1045 4,1045GFR=0, MAX=5, PKB=2, LIM=0, VU=100 5 4,1049 4,1049 4,1049GFR=0, MAX=5, PKB=1, LIM=0, VU=80 5 4,5661 4,5661 4,5661 4,5661GFR=0, MAX=5, PKB=1, LIM=0, VU=90 5 4,7278 4,7278 4,7278 4,7278GFR=0, MAX=4, PKB=1, LIM=0, VU=90 5 4,7558 4,7558 4,7558GFR=0, MAX=4, PKB=1, LIM=0, VU=80 5 4,7776 4,7776GFR=1, MAX=5, PKB=2, LIM=0, VU=80 5 4,8421GFR=1, MAX=4, PKB=2, LIM=0, VU=90 5 4,8506GFR=1, MAX=5, PKB=2, LIM=0, VU=90 5 4,8581GFR=1, MAX=4, PKB=2, LIM=0, VU=80 5 4,8605GFR=0, MAX=4, PKB=1, LIM=0, VU=100 5 4,9231GFR=0, MAX=5, PKB=1, LIM=0, VU=100 5 4,9288GFR=1, MAX=4, PKB=2, LIM=0, VU=100 5 4,96034GFR=1, MAX=5, PKB=2, LIM=0, VU=100 5 4,9685GFR=1, MAX=4, PKB=1, LIM=0, VU=80 5 7,4681GFR=1, MAX=5, PKB=1, LIM=0, VU=90 5 7,6148GFR=1, MAX=4, PKB=1, LIM=0, VU=90 5 7,6440GFR=1, MAX=5, PKB=1, LIM=0, VU=80 5 7,6583GFR=1, MAX=4, PKB=1, LIM=0, VU=100 5 7,9554GFR=1, MAX=5, PKB=1, LIM=0, VU=100 5 7,9622Sig. 0,0522 0,0543 0,0576 0,8548 0,51334

Tabela C.27: Rezultat testa Tukey HSD dobljenih f-mer razli£nih parametrov orodja Kea za 10klju£nih besed

Page 199: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

174 Poglavje C: Rezultati eksperimenta 1

parametri N podmnoºica za α = ,051 2 3 4 5 6

GFR=0, MAX=4, PKB=2, LIM=0, VU=100 5 4,5259GFR=0, MAX=5, PKB=2, LIM=0, VU=100 5 4,5400GFR=0, MAX=5, PKB=2, LIM=0, VU=80 5 4,5649GFR=0, MAX=4, PKB=2, LIM=0, VU=80 5 4,5994 4,5994GFR=0, MAX=4, PKB=2, LIM=0, VU=90 5 4,6251 4,6251GFR=0, MAX=5, PKB=2, LIM=0, VU=90 5 4,6260 4,6260GFR=0, MAX=5, PKB=1, LIM=0, VU=100 5 5,0139 5,0139 5,0139GFR=0, MAX=4, PKB=1, LIM=0, VU=80 5 5,0214 5,0214 5,0214GFR=0, MAX=4, PKB=1, LIM=0, VU=100 5 5,0236 5,0236 5,0236GFR=0, MAX=5, PKB=1, LIM=0, VU=90 5 5,0777 5,0777 5,0777GFR=0, MAX=4, PKB=1, LIM=0, VU=90 5 5,1530 5,1530GFR=0, MAX=5, PKB=1, LIM=0, VU=80 5 5,2210GFR=1, MAX=5, PKB=2, LIM=0, VU=80 5 5,8154GFR=1, MAX=5, PKB=2, LIM=0, VU=90 5 5,8357GFR=1, MAX=4, PKB=2, LIM=0, VU=80 5 5,8388GFR=1, MAX=4, PKB=2, LIM=0, VU=90 5 5,8471GFR=1, MAX=5, PKB=2, LIM=0, VU=100 5 5,9685GFR=1, MAX=4, PKB=2, LIM=0, VU=100 5 5,9703GFR=1, MAX=4, PKB=1, LIM=0, VU=80 5 9,1102GFR=1, MAX=5, PKB=1, LIM=0, VU=80 5 9,2734 9,2734GFR=1, MAX=5, PKB=1, LIM=0, VU=90 5 9,3321 9,3321GFR=1, MAX=4, PKB=1, LIM=0, VU=90 5 9,3756 9,3756GFR=1, MAX=4, PKB=1, LIM=0, VU=100 5 9,71812GFR=1, MAX=5, PKB=1, LIM=0, VU=100 5 9,7209Sig. 0,0799 0,0775 0,9996 0,9999 0,9875 0,3781

Tabela C.28: Rezultat testa Tukey HSD dobljenih f-mer razli£nih parametrov orodja Kea za 15klju£nih besed

Page 200: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Dodatek D

Porterjevo korenjenje pri dodatnemvzorcu

Rezultati u£inkovitosti ekstrakcije klju£nih besed iz slovenskih gradiv so naslednji:

²t. klju£nih besed 5 10 15format kriterij favgmax orodje favgmax orodje favgmax orodje

MoodleSi2007

enakost 13,48 TextrankT 13,81 KeaTC 11,43 KeaT4-rezanje 16,1 KeaT 15,29 KeaTC 15,47 KeaT5-rezanje 15,09 KeaT 15,29 KeaTC 14,85 KeaT6-rezanje 15,09 KeaT 15,29 KeaTC 14,85 KeaTsoundex 16,1 KeaT 15,29 KeaTC 13,68 KeaPmetaphone 14,87 KeaT 14,5 KeaTC 13,1 KeaPsimilar60 17,11 KeaTC 16,73 KeaPC 18,25 KeaPsimilar70 16,1 KeaT 15,29 KeaTC 17,17 KeaPsimilar80 16,1 KeaT 15,29 KeaTC 13,68 KeaP

SIRikt2008

enakost 8,44 KeaP 7,97 KeaP 6,77 KeaT4-rezanje 13,57 KeaP 12,45 KeaP 10,55 KeaPC5-rezanje 12,53 KeaP 11,84 KeaP 10,09 KeaPC6-rezanje 11,79 KeaP 11,08 KeaTC 9,51 KeaPCsoundex 13,82 KeaP 12,42 KeaP 10,74 KeaPCmetaphone 12,27 KeaP 11,47 KeaTC 9,82 KeaPCsimilar60 19,83 KeaPC 17,9 KeaTC 15,03 KeaTCsimilar70 17,06 KeaPC 15,94 KeaP 13,48 KeaTCsimilar80 13,57 KeaP 12,38 KeaP 10,67 KeaPC

SIRikt2009

enakost 8,58 KeaT 9,08 KeaP 8,4 KeaT4-rezanje 14,38 KeaTC 13,65 KeaT 12,88 KeaT5-rezanje 12,99 KeaTC 12,95 KeaT 12,34 KeaT6-rezanje 12,1 KeaTC 12,15 KeaT 11,56 KeaTsoundex 14,74 KeaTC 13,87 KeaT 12,71 KeaTmetaphone 13 KeaTC 12,36 KeaT 11,59 KeaTsimilar60 21,42 KeaTC 20,24 KeaT 18,34 KeaTsimilar70 17,84 KeaTC 16,92 KeaT 15,84 KeaTsimilar80 14,9 KeaT 14,03 KeaT 13,21 KeaT

SIRikt2010

enakost 10,38 KeaP 9,9 KeaPC 9,91 KeaP4-rezanje 15,44 KeaP 14,58 KeaP 13,81 KeaP5-rezanje 15,44 KeaP 14,26 KeaP 13,29 KeaP6-rezanje 13,25 KeaP 12,84 KeaP 12,14 KeaPsoundex 16,4 KeaP 14,9 KeaP 14,05 KeaPmetaphone 14,64 KeaP 13,11 KeaP 12,52 KeaPsimilar60 21,38 KeaP 21,1 KeaP 19,51 KeaPsimilar70 19,12 KeaP 18,45 KeaP 17,39 KeaPsimilar80 17,83 KeaP 15,99 KeaP 14,62 KeaP

SIRikt2011

enakost 9,44 KeaPC 8,48 KeaP 7,88 KeaP4-rezanje 16,88 KeaPC 14,17 KeaP 12,83 KeaP5-rezanje 16,46 KeaPC 13,73 KeaP 12,38 KeaP6-rezanje 15,63 KeaPC 12,68 KeaP 11,46 KeaPsoundex 16,96 KeaP 14,45 KeaP 13,16 KeaPmetaphone 14,28 KeaPC 12,41 KeaP 11,46 KeaPsimilar60 21,31 KeaP 19,41 KeaP 17,09 KeaTsimilar70 19,96 KeaP 17,14 KeaP 15,14 KeaPsimilar80 16,89 KeaP 14,68 KeaP 13,28 KeaP

Tabela D.1: Statistika v povpre£ju najbolj²ih orodij u£inkovitosti ekstrakcije 5, 10 in 15 klju£nihbesed iz angle²kih gradiv primarnega vzorca gradiv, po formatu in kriteriju ujemanja

175

Page 201: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

176 Poglavje D: Porterjevo korenjenje pri dodatnem vzorcu

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

form

at

krite

rijfavg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

MoodleSi2007

enakost

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

7,92

13,48

13,48

13,48

13,48

2,35

12,85

12,85

12,85

12,85

4,51

4-re

zanje

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

8,93

14,49

14,49

14,49

14,49

4,59

16,1

16,1

16,1

16,1

7,54

5-re

zanje

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

7,92

13,48

13,48

13,48

13,48

3,58

15,09

15,09

15,09

15,09

5,52

6-re

zanje

3,23

4,47

2,12

2,12

8,08

4,47

4,47

2,12

2,12

8,08

4,47

4,47

9,28

8,05

7,92

13,48

13,48

13,48

13,48

3,58

15,09

15,09

15,09

15,09

5,52

soundex

3,23

4,47

2,12

2,12

9,09

4,47

4,47

3,13

2,12

9,09

4,47

4,47

9,28

9,06

9,94

14,49

14,49

14,49

14,49

4,59

16,1

16,1

16,1

16,1

7,54

metaphone

3,23

4,47

2,12

2,12

9,09

4,47

4,47

2,12

2,12

9,09

4,47

4,47

9,28

8,05

8,93

14,49

14,49

14,49

14,49

4,59

14,87

14,87

14,87

14,87

6,53

similar60

7,33

6,71

5,99

712,26

10,58

10,58

5,99

8,24

12,26

10,58

10,58

13,15

13,15

13,11

14,49

14,49

14,49

14,49

10,92

16,1

17,11

16,1

17,11

16,97

similar70

6,4

6,71

5,07

6,08

11,25

9,66

9,66

5,07

6,08

11,25

9,66

9,66

12,23

10,99

12,1

14,49

14,49

14,49

14,49

9,81

16,1

16,1

16,1

16,1

12,51

similar80

5,48

6,71

3,13

3,13

10,32

6,71

6,71

3,13

3,13

10,32

6,71

6,71

10,29

9,06

11,18

14,49

14,49

14,49

14,49

6,18

16,1

16,1

16,1

16,1

8,77

SIRikt2008

enakost

00

0,25

0,25

1,01

00

0,25

0,25

1,29

00

0,25

0,25

1,29

5,3

5,08

5,41

5,6

1,16

7,99

7,99

8,44

8,44

2,84

4-re

zanje

0,57

0,37

0,62

0,62

1,53

0,57

0,37

0,62

0,42

1,81

0,37

0,37

0,62

0,62

1,84

7,65

7,44

7,97

8,03

2,29

13,18

13,18

13,57

13,57

10,5

5-re

zanje

0,57

0,37

0,62

0,62

1,53

0,57

0,37

0,62

0,42

1,81

0,37

0,37

0,62

0,62

1,84

7,44

7,22

7,51

7,57

2,29

12,14

12,14

12,53

12,53

9,82

6-re

zanje

0,2

0,2

0,44

0,44

1,36

0,2

0,2

0,44

0,25

1,64

0,2

0,2

0,44

0,44

1,66

6,71

6,5

6,98

7,05

2,08

11,4

11,4

11,79

11,79

8,22

soundex

0,37

0,37

0,62

0,62

2,01

0,37

0,37

0,62

0,42

2,01

0,37

0,37

0,62

0,62

2,04

8,4

8,19

8,52

8,59

2,29

13,43

13,43

13,82

13,82

9,8

metaphone

00

0,25

0,25

1,68

00

0,25

0,25

1,68

00

0,25

0,25

1,68

6,94

6,72

6,41

6,61

1,9

11,79

11,79

12,27

12,27

8,55

similar60

2,89

2,67

3,47

3,47

4,47

3,39

3,23

3,47

3,14

4,47

3,22

3,26

3,47

3,27

4,5

11,68

11,24

11,51

11,58

9,49

19,55

19,8

19,58

19,83

15,44

similar70

0,72

0,85

1,47

1,47

3,67

1,22

1,05

1,47

0,95

3,67

1,22

1,05

1,47

1,27

3,7

9,45

9,24

9,59

9,65

6,86

16,34

16,58

16,82

17,06

13,22

similar80

00,13

0,38

0,38

2,49

0,31

0,13

0,38

0,38

2,49

0,31

0,13

0,38

0,38

2,49

7,17

6,96

7,11

7,18

3,3

13,2

13,2

13,57

13,57

10,69

SIRikt2009

enakost

1,09

1,69

1,8

2,06

2,08

1,8

2,02

1,8

2,06

2,52

1,8

2,18

1,8

2,06

2,36

5,97

6,19

5,94

6,35

0,58

8,58

8,58

8,39

8,42

2,31

4-re

zanje

1,2

1,8

1,91

2,17

2,53

1,91

2,13

1,91

2,17

2,97

1,91

2,29

1,91

2,17

2,81

9,21

9,36

9,17

9,39

2,35

13,85

14,38

13,66

14,22

8,2

5-re

zanje

1,2

1,8

1,91

2,17

2,41

1,91

2,13

1,91

2,17

2,85

1,91

2,29

1,91

2,17

2,69

8,41

8,56

8,37

8,59

2,21

12,82

12,99

12,62

12,83

7,36

6-re

zanje

1,09

1,69

1,8

2,06

2,08

1,8

2,02

1,8

2,06

2,52

1,8

2,18

1,8

2,06

2,36

8,12

8,27

8,09

8,43

1,82

11,92

12,1

11,73

11,94

6,55

soundex

1,09

1,69

1,8

2,06

2,86

1,8

2,02

1,8

2,06

2,86

1,8

2,18

1,8

2,06

2,7

9,44

9,36

9,4

9,58

2,32

14,4

14,74

14,21

14,58

7,84

metaphone

1,09

1,69

1,8

2,06

2,96

1,8

2,02

1,8

2,06

2,96

1,8

2,18

1,8

2,06

2,8

7,09

7,02

7,06

7,43

1,09

12,82

13

12,63

12,84

6,91

similar60

5,27

5,97

6,31

6,57

6,02

6,39

6,61

6,31

6,57

6,16

6,31

6,85

6,31

6,57

613,06

12,48

13

12,46

9,59

21,31

21,42

20,77

21,08

13,5

similar70

2,94

3,48

3,65

3,92

4,79

3,73

3,89

3,65

3,92

4,79

3,65

4,19

3,65

3,92

4,63

11,63

11,27

11,73

11,41

6,76

17,77

17,84

17,24

17,5

11,3

similar80

2,15

2,53

2,86

3,12

3,93

2,86

2,94

2,86

3,12

3,93

2,86

3,24

2,86

3,12

3,78

9,73

9,88

9,7

9,84

3,62

14,9

14,9

14,56

14,6

9,16

SIRikt2010

enakost

1,6

1,34

1,87

1,87

2,46

1,6

1,6

1,87

1,87

2,2

1,6

1,6

2,01

2,01

2,78

6,87

6,91

6,85

6,9

1,27

9,43

9,4

10,38

10,26

2,56

4-re

zanje

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,57

2,57

2,51

2,51

3,04

9,6

9,72

10,14

9,97

3,8

14,1

14,06

15,44

15,03

9,67

5-re

zanje

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,57

2,57

2,51

2,51

3,04

8,8

8,91

9,33

9,16

3,48

13,84

13,8

15,44

15,03

9,21

6-re

zanje

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,31

2,31

2,51

2,51

3,04

8,27

8,39

8,81

8,64

2,66

12,27

12,23

13,25

12,84

6,88

soundex

2,31

2,05

2,37

2,37

2,72

2,31

2,07

2,37

2,37

2,46

2,57

2,57

2,51

2,51

3,04

10,36

10,48

10,38

10,47

3,48

14,8

14,77

16,4

15,99

9,14

metaphone

1,78

1,52

1,87

1,87

2,46

1,78

1,78

1,87

1,87

2,2

1,78

1,78

2,01

2,01

2,78

9,11

9,23

8,65

8,7

2,35

13,4

13,36

14,64

14,52

5,73

similar60

6,04

6,04

6,12

6,12

4,68

6,3

5,91

6,12

6,12

4,42

6,34

6,45

6,26

6,26

4,77

13,03

13,15

13,78

13,87

10,89

19,92

20,54

21,38

21,16

15,55

similar70

3,39

3,13

3,56

3,56

3,16

3,39

33,56

3,56

2,9

3,65

3,76

3,7

3,7

3,49

10,96

11,08

11,24

11,33

8,64

17,4

18,03

19,12

18,93

13,16

similar80

2,42

2,16

2,67

2,67

2,98

2,42

2,42

2,67

2,67

2,72

2,68

2,68

2,8

2,8

3,3

10,44

10,56

10,72

10,55

5,17

16,23

16,2

17,83

17,42

11,31

SIRikt2011

enakost

2,42

2,44

3,21

3,21

2,32

2,42

2,3

3,05

3,05

2,04

2,56

2,44

3,05

3,05

1,91

5,27

5,41

5,8

5,66

0,98

9,04

9,03

9,42

9,44

3,69

4-re

zanje

2,98

33,9

3,9

3,15

2,98

2,86

3,75

3,61

2,87

3,12

33,75

3,61

2,74

8,14

8,44

9,07

9,22

3,09

15,7

15,81

16,77

16,88

9,97

5-re

zanje

2,84

2,86

3,76

3,76

2,88

2,84

2,72

3,61

3,47

2,6

2,98

2,86

3,61

3,47

2,48

7,98

8,29

8,92

8,92

2,82

15,41

15,52

16,35

16,46

9,35

6-re

zanje

2,7

2,72

3,49

3,62

2,74

2,7

2,58

3,47

3,33

2,46

2,84

2,72

3,47

3,33

2,34

7,12

7,42

7,92

7,93

2,55

14,73

14,99

15,38

15,63

8,13

soundex

3,12

3,14

3,91

3,91

3,66

3,28

3,16

4,05

3,91

3,38

3,42

3,29

4,05

3,91

3,26

8,35

8,66

9,83

9,7

3,2

16,02

15,97

16,96

16,91

10,08

metaphone

2,7

2,72

3,49

3,49

3,03

2,86

2,73

3,49

3,49

2,75

32,87

3,49

3,49

2,63

6,66

6,95

87,72

2,15

13,59

13,72

14

14,28

8,22

similar60

6,2

6,72

8,2

8,2

5,15

6,86

6,58

8,34

8,2

4,87

76,87

8,21

8,01

4,81

10,73

11,17

12,1

12,08

9,06

20,54

20,21

21,31

21,01

16,58

similar70

4,2

4,22

5,39

5,39

4,26

4,36

4,23

5,39

5,39

3,98

4,49

4,37

5,26

5,26

3,91

9,01

9,46

10,28

10,61

6,04

18,78

18,73

19,96

19,66

13,26

similar80

3,37

3,39

4,44

4,44

3,13

3,53

3,4

4,44

4,44

2,85

3,67

3,54

4,44

4,44

2,59

7,12

7,41

8,06

8,19

4,15

15,97

16,07

16,89

16,85

9,34

Tabela

D.2:Statistika

u£inkovitostiekstrakcije

5klju£nih

besedizdodatnega

vzorcagradiv,

pokonferenci,

kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira,

zavsa

orodja

Page 202: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

177

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

Tika

pdftotext

povzetek

form

at

kriterij

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

f avg

f avgC

f avg

f avgC

f avg

MoodleSi2007

enakost

5,1

5,24

2,83

2,83

6,97

5,9

5,9

2,18

2,83

7,82

6,55

6,55

8,18

7,39

7,74

10,18

10,87

10,87

10,95

3,14

13,01

13,81

13,01

13,81

3,78

4-rezanje

5,1

5,24

2,83

2,83

8,68

5,9

5,9

2,18

2,83

8,68

6,55

6,55

8,18

7,39

8,67

10,87

11,57

11,57

11,65

5,55

14,5

15,29

14,5

15,29

6,65

5-rezanje

5,1

5,24

2,83

2,83

7,82

5,9

5,9

2,18

2,83

7,82

6,55

6,55

8,18

7,39

7,74

10,18

10,87

10,87

10,95

4,86

14,5

15,29

14,5

15,29

5,26

6-rezanje

5,1

5,24

2,83

2,83

7,82

5,9

5,9

2,18

2,83

7,82

6,55

6,55

8,18

7,39

7,74

10,18

10,87

10,87

10,95

4,86

14,5

15,29

14,5

15,29

5,26

soundex

5,1

5,24

2,83

2,83

9,53

5,9

5,9

2,87

2,83

9,53

6,55

6,55

8,18

8,08

9,52

10,87

11,57

11,57

11,65

5,55

14,5

15,29

14,5

15,29

7,45

metaphone

5,1

5,24

2,83

2,83

8,68

5,9

5,9

2,18

2,83

8,68

6,55

6,55

8,18

7,39

8,59

10,87

11,57

11,57

11,65

4,62

13,71

14,5

13,71

14,5

6,75

similar60

8,69

7,53

7,71

7,71

12,6

11,57

11,57

7,05

8,5

12,6

12,22

12,22

12,36

12,36

12,59

13,81

14,5

13,05

13,14

13,22

15,19

15,99

15,94

16,73

16,64

similar70

8,04

7,53

6,36

6,36

10,82

10,22

10,22

5,71

6,36

11,67

10,88

10,88

11,71

10,92

11,66

13,01

13,71

12,26

12,34

10,78

14,5

15,29

14,5

15,29

12,18

similar80

6,59

6,73

3,52

3,52

10,17

7,39

7,39

2,87

3,52

10,17

8,04

8,04

8,87

8,08

10,15

11,66

12,36

11,57

11,65

7,14

14,5

15,29

14,5

15,29

8,3

SIRikt2008

enakost

0,96

0,8

1,18

1,18

1,34

0,66

0,96

1,18

1,18

1,9

0,96

0,96

1,18

1,18

1,91

4,95

4,95

4,7

4,87

1,16

7,74

7,74

7,97

7,97

2,56

4-rezanje

1,56

1,35

1,79

1,67

2,07

1,5

1,83

1,79

1,79

2,63

1,69

1,69

1,79

1,79

2,53

7,24

7,24

7,07

7,24

3,27

12,41

12,44

12,45

12,45

8,93

5-rezanje

1,56

1,35

1,79

1,67

1,8

1,5

1,83

1,79

1,66

2,36

1,69

1,69

1,79

1,79

2,4

7,03

7,03

6,86

7,03

2,88

11,8

11,82

11,84

11,84

8,26

6-rezanje

1,21

1,09

1,54

1,41

1,68

1,02

1,45

1,54

1,4

2,24

1,31

1,31

1,54

1,54

2,28

6,44

6,44

6,4

6,57

2,42

10,93

11,08

11,05

11,05

7,21

soundex

1,56

1,28

1,92

1,8

2,68

1,5

1,69

1,92

1,79

2,68

1,69

1,69

1,92

1,92

2,58

7,95

7,95

7,91

8,08

2,99

12,38

12,41

12,42

12,42

8,36

metaphone

1,19

0,93

1,45

1,45

2,35

1,02

1,22

1,45

1,45

2,35

1,22

1,22

1,45

1,45

2,22

6,61

6,61

6,07

6,25

2,44

11,44

11,47

11,34

11,34

7,15

similar60

3,76

3,53

4,23

4,24

5,37

4,05

4,25

4,37

4,13

5,37

4,25

4,27

4,37

4,24

5,02

11,51

11,14

10,85

10,88

10,95

17,75

17,9

17,68

17,68

13,28

similar70

2,34

2,22

2,92

2,94

4,28

2,62

2,68

3,06

2,56

4,28

2,82

2,7

3,06

2,93

3,92

8,6

8,52

8,77

8,94

7,45

15,88

15,91

15,94

15,94

11,34

similar80

1,31

1,22

1,82

1,96

2,93

1,37

1,44

1,96

1,82

2,93

1,56

1,44

1,96

1,96

2,94

6,7

6,7

6,43

6,6

3,95

12,21

12,24

12,38

12,38

9,16

SIRikt2009

enakost

2,22

2,45

2,8

2,8

2,04

2,8

2,48

2,8

2,8

2,84

2,69

2,61

2,69

2,69

2,67

6,55

6,72

6,62

6,64

0,64

9,06

8,73

9,08

8,73

2,05

4-rezanje

2,31

2,53

2,89

2,89

2,66

2,89

2,56

3,01

2,89

3,24

3,02

2,81

2,9

2,78

3,07

9,2

9,36

9,27

9,29

2,26

13,65

13,4

13,43

13,18

6,86

5-rezanje

2,31

2,53

2,89

2,89

2,44

2,89

2,56

2,89

2,89

3,14

2,89

2,81

2,78

2,78

2,97

8,48

8,64

8,55

8,57

2,15

12,95

12,71

12,73

12,49

5,71

6-rezanje

2,22

2,45

2,8

2,8

2,14

2,8

2,48

2,8

2,8

2,84

2,81

2,72

2,69

2,69

2,67

8,35

8,52

8,42

8,44

1,83

12,15

11,9

12,05

11,81

5,17

soundex

2,22

2,57

2,92

2,92

3,25

2,92

2,6

3,05

2,92

3,25

3,05

2,84

2,94

2,81

3,08

9,45

9,47

9,53

9,54

2,24

13,87

13,62

13,65

13,29

6,52

metaphone

2,22

2,45

2,8

2,8

3,3

2,8

2,48

2,93

2,8

3,3

2,82

2,61

2,82

2,69

3,13

7,59

7,61

7,66

7,68

1,29

12,36

12,03

12,14

11,79

5,73

similar60

6,42

6,7

7,43

7,32

5,8

7,54

6,83

7,55

7,32

5,94

7,78

7,54

7,55

7,32

5,76

13,32

13,43

13,11

13,11

9,74

20,24

20,03

19,88

19,78

11,35

similar70

4,05

4,25

4,75

4,75

4,71

4,75

4,32

4,88

4,75

4,71

4,88

4,77

4,88

4,75

4,54

11,92

11,66

11,6

11,6

6,85

16,92

16,81

16,71

16,71

9,25

similar80

3,36

3,33

3,94

3,94

4,01

3,94

3,4

3,94

3,94

4,01

3,84

3,75

3,84

3,84

3,83

9,38

9,41

9,32

9,34

3,42

14,03

13,78

13,81

13,45

7,28

SIRikt2010

enakost

1,75

1,75

2,63

2,63

2,25

1,92

1,92

2,63

2,63

2,56

1,92

1,92

2,74

2,74

2,95

7,93

7,57

7,82

7,77

2,48

9,33

9,59

9,83

9,9

3,1

4-rezanje

2,5

2,5

3,32

3,25

2,73

2,67

2,51

3,32

3,32

2,73

2,67

2,67

3,35

3,35

3,12

10,88

10,53

11,54

11,37

4,31

13,61

13,87

14,58

14,37

8,67

5-rezanje

2,5

2,5

3,32

3,25

2,64

2,67

2,51

3,32

3,32

2,73

2,67

2,67

3,35

3,35

3,12

10,35

10

10,82

10,66

4,11

13,11

13,37

14,26

14,04

8,18

6-rezanje

2,23

2,23

3,23

3,16

2,43

2,41

2,25

3,23

3,23

2,73

2,41

2,41

3,26

3,26

3,12

9,44

9,09

10,1

9,94

3,59

11,52

11,78

12,84

12,62

6,65

soundex

2,41

2,41

3,23

3,16

2,91

2,58

2,42

3,23

3,23

2,73

2,58

2,58

3,26

3,26

3,12

11,39

11,04

12,05

11,88

4,6

13,95

14,2

14,9

14,68

8,69

metaphone

1,89

1,89

2,63

2,63

2,73

2,06

2,06

2,63

2,63

2,56

2,06

2,06

2,74

2,74

2,95

9,82

9,47

9,82

9,65

4,04

12,19

12,44

13,11

12,9

6,56

similar60

5,9

6,24

7,2

7,13

5,32

6,31

5,91

7,2

7,2

5,14

6,42

6,42

7,05

7,05

5,13

14,11

13,91

15,48

15,5

14,31

19,69

19,77

21,1

20,92

13,63

similar70

3,38

3,38

4,72

4,64

3,44

3,55

3,21

4,72

4,72

3,49

3,55

3,55

4,56

4,56

3,66

11,6

11,25

13,02

12,85

10,56

16,98

17,23

18,45

18,11

11,61

similar80

2,63

2,63

3,55

3,47

3,28

2,8

2,8

3,55

3,55

3,11

2,8

2,8

3,4

3,4

3,5

11,43

11,07

11,8

11,64

6,97

14,86

15,11

15,99

15,6

9,64

SIRikt2011

enakost

2,77

3,04

2,94

2,94

2,18

3,03

2,87

2,84

2,84

2,16

2,95

2,78

2,84

2,76

2,33

4,88

4,88

5,38

5,46

0,82

8,41

8,15

8,48

8,05

3,05

4-rezanje

3,47

3,83

3,73

3,73

3,13

3,82

3,74

3,55

3,55

3,02

3,74

3,57

3,55

3,46

3,18

7,22

7,3

8,14

8,31

2,53

13,89

13,89

14,17

14

8,03

5-rezanje

3,38

3,74

3,64

3,64

2,82

3,73

3,56

3,46

3,46

2,8

3,65

3,48

3,46

3,37

2,97

7,04

7,12

7,96

8,13

2,33

13,55

13,55

13,73

13,56

7,65

6-rezanje

3,21

3,56

3,38

3,46

2,62

3,56

3,39

3,28

3,28

2,61

3,47

3,31

3,28

3,2

2,77

6,37

6,36

7,22

7,3

2,15

12,59

12,59

12,68

12,5

6,68

soundex

3,82

4,17

3,91

3,97

3,51

4,26

4,1

3,91

3,91

3,28

4,18

4,01

3,91

3,89

3,45

7,45

7,44

8,86

8,89

2,69

14,09

14,09

14,45

14,27

8,37

metaphone

3,03

3,31

3,12

3,12

33,4

3,23

3,12

3,12

2,77

3,31

3,14

3,12

3,03

2,94

5,88

5,97

7,3

7,33

1,86

12,05

11,96

12,41

12,24

6,74

similar60

6,2

7,06

7,41

7,41

5,13

7,24

6,98

7,41

7,41

4,99

7,24

7,07

7,41

7,27

5,17

10,57

10,63

12,57

12,42

9,79

18,86

18,77

19,41

19,15

13,91

similar70

4,62

4,8

4,78

4,78

3,91

4,98

4,81

4,78

4,78

3,87

4,89

4,73

4,78

4,7

4,04

8,44

8,43

9,8

9,71

6,43

16,7

16,7

17,14

16,79

10,64

similar80

3,65

3,92

3,91

3,91

2,99

4,01

3,84

3,91

3,91

2,85

3,93

3,76

3,91

3,82

2,89

6,75

6,74

7,57

7,74

3,62

14,43

14,43

14,68

14,51

7,97

Tabela

D.3:Statistikau£inkovitostiekstrakcije

10klju£nih

besedizdodatnegavzorca

gradiv,po

konferenci,kriteriju

ujem

anja,na£inu

priprave

tekstovnedatoteke

vira,za

vsaorodja

Page 203: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

178 Poglavje D: Porterjevo korenjenje pri dodatnem vzorcu

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

Tika

pdfto

text

povzetek

form

at

krite

rijfavg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

favg

favgC

favg

favgC

favg

MoodleSi2007

enakost

4,99

4,54

3,4

3,43

6,97

5,57

5,6

3,37

3,43

7,82

5,6

5,63

7,46

6,84

7,74

10,96

10,4

10,4

10,53

2,66

11,43

11,43

11,43

11,43

4,48

4-re

zanje

5,52

5,07

3,93

3,96

8,68

6,1

6,13

3,9

3,96

8,68

6,13

6,16

7,99

7,37

8,67

11,49

10,93

10,93

11,06

4,86

15,47

15,47

15,47

15,47

7,83

5-re

zanje

4,99

4,54

3,4

3,43

7,82

5,57

5,6

3,37

3,43

7,82

5,6

5,63

7,46

6,84

7,74

10,96

10,4

10,4

10,53

4,33

14,85

14,85

14,85

14,85

6,77

6-re

zanje

4,99

4,54

3,4

3,43

7,82

5,57

5,6

3,37

3,43

7,82

5,6

5,63

7,46

6,84

7,74

10,96

10,4

10,4

10,53

4,33

14,85

14,85

14,85

14,85

6,77

soundex

6,05

5,6

4,46

4,49

9,53

6,63

6,66

4,96

4,49

9,53

6,66

6,69

7,99

7,9

9,52

11,49

10,93

10,93

11,06

4,86

13,13

13,13

13,68

13,68

8,41

metaphone

5,52

5,07

3,93

3,96

8,68

6,1

6,13

3,9

3,96

8,68

6,13

6,16

7,46

6,84

8,59

11,49

10,93

10,93

11,06

3,93

12,54

12,54

13,1

13,1

7,3

similar60

8,81

7,3

8,3

8,36

12,3

11,06

11,08

8,95

9,03

12,3

11

11,06

12,31

12,28

12,29

14,81

14,25

13,75

13,87

12,54

17,69

17,69

18,25

18,25

14,63

similar70

8,28

7,3

7,19

7,22

10,52

9,98

9,97

7,84

7,27

11,37

9,92

9,95

11,25

10,63

11,36

13,69

13,14

12,05

12,17

10,25

16,61

16,61

17,17

17,17

11,31

similar80

6,66

6,18

4,46

4,49

9,99

7,25

7,24

5,05

4,49

9,99

7,24

7,27

9,1

8,49

9,98

12,07

11,52

10,93

11,06

6,98

13,13

13,13

13,68

13,68

9,03

SIRikt2008

enakost

0,97

0,83

1,32

1,32

1,45

0,86

1,04

1,25

1,32

2,01

1,04

1,04

1,32

1,32

2,17

4,63

4,45

4,44

4,44

1,14

6,77

6,77

6,52

6,63

2,08

4-re

zanje

1,61

1,51

2,06

2,06

1,99

1,68

2,02

1,98

2,08

2,55

1,85

1,85

2,06

1,96

2,74

6,76

6,66

6,44

6,62

3,33

10,41

10,52

10,44

10,55

7,25

5-re

zanje

1,61

1,51

1,95

1,95

1,89

1,68

1,96

1,88

1,86

2,45

1,85

1,85

1,96

1,86

2,64

6,5

6,4

6,27

6,46

2,79

9,95

10,06

9,98

10,09

6,76

6-re

zanje

1,34

1,24

1,76

1,76

1,79

1,31

1,59

1,69

1,66

2,35

1,49

1,49

1,76

1,66

2,54

6,04

5,95

5,92

6,1

2,39

9,37

9,48

9,4

9,51

5,98

soundex

1,53

1,47

2,27

2,35

2,63

1,6

1,87

2,2

2,08

2,63

1,78

1,87

2,27

2,18

2,82

7,32

7,22

7,03

7,12

3,12

10,59

10,7

10,63

10,74

6,84

metaphone

1,14

1,01

1,62

1,62

2,28

1,14

1,32

1,55

1,62

2,28

1,32

1,32

1,62

1,62

2,44

6,28

6,1

5,71

5,81

2,44

9,58

9,69

9,71

9,82

5,62

similar60

3,95

3,84

4,5

4,6

4,95

4,31

4,52

4,42

4,44

4,95

4,47

4,58

4,5

4,29

5,01

10,76

10,74

10,75

11,05

11,03

14,92

15,03

14,96

14,96

11,13

similar70

2,27

2,25

3,2

3,3

4,12

2,61

2,79

3,12

2,92

4,12

2,79

2,79

3,2

34,17

8,48

8,29

8,82

8,85

7,58

13,37

13,48

13,4

13,4

9,38

similar80

1,34

1,24

1,9

23,04

1,51

1,59

1,83

23,04

1,69

1,59

1,9

1,9

3,2

6,56

6,38

6,24

6,27

4,26

10,33

10,44

10,56

10,67

7,54

SIRikt2009

enakost

2,03

2,13

2,56

2,56

2,21

2,76

2,51

2,76

2,69

3,01

2,68

2,61

2,68

2,68

2,84

5,97

6,01

6,25

6,11

0,8

8,4

8,3

8,39

8,39

1,94

4-re

zanje

2,38

2,37

2,98

2,9

2,82

32,75

3,09

2,93

3,41

3,1

3,02

3,01

3,01

3,23

8,09

8,2

8,7

8,39

2,6

12,88

12,7

12,69

12,69

65-re

zanje

2,18

2,28

2,71

2,71

2,6

2,91

2,66

2,91

2,84

3,3

2,91

2,84

2,82

2,82

3,13

7,55

7,66

7,99

7,77

2,52

12,34

12,16

12,15

12,15

5,05

6-re

zanje

2,11

2,21

2,64

2,64

2,31

2,84

2,59

2,84

2,77

3,01

2,84

2,77

2,76

2,76

2,84

7,35

7,38

7,71

7,48

2,14

11,56

11,38

11,47

11,47

4,41

soundex

2,5

2,41

3,01

3,01

3,41

3,01

2,69

3,1

2,94

3,41

3,03

2,87

3,02

2,92

3,24

8,26

8,27

8,89

8,59

2,68

12,71

12,61

12,61

12,61

5,66

metaphone

2,32

2,23

2,83

2,83

3,47

2,83

2,51

2,92

2,76

3,47

2,77

2,61

2,84

2,75

3,3

6,85

6,86

7,29

7,07

1,65

11,59

11,5

11,49

11,49

4,8

similar60

6,3

5,99

7,13

7,13

5,9

7,24

6,58

7,15

6,9

6,04

7,32

7,23

7,22

7,13

5,86

12,11

12,29

12,58

12,11

9,85

18,34

18,16

18,33

18,3

9,85

similar70

3,91

3,62

4,42

4,51

4,95

4,42

3,93

4,51

4,35

4,95

4,44

4,45

4,51

4,51

4,77

10,42

10,35

10,87

10,3

7,26

15,84

15,75

15,75

15,75

8,12

similar80

3,28

2,98

3,79

3,88

4,27

3,79

3,28

3,79

3,72

4,27

3,7

3,63

3,7

3,7

4,09

8,36

8,47

8,97

8,48

3,83

13,21

13,12

13,11

13,11

6,5

SIRikt2010

enakost

1,56

1,56

2,44

2,44

2,59

1,69

1,62

2,44

2,44

3,22

1,69

1,62

2,53

2,53

3,58

7,07

6,85

7,28

6,9

2,24

9,44

9,3

9,91

9,48

2,81

4-re

zanje

2,23

2,23

3,18

3,18

3,03

2,36

2,16

3,18

3,07

3,35

2,36

2,29

3,16

3,16

3,71

10,03

9,46

10,47

9,88

3,91

13,68

13,43

13,81

13,16

7,42

5-re

zanje

2,23

2,23

3,18

3,18

2,93

2,36

2,16

3,18

3,07

3,35

2,36

2,29

3,16

3,16

3,71

9,37

8,93

9,68

9,22

3,76

13,04

12,9

13,29

12,77

6,91

6-re

zanje

1,93

1,93

3,01

3,01

2,72

2,06

1,86

3,01

2,9

3,35

2,06

1,98

2,99

2,99

3,71

8,56

8,26

9,01

8,55

3,16

11,62

11,48

12,14

11,61

5,76

soundex

2,29

2,41

3,24

3,24

3,5

2,54

2,22

3,24

3,13

3,35

2,54

2,46

3,22

3,22

3,71

10,54

9,97

10,73

10,14

4,29

13,79

13,65

14,05

13,52

7,56

metaphone

1,67

1,67

2,44

2,44

3,37

1,8

1,72

2,44

2,44

3,22

1,8

1,72

2,53

2,53

3,58

8,85

8,42

8,92

8,32

3,82

12,1

11,97

12,52

11,99

5,84

similar60

5,65

6,04

6,87

7,01

5,23

6,17

5,58

6,87

6,76

5,08

6,17

6,09

6,72

6,85

5,21

13,75

13,27

14,55

14,05

13,82

18,76

18,65

19,51

19,01

12,27

similar70

2,97

2,97

4,3

4,3

3,99

3,1

2,77

4,3

4,19

4,05

3,1

3,02

4,14

4,14

4,19

11,47

10,99

12,23

11,61

10,08

17,03

17,05

17,39

17,02

10,14

similar80

2,26

2,26

3,27

3,27

3,83

2,39

2,32

3,27

3,16

3,67

2,39

2,32

3,12

3,12

4,03

10,43

10,08

10,67

10,18

6,5

14,36

14,34

14,62

14,21

8,52

SIRikt2011

enakost

2,32

2,59

2,52

2,52

2,49

2,58

2,46

2,45

2,45

2,86

2,72

2,59

2,64

2,57

2,92

5,04

5,24

5,35

5,27

0,89

7,82

7,64

7,88

7,77

2,83

4-re

zanje

2,9

3,24

3,31

3,31

3,39

3,23

3,17

3,17

3,24

3,66

3,37

3,24

3,36

3,3

3,65

6,98

7,37

7,72

7,77

2,7

12,36

12,32

12,83

12,78

6,84

5-re

zanje

2,77

3,1

3,18

3,18

3,03

3,1

2,97

3,04

3,04

3,4

3,23

3,11

3,23

3,17

3,46

6,91

7,31

7,59

7,64

2,45

11,85

11,81

12,38

12,33

6,49

6-re

zanje

2,64

2,98

2,91

2,98

2,86

2,97

2,85

2,84

2,84

3,23

3,1

2,98

2,97

2,9

3,29

6,34

6,67

7,1

7,02

2,3

11,08

11,04

11,46

11,42

5,78

soundex

3,16

3,49

3,43

3,48

4,01

3,56

3,44

3,43

3,48

3,84

3,69

3,57

3,56

3,55

3,9

7,35

7,69

8,34

8,15

2,73

12,63

12,59

13,16

13,12

7,16

metaphone

2,51

2,78

2,72

2,72

3,58

2,85

2,72

2,72

2,72

3,42

2,98

2,86

2,91

2,84

3,48

6,33

6,66

7,31

7,05

1,98

11,13

11,03

11,46

11,35

5,9

similar60

5,5

6,14

7,01

6,94

5,74

6,15

6,21

7,01

7,01

5,58

6,28

6,28

7,14

7,03

5,5

10,04

10,75

12,04

11,77

9,86

17,09

16,85

17,09

17,04

11,45

similar70

3,88

4,09

4,35

4,35

4,53

4,15

4,09

4,35

4,35

4,54

4,29

4,16

4,54

4,48

4,52

8,2

8,8

9,82

9,6

6,43

14,67

14,62

15,14

15,03

9,17

similar80

2,97

3,24

3,37

3,37

3,63

3,31

3,18

3,37

3,37

3,46

3,44

3,31

3,49

3,43

3,4

6,75

7,21

7,63

7,55

3,81

12,88

12,9

13,28

13,23

7

Tabela

D.4:Statistika

u£inkovitostiekstrakcije15

klju£nihbesed

izdodatnega

vzorcagradiv,

pokonferenci,

kriterijuujem

anja,na£inu

pripravetekstovne

datotekevira,

zavsa

orodja

Page 204: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Dodatek E

Rezultati eksperimenta 2

179

Page 205: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

180 Poglavje E: Rezultati eksperimenta 2

prevodiklju£nih

besed

KeaPE

YahooPE

SAmgIYPE

SAmgIPE

TextR

ankPE

KeaEP

YahooEP

SAmgIYEP

SAmgIEP

TextR

ankEP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

app/msw

ord

enakost

35,6334,47

38,62

8,08

8,19

6,36

1,05

1,27

2,14

1,22

1,35

1,221,22

1,35

1,22

3,28

3,94

2,98

6,91

7,43

6,84

2,05

2,02

1,24

0,780,660,76

0,7

0,51

0,6

0,51

0,79

0,48

5-re

zanje

40,2236,69

42,21

10,8

10,85

8,85

2,03

2,71

3,46

1,96

2,42

1,961,96

2,42

1,96

4,86

5,15

4,32

9,67

9,06

7,51

2,6

2,89

1,73

0,78

0,9

10,7

0,580,68

0,77

1,02

0,48

soundex

39,6236,66

41,9

10,1910,58

8,57

1,9

2,64

3,44

1,83

2,37

1,831,83

2,37

1,83

4,44

5,13

4,17

9,73

8,96

7,93

2,43

2,83

2,04

0,940,981,080,850,660,76

0,77

0,88

0,48

metaphone38,65

35,8

39,79

8,38

8,61

6,48

1,29

1,77

2,6

1,22

1,49

1,221,22

1,49

1,22

3,35

4,01

3,19

8,08

7,79

8,2

2,19

2,18

1,57

1,561,441,541,481,291,38

0,68

0,79

0,64

similar70

44,0841,83

43,93

11,7

11,97

9,66

4,77

5,23

5,69

4,73

4,96

4,734,72

4,96

4,72

6,29

6,47

5,93

10,9911,6911,02

2,75

3,36

2,31

0,860,981,230,780,831,07

1,42

1,72

1,5

app/octet-stre

am

enakost

34,6733,94

40,48

9,09

8,12

8,16

1,39

1,3

1,6

1,39

1,3

1,391,39

1,3

1,39

2,72

2,43

5,72

4,62

4,67

6,01

1,85

1,45

1,29

0,580,56

0,4

0,580,54

0,2

0,49

0,29

0,67

5-re

zanje

40,0235,11

42,59

11,7510,6510,86

2,45

2,02

3,18

2,45

2,02

2,452,45

2,02

2,45

3,76

3,71

6,45

7,08

6,57

6,49

2,39

2,06

1,72

0,920,74

0,4

0,920,72

0,2

0,49

0,29

0,67

soundex

41,45

36,1

44,21

11,3310,3110,74

2,47

2,04

3,18

2,47

2,04

2,472,47

2,04

2,47

3,96

3,15

6,28

7,09

5,77

6,77

2,59

2,19

1,87

0,740,56

0,4

0,740,54

0,2

0,49

0,29

0,67

metaphone37,9835,38

42,76

9,85

9,06

8,92

1,53

1,62

2,38

1,53

1,62

1,531,53

1,62

1,53

3,28

2,81

6,1

5,77

4,67

7,1

2,41

1,99

1,67

0,580,56

0,4

0,580,54

0,2

0,49

0,29

0,67

similar70

42,4740,94

44,62

13,7812,3412,21

5,96

3,42

4,53

5,32

3,42

5,325,32

3,42

5,32

5,51

4,98

8,84

7,75

9,3

9,94

2,77

2,4

2,26

1,121,080,950,920,880,36

0,9

0,66

1,27

app/pdf

enakost

40,7336,67

46,69

6,75

6,07

6,19

1,16

1,07

1,26

1,16

1,15

1,161,16

1,15

1,16

1,4

2,08

1,81

4,87

4,7

7,26

2,19

1,53

1,31

2,061,531,731,981,311,58

0,36

0,2

0,2

5-re

zanje

45,6538,92

49,27

9,86

8,38

8,71

1,39

1,52

2,08

1,39

1,6

1,391,39

1,6

1,39

2,69

2,58

2,9

8,24

5,11

7,38

2,53

1,92

1,52

2,4

1,921,872,381,781,78

0,49

0,27

0,25

soundex

45

38,46

49,52

9,34

8,04

8,44

1,51

1,77

1,94

1,46

1,62

1,461,46

1,62

1,46

2,95

2,87

3,01

8,25

5,11

7,55

2,46

2,02

2,03

2,321,782,012,24

1,7

1,86

0,83

0,6

0,59

metaphone44,2137,86

48,08

6,9

6,22

6,47

1,58

1,86

1,73

1,52

1,71

1,521,52

1,71

1,52

1,87

2,44

2,53

5,78

4,7

8,02

2,49

1,77

1,89

3,342,753,033,272,532,88

0,63

0,48

0,76

similar70

48,8946,38

51,65

10,71

9,09

9,99

5,41

4,46

4,59

5,5

4,54

5,5

5,51

4,61

5,51

3,99

4,2

4,66

8,97

9,81

10,12

3,37

3,24

2,7

3,173,17

3,1

3,153,093,02

1,31

0,91

1,11

app/vnd.m

s-excel

enakost

20,8332,28

45,5

08,33

4,17

8,33

8,33

16,2

8,33

8,33

8,338,33

8,33

8,33

3,7

4,17

012,0420,3719,91

00

00

00

00

08,33

12,04

8,33

5-re

zanje

25

32,28

45,5

16,2

16,2

12,04

12,5

12,5

16,2

12,5

12,5

12,5

12,5

12,5

12,5

9,26

8,33

12,5

12,0420,3719,91

00

00

00

00

012,0412,04

8,33

soundex

25

32,28

45,5

16,2

16,2

12,04

8,33

8,33

16,2

8,33

8,33

8,338,33

8,33

8,33

9,26

8,33

12,5

12,0420,3719,91

00

00

00

00

012,0412,04

8,33

metaphone20,8332,28

45,5

08,33

4,17

8,33

8,33

16,2

8,33

8,33

8,338,33

8,33

8,33

3,7

4,17

012,0420,3719,91

00

00

00

00

012,0412,0412,04

similar70

25

35,98

45,5

16,2

16,2

12,04

12,5

12,5

16,2

12,5

12,5

12,5

12,5

12,5

12,5

13,43

12,5

20,83

12,0419,9119,91

00

00

00

00

015,7415,7415,74

app/vnd.m

s-powerpoint

enakost

41,7145,34

45,52

9,3

10,69

7,94

1,94

2,78

2,14

2,2

1,9

2,2

2,49

2,19

2,49

4,55

5,7

5,54

12,8915,1714,35

3,48

1,4

2,04

0,580,29

00,580,95

03,1

1,75

1,98

5-re

zanje

45,8547,54

47,74

13,6

15,8810,73

2,23

2,78

2,67

2,49

1,9

2,492,79

2,19

2,79

7,16

8,02

8,6

17,6

17,9315,75

4,24

2,17

2,8

0,580,29

00,580,95

04,16

2,8

2,25

soundex

45,8547,91

47,83

12,7814,4710,71

2,23

2,78

2,96

2,49

2,19

2,492,79

2,49

2,79

5,69

6,82

6,88

16,3916,72

15,2

4,54

2,17

2,87

0,580,290,330,580,95

04,16

2,8

2,25

metaphone43,1445,72

45,52

9,3

11,22

7,94

1,94

2,78

2,14

2,2

2,19

2,2

2,49

2,49

2,49

4,55

5,7

5,54

13,9615,1716,29

3,48

1,67

2,7

0,580,290,330,580,95

03,1

1,75

1,98

similar70

49,01

51,6

50,75

14,45

17,2

12,2

5,87

5,01

66,43

3,87

6,436,72

4,16

6,72

7,13

9,25

10,57

16,9518,49

19,2

4,51

2,72

3,07

0,580,290,620,580,950,29

4,16

2,8

3,66

app/vnd.oasis.o

pendoc.pres

enakost

58,3350,79

50,79

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

70,83

61,9

61,9

11,1111,1111,11

00

00

00

00

00

11,1111,11

11,1111,1111,11

00

00

00

00

00

00

soundex

58,3350,79

50,79

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone58,3350,79

50,79

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

70,83

61,9

61,9

11,1111,1111,11

00

00

00

00

00

11,1111,11

11,1111,1111,11

12,5

12,5

00

00

00

00

00

app/x-zip

-compresse

d

enakost

25,4131,53

44,66

14,2912,02

11,4

02,27

00

2,27

00

2,27

04,09

8,18

11,57

6,2

7,85

9,67

2,02

2,02

02,022,022,022,022,022,02

1,82

01,82

5-re

zanje

27,0731,53

47,25

18,2213,67

11,4

02,27

00

2,27

00

2,27

05,74

9,83

13,22

7,85

7,85

9,67

2,02

2,02

02,022,022,022,022,022,02

3,47

1,65

1,82

soundex

29,3431,53

47,25

18,2213,67

11,4

02,27

2,02

02,27

02,02

4,29

2,02

5,74

9,83

13,22

9,5

9,5

9,67

2,02

2,02

2,02

2,022,022,022,022,022,02

3,47

1,65

1,82

metaphone27,6931,53

44,66

14,2912,02

11,4

02,27

2,02

02,27

02,02

4,29

2,02

4,09

8,18

11,57

6,2

7,85

9,67

2,02

2,02

2,02

2,022,022,022,022,022,02

1,82

01,82

similar70

31,1638,54

47,25

20,4913,6713,67

04,55

4,09

04,55

00

4,55

08,02

12,1113,22

7,85

10,12

9,67

2,02

2,02

2,02

2,022,022,022,022,022,02

3,47

1,65

3,47

app/zip

enakost

56,2550,79

49,21

5,56

5,56

5,56

00

00

00

00

05,56

5,56

11,81

5,56

12,5

11,81

00

00

00

00

00

00

5-re

zanje

64,5850,79

49,21

11,1111,1111,11

10

8,33

10

08,33

00

8,33

05,56

5,56

11,81

17,36

12,5

17,36

010

00

00

00

00

00

soundex

64,5850,79

49,21

5,56

5,56

5,56

00

00

00

00

05,56

5,56

17,36

11,81

12,5

11,81

00

00

00

00

00

00

metaphone56,2550,79

49,21

5,56

5,56

5,56

00

00

00

00

05,56

5,56

17,36

5,56

12,5

11,81

00

00

00

00

00

00

similar70

64,5856,35

54,76

5,56

11,11

5,56

16,2514,5815,566,2514,586,256,2514,586,25

5,56

5,56

11,81

18,06

12,5

18,06

010

00

00

00

00

00

imsccv1p0

enakost

58,0860,61

59,36

2,31

2,49

0,36

00

0,36

00

00

00

3,48

2,77

3,12

6,17

6,44

6,78

00

00

00

00

00,4

0,4

0,4

5-re

zanje

59,1762,22

61,18

5,93

6,47

0,36

00

0,36

00

00

00

6,16

6,62

6,98

7,34

7,3

7,18

00

00

00

00

00,77

0,77

0,77

soundex

58,8161,86

60,81

5,93

5,75

0,36

00

0,36

00

00

00

5,43

5,89

6,25

7,34

7,3

7,18

00

00

00

00

01,49

0,77

0,77

metaphone59,2560,97

59,72

2,31

2,9

0,36

00

0,36

00

00

00

3,48

3,17

3,12

6,94

6,44

7,51

00

00

00

00

00,4

0,4

0,4

similar70

61,5365,49

63,12

6,33

6,47

0,36

1,17

0,4

1,91

1,17

0,4

1,171,17

0,4

1,17

6,16

6,62

7,34

8,53

9,3

9,55

0,86

0,4

00,4

0,4

0,4

0,86

0,4

0,4

1,22

0,77

1,17

scorm

v1p2

enakost

58,3261,45

58,55

2,67

2,79

00

00

00

00

00

3,15

1,79

2,38

2,91

2,91

2,91

00

00

00

00

00

00

5-re

zanje

59,27

62,4

60,45

4,85

3,92

00

00

00

00

00

5,99

3,39

3,45

3,92

3,92

3,92

00

00

00

00

00

00

soundex

59,27

62,4

60,45

4,85

3,92

00

00

00

00

00

5,99

3,39

3,45

3,92

3,92

3,92

00

00

00

00

00

00

metaphone58,3261,45

58,55

2,67

2,79

00

00

00

00

00

3,15

1,79

2,38

2,91

2,91

2,91

00

00

00

00

00

00

similar70

61,1865,26

63,95

4,85

5,34

00

1,19

00

00

00

06,47

3,86

4,4

4,03

5,11

5,11

1,79

00

00

00

00

00,48

0,48

scorm

v2004

enakost

56,6

58,7

60,91

7,15

14,49

00,83

0,83

0,83

0,83

0,83

0,830,83

0,83

0,8312,71

9,84

13,45

13,5615,1418,96

4,44

5,28

3,61

3,523,521,853,523,521,85

0,93

0,93

0,93

5-re

zanje

57,4360,73

61,75

12,5519,88

1,67

1,76

1,76

3,61

1,76

1,76

1,761,76

1,76

1,7618,5415,1418,75

17,2

17,0119,79

4,44

5,28

3,61

3,523,521,853,523,521,85

1,76

1,76

1,76

soundex

56,6

59,89

60,91

12,5519,88

1,67

1,76

1,76

3,61

1,76

1,76

1,761,76

1,76

1,7618,5415,1418,75

18,0317,0119,79

4,44

5,28

4,44

3,523,521,853,523,521,85

1,76

1,76

1,76

metaphone59,2859,54

61,75

7,15

15,42

00,83

0,83

0,83

0,83

0,83

0,830,83

0,83

0,8312,7110,7613,45

14,4

15,1419,79

4,44

5,28

3,61

3,523,521,853,523,521,85

0,93

0,93

0,93

similar70

61,9965,73

62,58

13,3820,72

1,67

8,38

7,34

7,25

7,55

4,44

7,557,55

4,44

7,5516,8715,1419,58

18,0318,6821,46

5,37

7,04

5,49

4,444,444,654,444,444,65

2,8

1,76

2,69

text/htm

l

enakost

42,1419,17

13,45

4,13

3,54

2,35

3,36

3,08

2,58

3,39

3,26

3,393,39

3,3

3,39

2,77

2,11

1,76

4,11

3,73

3,5

0,85

0,62

0,61

0,450,350,370,450,350,37

0,48

0,43

0,43

5-re

zanje

44,1720,15

15,03

5,07

4,4

3,05

3,96

3,71

2,99

3,94

3,85

3,943,95

3,89

3,95

3,25

2,79

2,3

4,88

3,97

3,84

0,99

0,68

0,66

0,520,390,390,520,390,39

0,59

0,53

0,5

soundex

44,0319,96

14,67

4,88

4,28

2,96

3,91

3,67

2,95

3,91

3,82

3,913,91

3,85

3,91

3,05

2,69

2,14

4,9

4,03

3,89

0,97

0,7

0,77

0,520,390,390,520,390,39

0,54

0,52

0,48

metaphone44,0637,08

14,01

4,2

3,66

2,44

3,46

3,21

2,64

3,47

3,34

3,473,47

3,35

3,47

2,81

2,16

1,77

4,49

3,85

3,93

0,86

0,64

0,74

0,450,350,370,450,350,37

0,64

0,49

0,47

similar70

48,4626,11

17,69

6,89

5,93

4,28

7,28

5,78

4,49

7,29

6,05

7,29

7,3

6,09

7,3

5,54

4,46

3,82

6,31

6,55

5,64

1,42

1,47

1,06

0,740,79

0,7

0,740,77

0,7

1,9

1,3

1,47

text/xml

enakost

75

55,56

33,33

22,22

00

00

00

00

00

00

00

00

011,1111,1111,11

00

00

00

11,11

00

5-re

zanje

75

55,56

33,33

22,22

011,11

00

00

00

00

00

011,11

00

011,1111,1111,11

00

00

00

11,11

011,11

soundex

75

55,56

33,33

22,22

00

00

00

00

00

00

00

00

011,1111,1111,11

00

00

00

11,11

00

metaphone

75

55,56

33,33

22,22

00

00

00

00

00

00

00

00

011,1111,1111,11

00

00

00

11,11

00

similar70

75

66,67

55,56

22,22

00

00

00

00

00

00

00

00

011,1111,1111,11

00

00

00

11,11

00

Tabela

E.1:U£inkovitost

ekstrakcije5klju£nih

besedizprevodov

klju£nihbesed

inekstrakcij

klju£nihbesed

izprevodov

vsebin

Page 206: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

181

prevodiklju£nih

besed

Kea

Yahoo

SAmgI Y

SAmgI

TextR

ank

Kea

Yahoo

SAmgI Y

SAmgI

TextR

ank

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

app/msw

ord

enakost

35,5833,96

38,02

6,49

7,11

5,75

1,68

1,69

2,39

1,99

2,03

1,99

1,99

2,03

1,99

3,59

4,27

3,59

6,46

5,36

5,95

1,992,081,450,660,640,730,680,530,67

0,48

0,66

0,4

5-rezanje

40,1836,14

41,56

8,67

9,27

7,58

3,15

3,55

4,07

3,08

3,34

3,08

3,03

3,38

3,03

5,09

5,66

4,77

86,73

6,71

2,46

2,9

1,940,660,81

0,9

0,78

0,7

0,85

0,77

0,76

0,49

soundex

39,59

36,1

41,26

8,32

9,19

7,52

2,91

3,46

4,14

2,84

3,18

2,84

2,8

3,23

2,8

4,62

5,65

4,66

8,26

6,76

7,04

2,452,892,170,810,890,980,930,780,93

0,77

0,66

0,49

metaphone38,6235,28

39,2

6,82

7,53

5,88

2,15

2,44

2,95

2,03

2,17

2,03

2,03

2,17

2,03

3,64

4,4

3,87

6,96

5,58

6,34

2,1

2,291,751,441,421,521,461,311,45

0,67

0,66

0,55

similar70

44,0441,16

43,24

9,52

10,31

8,18

5,51

5,49

5,77

5,41

5,27

5,41

5,36

5,32

5,36

6,45

6,87

6,22

9,34

9,17

9,34

2,713,292,420,760,861,080,880,911,14

1,36

1,63

1,53

app/octet-stream

enakost

34,5333,31

39,74

7,4

6,54

6,79

1,86

2,22

2,11

1,98

2,48

1,98

1,85

2,46

1,85

3,29

3,74

4,61

4,46

4,56

4,68

1,691,241,120,650,640,390,550,510,27

0,45

0,2

0,44

5-rezanje

39,82

34,4

41,73

9,48

9,22

9,08

3,44

2,97

3,4

3,44

3,23

3,44

3,31

3,2

3,31

4,55

4,78

5,45

6,83

6,24

5,45

2,221,771,510,890,780,390,870,620,27

0,45

0,2

0,44

soundex

41,2835,43

43,41

9,05

8,78

9,02

3,28

3,31

3,4

3,28

3,44

3,28

3,16

3,42

3,16

4,56

4,43

5,31

6,44

5,48

5,61

2,362,071,930,760,640,390,650,510,27

0,56

0,2

0,44

metaphone37,8434,74

42,02

7,88

7,38

7,39

2,19

2,45

2,77

2,19

2,58

2,19

2,07

2,56

2,07

3,89

4,2

4,98

5,51

4,8

5,75

2,271,841,460,650,640,390,550,510,27

0,56

0,2

0,44

similar70

42,2840,12

43,75

11,0110,5210,76

6,69

4,14

4,74

6,04

4,15

6,04

5,92

4,13

5,92

86,06

7,89

8,37

9,09

9,7

2,7

2,341,981,14

10,860,990,730,62

1,29

0,56

1,39

app/pdf

enakost

40,6736,03

45,85

5,58

5,39

5,41

1,61

2,03

1,64

1,61

2,03

1,61

1,61

2,03

1,61

1,95

2,29

1,83

54,14

5,5

1,881,491,351,841,541,62

1,9

1,461,63

0,33

0,13

0,17

5-rezanje

45,6

38,2

48,34

8,35

7,58

7,53

2,16

3,11

2,83

2,16

3,11

2,16

2,16

3,11

2,16

3,3

3,15

2,96

7,02

5,08

6,1

2,221,881,572,141,881,842,241,861,84

0,5

0,21

0,21

soundex

44,9437,74

48,61

8,09

7,41

7,32

2,12

3,23

2,56

2,07

3,01

2,07

2,07

3,01

2,07

3,38

3,39

3,14

7,06

56,02

2,222,072,072,131,832,01

2,2

1,852,02

0,86

0,61

0,61

metaphone44,1537,17

47,18

5,71

5,53

5,63

2,08

2,91

2,23

2,03

2,69

2,03

2,03

2,69

2,03

2,36

2,66

2,61

5,4

4,54

5,8

2,211,781,86

3,1

2,762,943,172,68

2,9

0,77

0,58

0,89

similar70

48,8345,51

50,71

9,53

8,94

8,93

5,85

5,63

4,53

6,03

5,63

6,03

6,04

5,63

6,04

4,46

4,76

4,63

7,91

8,37

8,38

2,932,892,522,772,772,772,882,832,79

1,38

1,17

1,07

app/vnd.m

s-excel

enakost

20,8332,28

45,5

05,13

2,56

6,27

6,73

13,56

6,27

9,76

6,27

6,27

9,76

6,27

5,9

5,9

2,78

12,64

15,2

12,45

00

00

00

00

07,5

11,2

7,5

5-rezanje

25

32,28

45,5

10,0710,07

7,51

17,8813,4713,5617,8813,4717,8817,8813,4717,8811,4510,0613,21

12,6417,7712,45

00

00

00

00

011,2

13,77

7,5

soundex

25

32,28

45,5

10,0710,07

7,51

14,17

9,76

13,5614,17

9,76

14,1714,17

9,76

14,1711,4510,0613,21

12,6417,7712,45

00

00

00

00

011,2

13,77

7,5

metaphone20,8332,28

45,5

05,13

2,56

6,27

9,76

13,56

6,27

9,76

6,27

6,27

9,76

6,27

5,9

5,9

2,78

12,64

15,2

12,45

00

00

00

00

011,2

11,2

11,2

similar70

25

35,98

45,5

12,6410,0715,0217,8813,4713,5617,8813,4717,8817,8813,4717,8814,0212,6321,12

12,6419,9615,02

00

00

00

00

014,9117,4720,04

app/vnd.m

s-powerpoint

enakost

41,4343,73

43,82

8,19

10,67

6,78

1,74

2,71

2,7

1,55

1,56

1,55

2,03

1,86

2,03

4,84

5,08

5,08

10,6611,2511,474,152,442,631,330,770,771,741,831,17

2,18

1,29

1,29

5-rezanje

45,5745,82

45,95

11,1414,01

8,96

2,62

3,4

3,99

2,43

2,08

2,43

2,91

2,37

2,91

6,88

7,71

8,65

16,5314,1512,365,023,133,321,510,940,941,912,011,35

3,62

3,33

2,63

soundex

45,5746,19

46,03

10,6112,89

8,94

2,45

3,23

3,6

2,27

2,1

2,27

2,75

2,39

2,75

6,1

6,97

6,78

15,4

13,3912,74

5,2

3,313,521,510,941,271,912,011,35

2,88

2,59

2,07

metaphone42,86

44,1

43,82

8,37

11,02

6,96

1,74

2,71

2,87

1,55

1,75

1,55

2,03

2,04

2,03

4,84

5,08

5,26

11,9311,2511,654,152,793,291,330,94

1,1

1,742,011,17

2,18

1,29

1,29

similar70

48,7449,72

48,82

12,2216,0210,44

6,11

6,86

6,35

6,11

4,64

6,11

6,59

4,93

6,59

7,01

8,86

10,08

17,8616,5415,835,935,154,421,88

1,7

1,842,292,761,91

3,26

2,97

2,98

app/vnd.oasis.opendoc.pres

enakost

58,3350,79

50,79

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

5-rezanje

70,83

61,9

61,9

7,14

7,14

7,14

00

00

00

00

00

7,14

7,14

7,14

7,14

7,14

00

00

00

00

00

00

soundex

58,3350,79

50,79

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

metaphone58,3350,79

50,79

00

00

00

00

00

00

00

00

00

00

00

00

00

00

00

similar70

70,83

61,9

61,9

7,14

7,14

7,14

00

00

00

00

00

7,14

7,14

7,14

7,14

7,14

7,697,69

00

00

00

00

00

app/x-zip-compressed

enakost

25

29,92

42,23

9,13

10,34

9,89

01,4

00

1,4

00

1,4

03,82

6,43

8,76

4,97

3,67

6,28

1,3

1,3

01,3

1,3

1,3

3,912,513,91

1,21

01,21

5-rezanje

26,5229,92

44,83

11,6711,48

8,68

01,4

00

1,4

00

1,4

04,96

7,57

9,89

7,5

4,81

7,42

1,3

1,3

01,3

1,3

1,3

3,912,513,91

2,35

1,14

1,21

soundex

28,7929,92

44,83

11,6711,48

9,89

01,4

2,6

01,4

01,4

2,7

1,4

4,96

7,57

9,89

9,93

7,16

8,63

2,512,51

1,3

2,512,51

1,3

3,912,513,91

2,35

1,14

1,21

metaphone27,2729,92

42,23

9,13

10,34

9,89

01,4

2,6

01,4

01,4

2,7

1,4

3,82

6,43

8,76

6,37

3,67

6,28

1,3

1,3

1,3

1,3

1,3

1,3

3,912,513,91

1,21

01,21

similar70

30,6136,77

44,83

15,6

11,4810,08

04,2

5,12

04,2

00

4,2

09,16

10,37

9,89

10,12

8,55

8,63

2,512,51

1,3

2,512,51

1,3

3,912,513,91

2,35

1,14

2,35

app/zip

enakost

56,2550,79

49,21

7,14

7,14

7,14

00

00

00

00

07,14

7,14

8,57

3,57

3,85

3,57

00

00

00

00

00

00

5-rezanje

64,5850,79

49,21

10,7110,7110,71

10

8,33

10

08,33

00

8,33

012,14

7,14

8,57

7,14

3,85

7,14

010

00

00

00

00

00

soundex

64,5850,79

49,21

7,14

7,14

7,14

00

00

00

00

012,14

7,14

12,14

7,14

7,42

7,14

00

00

00

00

00

00

metaphone56,2550,79

49,21

7,14

7,14

7,14

00

00

00

00

07,14

7,14

12,14

3,57

3,85

3,57

00

00

00

00

00

00

similar70

64,5856,35

54,76

7,14

10,71

7,14

13,8512,1813,57

8,01

12,18

8,01

8,01

12,18

8,01

12,1411,69

8,57

10,99

7,42

10,99

010

00

00

00

00

00

imsccv1p0

enakost

58,1958,17

56,84

3,02

2,81

0,24

0,24

0,52

0,91

0,24

0,52

0,24

0,24

0,52

0,24

32,03

2,29

3,58

5,49

4,78

0,18

00,180,18

00,18

00

0,18

0,52

0,76

0,76

5-rezanje

59,2859,68

58,49

5,86

6,15

0,24

0,48

0,76

1,41

0,48

0,76

0,48

0,48

0,76

0,48

5,25

5,29

5,79

56,47

6,01

0,18

00,180,18

00,18

00

0,18

0,76

11

soundex

58,9259,35

58,16

5,86

5,66

0,24

0,48

0,76

1,59

0,48

0,76

0,48

0,48

0,76

0,48

5,05

4,8

5,31

5,53

6,75

6,01

0,18

00,180,18

00,18

00

0,18

1,25

11

metaphone59,36

58,5

57,17

3,02

3,07

0,24

0,24

0,52

1,09

0,24

0,52

0,24

0,24

0,52

0,24

3,28

2,29

2,29

4,02

5,49

5,23

0,18

00,180,18

00,18

00

0,18

0,52

0,76

0,76

similar70

61,6462,66

60,37

6,37

6,65

0,24

2,01

2,55

2,18

2,25

2,03

2,25

2,25

2,03

2,25

6,05

5,79

5,79

6,83

7,74

7,48

1,330,740,180,68

0,5

0,440,91

0,5

0,44

1,04

1,26

1,26

scorm

v1p2

enakost

58,4659,32

56,38

3,05

2,41

00

00

00

00

00

2,68

1,44

1,78

3,75

5,55

4,21

00

00

00

00

00

00

5-rezanje

59,4260,18

58,11

4,44

3,12

00

0,32

00

0,32

00

0,32

05,49

2,8

3,12

5,14

6,99

4,87

00

00

00

00

00

00

soundex

59,4260,18

58,11

4,44

3,12

00

0,32

0,24

00,32

00

0,32

05,17

2,8

3,12

5,14

6,99

4,87

0,95

00

0,63

00

00

00

00

metaphone58,4659,32

56,38

3,05

2,41

00

00,24

00

00

00

2,68

1,44

1,78

4,8

5,55

4,89

0,95

00

0,63

00

00

00

00

similar70

61,3262,75

61,43

4,75

4,07

00,95

1,37

0,95

0,95

00,95

0,95

00,95

6,12

3,44

3,44

5,48

7,3

7,3

2,540,950,950,630,630,630,630,63

00

0,32

0,32

scorm

v2004

enakost

56,6

55,98

58,26

7,51

10,53

1,71

1,11

1,67

1,67

2,78

1,67

2,78

2,78

1,67

2,78

9,89

10,96

10,4

4,73

10,01

9,33

3,494,052,94

2,9

2,9

1,79

2,9

2,9

1,79

1,19

1,71

1,15

5-rezanje

57,4357,92

59,02

12,7115,69

2,82

1,71

2,26

4,05

3,37

2,26

3,37

3,37

2,26

3,37

15,5215,5714,46

7,08

11,6811,083,494,052,94

2,9

2,9

1,79

2,9

2,9

1,79

1,75

2,26

1,71

soundex

56,6

57,17

58,26

12,7115,69

2,82

3,49

2,26

4,05

5,16

2,26

5,16

5,16

2,26

5,16

15,5215,5714,46

8,27

11,7611,723,494,053,49

2,9

2,9

1,79

2,9

2,9

1,79

1,75

2,26

1,71

metaphone59,2856,73

59,02

7,51

11,12

1,71

1,11

1,67

1,67

2,78

1,67

2,78

2,78

1,67

2,78

9,89

11,55

10,4

5,96

10,0110,573,494,052,94

2,9

2,9

1,79

2,9

2,9

1,79

1,19

1,71

1,15

similar70

61,9962,47

59,78

12,7116,25

2,82

6,52

8,19

8,7

7,63

5,8

7,63

7,63

5,8

7,63

15,6116,1615,61

8,91

14,5813,474,09

5,2

4,133,493,493,583,493,493,58

2,39

2,86

2,9

text/htm

l

enakost

42,1218,72

13,21

3,38

2,99

1,95

3,18

2,98

2,47

3,22

3,18

3,22

3,22

3,2

3,22

3,18

2,6

2,26

3,56

2,98

2,72

0,880,540,680,55

0,3

0,480,530,290,47

0,48

0,43

0,4

5-rezanje

44,1519,68

14,75

4,17

3,75

2,52

3,88

3,64

2,86

3,87

3,79

3,87

3,87

3,79

3,87

3,78

3,26

2,8

4,12

3,43

3,21

1,02

0,6

0,730,620,34

0,5

0,6

0,330,49

0,6

0,54

0,48

soundex

44,01

19,5

14,4

4,05

3,66

2,47

3,83

3,58

2,88

3,81

3,73

3,81

3,8

3,73

3,8

3,59

3,17

2,67

4,08

3,45

3,21

10,620,810,620,350,49

0,6

0,340,48

0,55

0,51

0,45

metaphone44,04

36,6

13,74

3,42

3,09

2,01

3,3

3,11

2,58

3,29

3,25

3,29

3,29

3,25

3,29

3,28

2,66

2,32

3,75

3,14

3,02

0,9

0,570,780,550,310,480,53

0,3

0,47

0,63

0,48

0,44

similar70

48,4325,55

17,37

5,52

5,12

3,48

6,71

5,52

4,18

6,73

5,84

6,73

6,73

5,85

6,73

6,04

5,02

4,4

5,81

5,59

4,96

1,441,471,180,830,870,830,810,860,81

2,12

1,49

1,69

text/xml

enakost

75

55,56

33,33

14,29

00

00

00

00

00

00

00

00

09,099,099,09

00

00

00

7,14

00

5-rezanje

75

55,56

33,33

14,29

07,14

7,14

7,14

7,14

7,14

7,14

7,14

7,14

7,14

7,14

00

7,14

00

09,099,099,09

00

00

00

7,14

07,14

soundex

75

55,56

33,33

14,29

00

7,14

7,14

07,14

7,14

7,14

7,14

7,14

7,14

00

00

00

9,099,099,09

00

00

00

7,14

00

metaphone

75

55,56

33,33

14,29

00

00

00

00

00

00

00

00

09,099,099,09

00

00

00

7,14

00

similar70

75

66,67

55,56

14,29

07,14

7,14

00

7,14

07,14

7,14

07,14

00

00

00

9,099,099,09

00

00

00

7,14

00

Tabela

E.2:U£inkovitostekstrakcije

10klju£nih

besedizprevodov

klju£nih

besedin

ekstrakcijklju£nih

besedizprevodov

vsebin

Page 207: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

182 Poglavje E: Rezultati eksperimenta 2

prevodiklju£nih

besed

Kea

Yahoo

SAmgIY

SAmgI

TextR

ank

Kea

Yahoo

SAmgIY

SAmgI

TextR

ank

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

GT

MB

AP

app/msw

ord

enakost

35,5833,96

38,02

5,31

5,91

4,78

1,77

1,75

2,61

2,27

2,17

2,27

2,27

2,17

2,27

3,54

4,56

3,57

6,04

5,1

4,97

1,92

1,89

1,260,610,560,650,640,46

0,6

0,58

0,62

0,33

5-re

zanje

40,1836,14

41,56

7,21

7,65

6,32

3,38

3,84

4,57

3,42

3,56

3,42

3,42

3,56

3,42

5,01

5,83

4,74

7,33

6,12

5,59

2,32

2,59

1,690,61

0,7

0,790,720,680,83

0,87

0,68

0,4

soundex

39,59

36,1

41,26

6,94

7,54

6,28

3,04

3,77

4,65

3,08

3,42

3,08

3,08

3,43

3,08

4,63

5,85

4,58

7,31

6,04

5,79

2,38

2,58

1,9

0,760,780,880,870,760,91

0,9

0,62

0,43

metaphone38,6235,28

39,2

5,61

6,22

4,99

2,3

2,55

3,24

2,3

2,27

2,3

2,3

2,27

2,3

3,64

4,67

3,78

6,35

5,31

5,27

2,05

2,08

1,541,391,341,441,421,241,39

0,83

0,66

0,47

similar70

44,0441,16

43,24

8,08

8,73

6,99

5,48

5,64

6,14

5,41

5,35

5,41

5,39

5,35

5,39

6,43

7,06

6,14

8,7

8,41

8,4

2,56

2,95

2,190,710,750,960,820,791,01

1,46

1,63

1,46

app/octet-stre

am

enakost

34,5333,31

39,74

6,13

5,49

5,93

1,98

2,42

2,61

2,43

2,65

2,43

2,51

2,64

2,51

3,26

3,74

4,43

5,31

4,43

5,89

1,6

1,18

1,060,580,670,420,690,620,33

0,42

0,24

0,42

5-re

zanje

39,82

34,4

41,73

7,83

7,46

7,62

3,33

3,29

4,26

3,63

3,53

3,63

3,71

3,51

3,71

4,53

4,52

5,25

7,08

5,79

6,66

2,2

1,79

1,450,810,810,420,940,710,33

0,42

0,24

0,42

soundex

41,2835,43

43,41

7,6

7,31

7,81

3,53

3,46

4,17

3,61

3,56

3,61

3,7

3,55

3,7

4,42

4,53

5,19

7,04

5,39

6,77

2,31

2,03

1,880,670,670,420,770,620,33

0,53

0,24

0,42

metaphone37,8434,74

42,02

6,48

6,1

6,37

2,61

2,72

3,36

2,61

2,83

2,61

2,69

2,81

2,69

3,75

4,2

4,69

5,92

4,61

6,42

2,24

1,84

1,490,580,670,420,690,620,33

0,53

0,24

0,42

similar70

42,2840,12

43,75

8,96

8,75

9,2

6,75

4,61

5,67

6,19

4,54

6,19

6,27

4,52

6,27

7,8

5,9

6,94

8,37

8,43

9,58

2,68

2,37

1,961,110,990,751,120,890,62

1,35

0,65

1,49

app/pdf

enakost

40,6736,03

45,85

5,13

4,87

4,48

1,94

2,34

1,99

1,91

2,41

1,91

1,97

2,41

1,97

1,88

2,07

1,91

4,23

3,41

5,1

1,61

1,3

1,251,591,341,45

1,6

1,261,42

0,42

0,16

0,2

5-re

zanje

45,6

38,2

48,34

7,39

6,72

6,24

2,7

3,52

3,08

2,7

3,52

2,7

2,77

3,55

2,77

3,21

2,87

3,07

6,01

4,25

5,62

1,95

1,66

1,451,881,661,661,931,641,61

0,62

0,22

0,23

soundex

44,9437,74

48,61

7,14

6,52

6,18

2,67

3,78

2,82

2,62

3,49

2,62

2,68

3,52

2,68

3,33

3,06

3,28

5,86

3,96

5,72

2,01

1,91

1,951,951,661,821,991,681,79

0,96

0,62

0,6

metaphone44,1537,17

47,18

5,26

4,97

4,64

2,48

3,32

2,57

2,42

3,06

2,42

2,47

3,06

2,47

2,3

2,47

2,73

4,42

3,55

5,33

1,93

1,58

1,742,852,572,792,892,492,71

0,85

0,53

0,87

similar70

48,8345,51

50,71

8,39

8,09

7,46

5,76

5,69

4,58

5,89

5,63

5,89

65,66

64,43

4,84

4,7

6,86

7,19

7,21

2,56

2,49

2,242,432,422,492,472,442,44

1,52

1,32

1,3

app/vnd.m

s-excel

enakost

20,8332,28

45,5

1,85

3,7

1,85

6,27

6,73

13,56

6,27

9,76

6,27

6,27

9,76

6,27

7,86

5,9

2,78

7,31

11,0110,92

00

00

00

00

07,5

11,2

7,5

5-re

zanje

25

32,28

45,5

9,16

7,31

5,46

17,8813,4713,5617,8813,4717,8817,8813,4717,8813,4110,06

12,5

11,0111,0110,92

00

00

00

00

011,2

13,06

7,5

soundex

25

32,28

45,5

9,16

7,31

5,46

14,17

9,76

13,5614,17

9,76

14,1714,17

9,76

14,1713,4110,06

12,5

7,31

11,0110,92

00

00

00

00

011,2

13,06

7,5

metaphone20,8332,28

45,5

1,85

3,7

1,85

6,27

9,76

13,56

6,27

9,76

6,27

6,27

9,76

6,27

7,86

5,9

2,78

7,31

11,0110,92

00

00

00

00

011,2

11,2

11,2

similar70

25

35,98

45,5

9,16

7,31

10,9217,8813,4713,5617,8813,4717,8817,8813,4717,8815,9812,6319,46

12,8712,7710,92

00

00

00

00

014,9116,7619,14

app/vnd.m

s-powerpoint

enakost

41,4343,73

43,82

7,43

9,51

5,97

1,49

3,21

3,49

1,65

1,83

1,65

2,06

2,13

2,06

5,04

5,05

4,81

8,86

9,33

9,36

4,04

2,67

2,571,350,840,561,371,510,85

1,62

0,95

0,95

5-re

zanje

45,5745,82

45,95

9,74

12,12

7,85

2,57

44,7

2,6

2,49

2,6

32,65

37,07

7,02

8,01

11,41

11,1

10,414,57

3,07

2,971,490,970,69

1,5

1,640,99

2,74

2,51

1,94

soundex

45,5746,19

46,03

9,63

11,85

7,99

2,43

3,61

4,24

2,45

2,24

2,45

2,86

2,53

2,86

6,42

6,48

6,33

10,46

10,4

10,174,71

3,35

3,111,490,971,02

1,5

1,640,99

2,14

1,92

1,52

metaphone42,86

44,1

43,82

7,56

9,77

6,1

1,63

3,21

3,78

1,78

1,97

1,78

2,19

2,26

2,19

5,04

5,05

4,95

8,99

9,33

9,36

4,04

2,94

3,231,350,970,891,371,640,85

1,62

0,95

0,95

similar70

48,7449,72

48,82

10,55

13,3

8,94

6,53

6,75

7,57

6,54

4,57

6,54

6,95

4,72

6,95

8,44

8,65

9,23

12,2312,5612,464,98

4,52

3,931,491,351,541,782,44

1,5

2,47

2,76

3,01

app/vnd.oasis.o

pendoc.pres

enakost

58,3350,79

50,79

00

05,88

05,56

00

00

00

00

00

00

00

00

00

00

00

00

5-re

zanje

70,83

61,9

61,9

5,26

5,26

5,26

5,88

05,56

00

00

00

05,26

5,26

5,26

5,26

5,26

00

00

00

00

00

00

soundex

58,3350,79

50,79

00

05,88

05,56

00

00

00

00

00

00

00

00

00

00

00

00

metaphone58,3350,79

50,79

00

05,88

05,56

00

00

00

00

00

00

00

00

00

00

00

00

similar70

70,83

61,9

61,9

5,26

5,26

5,26

5,88

05,56

00

00

00

05,26

5,26

5,26

5,26

5,26

5,56

5,56

00

00

00

00

00

app/x-zip

-compresse

d

enakost

25

29,92

42,23

6,71

8,49

7,38

01,97

1,21

01,01

00

1,01

03,84

4,75

6,51

8,31

7,35

10,081,01

1,01

01,011,011,012,881,872,88

1,01

01,01

5-re

zanje

26,5229,92

44,83

8,59

9,36

6,47

1,01

1,97

1,21

1,01

1,01

1,01

01,01

04,7

5,61

7,38

8,31

7,35

10,082,02

2,02

02,022,022,023,892,883,89

1,88

0,87

1,01

soundex

28,7929,92

44,83

8,59

9,36

7,38

1,01

1,97

3,13

1,01

1,01

1,01

1,4

2,08

1,4

4,7

5,61

7,38

10,18

8,26

10,082,93

3,94

2,932,933,943,943,893,89

4,9

1,88

0,87

1,01

metaphone27,2729,92

42,23

6,71

8,49

7,38

01,97

3,13

01,01

01,4

2,08

1,4

3,84

4,75

6,51

9,27

7,35

10,081,01

1,01

1,011,011,011,012,881,872,88

1,01

01,01

similar70

30,6136,77

44,83

11,48

9,36

7,48

1,92

5,02

5,2

1,92

4,07

1,92

0,91

4,07

0,91

7,73

7,63

7,38

9,27

7,35

11,092,93

3,94

3,842,933,943,943,893,89

4,9

1,88

1,73

2,74

app/zip

enakost

56,2550,79

49,21

5,26

5,26

5,26

00

00

00

00

05,26

5,26

7,63

08,19

5,41

00

00

00

00

00

00

5-re

zanje

64,5850,79

49,21

7,89

8,2

7,89

10

8,33

10

08,33

00

8,33

010,26

5,26

7,63

8,04

8,19

8,04

010

00

00

00

00

00

soundex

64,5850,79

49,21

5,26

5,26

5,26

00

00

00

00

010,26

5,26

10,26

5,41

8,19

5,41

2,63

2,63

2,63

00

00

00

00

0metaphone56,2550,79

49,21

5,26

5,26

5,26

00

00

00

00

05,26

5,26

10,26

2,63

8,19

5,41

00

00

00

00

00

00

similar70

64,5856,35

54,76

5,26

8,2

5,26

12,7811,1112,63

6,94

11,11

6,94

6,94

11,11

6,94

10,26

9,81

7,63

8,19

8,19

8,19

2,6312,632,63

00

00

00

00

0

imsccv1p0

enakost

58,19

58,1

56,78

2,98

2,83

0,18

0,55

0,72

1,08

0,55

0,58

0,55

0,55

0,58

0,55

3,37

1,89

1,88

1,56

1,97

1,23

0,15

00,150,15

00,15

00

0,15

0,56

0,76

0,94

5-re

zanje

59,2859,62

58,43

5,08

5,66

0,18

0,93

1,14

1,67

0,93

0,79

0,93

0,93

0,79

0,93

5,43

4,35

5,07

2,3

2,35

1,59

0,15

00,150,15

00,15

00

0,15

0,56

0,94

0,94

soundex

58,9259,29

58,1

5,08

5,44

0,33

0,93

1,14

1,82

0,93

0,79

0,93

0,93

0,79

0,93

5,27

3,97

4,7

2,69

2,73

1,98

0,15

00,150,15

00,15

00

0,15

0,93

0,94

0,94

metaphone59,3658,43

57,11

2,98

3,16

0,33

0,55

0,72

1,23

0,55

0,58

0,55

0,55

0,58

0,55

3,57

2,08

1,88

2,3

1,97

1,6

0,15

00,150,15

00,15

00

0,15

0,56

0,76

0,94

similar70

61,6462,59

60,31

5,63

6,22

0,36

2,05

2,3

2,03

2,23

1,79

2,23

2,47

1,77

2,47

6,37

4,72

5,25

2,9

2,74

2,37

1,1

0,56

0,150,520,370,340,780,370,34

0,77

1,68

1,5

scorm

v1p2

enakost

58,4659,23

56,3

3,2

2,26

00

0,25

0,25

00,25

00

0,25

02,75

1,28

2,06

0,9

1,88

1,45

00

00

00

00

00

0,25

05-re

zanje

59,4260,09

58,03

4,22

3,03

00

0,49

0,25

00,49

00

0,5

04,8

2,31

3,29

1,7

2,68

1,69

00

00

00

00

00

0,25

0soundex

59,4260,09

58,03

4,22

3,22

0,19

00,49

0,44

00,49

00

0,5

04,56

2,31

3,29

1,94

2,91

1,93

0,84

00

0,56

00

00

00

0,25

0metaphone58,4659,23

56,3

3,2

2,45

0,19

00,25

0,44

00,25

00

0,25

02,75

1,28

2,06

0,9

1,88

1,64

0,84

00

0,56

00

00

00

0,25

0sim

ilar70

61,3262,66

61,35

4,7

3,74

00,71

1,26

0,96

0,71

0,25

0,71

0,71

0,25

0,71

5,04

2,79

3,29

2,46

3,19

32,43

0,84

0,840,560,560,560,480,48

00

0,75

0,24

scorm

v2004

enakost

56,6

55,98

58,26

5,99

8,62

1,27

0,83

3,03

1,77

2,11

3,01

2,11

2,13

3,03

2,13

9,45

9,53

8,28

4,34

5,2

4,02

44,42

3,513,123,122,22

3,1

3,1

2,19

1,29

2,13

2,13

5-re

zanje

57,4357,92

59,02

10,27

12,9

2,11

1,27

3,47

3,53

2,54

3,45

2,54

2,57

3,47

2,57

14,1312,9511,72

4,81

5,66

4,02

44,42

3,513,123,122,22

3,1

3,1

2,19

1,29

2,54

2,13

soundex

56,6

57,17

58,26

9,85

12,9

2,11

2,59

3,47

3,53

3,86

3,45

3,86

3,88

3,47

3,88

14,1313,3711,72

6,52

6,54

4,9

44,42

43,123,122,22

3,1

3,1

2,19

1,29

2,54

2,13

metaphone59,2856,73

59,02

5,99

9,06

1,27

0,83

3,03

1,77

2,11

3,01

2,11

2,13

3,03

2,13

9,45

9,97

8,28

4,76

5,2

5,83

44,42

3,513,123,122,22

3,1

3,1

2,19

1,29

2,13

2,13

similar70

61,9962,47

59,78

10,2713,32

2,11

6,5

7,77

6,97

7,35

5,57

7,35

7,38

5,6

7,38

14,1313,3912,99

6,59

6,98

5,36

4,44

5,27

4,563,563,563,673,543,543,72

1,76

3,84

3,86

text/htm

l

enakost

42,1218,72

13,21

2,72

2,47

1,51

3,05

2,74

2,18

3,08

2,95

3,08

3,08

2,96

3,08

3,23

2,65

2,4

3,09

2,41

2,16

0,84

0,52

0,66

0,5

0,280,450,520,290,47

0,45

0,41

0,35

5-re

zanje

44,1519,68

14,75

3,36

3,08

1,97

3,72

3,39

2,59

3,7

3,54

3,7

3,72

3,54

3,72

3,8

3,31

2,87

3,47

2,75

2,46

0,98

0,57

0,7

0,560,320,470,590,330,49

0,59

0,51

0,42

soundex

44,01

19,5

14,4

3,26

3,01

1,92

3,67

3,34

2,63

3,64

3,5

3,64

3,65

3,5

3,65

3,64

3,21

2,78

3,48

2,81

2,51

0,97

0,61

0,790,570,350,46

0,6

0,350,48

0,54

0,5

0,4

metaphone44,04

36,6

13,74

2,75

2,56

1,57

3,17

2,86

2,3

3,16

33,16

3,16

2,99

3,16

3,3

2,69

2,44

3,22

2,56

2,34

0,87

0,56

0,77

0,5

0,3

0,450,520,310,47

0,59

0,46

0,39

similar70

48,4325,55

17,37

4,52

4,28

2,93

6,38

5,13

3,81

6,4

5,45

6,4

6,42

5,46

6,42

6,16

54,46

4,94

4,8

4,26

1,36

1,4

1,110,760,810,750,790,820,77

2,11

1,51

1,61

text/xml

enakost

75

55,56

33,33

10,53

00

5,26

00

5,26

05,26

5,26

05,26

00

5,26

5,26

05,26

9,09

9,09

9,09

00

00

00

5,26

00

5-re

zanje

75

55,56

33,33

10,53

5,26

5,26

5,26

5,56

5,26

5,26

5,56

5,26

5,26

5,56

5,26

00

5,26

5,26

05,26

9,09

9,09

9,09

00

00

00

5,26

05,26

soundex

75

55,56

33,33

10,53

5,26

05,26

5,56

05,26

5,56

5,26

5,26

5,56

5,26

00

5,26

5,26

05,26

9,09

9,09

9,09

00

00

00

5,26

00

metaphone

75

55,56

33,33

10,53

00

5,26

00

5,26

05,26

5,26

05,26

00

5,26

5,26

05,26

9,09

9,09

9,09

00

00

00

5,26

00

similar70

75

66,67

55,56

10,53

5,26

5,26

5,26

00

5,26

05,26

5,26

05,26

00

5,26

5,26

5,26

5,26

9,09

9,09

9,09

00

00

00

5,26

00

Tabela

E.3:U£inkovitost

ekstrakcije15

klju£nihbesed

izprevodov

klju£nihbesed

inekstrakcij

klju£nihbesed

izprevodov

vsebin

Page 208: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

183

prevajalnik kriterij avg σ prevajalnik kriterij avg σ prevajalnik kriterij avg σ NMB 4-rezanje 30,07 23,543 GT 4-rezanje 45,23 24,335 AP 4-rezanje 29,87 23,985 2211

5-rezanje 29,54 23,551 5-rezanje 44,43 24,375 5-rezanje 29,47 23,998 22116-rezanje 29,02 23,362 6-rezanje 43,88 24,373 6-rezanje 28,96 23,896 2211enakost 28,13 23,116 enakost 41,38 24,461 enakost 27,41 23,613 2211metaphone 38,56 21,329 metaphone 43,69 24,133 metaphone 28,23 23,78 2211similar60 37,86 23,026 similar60 51,52 23,587 similar60 34,77 23,089 2211similar70 35,40 23,224 similar70 48,23 24,01 similar70 31,91 23,739 2211similar80 31,53 23,215 similar80 45,89 24,116 similar80 30,05 23,775 2211soundex 29,40 23,39 soundex 44,22 24,259 soundex 29,33 23,933 2211skupaj 32,17 23,398 skupaj 45,39 24,339 skupaj 30,00 23,842 19899max 38,56 23,551 51,52 24,461 34,77 23,998

Tabela E.4: Statistika povpre£nih f-mer dobljenih po prevajanju avtorsko podanih klju£nih besedz razli£nimi prevajalniki za razli£ne kriterije ujemanja za 5 klju£nih besed

prevajalnik kriterij avg σ prevajalnik kriterij avg σ prevajalnik kriterij avg σ NMB 4-rezanje 29,38 22,734 GT 4-rezanje 45,19 24,305 AP 4-rezanje 29,22 23,204 2211

5-rezanje 28,86 22,75 5-rezanje 44,39 24,344 5-rezanje 28,82 23,217 22116-rezanje 28,36 22,576 6-rezanje 43,85 24,346 6-rezanje 28,33 23,134 2211enakost 27,49 22,374 enakost 41,35 24,437 enakost 26,82 22,908 2211metaphone 37,90 20,788 metaphone 43,65 24,109 metaphone 27,62 23,059 2211similar60 37,04 22,05 similar60 51,50 23,581 similar60 34,01 22,242 2211similar70 34,60 22,262 similar70 48,19 23,981 similar70 31,22 22,94 2211similar80 30,83 22,391 similar80 45,86 24,093 similar80 29,41 23,022 2211soundex 28,73 22,625 soundex 44,19 24,231 soundex 28,70 23,187 2211skupaj 31,46 22,6 skupaj 45,35 24,314 skupaj 29,35 23,075 19899max 37,90 22,75 51,50 24,437 34,01 23,217

Tabela E.5: Statistika povpre£nih f-mer dobljenih po prevajanju avtorsko podanih klju£nih besedz razli£nimi prevajalniki za razli£ne kriterije ujemanja za 10 klju£nih besed

prevajalnik kriterij avg σ prevajalnik kriterij avg σ prevajalnik kriterij avg σ NMB 4-rezanje 29,38% 22,723 GT 4-rezanje 45,19% 24,305 AP 4-rezanje 29,22% 23,196 2211

5-rezanje 28,86% 22,739 5-rezanje 44,39% 24,344 5-rezanje 28,82% 23,209 22116-rezanje 28,35% 22,565 6-rezanje 43,85% 24,346 6-rezanje 28,32% 23,126 2211enakost 27,48% 22,363 enakost 41,35% 24,437 enakost 26,81% 22,9 2211metaphone 37,89% 20,778 metaphone 43,65% 24,109 metaphone 27,61% 23,051 2211similar60 37,03% 22,037 similar60 51,50% 23,581 similar60 34,01% 22,235 2211similar70 34,59% 22,252 similar70 48,19% 23,981 similar70 31,22% 22,933 2211similar80 30,82% 22,38 similar80 45,86% 24,093 similar80 29,40% 23,015 2211soundex 28,73% 22,614 soundex 44,19% 24,231 soundex 28,69% 23,18 2211skupaj 31,46% 22,589 skupaj 45,35% 24,314 skupaj 29,35% 23,068 19899max 37,89% 22,739 51,50% 24,437 34,01% 23,209

Tabela E.6: Statistika povpre£nih f-mer dobljenih po prevajanju avtorsko podanih klju£nih besedz razli£nimi prevajalniki za razli£ne kriterije ujemanja za 15 klju£nih besed

Page 209: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

184 Poglavje E: Rezultati eksperimenta 2

²t. klju£nih besed 5 10 15format kriterij favgmax orodje favgmax orodje favgmax orodje

app/msword

enakost 38,62 AP 38,02 AP 38,02 AP5-rezanje 42,21 AP 41,56 AP 41,56 APsoundex 41,9 AP 41,26 AP 41,26 APmetaphone 39,79 AP 39,2 AP 39,2 APsimilar70 44,08 GT 44,04 GT 44,04 GT

app/octet-stream

enakost 40,48 AP 39,74 AP 39,74 AP5-rezanje 42,59 AP 41,73 AP 41,73 APsoundex 44,21 AP 43,41 AP 43,41 APmetaphone 42,76 AP 42,02 AP 42,02 APsimilar70 44,62 AP 43,75 AP 43,75 AP

app/pdf

enakost 46,69 AP 45,85 AP 45,85 AP5-rezanje 49,27 AP 48,34 AP 48,34 APsoundex 49,52 AP 48,61 AP 48,61 APmetaphone 48,08 AP 47,18 AP 47,18 APsimilar70 51,65 AP 50,71 AP 50,71 AP

app/vnd.ms-excel

enakost 45,5 AP 45,5 AP 45,5 AP5-rezanje 45,5 AP 45,5 AP 45,5 APsoundex 45,5 AP 45,5 AP 45,5 APmetaphone 45,5 AP 45,5 AP 45,5 APsimilar70 45,5 AP 45,5 AP 45,5 AP

app/vnd.ms-powerpoint

enakost 45,52 AP 43,82 AP 43,82 AP5-rezanje 47,74 AP 45,95 AP 45,95 APsoundex 47,91 MB 46,19 MB 46,19 MBmetaphone 45,72 MB 44,1 MB 44,1 MBsimilar70 51,6 MB 49,72 MB 49,72 MB

app/vnd.oasis.opendoc.pres

enakost 58,33 GT 58,33 GT 58,33 GT5-rezanje 70,83 GT 70,83 GT 70,83 GTsoundex 58,33 GT 58,33 GT 58,33 GTmetaphone 58,33 GT 58,33 GT 58,33 GTsimilar70 70,83 GT 70,83 GT 70,83 GT

app/x-zip-compressed

enakost 44,66 AP 42,23 AP 42,23 AP5-rezanje 47,25 AP 44,83 AP 44,83 APsoundex 47,25 AP 44,83 AP 44,83 APmetaphone 44,66 AP 42,23 AP 42,23 APsimilar70 47,25 AP 44,83 AP 44,83 AP

app/zip

enakost 56,25 GT 56,25 GT 56,25 GT5-rezanje 64,58 GT 64,58 GT 64,58 GTsoundex 64,58 GT 64,58 GT 64,58 GTmetaphone 56,25 GT 56,25 GT 56,25 GTsimilar70 64,58 GT 64,58 GT 64,58 GT

imsccv1p0

enakost 60,61 MB 58,19 GT 58,19 GT5-rezanje 62,22 MB 59,68 MB 59,62 MBsoundex 61,86 MB 59,35 MB 59,29 MBmetaphone 60,97 MB 59,36 GT 59,36 GTsimilar70 65,49 MB 62,66 MB 62,59 MB

scormv1p2

enakost 61,45 MB 59,32 MB 59,23 MB5-rezanje 62,4 MB 60,18 MB 60,09 MBsoundex 62,4 MB 60,18 MB 60,09 MBmetaphone 61,45 MB 59,32 MB 59,23 MBsimilar70 65,26 MB 62,75 MB 62,66 MB

scormv2004

enakost 60,91 AP 58,26 AP 58,26 AP5-rezanje 61,75 AP 59,02 AP 59,02 APsoundex 60,91 AP 58,26 AP 58,26 APmetaphone 61,75 AP 59,28 GT 59,28 GTsimilar70 65,73 MB 62,47 MB 62,47 MB

text/html

enakost 42,14 GT 42,12 GT 42,12 GT5-rezanje 44,17 GT 44,15 GT 44,15 GTsoundex 44,03 GT 44,01 GT 44,01 GTmetaphone 44,06 GT 44,04 GT 44,04 GTsimilar70 48,46 GT 48,43 GT 48,43 GT

text/xml

enakost 75 GT 75 GT 75 GT5-rezanje 75 GT 75 GT 75 GTsoundex 75 GT 75 GT 75 GTmetaphone 75 GT 75 GT 75 GTsimilar70 75 GT 75 GT 75 GT

Tabela E.7: Statistika v povpre£ju najbolj²ih strojnih prevajalnikov za ve£jezi£no povpra²evanje priprevajanju klju£nih besed

Page 210: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

185

²t. klju£nih besed 5 10 15

format kriterij favgmax orodje favgmax orodje favgmax orodje

app/msword

enakost 8,19 KeaPEMB 7,11 KeaPEMB 6,04 KeaEPGT5-rezanje 10,85 KeaPEMB 9,27 KeaPEMB 7,65 KeaPEMBsoundex 10,58 KeaPEMB 9,19 KeaPEMB 7,54 KeaPEMBmetaphone 8,61 KeaPEMB 7,53 KeaPEMB 6,35 KeaEPGTsimilar70 11,97 KeaPEMB 10,31 KeaPEMB 8,73 KeaPEMB

app/octet-stream

enakost 9,09 KeaPEGT 7,4 KeaPEGT 6,13 KeaPEGT5-rezanje 11,75 KeaPEGT 9,48 KeaPEGT 7,83 KeaPEGTsoundex 11,33 KeaPEGT 9,05 KeaPEGT 7,81 KeaPEAPmetaphone 9,85 KeaPEGT 7,88 KeaPEGT 6,48 KeaPEGTsimilar70 13,78 KeaPEGT 11,01 KeaPEGT 9,58 KeaEPAP

app/pdf

enakost 7,26 KeaEPAP 5,58 KeaPEGT 5,13 KeaPEGT5-rezanje 9,86 KeaPEGT 8,35 KeaPEGT 7,39 KeaPEGTsoundex 9,34 KeaPEGT 8,09 KeaPEGT 7,14 KeaPEGTmetaphone 8,02 KeaEPAP 5,8 KeaEPAP 5,33 KeaEPAPsimilar70 10,71 KeaPEGT 9,53 KeaPEGT 8,39 KeaPEGT

app/vnd.ms-excel

enakost 20,37 KeaEPMB 15,2 KeaEPMB 13,56 YahooEPAP5-rezanje 20,37 KeaEPMB 17,88 YahooEPGT

SAmgIY EPGTSAmgIEPGT

17,88 YahooEPGTSAmgIY EPGTSAmgIEPGT

soundex 20,37 KeaEPMB 17,77 KeaEPMB 14,17 YahooEPGTSAmgIY EPGTSAmgIEPGT

metaphone 20,37 KeaEPMB 15,2 KeaEPMB 13,56 YahooEPAPsimilar70 20,83 TextRankEPAP 21,12 TextRankEPAP 19,46 TextRankEPAP

app/vnd.ms-powerpoint

enakost 15,17 KeaEPMB 11,47 KeaEPAP 9,51 KeaPEMB5-rezanje 17,93 KeaEPMB 16,53 KeaEPGT 12,12 KeaPEMBsoundex 16,72 KeaEPMB 15,4 KeaEPGT 11,85 KeaPEMBmetaphone 16,29 KeaEPAP 11,93 KeaEPGT 9,77 KeaPEMBsimilar70 19,2 KeaEPAP 17,86 KeaEPGT 13,3 KeaPEMB

app/vnd.oasis.opendoc.pres

enakost 0 0 5,88 YahooEPGT5-rezanje 11,11 KeaPEGT

KeaPEMBTextRankEPMBTextRankEPAPKeaEPGTKeaEPMBKeaEPAP

7,14 KeaPEGTKeaPEMBTextRankEPMBTextRankEPAPKeaEPGTKeaEPMBKeaEPAP

5,88 YahooEPGT

soundex 0 0 5,88 YahooEPGTmetaphone 0 0 5,88 YahooEPGTsimilar70 12,5 YahooPEGT 7,69 YahooPEGT 5,88 YahooEPGT

app/x-zip-compressed

enakost 14,29 KeaPEGT 10,34 KeaPEMB 10,08 KeaEPAP5-rezanje 18,22 KeaPEGT 11,67 KeaPEGT 10,08 KeaEPAPsoundex 18,22 KeaPEGT 11,67 KeaPEGT 10,18 KeaEPGTmetaphone 14,29 KeaPEGT 10,34 KeaPEMB 10,08 KeaEPAPsimilar70 20,49 KeaPEGT 15,6 KeaPEGT 11,48 KeaPEGT

app/zip

enakost 12,5 KeaEPMB 8,57 TextRankEPAP 8,19 KeaEPMB5-rezanje 17,36 KeaEPGT

KeaEPAP

12,14 TextRankEPGT 10,26 TextRankEPGT

soundex 17,36 TextRankEPAP 12,14 TextRankEPGTTextRankEPAP

10,26 TextRankEPGTTextRankEPAP

metaphone 17,36 TextRankEPAP 12,14 TextRankEPAP 10,26 TextRankEPAPsimilar70 18,06 KeaEPGT

KeaEPAP

13,85 YahooEPGT 12,78 YahooEPGT

imsccv1p0

enakost 6,78 KeaEPAP 5,49 KeaEPMB 3,37 TextRankEPGT5-rezanje 7,34 KeaEPGT 6,47 KeaEPMB 5,66 KeaPEMBsoundex 7,34 KeaEPGT 6,75 KeaEPMB 5,44 KeaPEMBmetaphone 7,51 KeaEPAP 5,49 KeaEPMB 3,57 TextRankEPGTsimilar70 9,55 KeaEPAP 7,74 KeaEPMB 6,37 TextRankEPGT

scormv1p2

enakost 3,15 TextRankEPGT 5,55 KeaEPMB 3,2 KeaPEGT5-rezanje 5,99 TextRankEPGT 6,99 KeaEPMB 4,8 TextRankEPGTsoundex 5,99 TextRankEPGT 6,99 KeaEPMB 4,56 TextRankEPGTmetaphone 3,15 TextRankEPGT 5,55 KeaEPMB 3,2 KeaPEGTsimilar70 6,47 TextRankEPGT 7,3 KeaEPMB

KeaEPAP

5,04 TextRankEPGT

scormv2004

enakost 18,96 KeaEPAP 10,96 TextRankEPMB 9,53 TextRankEPMB5-rezanje 19,88 KeaPEMB 15,69 KeaPEMB 14,13 TextRankEPGTsoundex 19,88 KeaPEMB 15,69 KeaPEMB 14,13 TextRankEPGTmetaphone 19,79 KeaEPAP 11,55 TextRankEPMB 9,97 TextRankEPMBsimilar70 21,46 KeaEPAP 16,25 KeaPEMB 14,13 TextRankEPGT

text/html

enakost 4,13 KeaPEGT 3,56 KeaEPGT 3,23 TextRankEPGT5-rezanje 5,07 KeaPEGT 4,17 KeaPEGT 3,8 TextRankEPGTsoundex 4,9 KeaEPGT 4,08 KeaEPGT 3,67 YahooEPGTmetaphone 4,49 KeaEPGT 3,75 KeaEPGT 3,3 TextRankEPGTsimilar70 7,3 SAmgIEPGT 6,73 SAmgIY EPGT

SAmgIEPGT

6,42 SAmgIEPGT

text/xml

enakost 22,22 KeaPEGT 14,29 KeaPEGT 10,53 KeaPEGT5-rezanje 22,22 KeaPEGT 14,29 KeaPEGT 10,53 KeaPEGTsoundex 22,22 KeaPEGT 14,29 KeaPEGT 10,53 KeaPEGTmetaphone 22,22 KeaPEGT 14,29 KeaPEGT 10,53 KeaPEGTsimilar70 22,22 KeaPEGT 14,29 KeaPEGT 10,53 KeaPEGT

Tabela E.8: Statistika v povpre£ju najbolj²ih orodij v kombinaciji s strojnimi prevajalniki za ve£-jezi£no povpra²evanje pri prevajanju klju£nih besed

Page 211: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

186 Poglavje E: Rezultati eksperimenta 2

prevajalnik generator kriterij avg σ prevajalnik generator kriterij avg σ prevajalnik generator kriterij avg σ NMB KeaEP 4-rezanje 6,16% 11,805 GT KeaEP 4-rezanje 7,13% 12,643 AP KeaEP 4-rezanje 5,91% 11,572 2211

5-rezanje 5,77% 11,422 5-rezanje 6,84% 12,339 5-rezanje 5,80% 11,473 22116-rezanje 5,58% 11,209 6-rezanje 6,57% 12,173 6-rezanje 5,70% 11,425 2211enakost 5,09% 10,695 enakost 5,11% 10,759 enakost 5,37% 11,202 2211metaphone 5,20% 10,8 metaphone 5,74% 11,44 metaphone 6,06% 11,91 2211similar60 10,94% 14,654 similar60 10,11% 14,176 similar60 10,00% 13,982 2211similar70 8,54% 13,287 similar70 7,98% 13,039 similar70 8,10% 13,052 2211similar80 6,48% 12,025 similar80 6,85% 12,427 similar80 6,22% 11,901 2211soundex 5,71% 11,336 soundex 6,82% 12,401 soundex 5,88% 11,547 2211skupaj 6,61% 12,11 skupaj 7,02% 12,479 skupaj 6,56% 12,119 19899

SAmgIEP 4-rezanje 0,79% 4,356 SAmgIEP 4-rezanje 0,99% 4,865 SAmgIEP 4-rezanje 0,73% 4,321 22115-rezanje 0,68% 4,051 5-rezanje 0,87% 4,577 5-rezanje 0,62% 4,019 22116-rezanje 0,66% 3,992 6-rezanje 0,82% 4,372 6-rezanje 0,61% 3,913 2211enakost 0,57% 3,747 enakost 0,75% 4,191 enakost 0,57% 3,767 2211metaphone 0,86% 5,036 metaphone 1,04% 5,38 metaphone 0,87% 5,077 2211similar60 2,05% 6,867 similar60 2,05% 6,841 similar60 1,90% 6,756 2211similar70 1,15% 5,162 similar70 1,14% 5,195 similar70 1,09% 5,126 2211similar80 0,73% 4,174 similar80 0,86% 4,472 similar80 0,75% 4,28 2211soundex 0,67% 4,025 soundex 0,86% 4,519 soundex 0,64% 4,045 2211skupaj 0,91% 4,712 skupaj 1,04% 5,007 skupaj 0,87% 4,691 19899

SAmgIY EP 4-rezanje 0,82% 4,44 SAmgIY EP 4-rezanje 1,00% 4,857 SAmgIY EP 4-rezanje 0,80% 4,487 22115-rezanje 0,72% 4,174 5-rezanje 0,87% 4,569 5-rezanje 0,68% 4,167 22116-rezanje 0,70% 4,117 6-rezanje 0,84% 4,424 6-rezanje 0,67% 4,066 2211enakost 0,60% 3,846 enakost 0,76% 4,245 enakost 0,62% 3,925 2211metaphone 0,89% 5,108 metaphone 1,06% 5,422 metaphone 0,93% 5,217 2211similar60 2,09% 6,966 similar60 2,01% 6,797 similar60 1,94% 6,794 2211similar70 1,19% 5,225 similar70 1,15% 5,187 similar70 1,16% 5,251 2211similar80 0,76% 4,268 similar80 0,88% 4,523 similar80 0,81% 4,411 2211soundex 0,70% 4,124 soundex 0,87% 4,569 soundex 0,73% 4,286 2211skupaj 0,94% 4,803 skupaj 1,05% 5,022 skupaj 0,93% 4,825 19899

TextRankEP 4-rezanje 0,68% 3,934 TextRankEP 4-rezanje 0,79% 4,225 TextRankEP 4-rezanje 0,59% 3,77 22115-rezanje 0,67% 3,913 5-rezanje 0,78% 4,162 5-rezanje 0,58% 3,699 22116-rezanje 0,63% 3,813 6-rezanje 0,76% 4,113 6-rezanje 0,54% 3,58 2211enakost 0,51% 3,479 enakost 0,59% 3,662 enakost 0,49% 3,456 2211metaphone 0,58% 3,712 metaphone 0,75% 4,12 metaphone 0,63% 3,867 2211similar60 2,71% 7,824 similar60 3,11% 8,461 similar60 2,70% 7,945 2211similar70 1,32% 5,488 similar70 1,77% 6,342 similar70 1,51% 5,975 2211similar80 0,77% 4,223 similar80 0,95% 4,596 similar80 0,71% 4,116 2211soundex 0,69% 3,977 soundex 0,82% 4,263 soundex 0,61% 3,791 2211skupaj 0,95% 4,714 skupaj 1,14% 5,15 skupaj 0,93% 4,737 19899

YahooEP 4-rezanje 1,57% 6,163 YahooEP 4-rezanje 1,89% 6,594 YahooEP 4-rezanje 1,16% 5,154 22115-rezanje 1,36% 5,746 5-rezanje 1,64% 6,177 5-rezanje 1,07% 4,969 22116-rezanje 1,25% 5,49 6-rezanje 1,57% 5,998 6-rezanje 1,02% 4,847 2211enakost 1,07% 5,072 enakost 1,38% 5,625 enakost 0,89% 4,51 2211metaphone 1,18% 5,416 metaphone 1,49% 5,859 metaphone 1,15% 5,157 2211similar60 3,66% 9,039 similar60 3,47% 8,703 similar60 2,72% 7,772 2211similar70 2,14% 7,08 similar70 2,13% 7,026 similar70 1,62% 6,022 2211similar80 1,42% 5,827 similar80 1,67% 6,167 similar80 1,23% 5,257 2211soundex 1,36% 5,803 soundex 1,62% 6,071 soundex 1,28% 5,517 2211skupaj 1,67% 6,331 skupaj 1,87% 6,554 skupaj 1,35% 5,566 19899

KeaPE 4-rezanje 7,21% 12,524 KeaPE 4-rezanje 7,81% 13,357 KeaPE 4-rezanje 5,67% 11,615 22115-rezanje 6,92% 12,241 5-rezanje 7,45% 12,984 5-rezanje 5,34% 11,166 22116-rezanje 6,38% 11,894 6-rezanje 6,91% 12,619 6-rezanje 5,00% 10,906 2211enakost 5,18% 10,967 enakost 5,53% 11,397 enakost 3,92% 9,764 2211metaphone 5,42% 11,196 metaphone 5,67% 11,543 metaphone 4,07% 9,917 2211similar60 10,34% 14,484 similar60 10,81% 15,187 similar60 7,95% 13,25 2211similar70 8,22% 13,116 similar70 8,88% 14 similar70 6,44% 12,128 2211similar80 6,88% 12,142 similar80 7,55% 13,066 similar80 5,44% 11,32 2211soundex 6,66% 12,098 soundex 7,11% 12,811 soundex 5,18% 11,047 2211skupaj 7,02% 12,418 skupaj 7,52% 13,127 skupaj 5,45% 11,335 19899

SAmgIPE 4-rezanje 3,18% 8,637 SAmgIPE 4-rezanje 3,10% 8,366 SAmgIPE 4-rezanje 3,10% 8,366 22115-rezanje 3,01% 8,403 5-rezanje 2,96% 8,209 5-rezanje 2,96% 8,209 22116-rezanje 2,85% 8,183 6-rezanje 2,85% 8,083 6-rezanje 2,85% 8,083 2211enakost 2,39% 7,433 enakost 2,42% 7,388 enakost 2,42% 7,388 2211metaphone 2,56% 7,733 metaphone 2,54% 7,574 metaphone 2,54% 7,574 2211similar60 8,18% 12,83 similar60 9,21% 13,251 similar60 9,21% 13,251 2211similar70 5,24% 10,651 similar70 6,22% 11,112 similar70 6,22% 11,112 2211similar80 3,52% 9,007 similar80 3,41% 8,733 similar80 3,41% 8,733 2211soundex 2,98% 8,325 soundex 2,93% 8,167 soundex 2,93% 8,167 2211skupaj 3,77% 9,327 skupaj 3,96% 9,415 skupaj 3,96% 9,415 19899

SAmgIY PE 4-rezanje 3,15% 8,59 SAmgIY PE 4-rezanje 3,09% 8,353 SAmgIY PE 4-rezanje 3,09% 8,353 22115-rezanje 2,98% 8,354 5-rezanje 2,94% 8,196 5-rezanje 2,94% 8,196 22116-rezanje 2,82% 8,133 6-rezanje 2,84% 8,069 6-rezanje 2,84% 8,069 2211enakost 2,36% 7,4 enakost 2,41% 7,372 enakost 2,41% 7,372 2211metaphone 2,53% 7,699 metaphone 2,51% 7,548 metaphone 2,51% 7,548 2211similar60 8,15% 12,8 similar60 9,24% 13,277 similar60 9,24% 13,277 2211similar70 5,20% 10,606 similar70 6,21% 11,105 similar70 6,21% 11,105 2211similar80 3,50% 8,99 similar80 3,40% 8,73 similar80 3,40% 8,73 2211soundex 2,94% 8,266 soundex 2,91% 8,144 soundex 2,91% 8,144 2211skupaj 3,74% 9,288 skupaj 3,95% 9,411 skupaj 3,95% 9,411 19899

TextRankPE 4-rezanje 3,75% 9,037 TextRankPE 4-rezanje 4,03% 9,545 TextRankPE 4-rezanje 3,73% 9,223 22115-rezanje 3,62% 8,875 5-rezanje 3,86% 9,362 5-rezanje 3,54% 8,976 22116-rezanje 3,40% 8,613 6-rezanje 3,58% 9,059 6-rezanje 3,28% 8,667 2211enakost 2,63% 7,726 enakost 2,83% 8,023 enakost 2,52% 7,639 2211metaphone 2,77% 7,905 metaphone 2,97% 8,188 metaphone 2,69% 7,967 2211similar60 7,12% 12,148 similar60 7,61% 12,511 similar60 6,75% 12,041 2211similar70 5,11% 10,343 similar70 5,64% 10,963 similar70 5,12% 10,525 2211similar80 3,95% 9,191 similar80 4,19% 9,598 similar80 3,77% 9,179 2211soundex 3,50% 8,735 soundex 3,68% 9,174 soundex 3,35% 8,807 2211skupaj 3,98% 9,351 skupaj 4,27% 9,791 skupaj 3,86% 9,391 19899

YahooPE 4-rezanje 3,12% 8,561 YahooPE 4-rezanje 3,11% 8,403 YahooPE 4-rezanje 2,99% 8,353 22115-rezanje 2,95% 8,327 5-rezanje 2,97% 8,247 5-rezanje 2,84% 8,148 22116-rezanje 2,79% 8,104 6-rezanje 2,84% 8,064 6-rezanje 2,72% 7,998 2211enakost 2,27% 7,162 enakost 2,36% 7,298 enakost 2,16% 7,104 2211metaphone 2,54% 7,737 metaphone 2,52% 7,578 metaphone 2,38% 7,442 2211similar60 8,00% 12,654 similar60 9,28% 13,291 similar60 7,06% 12,165 2211similar70 5,17% 10,615 similar70 6,24% 11,172 similar70 4,66% 10,078 2211similar80 3,44% 8,918 similar80 3,39% 8,721 similar80 3,03% 8,406 2211soundex 2,93% 8,288 soundex 2,92% 8,171 soundex 2,80% 8,077 2211skupaj 3,69% 9,229 skupaj 3,96% 9,433 skupaj 3,40% 8,883 19899

Tabela E.9: Statistika povpre£nih f-mer za 5 klju£nih besed po prevajalniku, orodju, pristopu inkriteriju ujemanja

Page 212: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

187

prevajalnik generator kriterij avg σ prevajalnik generator kriterij avg σ prevajalnik generator kriterij avg σ NMB KeaEP 4-rezanje 5,30% 8,816 GT KeaEP 4-rezanje 6,08% 9,338 AP KeaEP 4-rezanje 4,92% 8,487 2211

5-rezanje 4,95% 8,568 5-rezanje 5,80% 9,154 5-rezanje 4,81% 8,425 22116-rezanje 4,67% 8,342 6-rezanje 5,48% 8,911 6-rezanje 4,76% 8,361 2211enakost 4,09% 7,853 enakost 4,52% 8,129 enakost 4,20% 7,906 2211metaphone 4,28% 8,031 metaphone 4,91% 8,475 metaphone 4,56% 8,288 2211similar60 9,26% 10,986 similar60 8,98% 10,899 similar60 8,66% 10,556 2211similar70 7,32% 9,81 similar70 7,27% 9,906 similar70 6,98% 9,552 2211similar80 5,58% 8,879 similar80 5,91% 9,107 similar80 5,27% 8,675 2211soundex 4,90% 8,526 soundex 5,78% 9,182 soundex 4,88% 8,482 2211skupaj 5,60% 9,051 skupaj 6,08% 9,347 skupaj 5,45% 8,883 19899

SAmgIEP 4-rezanje 0,78% 3,657 SAmgIEP 4-rezanje 1,04% 4,076 SAmgIEP 4-rezanje 0,85% 3,777 22115-rezanje 0,70% 3,464 5-rezanje 0,94% 3,906 5-rezanje 0,77% 3,607 22116-rezanje 0,68% 3,425 6-rezanje 0,91% 3,795 6-rezanje 0,77% 3,564 2211enakost 0,59% 3,134 enakost 0,82% 3,621 enakost 0,70% 3,381 2211metaphone 0,89% 4,613 metaphone 1,11% 4,935 metaphone 0,99% 4,772 2211similar60 1,98% 5,575 similar60 1,98% 5,492 similar60 1,88% 5,505 2211similar70 1,24% 4,387 similar70 1,23% 4,382 similar70 1,19% 4,369 2211similar80 0,73% 3,495 similar80 0,96% 3,885 similar80 0,88% 3,797 2211soundex 0,71% 3,502 soundex 0,95% 3,918 soundex 0,80% 3,656 2211skupaj 0,92% 4,007 skupaj 1,10% 4,275 skupaj 0,98% 4,115 19899

SAmgIY EP 4-rezanje 0,77% 3,565 SAmgIY EP 4-rezanje 1,00% 3,944 SAmgIY EP 4-rezanje 0,85% 3,798 22115-rezanje 0,69% 3,381 5-rezanje 0,90% 3,766 5-rezanje 0,76% 3,593 22116-rezanje 0,67% 3,336 6-rezanje 0,87% 3,686 6-rezanje 0,75% 3,538 2211enakost 0,59% 3,129 enakost 0,79% 3,534 enakost 0,69% 3,393 2211metaphone 0,89% 4,61 metaphone 1,10% 4,887 metaphone 1,00% 4,817 2211similar60 1,99% 5,593 similar60 1,96% 5,469 similar60 1,88% 5,463 2211similar70 1,20% 4,291 similar70 1,19% 4,256 similar70 1,20% 4,34 2211similar80 0,71% 3,396 similar80 0,94% 3,803 similar80 0,87% 3,733 2211soundex 0,70% 3,413 soundex 0,93% 3,835 soundex 0,80% 3,7 2211skupaj 0,91% 3,954 skupaj 1,07% 4,187 skupaj 0,98% 4,109 19899

TextRankEP 4-rezanje 0,67% 3,265 TextRankEP 4-rezanje 0,77% 3,577 TextRankEP 4-rezanje 0,57% 3,084 22115-rezanje 0,65% 3,239 5-rezanje 0,75% 3,52 5-rezanje 0,56% 3,045 22116-rezanje 0,60% 3,138 6-rezanje 0,71% 3,451 6-rezanje 0,51% 2,901 2211enakost 0,48% 2,862 enakost 0,54% 3,041 enakost 0,43% 2,717 2211metaphone 0,57% 3,079 metaphone 0,73% 3,527 metaphone 0,59% 3,24 2211similar60 3,02% 6,97 similar60 3,40% 7,37 similar60 2,81% 6,635 2211similar70 1,48% 4,877 similar70 1,87% 5,432 similar70 1,63% 5,208 2211similar80 0,81% 3,594 similar80 0,96% 3,946 similar80 0,70% 3,438 2211soundex 0,66% 3,262 soundex 0,77% 3,582 soundex 0,57% 3,117 2211skupaj 0,99% 4,08 skupaj 1,17% 4,444 skupaj 0,93% 3,982 19899

YahooEP 4-rezanje 1,47% 5,04 YahooEP 4-rezanje 1,82% 5,36 YahooEP 4-rezanje 1,22% 4,422 22115-rezanje 1,30% 4,786 5-rezanje 1,60% 5,081 5-rezanje 1,15% 4,328 22116-rezanje 1,22% 4,572 6-rezanje 1,54% 4,976 6-rezanje 1,12% 4,273 2211enakost 1,03% 4,192 enakost 1,35% 4,653 enakost 0,97% 3,934 2211metaphone 1,17% 4,614 metaphone 1,48% 4,922 metaphone 1,20% 4,486 2211similar60 3,43% 7,411 similar60 3,27% 7,023 similar60 2,75% 6,473 2211similar70 2,16% 5,936 similar70 2,13% 5,772 similar70 1,71% 5,13 2211similar80 1,35% 4,795 similar80 1,68% 5,136 similar80 1,26% 4,458 2211soundex 1,36% 4,94 soundex 1,63% 5,072 soundex 1,35% 4,784 2211skupaj 1,61% 5,271 skupaj 1,83% 5,401 skupaj 1,41% 4,777 19899

KeaPE 4-rezanje 6,32% 9,534 KeaPE 4-rezanje 6,54% 9,935 KeaPE 4-rezanje 4,79% 8,62 22115-rezanje 5,99% 9,229 5-rezanje 6,16% 9,57 5-rezanje 4,52% 8,322 22116-rezanje 5,55% 8,957 6-rezanje 5,73% 9,298 6-rezanje 4,23% 8,119 2211enakost 4,50% 8,269 enakost 4,59% 8,47 enakost 3,39% 7,285 2211metaphone 4,71% 8,429 metaphone 4,71% 8,587 metaphone 3,51% 7,426 2211similar60 9,23% 11,039 similar60 8,99% 11,247 similar60 6,74% 9,96 2211similar70 7,28% 9,962 similar70 7,37% 10,349 similar70 5,51% 9,115 2211similar80 6,06% 9,304 similar80 6,29% 9,706 similar80 4,61% 8,517 2211soundex 5,81% 9,155 soundex 5,95% 9,503 soundex 4,43% 8,349 2211skupaj 6,16% 9,446 skupaj 6,26% 9,743 skupaj 4,64% 8,5 19899

SAmgIPE 4-rezanje 3,61% 7,94 SAmgIPE 4-rezanje 3,47% 7,684 SAmgIPE 4-rezanje 3,47% 7,684 22115-rezanje 3,42% 7,729 5-rezanje 3,28% 7,476 5-rezanje 3,28% 7,476 22116-rezanje 3,20% 7,508 6-rezanje 3,13% 7,307 6-rezanje 3,13% 7,307 2211enakost 2,64% 6,739 enakost 2,53% 6,491 enakost 2,53% 6,491 2211metaphone 2,80% 6,968 metaphone 2,66% 6,656 metaphone 2,66% 6,656 2211similar60 8,14% 10,967 similar60 9,16% 10,997 similar60 9,16% 10,997 2211similar70 5,43% 9,226 similar70 6,18% 9,379 similar70 6,18% 9,379 2211similar80 3,78% 8,045 similar80 3,66% 7,757 similar80 3,66% 7,757 2211soundex 3,34% 7,613 soundex 3,20% 7,363 soundex 3,20% 7,363 2211skupaj 4,04% 8,333 skupaj 4,14% 8,268 skupaj 4,14% 8,268 19899

SAmgIY PE 4-rezanje 3,60% 7,91 SAmgIY PE 4-rezanje 3,45% 7,671 SAmgIY PE 4-rezanje 3,45% 7,671 22115-rezanje 3,41% 7,698 5-rezanje 3,28% 7,466 5-rezanje 3,28% 7,466 22116-rezanje 3,19% 7,475 6-rezanje 3,13% 7,301 6-rezanje 3,13% 7,301 2211enakost 2,62% 6,724 enakost 2,52% 6,475 enakost 2,52% 6,475 2211metaphone 2,78% 6,956 metaphone 2,65% 6,634 metaphone 2,65% 6,634 2211similar60 8,12% 10,939 similar60 9,19% 11,003 similar60 9,19% 11,003 2211similar70 5,41% 9,206 similar70 6,17% 9,362 similar70 6,17% 9,362 2211similar80 3,77% 8,035 similar80 3,65% 7,759 similar80 3,65% 7,759 2211soundex 3,32% 7,577 soundex 3,20% 7,351 soundex 3,20% 7,351 2211skupaj 4,02% 8,31 skupaj 4,14% 8,262 skupaj 4,14% 8,262 19899

TextRankPE 4-rezanje 4,23% 8,119 TextRankPE 4-rezanje 4,47% 8,378 TextRankPE 4-rezanje 3,87% 7,855 22115-rezanje 4,03% 7,943 5-rezanje 4,26% 8,18 5-rezanje 3,73% 7,671 22116-rezanje 3,82% 7,751 6-rezanje 3,99% 7,951 6-rezanje 3,46% 7,419 2211enakost 3,02% 6,96 enakost 3,19% 7,125 enakost 2,73% 6,586 2211metaphone 3,17% 7,121 metaphone 3,35% 7,252 metaphone 2,95% 6,923 2211similar60 7,51% 10,625 similar60 8,38% 10,765 similar60 7,03% 10,125 2211similar70 5,60% 9,139 similar70 6,14% 9,458 similar70 5,28% 8,883 2211similar80 4,40% 8,252 similar80 4,60% 8,313 similar80 3,96% 7,86 2211soundex 3,96% 7,896 soundex 4,07% 8,061 soundex 3,58% 7,53 2211skupaj 4,41% 8,367 skupaj 4,72% 8,588 skupaj 4,07% 8,032 19899

YahooPE 4-rezanje 3,59% 7,943 YahooPE 4-rezanje 3,48% 7,704 YahooPE 4-rezanje 3,26% 7,29 22115-rezanje 3,39% 7,711 5-rezanje 3,30% 7,502 5-rezanje 3,05% 7,114 22116-rezanje 3,15% 7,471 6-rezanje 3,12% 7,276 6-rezanje 2,87% 6,858 2211enakost 2,47% 6,422 enakost 2,45% 6,351 enakost 2,25% 6,001 2211metaphone 2,80% 7,024 metaphone 2,66% 6,666 metaphone 2,54% 6,411 2211similar60 8,07% 10,802 similar60 9,20% 10,987 similar60 6,88% 10,146 2211similar70 5,40% 9,2 similar70 6,18% 9,407 similar70 4,55% 8,288 2211similar80 3,72% 7,98 similar80 3,66% 7,745 similar80 3,17% 7,17 2211soundex 3,34% 7,654 soundex 3,22% 7,38 soundex 3,02% 6,991 2211

Tabela E.10: Statistika povpre£nih f-mer za 10 klju£nih besed po prevajalniku, orodju, pristopu inkriteriju ujemanja

Page 213: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

188 Poglavje E: Rezultati eksperimenta 2

prevajalnik generator kriterij avg σ prevajalnik generator kriterij avg σ prevajalnik generator kriterij avg σ NMB KeaEP 4-rezanje 4,33% 6,772 GT KeaEP 4-rezanje 5,19% 7,4 AP KeaEP 4-rezanje 4,07% 6,625 2211

5-rezanje 3,98% 6,534 5-rezanje 4,88% 7,249 5-rezanje 3,94% 6,553 22116-rezanje 3,75% 6,369 6-rezanje 4,67% 7,114 6-rezanje 3,87% 6,51 2211enakost 3,35% 6,071 enakost 3,96% 6,508 enakost 3,51% 6,253 2211metaphone 3,50% 6,175 metaphone 4,18% 6,702 metaphone 3,75% 6,497 2211similar60 8,16% 8,551 similar60 8,04% 8,51 similar60 7,58% 8,392 2211similar70 6,11% 7,687 similar70 6,17% 7,782 similar70 5,86% 7,522 2211similar80 4,38% 6,806 similar80 4,95% 7,247 similar80 4,30% 6,76 2211soundex 3,94% 6,514 soundex 4,84% 7,221 soundex 4,02% 6,689 2211skupaj 4,61% 7,026 skupaj 5,21% 7,415 skupaj 4,55% 7,007 19899

SAmgIEP 4-rezanje 0,74% 3,312 SAmgIEP 4-rezanje 0,96% 3,634 SAmgIEP 4-rezanje 0,79% 3,389 22115-rezanje 0,66% 3,144 5-rezanje 0,87% 3,465 5-rezanje 0,73% 3,241 22116-rezanje 0,64% 3,113 6-rezanje 0,84% 3,389 6-rezanje 0,72% 3,208 2211enakost 0,54% 2,83 enakost 0,76% 3,247 enakost 0,65% 3,057 2211metaphone 0,85% 4,412 metaphone 1,05% 4,672 metaphone 0,95% 4,551 2211similar60 1,81% 4,992 similar60 1,82% 4,937 similar60 1,72% 4,925 2211similar70 1,14% 3,944 similar70 1,13% 3,886 similar70 1,10% 3,891 2211similar80 0,69% 3,176 similar80 0,89% 3,452 similar80 0,82% 3,431 2211soundex 0,70% 3,238 soundex 0,90% 3,53 soundex 0,77% 3,325 2211skupaj 0,86% 3,656 skupaj 1,02% 3,854 skupaj 0,92% 3,732 19899

SAmgIY EP 4-rezanje 0,71% 3,209 SAmgIY EP 4-rezanje 0,91% 3,515 SAmgIY EP 4-rezanje 0,78% 3,417 22115-rezanje 0,64% 3,043 5-rezanje 0,82% 3,33 5-rezanje 0,70% 3,222 22116-rezanje 0,62% 3 6-rezanje 0,79% 3,266 6-rezanje 0,69% 3,176 2211enakost 0,54% 2,829 enakost 0,72% 3,133 enakost 0,63% 3,07 2211metaphone 0,84% 4,412 metaphone 1,02% 4,604 metaphone 0,95% 4,598 2211similar60 1,79% 4,964 similar60 1,76% 4,816 similar60 1,72% 4,887 2211similar70 1,09% 3,839 similar70 1,07% 3,754 similar70 1,09% 3,863 2211similar80 0,66% 3,053 similar80 0,85% 3,358 similar80 0,79% 3,336 2211soundex 0,67% 3,129 soundex 0,86% 3,422 soundex 0,75% 3,362 2211skupaj 0,84% 3,585 skupaj 0,98% 3,744 skupaj 0,90% 3,724 19899

TextRankEP 4-rezanje 0,64% 2,851 TextRankEP 4-rezanje 0,76% 3,181 TextRankEP 4-rezanje 0,51% 2,596 22115-rezanje 0,61% 2,786 5-rezanje 0,73% 3,12 5-rezanje 0,49% 2,523 22116-rezanje 0,57% 2,716 6-rezanje 0,70% 3,074 6-rezanje 0,45% 2,425 2211enakost 0,46% 2,509 enakost 0,53% 2,683 enakost 0,40% 2,316 2211metaphone 0,55% 2,707 metaphone 0,72% 3,183 metaphone 0,55% 2,853 2211similar60 3,10% 6,436 similar60 3,50% 6,816 similar60 2,84% 5,947 2211similar70 1,54% 4,508 similar70 1,85% 4,905 similar70 1,63% 4,7 2211similar80 0,78% 3,14 similar80 0,97% 3,572 similar80 0,68% 2,952 2211soundex 0,63% 2,834 soundex 0,75% 3,238 soundex 0,52% 2,666 2211skupaj 0,99% 3,687 skupaj 1,17% 4,05 skupaj 0,90% 3,514 19899

YahooEP 4-rezanje 1,38% 4,645 YahooEP 4-rezanje 1,71% 4,918 YahooEP 4-rezanje 1,13% 4,021 22115-rezanje 1,22% 4,424 5-rezanje 1,51% 4,644 5-rezanje 1,07% 3,943 22116-rezanje 1,14% 4,206 6-rezanje 1,45% 4,56 6-rezanje 1,04% 3,895 2211enakost 0,97% 3,862 enakost 1,27% 4,246 enakost 0,92% 3,61 2211metaphone 1,11% 4,322 metaphone 1,41% 4,564 metaphone 1,15% 4,19 2211similar60 3,17% 6,765 similar60 3,02% 6,357 similar60 2,57% 5,897 2211similar70 2,00% 5,439 similar70 1,98% 5,238 similar70 1,60% 4,657 2211similar80 1,26% 4,436 similar80 1,58% 4,684 similar80 1,18% 4,062 2211soundex 1,30% 4,616 soundex 1,56% 4,656 soundex 1,28% 4,406 2211skupaj 1,51% 4,859 skupaj 1,72% 4,933 skupaj 1,33% 4,369 19899

KeaPE 4-rezanje 5,35% 7,772 KeaPE 4-rezanje 5,50% 8,023 KeaPE 4-rezanje 3,95% 6,825 22115-rezanje 5,04% 7,487 5-rezanje 5,15% 7,701 5-rezanje 3,69% 6,553 22116-rezanje 4,69% 7,224 6-rezanje 4,82% 7,451 6-rezanje 3,46% 6,375 2211enakost 3,82% 6,674 enakost 3,87% 6,783 enakost 2,77% 5,709 2211metaphone 3,99% 6,786 metaphone 3,97% 6,885 metaphone 2,89% 5,833 2211similar60 7,88% 8,866 similar60 7,63% 9,07 similar60 5,73% 7,923 2211similar70 6,20% 8,056 similar70 6,19% 8,273 similar70 4,65% 7,213 2211similar80 5,11% 7,535 similar80 5,26% 7,792 similar80 3,80% 6,711 2211soundex 4,92% 7,413 soundex 4,99% 7,583 soundex 3,66% 6,599 2211skupaj 5,22% 7,646 skupaj 5,26% 7,83 skupaj 3,84% 6,72 19899

SAmgIPE 4-rezanje 3,64% 7,531 SAmgIPE 4-rezanje 3,55% 7,421 SAmgIPE 4-rezanje 3,55% 7,421 22115-rezanje 3,41% 7,314 5-rezanje 3,37% 7,22 5-rezanje 3,37% 7,22 22116-rezanje 3,20% 7,092 6-rezanje 3,18% 7,001 6-rezanje 3,18% 7,001 2211enakost 2,62% 6,391 enakost 2,60% 6,198 enakost 2,60% 6,198 2211metaphone 2,77% 6,602 metaphone 2,74% 6,361 metaphone 2,74% 6,361 2211similar60 7,86% 10,249 similar60 8,76% 10,228 similar60 8,76% 10,228 2211similar70 5,23% 8,547 similar70 6,03% 8,748 similar70 6,03% 8,748 2211similar80 3,74% 7,609 similar80 3,73% 7,425 similar80 3,73% 7,425 2211soundex 3,35% 7,246 soundex 3,28% 7,053 soundex 3,28% 7,053 2211skupaj 3,98% 7,85 skupaj 4,14% 7,838 skupaj 4,14% 7,838 19899

SAmgIY PE 4-rezanje 3,63% 7,499 SAmgIY PE 4-rezanje 3,52% 7,379 SAmgIY PE 4-rezanje 3,52% 7,379 22115-rezanje 3,40% 7,274 5-rezanje 3,34% 7,184 5-rezanje 3,34% 7,184 22116-rezanje 3,18% 7,056 6-rezanje 3,15% 6,966 6-rezanje 3,15% 6,966 2211enakost 2,60% 6,375 enakost 2,57% 6,164 enakost 2,57% 6,164 2211metaphone 2,75% 6,592 metaphone 2,71% 6,323 metaphone 2,71% 6,323 2211similar60 7,84% 10,232 similar60 8,74% 10,219 similar60 8,74% 10,219 2211similar70 5,22% 8,526 similar70 5,99% 8,695 similar70 5,99% 8,695 2211similar80 3,74% 7,593 similar80 3,70% 7,397 similar80 3,70% 7,397 2211soundex 3,33% 7,208 soundex 3,25% 7,015 soundex 3,25% 7,015 2211skupaj 3,97% 7,826 skupaj 4,11% 7,806 skupaj 4,11% 7,806 19899

TextRankPE 4-rezanje 4,14% 7,55 TextRankPE 4-rezanje 4,41% 7,671 TextRankPE 4-rezanje 3,81% 7,067 22115-rezanje 3,93% 7,363 5-rezanje 4,23% 7,494 5-rezanje 3,68% 6,921 22116-rezanje 3,73% 7,226 6-rezanje 3,99% 7,319 6-rezanje 3,44% 6,686 2211enakost 3,02% 6,568 enakost 3,20% 6,56 enakost 2,76% 5,97 2211metaphone 3,15% 6,695 metaphone 3,36% 6,708 metaphone 2,95% 6,267 2211similar60 7,36% 9,631 similar60 8,22% 9,8 similar60 6,87% 9,092 2211similar70 5,52% 8,419 similar70 6,20% 8,728 similar70 5,17% 8,033 2211similar80 4,30% 7,636 similar80 4,64% 7,68 similar80 3,93% 7,097 2211soundex 3,87% 7,364 soundex 4,07% 7,484 soundex 3,57% 6,786 2211skupaj 4,34% 7,759 skupaj 4,70% 7,912 skupaj 4,02% 7,256 19899

YahooPE 4-rezanje 3,66% 7,521 YahooPE 4-rezanje 3,52% 7,375 YahooPE 4-rezanje 3,33% 6,916 22115-rezanje 3,41% 7,284 5-rezanje 3,34% 7,177 5-rezanje 3,09% 6,713 22116-rezanje 3,16% 7,045 6-rezanje 3,13% 6,909 6-rezanje 2,91% 6,456 2211enakost 2,45% 6,044 enakost 2,44% 5,991 enakost 2,24% 5,623 2211metaphone 2,80% 6,684 metaphone 2,71% 6,346 metaphone 2,55% 6,05 2211similar60 7,77% 10,046 similar60 8,75% 10,205 similar60 6,61% 9,348 2211similar70 5,23% 8,483 similar70 6,00% 8,746 similar70 4,47% 7,741 2211similar80 3,71% 7,534 similar80 3,69% 7,379 similar80 3,21% 6,765 2211soundex 3,38% 7,288 soundex 3,25% 7,028 soundex 3,06% 6,601 2211skupaj 3,95% 7,776 skupaj 4,09% 7,794 skupaj 3,50% 7,096 19899

Tabela E.11: Statistika povpre£nih f-mer za 15 klju£nih besed po prevajalniku, orodju, pristopu inkriteriju ujemanja

Page 214: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

189

²t. kb N avg σ std. napaka 95% interval zaupanja min maxsp. meja zg. meja

5 2211 5,3668 11,2024 0,2382 4,8996 5,8340 0 72,727310 2211 4,1952 7,9061 0,1681 3,8655 4,5249 0 62,515 2211 3,5103 6,2533 0,1330 3,2495 3,7711 0 38,0952

skupaj 6633 4,3574 8,7330 0,1072 4,1472 4,5676 0 72,7273

Tabela E.12: Opisna statistika dobljenih f-mer pri kombinaciji KeaEPAP za razli£no ²tevilo klju£nihbesed

(I) ²t. kb (J) ²t. kb avg razlike (I-J) std. napaka Sig. 95% interval zaupanjasp. meja zg. meja

5 10 1,1716 0,2617 2,2889E-005 0,5582 1,785115 1,8565 0,2617 5,1051E-009 1,2431 2,4699

10 5 -1,1716 0,2617 2,2889E-005 -1,7851 -0,558215 0,6849 0,2617 0,0241 0,0714 1,2983

15 5 -1,8565 0,2617 5,1051E-009 -2,4699 -1,2430110 -0,6849 0,2617 0,0241 -1,2983 -0,0714

Tabela E.13: Primerjava povpre£nih dobljenih f-mer pri kombinaciji KeaEPAP za razli£no ²teviloklju£nih besed

²t. kb N podmnoºica za α = ,051 2 3

15 2211 3,510310 2211 4,19525 2211 5,3668

Sig. 1 1 1

Tabela E.14: Rezultat testa Tukey HSD dobljenih f-mer pri kombinaciji KeaEPAP za razli£no²tevilo klju£nih besed

N avg σ std. napaka 95% interval zaupanja min maxsp. meja zg. meja

5 2211 5,5254 11,3974 0,2424 5,0501 6,0008 0,00 66,6710 2211 4,5928 8,4698 0,1801 4,2396 4,9461 0,00 50,0015 2211 3,8686 6,7827 0,1442 3,5857 4,1515 0,00 50,00

skupaj 6633 4,6623 9,1095 0,1118 4,4430 4,8815 0,00 66,67

Tabela E.15: Primerjava povpre£nih dobljenih f-mer pri kombinaciji KeaPEGT za razli£no ²teviloklju£nih besed

Page 215: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

190 Poglavje E: Rezultati eksperimenta 2

(I) ²t. kb (J) ²t. kb avg razlike (I-J) std. napaka Sig. 95% interval zaupanjasp. meja zg. meja

5 10 0,9326 0,2733 0,002 0,2920 1,573215 1,6569 0,2733 0,000 1,0163 2,2974

10 5 -0,9326 0,2733 0,002 -1,5732 -0,292015 0,7242 0,2733 0,022 0,0837 1,3648

15 5 -1,6569 0,2733 0,000 -2,2974 -1,016310 -0,7242 0,2733 0,022 -1,3648 -0,0837

Tabela E.16: Primerjava povpre£nih dobljenih f-mer pri kombinaciji KeaPEGT za razli£no ²teviloklju£nih besed

²t. kb N podmnoºica za α = ,051 2 3

15 2211 3,868610 2211 4,59285 2211 5,5254

Sig. 1,000 1,000 1,000

Tabela E.17: Rezultat testa Tukey HSD dobljenih f-mer pri kombinaciji KeaPEGT za razli£no²tevilo klju£nih besed

Page 216: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

Literatura

[1] ANSI/NISO, 1484.12.1-2002, IEEE Standard for Learning Object Metadata, IEEEComputer Society, 2002.

[2] ANSI/NISO, Infomation Retrieval (Z39.50): Application Service De�nition and Pro-tocol Speci�cation, NISO Press, Bethesda, USA, ISSN 1041-5653, dostopno nahttp://www.loc.gov/z3950/agency/Z39-50-2003.pdf [27.04.2011], 2003.

[3] Balci Birim, Inceoglu Mustafa, A Web-Based Learning Content Design Platformand Metadata Editing, Proceedings of 37th ASEE/IEEE Frontiers in EducationConference (FIE 2007), Milwaukee, ZDA, str. F1H-13-F1H-18, 2007.

[4] Bargmeyer Bruce E., Gillman Daniel W., Metadata Standards and Metadata Reg-istries: An Overview, Proceedings of International Conference on EstablishmentSurveys II (ICES-II 2000), Bu�alo, New York, ZDA, 2000.

[5] Barker Ken, Cornacchia Nadia, Using Noun Phrase Heads to Extract DocumentKeyphrases, Proceedings of 13th Biennial Conference on the Canadian Society onComputational Studies on Intelligence (AI'00), Montreal, Kanada, (Lecture Notesin Arti�cial Itelligence, 1822), str. 40�52, 2000.

[6] Brand Amy, Daly Frank, Meyers Barbara, Metadata Demysti�ed, The SheridanPress & NISO Press, str. 1�19, 2003.

[7] Brin Sergey, Page Lawrence, The Anatomy of a Large-Scale Hypertextual WebSearch Engine, Computer Networks and ISDN Systems, 30, str. 1�7, 1998.

[8] Brody Roberta, Information Ethics in the design and Use of Metadata, IEEE Tech-nology and Society Magazine, poletje 2003, str. 34-39.

[9] Duncan Charles, Douglas Peter, Automatic Metadata Generation: Use Cases andTools/Priorities - Guidance on di�erent automated metadata generation approachesfor service providers in HE, Technical Report for JISC, Intrallect Ltd, 2009

[10] Duval Erik, Hodgins Wayne, Sutton Stuart, Weibel Stuart L., Metadata Principlesand Practicalities, D-Lib Magazine, 8 (4).

[11] Fayyad Usama M. Irani Keki B., Multi-Interval Discretization of Continous-ValuedAttributes for Classi�cation Learning, Proceedings of 13th International Joint Con-ference on Arti�cial Intelligence (IJCAI'93), Chambery, Francija, str. 1022�1029,1993.

[12] Ford Nigel, Educational Informatics, Annual Review of Information science and Tech-nology, 42, str. 497�544, 2008.

[13] Frank Eibe, Paynter Gordon W., Witten Ian H., Gutwin Carl, Nevill-Manning CraigG., Domain-Speci�c Keyword Extraction, Proceedings of 16th International JointConference on Arti�cial Intelligence (IJCAI'99), Stockholm, �vedska, str. 668�673,1999.

191

Page 217: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

192 LITERATURA

[14] Friesen Norm, Roberts Anthony, Fisher Sue, CanCore: Metadata for Learning Ob-jects, Canadian Journal of Learning and Techonology, 28 (3), 2002.

[15] Gilliland-Swetland Anne J., Setting the Stage, iz knjige Introduction to Metadata:Pathways to Digital Information", Getty Information Institute, maj 2000.

[16] Greenberg Jane, Metadata Generation: Processes, People and Tools, Bulletin ofthe American Society for Informatics Science and Technology, 29 (2), str. 16�19,2003.

[17] Greenberg Jane, Metadata Extraction and Harvesting: A Comparison of Two Au-tomatic Metadata Generation Applications, Journal of Internet Cataloging, 6 (4),str. 59�82, 2003.

[18] Greenberg Jane, Metadata and the World Wide Web, Encyclopedia of Library andInformation Science, 72, str. 244�261, 2003.

[19] Greenberg Jane, Spurgin Kristina, Crystal Abe, Cronquist Wilson, Final Report forthe AmeGA (Automatic Metadata Generation Applications) Project, Project FinalReport for the AmeGA, 2005.

[20] Greenberg Jane, Spurgin Kristina, Crystal Abe, Functionalities for automatic meta-data generation applications: a survey of metadata experts' opinions, InternationalJournal of Metadata, Semantics and Ontologies, 1 (1), str. 3�20, 2006.

[21] Han Hui, Giles C. Lee, Manavoglu Eren, Zha Hongyuan, Zhang Zhenyue, Fox Ed-ward A., Automatic Document Metadata Extraction using Support Vector Machines,Proceedings of Joint Conference on Digital Libraries (JCDL 2003), Houston, ZDA,str. 37�48, 2003.

[22] Hulth Annette, Improved Automatic Keyword Extraction Given More LinguisticKnowledge, Proceedings of the Conference on Empirical Methods in Natural Lan-guage Processing (EMNLP'03), Sapporo, Japonska, str. 216�223, 2003.

[23] Hulth Annette, Reducing false positives by expert combination in automatic keywordindexing, Proceedings of the Conference on Recent Advances in Natural LanguageProcessing (RANLP'03), Borovets, Bulgarija, str. 197�203, 2003.

[24] Kav£i£ Alenka, Pomen standardov in speci�kacij za elektronska u£na gradiva,Zbornik konference Splet izobraºevanja in raziskovanja z IKT (SIRikt2011), KranjskaGora, Slovenija, str. 158�164, 2011.

[25] Klerkx Joris, Vandeputte Bram, Parra Gonzalo, Luis Santos José, Van Assche Frans,Duval Erik, How to Share and Reuse Learning Resources: The ARIADNE Experi-ence, Proceedings of 5th European Conference on Technology Enhanced Learning(EC-TEL'2010), Barcelona, �panija, str. 183�196, 2010.

[26] Lemnitzer Lothar, Monachesi Paola, Extraction and evaluation of keywords fromLearning Objects - a multilingual approach, Proceedings of the 6th InternationalConference on Language Resources and Evaluation, Marrakech, Maroko, 2008.

[27] Liddy Elizabeth D. et al., Automatic metadata generation & evaluation, Proceedingsof the 25th annual international ACM SIGIR conference on Research and develop-ment in information retrieval, Tampere, Finska, str. 401�402, 2002.

[28] Lovins Julie Beth, Development of a Stemming Algorithm, Mechanical Translationand Computational Linguistics, 11 (1&2), str. 22�31, 1968.

Page 218: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

LITERATURA 193

[29] Madalli Devika P., Prasad A.R.D., Subirats Imma, Integration of language attributesin Metadata and Customization for Domain Speci�c Repositories, E-prints in Libraryand Information Science, http://hdl.handle.net/10760/15184, 2010.

[30] Marshall G. Jones, Harmon Stephen Webb, Lowther Deborah, Integrating Web-Based Learning in an Educational System: A Framework for Implementation,poglavje 22 v Reiser R.A. & Dempsey J.V. (eds.), Trends and Issues in Instruc-tional Design and Technology, Merrill/Prentice Hall, str. 295�306, 2002.

[31] Massart David, Shulman Elena, Learning Resource Exchange Metadata ApplicationPro�le Version 4.7, European Schoolnet, str. 1�127, 2011.

[32] Meire Michael, Duval Erik, Ochoa Chebab Xavier, SAmgI: Automatic MetadataGeneration v2.0, Proceedings of World Conference on Educational Multimedia,Hypermedia and Telecommunications (EdMedia07), Chesapeake, ZDA, str. 1195�1204, 2007.

[33] Mihalcea Rada, Tarau Paul, TextRank: Bringing Order into Texts, Proceedings ofConference on Empirical Methods in Natural Language Processing (EMNLP-04),Barcelona, �panija, str. 404�411, 2004.

[34] Mihalcea Rada, Language Independent Extractive Summarization, Proceedings ofACL Interactive Poster and Demonstration Sessions, Ann Arbor, str. 49�52. 2005.

[35] Mihalcea Rada, Tarau Paul, A Language Independent Algorithm for Single and Mul-tiple Document Summarization, Proceedings of 2nd International Joint Conferenceon Natural Language Processing (IJCNLP-05), Jeju Island, Koreja, 2005.

[36] Mizera-Pietraszko Jolanta, Interactive Document Retrieval from Multilingual DigitalRepositories, Proceedings of Second International Conference on the Applicationsof Digital Information and Web Technologies (ICADIWT 2009), Londok, UK, str.423�428, 2009.

[37] NISO, Understanding Metadata, NISO Press, Bethesda,USA, ISBN 1-880124-62-9, 2004, dostopno nahttp://www.niso.org/publications/press/UnderstandingMetadata.pdf [27.04.2011].

[38] Noufal P.P., Metadata: automatic generation and extraction, Proceedings of 7thMANLIBNET Annual National Convention on Digital Libraries in Knowledge Man-agement: Opportunities for Management Libraries, Kozhikode, Indija, str. 319�327,2005.

[39] Polfreman Malcolm, Rajbhandari Shrija, MetaTools - Investigating Metadata Gen-eration Tools (JISC Final report), str. 1�27, 2008.

[40] Porter M. F., An algorithm for su�x stripping, Program; Automated Library andInformation Systems, 14 (3), str. 130�137, 1980.

[41] Ram²ak Maja, Marolt Matija, Razli£na korenjenja orodja za ekstrakcijo klju£nihbesed Kea, Zbornik dvajsete mednarodne Elektrotehni²ke in ra£unalni²ke konference(ERK 2011), Portoroº, Slovenija, [sprejeto v objavo], 2011.

[42] Rao Ramana, From Unstructured Data to Actionable Intelligence, IT Professional,IEEE Computer Society, 5 (6), str. 29�35, 2003.

[43] S�ah Melike, Wade Vincent, Automatic Metadata Extraction from Multilingual En-terprise Content, Proceedings of the 19th ACM International Conference on Infor-mation and Knowledge Management, Toronto, Kanada, 2010.

Page 219: Maja Ram²ak Avtomatizirano opremljanje u£nih gradiv z ...eprints.fri.uni-lj.si/1526/1/Ramsak1.pdf · IZJAVA O VTORSTVUA magistrskega dela Spodaj podpisana Maja Ram²ak , z vpisno

194 LITERATURA

[44] Sutton Stuart A., Gateway to educational materials (GEM): metadata for networkedinformation discovery and retrieval, Journal Computer Networks and ISDN Systems,30 (1�7), str. 691-693, 1998.

[45] Thomale Jason, Generating Metadata Automatically, Research Report for SLIS5223: Metadata and Networked Information Organization and Retrieval, Univer-sity of North Texas, 2005.

[46] Turney Peter D., Extraction of Keyphrases from Text: Evaluation of Four Algo-rithms, Report ERB-1051, National Research Council Canada, Institute for Infor-mation Technology, 1997.

[47] Turney Peter D., Learning Algorithms for Keyphrase Extraction, Report ERB-1051,National Research Council Canada, Institute for Information Technology, 1999.

[48] Turney Peter D., Learning to Extract Keyphrases from Text, Report ERB-1057,NRC-41622, National Research Council Canada, Institute for Information Technol-ogy, 1999.

[49] Van Assche Frans et al., MELT Final Report - ECP 2005 EDU 038103, ProjectFinal Report under eContentplus programme, 2009.

[50] Van Assche Frans et al., Experiences with the Learning Resource Exchange forschools in Europe, eLearningPapers, 17, str. 1�15, 2009.

[51] Zeng Marcia Lei, Qin Jian, Metadata, Facet Publishing, London, ISBN 978-1-85604-655-8, 2008.

[52] Whitley Darrell, The GENITOR Algorithm and selective pressure: Why Rank-BasedAllocation of Reproductive Trials is Best, Proceedings of the 3rd International Con-ference on Genetic Algorithms (ICGA-89), str. 116�121, 1989.

[53] Witten Ian H., Paynter Gordon W., Frank Eibe, Gutwin Carl, Nevill-Manning CraigG., KEA: Practical Automatic Keyphrase Extraction, Proceedings of 4th ACM con-ference on Digital libraries (DL'99), Berkeley, California, ZDA, str. 314�326, 1999.

[54] Witten Ian H., Paynter Gordon W., Frank Eibe, Gutwin Carl, Nevill-Manning CraigG., KEA: Practical Automatic Keyphrase Extraction, poglavje 8 v In Design andUsability of Digital Libraries: Case Studies in the Asia Paci�c, Theng Y.L. & FooS. (eds), Idea Group Publishing, Hershey, PA, str. 314�326, 2004.

[55] Yunhyong Kim, Seamus Ross, Detecting family resemblance: automated genre clas-si�cation, Data Science Journal, 6, str. 172�183, 2007.