hhu düsseldorf, ss 2003empirische informationswissenschaft1

56
HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 1 Empirische Informationswissenschaft

Upload: clotilda-hemmelgarn

Post on 05-Apr-2015

110 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 1

Empirische Informationswissenschaft

Page 2: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 2

Empirische Informationswissenschaft

Informetrie:

nomothetische Informetrie (informetrische Gesetzmäßigkeiten)

- deskriptive Informetrie – Online-Informetrie – Web-Informetrie

Analyse von Informationssystemen:

Retrievalsysteme (Relevanz, Recall, Precision) – Datenbasen (Availability) – Funktionalität von Datenbanken – Usability von

Websites

Wissenschaftliche Kommunikation:

Der „Ethos“ der Wissenschaft – Zitationen und Referenzen – Zitatenanalyse – Impact Factor akademischer Zeitschriften -

Themenanalyse – Wissenschaft und Öffentlichkeit – Thematisierungen

Page 3: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 3

Empirische Informationswissenschaft

Empirische Wissenschaftsforschung / Wissenschaftsgeschichte:

Szientometrie - Wissenschaftsevaluation – Wissenschaftsgeschichtsschreibung mittels Datenbanken

Knowledge Mining:

Data Mining (Informetrie strukturierter Daten) – Text Mining (Informetrie unstrukturierter Daten)

Nutzeranalyse:

Informationsbedarf und –bedürfnis, Nutzung von Informations-systemen und –diensten

Empirie der Informationstätigkeiten:

Bibliotheksforschung - Informationswirtschaft

Page 4: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 4

Informetrie

Page 5: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 5

Informetrie

Zeitschriften:Scientometrics - Cybermetrics

Journal of the American Society for Information Science and Technology

Kongress:International Conference on Scientometrics and Informetrics (seit 1987; alle 2

Jahre)

Basisliteratur:Leo Egghe; Ronald Rousseau: Introduction to Informetrics. –

Amsterdam [u.a.]: Elsevier Science, 1990.

Wolfgang G. Stock: Informationswirtschaft. – München; Wien: Oldenbourg, 2000. – Kap. 5 (Data Mining bei externen Informationen)

Page 6: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 6

Informetrie

Nomothetische Informetrie• Konzentrationsgesetze

– Zipfsches Gesetz: Verteilung von Worthäufigkeiten in Texten

– Lotkas Gesetz: Verteilung von Publikationen eines Fachgebiets auf Autoren

– Bradfordsches Gesetz: Verteilung von Artikeln eines Fachgebiets auf Zeitschriften

– Garfieldsches Gesetz: Verteilung von Zitationen auf wissenschaftliche Zeitschriften

• Gesetz der zeitlichen Verteilung– Halbwertzeit: Zeit, nach der die Hälfte einer Literatur-

menge nicht mehr benutzt wird

Virgil P. Diodato: Dictionary of Bibliometrics. – New York [u.a.]: Haworth, 1994.

Page 7: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 7

Informetrie

Zipfsches Gesetz• George Kingsley Zipf (1902 - 1950)

gegeben: Text (Artikel, Buch, ...)

Auszählen der Häufigkeiten jedes WortesOrdnung der Wörter nach Häufigkeit (absteigend)

r * f = C

r =: Rangplatz des Wortesf =: Häufigkeit des WortesC =: Konstante (abhängig vom Text)

Page 8: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 8

Informetrie

Zipfsches Gesetz

Beispiel: “Ulysses” (James Joyce)Wort auf Rang 10 kommt 2.653mal vor: C = 26.530Wort auf Rang 20 kommt 1.311mal vor: C = 26.220Wort auf Rang 1.000 kommt 26mal vor: C = 26.000

C (Ulysses) ~ 26.000

Das Gesetz gilt für Hochfrequenzworte, z.T. auch - je nach Text - für alle Worte eines Textes. Für Niedrigfrequenz-worte hat Zipf ein weiteres Gesetz entwickelt (Zweites Zipfsches Gesetz).

George K. Zipf: Human Behavior and the Principle of Least Effort. – Cambridge, MA: Addison-Wesley, 1949.

Page 9: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 9

Informetrie

Lotkas GesetzAlfred J. Lotka (1880 - 1949)

gegeben: Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Biblio- graphie, Spezialdatenbank)Auszählen der Publikationsraten für alle AutorenSortieren der Autoren nach der Anzahl der Publikationen Zählen der Autoren mit gleichviel Publikationen

x * y = c oder y = c / x

x =: Anzahl der Publikationeny =: relative Häufigkeit der Autoren mit x Publikationenn, c =: Konstanten (je nach Fachgebiet) [n ~ 2]

n Alfred J. Lotka: The frequency distribution of scientific

productivity. – In: Journal of theWashington Academy of Sciences

16 (1926), 317-323.

n

Page 10: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 10

Informetrie

Lotkas Gesetz Beispiel: “Journal of Finance”, 1946-1980; insgesamt 1.844 Artikel)

1.237 Autoren (67,1%) produzierten je 1 Artikel 295 Autoren (16,0%) produzierten je 2 Artikel 140 Autoren (7,6%) produzierten je 3 Artikel

63 Autoren (3,4%) produzierten je 4 Artikel 41 Autoren (2,2%) produzierten je 5 Artikelangenommen: n = 2(1 * 1) * 0,671 = 0,671(2 * 2) * 0,160 = 0,640(3 * 3) * 0,076 = 0,684 c ~ 0,6(4 * 4) * 0,034 = 0,544(5 * 5) * 0,022 = 0,550

M. Keenan: Report on the 1987membership survey. – In: Journal of

Finance 43 (1988), 767-777.

Page 11: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 11

Informetrie

Lotkas Gesetz

Kreise: empirische Daten

Linie: nach Theorie erwartet

Reduktion der Daten auf genau

100 Autoren, die 1 Aufsatz

publiziert haben (C = 1, n = 2)

Derek J. de Solla Price: Litte Science, Big Science. –Frankfurt: Suhrkamp, 1974.

Page 12: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 12

Informetrie

Bradfordsches GesetzSamuel Clement Bradford (1878 - 1948)

gegeben: Artikel eines FachgebietsZählen der Anzahl der Artikel pro ZeitschriftSortieren der Zeitschriften nach der Anzahl der ArtikelBildung von drei Mengen, die jeweils die gleiche Anzahl der Artikel enthaltendie Anzahl der Zeitschriften in den drei Zonen folgt der Formel

1 : n : n

n =: Konstante (“Bradford Multiplikator”)

2

Page 13: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 13

Informetrie

Bradfordsches Gesetzdrei Zonen: Kern - Mitte - Rand

empirisches Beispiel:– Bradford (1934): Schmiermittel (395 Artikel in 164

Zeitschriften)• Kern: 8 Zeitschriften produzieren 110 Artikel• Mitte: die nächsten 29 Zs. produzieren 133 Artikel• Rand: die nächsten 127 Zs. produzieren 152 Artikel

8 : 29 : 127 = 1 : 3,625 : 15,875 ~ 1 : 4 : 16

Samuel C. Bradford: Sources of information on specific subjects. – In: Engineering 137 (1934), 85-86.

Page 14: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 14

Informetrie

Bradford-Zipf-Bibliograph• Verallgemeinerung des Bradfordschen Gesetzes im Sinne

des Zipfschen Gesetzes• Zuordnung der kumulierten Anzahl der Artikel zur

kumulierten Anzahl der Zeitschriften• Berechnung der Logarithmen (Basis 10) der beiden

Zahlenreihen• Darstellung als Graph der absoluten Häufigkeiten• Darstellung als Graph der Logarithmen• Darstellung als Graph in halblogarithmischer Darstellung

(nur eine Achse logarithmisch; in der Regel die Anzahl der Zeitschriften); typische Formen– J-Kurve– S-Kurve– Kurve mit umgekehrtem J

Page 15: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 15

Informetrie

Bradford-Zipf-BibliographAusgangsdaten (Quelle: Bradford 1934: Angewandte Geophysik Jg. 1928-1931)

Page 16: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 16

Informetrie

Bradford-Zipf-BibliographAbsolute Häufigkeiten

Page 17: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 17

Informetrie

Bradford-Zipf-BibliographLog-Log-Graph

Page 18: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 18

Informetrie

Bradford-Zipf-BibliographHalb-Log-Graph J-Kurve: Disziplin mit

ergiebigen Zeit-schriften ohne großen Rand

S-Kurve: Disziplin mit ergiebigen, aber auch mit vielen Zeit-schriften im Rand

Kurve wie umgekehrtes J: Disziplin konzentriert auf eigene Zeitschriften, aber mit Rand

Page 19: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 19

Informetrie

Garfieldsches GesetzEugene Garfield (geb. 1925)

gegeben: Referenzen aus Quellenzeitschriften der Reihen des ISI (multidisziplinär)Zuordnung von Zitationsraten zu ZeitschriftenSortierung der Zeitschriften nach Zitationsraten

Konzentration wie bei Bradford-Zipf:75% aller Zitationen entfallen auf knapp 1.000 Zeitschriften; 84% auf ca. 2.000 ZeitschriftenPraktische Konsequenz: eine Datenbank, die einige Tausend Zeitschriften (nämlich die jeweils meistzitierten) auswertet, ergibt ein repräsentatives Abbild der Wissenschaft; hieran orientiert sich die Quellenauswahl bei SCI, SSCI, A&HCI

Eugene Garfield: The mystery of the transposed journal list – wherein Bradford‘s law of scattering is generalizedaccording to Garfield‘s law of concentration. – In: E.Garfield: Essays of an Information Scientist, Vol 1. –

Philadelphia: ISI Press, 1977, 222-223.

Page 20: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 20

Informetrie

Garfieldsches Gesetz• Beispiel: Philosophie (Drei-Zonen-Einteilung wie Bradford)

gegeben: 735 Referenzen (Jg. 1975); darin zitierte Zeitschriften: 223Kern: 6 Zeitschriften (genannt in 245 Zitationen)Mitte: 23 Zeitschriften (genannt in 245 Zitationen)Rand: 194 Zeitschriften (genannt in 245 Zitationen)

also: 6 : 23 : 194 = 1 : 3,8 : 32,3 ~ 1 : 4 : 32 (erwartet: 1 : 4 : 16), demnach: sehr große Randzone

Kernzeitschriften:Journal of PhilosophyPhilosophical Review

AnalysisMind

Philosophy of SciencesAmerican Philosophical Quarterly

Page 21: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 21

f (x)

x

f (x) = _____C

xa

Das informetrische Verteilungsgesetz

ca. 20%

ca. 80 %

Informetrie

Page 22: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 22

Informetrie

Gesetz der zeitlichen Verteilung: HalbwertszeitAnalogie zum radioaktiven Zerfall

Die Halbwertszeit ist die Zeit, in der die Hälfte eines radioaktiven Stoffes in einen anderen Stoff zerfallen ist. Dieser Prozess ist zufallsabhängig; d.h. man weiß nicht, welches Atom zu welcher Zeit zerfällt. Beispiele für Halbwertszeiten:

Uran-238: 4,5 Mrd. Jahre C-14: 5.730 Jahre

Jod-131: 8 Tage

Page 23: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 23

Informetrie

Gesetz der zeitlichen Verteilung: Halbwertszeit

gegeben: Zitationen / Referenzen

Sortierung der Zitationen nach der Zeit

Zählen der Anzahl der Zitationen pro Jahr; Zählen der Gesamtanzahl der Zitationen

Markierung des Jahres, an dem die Hälfte (ein Viertel, ein Achtel usw.) der Zitationen erreicht wird

Gesetz: Die Halbwertzeiten sind (bei großen Zahlen) jeweils gleich.

Page 24: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 24

Informetrie

Deskriptive Informetrie• Beschreibung von Dokumentmengen. • Beispiele:

– Werke eines Wissenschaftlers (Wieviel geschrieben? In welcher Zeit? Worüber? Welche Wirkung?)

– Artikel und Bücher von Angehörigen eines Instituts

– Patente und Artikel eines Wirtschaftsunternehmens

– Wissenschaftliche Zeitschriften (Wieviele Publikationen? Wieviele unterschiedliche Autoren? Welche Wirkung?)

– Wissenschaftliche und technische Themen (Wann zuerst aufgekommen? Wie verbreiteten sie sich? Wie lange diskutiert? Welche Autoren?)

– Länder / Weltregionen (Nationaler Output? Internationale Wirkung?)

– Websites / Domains (Einfluss? Verlinkung?)

Page 25: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 25

Informetrie

deskriptive Informetrie: Aufspüren von neuen Informationen in Datenbanken („Knowledge Mining“)

• Rangordnungen• Zeitreihen• Semantische Netze• Informationsfluß- und

Linkanalysen

dabei – soweit möglich: Vergleich der beschriebenen Verteilungen mit den (nach den informetrischen Gesetzen) erwarteten

Page 26: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 26

Informetrie

• Rangordnungen– Fragestellung: Welches sind die Top-X-Items in einer

Dokumentenmenge?– Theoretische Basis: Konzentrationsgesetze– Ziel: 1. Retrievalverbesserung; 2. Neue Informationen– Vorgehen:

• Suche nach allen Datensätzen zum Thema• Rangordnung zur gewünschten Ausprägung (in den

meisten Systemen der Befehl: RANK)• Ausgabe der “Hitparade” bis Platz X

– Beispiel: Welche Unternehmen sind in der FuE bei Verpackungsmaschinen führend?

Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In: Nachrichten für Dokumentation 43 (1992), 301-315. - Wolfgang G. Stock: Das „Online-Unternehmensbild“ anhand von

Wirtschaftsdaten und informetrischen F&E-Indikatoren. – In: Harald Killenberg et al. (Hrsg.): WissensbasierteInformationssysteme und Informationsmanagement. – Konstanz: Univ.-Verl., 1991, 376-386.

Page 27: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 27

Informetrie

Rangordnung der Unternehmen nach Patenten bei Verpackungsmaschinen

Rang absolute H. relative H. Unternehmen 1 170 0,74 % Focke & Co GmbH & Co

2 153 0,66 % Grace & Co

3 126 0,55 % Robert Bosch GmbH

4 105 0,45 % Packaging Filling Equip.

N = 22.867 Patentfamilien in der IPC-Unterklasse B65B (nebst aller Unter- begriffe)

N’ = 7.448 (unterschiedliche) Unternehmen mit mindestens einem Patent in B65B

Page 28: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 28

Informetrie

• Informetrische Zeitreihen– Fragestellung: Wie entwickelt sich ein Aspekt einer

Dokumentmenge im Laufe der Zeit?– Ziel: Neue Informationen– Vorgehen:

• Suche nach allen Datensätzen zum Thema• Ausgabe der Inhalte des Feldes “Jahrgang” (mit

Angabe der Anzahl der DE)• graphische Aufbereitung als Zeitreihe

(Tabellenkalkulationsprogramm)– Beispiel: Wieviele Patente für Verpackungsmaschinen

haben die führenden Unternehmen pro Jahr zwischen 1981 und 1993 angemeldet?

Page 29: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 29

Informetrie

Patentaktivitäten der führenden Unternehmen bei Verpackungsmaschinen

0

10

20

30

40

50

60

70

80

19

81

19

82

19

83

19

84

19

85

19

86

19

87

19

88

19

89

19

90

19

91

19

92

19

93

Pa

ten

tan

me

ldu

ng

en

pro

Ja

hr

Bosch

Focke

Grace

Page 30: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 30

Informetrie

• Semantische Netze– Fragestellung: Gibt es in einer Dokumentenmenge

zusammengehörige Komplexe? Bsp.: kooperierende Autoren oder Institute; gemeinsam auftretenden Themen; gemeinsame Referenzen oder Zitationen

– Ziel: 1. Retrievalverbesserung; 2. Neue Informationen– Vorgehen:

• Suche nach allen Datensätzen zum Thema• clusteranalytische Aufbereitung der DE

(Spezialsoftware)• graphische Aufbereitung

– Beispiel: Wie hängen die Forschungsthemen der Krones AG im Bereich der Etikettiermaschinen zusammen?

Page 31: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 31

Informetrie

Thematisches Cluster der Artikel von Krones-Mitarbeitern im Bereich der Etikettiermaschinen

(im Bild der Deskriptoren der FIZ Technik-Datenbank DOMA)

Page 32: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 32

Informetrie

• Informationsflussgraphen / Linkanalysen (1)– Fragestellung: Fließen innerhalb einer Dokumentenmenge

Informationen (welche?, wieviele?) von A nach B? Sofern Hypertextdokumente vorliegen: Sind A und B verlinkt?

– Ziel: 1. Retrievalstrategie; 2. Neue Informationen– Vorgehen bei Zitationen:

• Aufruf einer Datenbank, die Zitationen speichert (wiss. Artikel; Patente; Grundsatzurteile)

• Suche nach zitierenden Dokumenten (nach vorne) und nach zitierten Dokumenten (nach hinten) – Hostsoftware

• graphische Aufbereitung als Informationsflussgraph– Beispiel: Woher stammen die Technologieinformationen der

Krones AG? Wohin fließen die Technologieinformationen von Krones?

Page 33: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 33

Informetrie

Wissensimport und –export bei der Krones AG (im Bild von Derwent World Patents Index bei Questel-Orbit)

Page 34: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 34

Informetrie

• Informationsflussgraphen / Linkanalysen (2)– Fragestellung: Fließen innerhalb einer Dokumentenmenge

Informationen (welche?, wieviele?) von A nach B? Sofern Hypertextdokumente vorliegen: Sind A und B verlinkt?

– Ziel: 1. Retrievalstrategie; 2. Neue Informationen– Vorgehen bei Hypertextdokumenten:

• Aufruf einer Suchmaschine, die eine Feldsuche zu Links, Ankertexten, Hosts und Domains anbietet

• entweder direkte Ausgabe der „Landkarte“• oder graphische Aufbereitung als Linkgraph

– Beispiel 2: Wie sind deutsche Webseiten zu Miranda Otto verlinkt?

Page 35: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 35

Informetrie

Link-Topologie deutscher

Webseiten zu Miranda Otto

(im Bild von Kartoo.com)

Page 36: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 36

Informetrie

Datengewinnung der Informetrie– Online-Informetrie bei Content-Aggregatoren

• Voraussetzungen: – (1) spezifische informetrische Befehle– (2) adäquates Feldschema– (3) adäquate Datenbasis

– Web-Informetrie bei Suchmaschinen• Voraussetzungen:

– (1) Abfrage der HTML-Tags– (2) adäquate Datenbasis

– Offline-Informetrie mittels spezifischer Analysesoftware• Download von Datensätzen• Weiterverarbeitung offline

Page 37: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 37

Informetrie

Online-Informetrie bei Content-Aggregatoren

Page 38: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 38

Informetrie

Informetrische Befehle bei STN

Rangordnungen mit ANALYZE

ANALYZE and TABULATE Commands. – In: STNotes No. 17 (1998), 1-5.

Page 39: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 39

Informetrie

Informetrische Befehle bei STN

Zusammenhänge zweier Variablen mit TABULATE

(wenn eine Variable PY ist: Zeitreihe)

ANALYZE and TABULATE Commands. – In: STNotes No. 17 (1998), 6-8.

Page 40: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 40

Informetrie

Informetrische Befehle bei DIALOG:

Zusammenspiel von MAP und RANK

Mechtild Stock; Wolfgang G. Stock: Dialog/DataStar. One-Stop-Shops internationaler Fachinformationen. –In: Password Nr. 4 (2003), 22-29.

In welche Technikgebiete hinein haben Düsseldorfer Unternehmen die größte

Wirkung? Welches ist das meistzitierte Patentdes Jahres 1995?

MAP PN/CT=

Page 41: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 41

Informetrie

Zusammenspiel von MAP und RANK

Zwischenergebnis;

unter SC004 gespeichert

Datenbankwechsel:

b 342

Ausführen der gespeicherten Suche:

EXS SC004

Page 42: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 42

Informetrie

RANK IC(1-4)

RANK CT

C11D : Reinigungsmittel

G08G : Verkehrsregelungs- und -überwachungssysteme

Page 43: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 43

Informetrie

Web-Informetrie bei SuchmaschinenWeb Impact Factor (WIF)

• WIF(C) = (# Links auf Seiten von C) / (# Seiten innerhalb C)bei AltaVista: Zähler: link:.XX/ Nenner: domain:XX oder host:www.XXX/Self-Link WIF (C) = (# Links aus C auf C) / (# Seiten innerhalb C)bei AltaVista: Zähler: domain/host:XX/ AND link:.XX/

• Ext-Link WIF (C) = (# Links außerhalb C auf C) / (# Seiten innerhalb C)bei AltaVista: Zähler: link:.XX/ AND NOT (domain/host:XX AND link:.XX/)

• Es gilt: WIF(C) = Self-Link (C) + Ext-Link (C)

Peter Ingwersen: The calculation of Web Impact Factors. – In: Journal of Documentation 54 (1998), 236-243.

Page 44: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 44

Informetrie

Web Impact Factor (WIF): Die „klassischen“ Ergebnisse von Ingwersen

(AltaVista; Mitte 1997)

Page 45: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 45

Informetrie

Web Impact Factor (WIF) für Norwegen (.no) und Deutschland (.de) – April 2003

• WIF (NO) = 2,97 WIF (DE) = 0,65• Self-Link WIF (NO) = 0,46Self-Link WIF (DE) = 0,38• Ext-Link (NO) = 2,51 Ext-Link (DE) = 0,25• N (Seiten NO) = 4,77 Mio. N (Seiten DE) = 86,61 Mio.

Page 46: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 46

Informetrie

Web Impact Factor (WIF) für Uni Düsseldorf und Uni Köln – April 2003

• WIF (DDF) = 0,44 WIF (KÖLN) = 0,49• Self-Link WIF (DDF) = 0,03 Self-Link WIF (KÖLN) =

0,14• Ext-Link (DDF) = 0,41 Ext-Link (KÖLN) = 0,35• N (Seiten DDF) = 56.927 N (Seiten KÖLN) = 87.421

Page 47: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 47

Informetrie

Variante des Web Impact Factor von Thelwall• Kritik am Verfahren von Ingwersen: Die Zahl der Webseiten eines

Hosts sagt nichts über die dahinterstehende Organisation aus.• Vorschlag:

– (a) Beschränkung auf externe Links

– (b) Relativierung auf die Anzahl der Vollzeitäquivalente akademischer Mitarbeiter einer Institution (was heißt, dass diese Variante ausschließ-lich auf Universitäten und andere Forschungseinrichtungen anwendbar ist)

• Academic-WIF (C) = (# Links außerhalb C auf C) / (# Wissenschaftler-Vollzeitäquivalente in C)

Mike Thelwall: A comparison of sources of links for academic Web impact factor calculation. – In:Journal of Documentation 58 (2002), 66-78.

Page 48: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 48

Informetrie

Academic Web Impact Factor (Acad. WIF) und Wissen-schaftsevaluation– Gibt es Korrelationen (Pearson) zwischen

• Acad. WIF und• „Official Government Research Assessment Exercise“ (RAE)

für britische Universitäten?

Domain der externen Links

Page 49: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 49

Analyse von Informationssystemen

Page 50: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 50

Analyse von Informationssystemen

Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen– Haben wir alle Datensätze gefunden, die

handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall)

Recall R = a / a + c– Haben wir nur solche Datensätze gefunden?

(Genauigkeit, Precision)

Precision P = a / a + b

a =: gefundene relevante Trefferb =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast)c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden

Gerard Salton; Michael J. McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. –Hamburg [u.a.]: McGraw-Hill, 1983. – Kap. 5: Die Bewertung von Retrievalsystemen, 167-210.

Salton

Page 51: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 51

Analyse von Informationssystemen

Recall / Precision– Relevanz: kontextuelle Übereinstimmung zwischen einem

Suchargument und einem Dokument - unabhängig von konkreten subjektiven Informationsbedürfnissen (Salton/McGill)

– Pertinenz: Übereinstimmung zwischen einem subjektivem Informationsbedürfnis und einem Dokument

– Ein Relevanzurteil nimmt in der klassischen Variante genau einen von zwei Werten an: relevant – nicht relevant.

– Relevanzurteile sind mitunter unscharf, insofern unterschiedliche Beurteiler zu abweichenden Urteilen kommen können.

Page 52: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 52

Analyse von Informationssystemen

Recall / Precision– Mengentheoretische Betrachtung (A: relevante Dokumente;

B: Dokumente in Treffermenge)

C.J. van Rijsbergen: Information Retrieval. – 2nd. Ed. – London; Boston: Butterworth, 1979.

Page 53: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 53

Analyse von Informationssystemen

Recall / Precision

Quelle: Salton; McGill, 180

Page 54: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 54

Analyse von Informationssystemen

Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen: Das Effektivitätsmaß von v.Rijsbergen– E: Effektivität; R: Recall; P: Precision

– α: Wert zwischen 0 und 1

– α = 0 : Effektivität wird auf Recall (1-R) reduziert

– α = 1 : Effektivität wird auf Precision (1-P) reduziert

– α = ½ : Effektivität beruht ausgewogen auf R und P

van Rijsbergen

Quelle: v.Rijsbergen, 174E ist zwischen 0 (beste Effektivität) und 1 (unendlich schlechte Effektivität) definiert.

Page 55: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 55

Analyse von Informationssystemen

Serendipity– Kennwert zur Erfassung der Fähigkeit eines

Informationssystems, im Ballast nützliche Informationen zu finden

– b: Anzahl der Dokumente, die nicht relevant zum Suchargument sind (wie bei Precision) – bei Relevance Ranking mit Cut-off-Wert

– b(u): Anzahl der Dokumente im Ballast, die völlig unbrauchbar sind

– b(s): Anzahl der Dokumente im Ballast, die – durchaus auch für ein völlig anderes Suchargument – brauchbar sind

– Serendipity S = b(s) / b

Jutta H.T. Klawitter-Pommer; Wolf D. Hoffmann: Übersicht über die für den Leistungsvergleich mehrererLiteratur-Datenbasen wichtigsten Parameter. – In: Nachrichten für Dokumentation 27 (1976), 103-108.

Page 56: HHU Düsseldorf, SS 2003Empirische Informationswissenschaft1

HHU Düsseldorf, SS 2003 Empirische Informationswissenschaft 56

einer der Prinzen

Serendip:Ceylon

Analyse von Informationssystemen

Serendipity– Term eingeführt von Horace Walpole (1717 – 1797) in

einem Brief aus dem Jahre 1754– Basis: Märchen „The Three Princes of Serendip“– diese finden unerwartet Sachen heraus,

die kein anderer weiß– seitdem: Bezeichnung für etwas,

was gefunden, aber nicht gesucht worden ist

Richard Boyle: The Three Princes of Serendip. – 2000. –URL: http://livingheritage.org/three_princes.htm