hhu düsseldorf, ss 2003information retrieval1. hhu düsseldorf, ss 2003information retrieval2 wer...

106
HHU Düsseldorf, SS 2003 Information Retrieval 1 Information Retrieval

Upload: alfred-schulze

Post on 06-Apr-2016

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 1

Information Retrieval

Page 2: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 2

Information Retrieval

Wer befasst sich mit Information Retrieval?Konferenzen – Messen

ZeitschriftenWie findet man Literatur?

Kurze Geschichte des Information Retrieval

Grundlagen:Relevanz – Pull / Push – konkreter vs. problemorientierter

Informationsbedarf – Recall und Precision – Suche nach Datensätzen („Nadel-im-Heuhaufen“-Syndrom) – Berrypicking -

informetrische Suchen – Informationsfilter – Informationsbarrieren – Typologie von Retrievalsystemen:

Boolesche Systeme und natürlichsprachige Systeme – Weltregionen im Internet - invertierte Dateien

Page 3: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 3

Information Retrieval

Funktionalität Boolescher Retrievalsysteme:Datenbankaufruf - feldspezifische Suche - Suche im Basic Index -

Blättern im Wörterbuch - Fragmentierung - mengentheoretische Operatoren - Abstandsoperatoren - Häufigkeitsoperatoren -

hierarchische Suche – datenbankübergreifende Suche - Umformulierung von Suchergebnissen zu Suchargumenten –Anzeigen von Suchergebnissen - Bestellen von Volltexten -

Suchprofile / SDI – Menüführung vs. Befehlssprache

Gewichtetes Retrieval:Intellektuelles Gewichten von Schlagworten – Gewichten durch

„Cracken“ von Ketten beim syntaktischen Indexieren – Termähnlichkeiten – Themencluster – variierbarer Thesaurus

Page 4: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 4

Information Retrieval

Informationslinguistik:Erkennen von Worten – Stoppworte – Wortstammanalyse –

Lemmatisierung - Phrasenerkennung – Homonyme – Synonyme – Pronomina-Analysen – Fehlertoleranz – SOUNDEX -

Besonderheiten der deutschen Sprache – MILOS/KASCADE

Textstatistik (Relevance Ranking I):Worthäufigkeiten – dokumentspezifische Wortgewichtung –

Position im Dokument – inverse Dokumenthäufigkeit – FREESTYLE - Vektorraummodell – probabilistisches Modell – INQUERY – Anreichern von Suchargumenten - ALTAVISTA -

Relevance Feedback

Page 5: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 5

Information Retrieval

Link-Topologie (Relevance Ranking II):Zitationsindexierung - Link-Analyse – Hubs und Authorities - PageRank – kontextspezifischer PageRank – Nutzungsanalyse -

GOOGLE

Automatische Indexierung mit Vorzugsbennungen:Indexierung mit Deskriptoren und Notationen – FACTIVA -

ortsabhängiges Ranking (GIS / regionale Klassifikation)

Automatische Indexierung mit freien Schlagworten:Schlagwortvergabe bei SMART – automatische Klassifikation –

Northern Light

Assoziative Suche / „More like this“:linguistische Variante – zitatenanalytische Variante

Page 6: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 6

Information Retrieval

Informationsextraktion:bereichsspezifisches Retrieval – Faktenextraktion aus Volltexten –

Faktenextraktion aus Literaturdatenbanken

CLIR (Cross-Language Information Retrieval):Sprachidentifikation – maschinelles Übersetzen –

wörterbuchunabhängige Verfahren

Sponsored Links („Einkaufen“ in Ausgabelisten):Ersteigern von Listenpositionen – AdWords (GOOGLE) -

OVERTURE

Informationsvisualisierung:Formulierung des Sucharguments – Ausgabe von Nicht-WWW-

Dokumenten – Ausgabe von WWW-Dokumenten – KARTOO - Ausgabe informetrischer Ergebnisse

Page 7: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 7

Information Retrieval

Basisliteratur:Reginald Ferber: Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. – Heidelberg: dpunkt.verlag, 2003.William B. Frakes; Ricardo Baeza-Yates (Hrsg.): Information Retrieval. Data Structure & Algorithms. – Upper Saddle River, NJ: Prentice Hall, 1992.Eleonore Poetzsch: Information Retrieval. Einführung in Grundlagen und Methoden. – Potsdam: Verl. für Berlin-Brandenburg, 3. Aufl., 2002.Eleonore Poetzsch: Wirtschaftsinformation. Online – CD-ROM - Internet. – Potsdam: Verl. für Berlin-Brandenburg, 2001.Karen Sparck-Jones; Peter Willett (Hrsg.): Readings in Information Retrieval. – San Francisco: Morgan Kaufmann, 1997.Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. – München; Wien: Oldenbourg, 2000.

Page 8: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 8

Information Retrieval

Wer befasst sich mit Information Retrieval?

Page 9: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 9

Information Retrieval

Informatik

Informationswissenschaft

Linguistik

Retrievalsoftware

Kommerzielle Datenbanken und Hosts

Suchmaschinen im Internet

Page 10: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 10

Information Retrieval

Konferenzen• ACM SIGIR Conference on Research and Development

in Information Retrieval (seit 1977; Fokus: informatische, computerlinguistische und informationswissenschaftliche Grundlagen) – ACM: Association for Computing Machinery – SIGIR: Special Interest Group on Information Retrieval

• TREC (seit 1992; Fokus: Evaluation von Retrievalsystemen) – Text REtrieval Conference

• World Wide Web Conference (seit 1994; Fokus: Retrieval-systeme im Internet)

Page 11: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 11

Information Retrieval

Messen (mit Tagungen)• Online Information (London)• National Online Meeting (USA)• ComInfo / DGI-Online-Tagung (Frankfurt/M.) (Fokus: jeweils

auf kommerzielle Datenbanken und Hosts)

Verbände in Deutschland• Fachgruppe Information Retrieval der Gesellschaft für

Informatik• Online-Benutzergruppe in der DGI (OLBG) – DGI: Deutsche

Gesellschaft für Informationswissenschaft und Informationspraxis

Page 12: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 12

Information Retrieval

Zeitschriften:• Journal of the American Society for Information Science

and Technology (JASIST)

• Communications of the ACM

• Information Processing & Management

• Information Retrieval

• Journal of Documentation

Spezialsuchmaschine:• CiteSeer von NEC Research

Institute (citeseer.com)

C. Lee Giles; Kurt D. Bollacker; Steve Lawrence: CiteSeer: An Automatic Citation Indexing System. – In:Digital Libraries 98. – New York: ACM, 1998, 89-98.

Page 13: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 13

Information Retrieval

Eine kurze Geschichte des Information Retrieval:Beginn der Forschungen: Anfang der 60er Jahre

– Experimente mit natürlichsprachigen Systemen: Gerard Salton (1927 – 1995) – Vektorraummodell, SMART

– Vorbereitungen kommerzieller Online-Systeme: Roger Kent Summit (geb. 1930) – DIALOG

Page 14: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 14

Information Retrieval

Eine kurze Geschichte des Information Retrieval:Theoriebildungen / erste Anwendungen: 70er Jahre

– Erstes Online-System: DIALOG 1972

– Theoretische Grundlagen, Gewichtungsverfahren: Karen Sparck-Jones / Donna Harman / C.J. „Keith“ van Rijsbergen (geb. 1943)

– Probabilistisches Modell: Stephen E. Robertson

Sparck-Jones

RobertsonvanRijsbergen

Page 15: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 15

Information Retrieval

Eine kurze Geschichte des Information Retrieval:Erfolg der Booleschen Online-Systeme in Praxis einsetzbare natürlichsprachige Systeme (nur moderat erfolgreich): 80er Jahre– diverse Online-Hosts, auch in Deutschland: GENIOS, GBI u.a.

– natürlichsprachige Systeme: OKAPI, INQUERY; in Deutschland: AIR/PHYS: Gerhard Lustig, Norbert Fuhr, Gerhard Knorz

Fuhr Knorz

Page 16: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 16

Information Retrieval

Eine kurze Geschichte des Information Retrieval:Boom durch Word Wide Web: 90er Jahre

– großangelegte Retrievaltests: TREC (Donna Harman)– natürlichsprachige Oberflächen auch bei Online-Hosts: Freestyle, WIN– Retrievaltechniken für‘s Web: Technologieführer bei „klassisch“

orientierten Systemen: AltaVista (Louis Monier)– Technologieführer bei Systemen unter Nutzung der Web-Topologie:

Google (Lawrence „Larry“ Page; Sergey Brin; Monika R. Henzinger)

Brin (li.)

Page

Monier

Henzinger

Page 17: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 17

Grundlagen des Information Retrieval

Page 18: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 18

Grundlagen des Information Retrieval

Infor-mations-bedarf

DBE

Dok. Bezugs-

einheiten

DE

Dokumen-tations-

einheiten

Frage

Treffer

Information Retrieval

Information Indexing

Vergleich Vergleich der der

BegriffeBegriffe

Page 19: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 19

Grundlagen des Information Retrieval

Relevanz - PertinenzRelevanz: Wann ist ein Dokument für ein Suchargument relevant?– (1) wenn es objektiv zur Vorbereitung einer Entscheidung

dient– (2) wenn es objektiv eine Wissenslücke schließt– (3) wenn es objektiv eine Frühwarnfunktion erfüllt

Pertinenz: Wann ist ein Dokument für einen Nutzer pertinent?– (1) wenn es subjektiv zur Vorbereitung der Entscheidung eines

Nutzers dient– (2) wenn es subjektiv eine Wissenslücke des Nutzers schließt– (3) wenn es subjektiv eine Frühwarnfunktion für den Nutzer

erfüllt

Page 20: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 20

Grundlagen des Information Retrieval

Relevanz - PertinenzZiele des Information Retrieval:– Gewinnung relevanter / pertinenter Dokumente, die

objektives Wissen enthalten– Umwandlung des gefundenen objektiven Wissens in

subjektives Wissen beim Nutzer (was auch heißt: der Nutzer muss die Fähigkeit haben, das entsprechende Wissen zu verstehen)

– Ableitung von Handlungen – aus dem gefundenen Wissen auf der Basis der eigenen Vorkenntnisse neues, handlungsrelevantes Wissen zu kreieren

Page 21: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 21

Grundlagen des Information Retrieval

Relevanz - PertinenzVoraussetzungen für erfolgreiches Retrieval:– das richtige Wissen– zum richtigen Zeitpunkt („just in time“)– am richtigen Ort– im richtigen Umfang– in der richtigen Form– mit der richtigen Qualität,

wobei „richtig“ heißt:– (1) Wissen, Zeitpunkt usw. haben (objektiv betrachtet)

Relevanz– (2) Wissen, Zeitpunkt usw. werden vom Nutzer

(subjektiv betrachtet) als passend eingeschätzt: haben Pertinenz

Page 22: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 22

Grundlagen des Information Retrieval

Retrieval: Pull und Push– Pull-Service: zur Befriedigung von ad-hoc auftretendem

Informationsbedarf sucht ein Nutzer aktiv in Informationssystemen nach Wissen

– Push-Service: zur Befriedigung eines (über einen gewissen Zeitraum) andauernden Informationsbedarf wird ein Nutzer vom Informationssystem mit jeweils aktuellem, neuem Wissen versorgt. Push-Services sorgen für current awareness

• Arbeitsschritt 1: Festlegen eines Informationsprofils (führt Nutzer durch)

• Arbeitsschritt 2: Periodische Lieferung von Wissen (führt Informationssystem automatisch durch) – „SDI“ (selective dissemination of information) oder „Alert“

Page 23: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 23

allgemeine Infor-mationen

exklusive Infor-mationen

zielgruppen-spezifische Informationen

Pull-Service

Push-Service

Pass-wörter

Benutzer-sichten

freier Zugang

(a) E-Mail-Verteiler (b) personalisiert auf Homepage

Grundlagen des Information Retrieval

Page 24: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 24

Themenbearbeitungszeit

bekannte Informationen

gedeckter Informationsbedarf

unbekannte Informationen

ungedeckter Informationsbedarf

t1

t2

Grundlagen des Information Retrieval

erhalten durch Push-Service

erhalten durch Pull-Service

R.Schönfelder: Inhaltliche und methodische Probleme einer rationellen Informationsplanung in Forschung und Entwicklung. – In: Informatik 22 (1975) 6, 49-52.

Page 25: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 25

Grundlagen des Information Retrieval

Frage- und Antworttypen– Konkreter Informationsbedarf (Faktenfrage)

• Welchen Umsatz hatte Unternehmen X im Dezember 1998 in der Region Z?

• Wo liegt der Schmelzpunkt von Kupfer?• Wie schloß der Dollarkurs letzten Freitag an der Frankfurter

Börse?• Wann hat mein Geschäftspartner X Geburtstag?

– Problemorientierter Informationsbedarf (Literatur)• Welche Methoden der fuzzy logic lassen sich beim Data Mining

einsetzen?• Wie hängen Marketing und Qualitätsmanagement zusammen?• Wie bewerten Analysten das Unternehmen X?• Wie beschreiben Marktforscher das Konsumklima für

ausländischen Wein in Ungarn?

Valery I. Frants; Jacob Shapiro; Vladimir G. Voiskunskii: Automated Information Retrieval. – San Diego [u.a.]:Academic Press, 1997. - Kap. 2.3: The information need, 34-40.

Page 26: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 26

Grundlagen des Information Retrieval

Konkreter Informationsbedarf

– 1. Thematische Grenzen sind klar angesteckt.

– 2. Die Suchfrageformulie-rung ist durch exakte Terme ausdrückbar.

– 3. Eine Faktenfrage reicht aus, um den Bedarf zu decken.

– 4. Mit der Übermittlung der Fakteninformation ist das Informationsproblem erledigt.

Problemorientierter Informationsbedarf

– 1. Thematische Grenzen sind nicht exakt.

– 2. Die Suchfrageformulie-rung läßt terminologische Varianten zu.

– 3. Es müssen diverse Doku-mente aus unterschiedlichen Quellen beschafft werden.

– 4. Mit der Übermittlung der Literaturinformation wird ggf. das Informationsproblem modifiziert oder ein neuer Bedarf entdeckt.

Page 27: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 27

Grundlagen des Information Retrieval

Aspekte der Relevanz:– Haben wir alle Datensätze gefunden, die handlungs-

relevantes Wissen beinhalten? (Vollständigkeit; Recall)Recall = a / a + c

– Haben wir nur solche Datensätze gefunden? (Genauigkeit, Precision)

Precision = a / a + b

a =: gefundene relevante Trefferb =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast)c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden

Page 28: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 28

Grundlagen des Information Retrieval

• Recall und Precision beim konkreten InformationsbedarfRecall = 1Precision = 1

• Recall und Precision beim problemorientierten Informationsbedarfinverse Relation zwischen Recall und Precision– bei Erhöhung des Recall: Absinken der Precision– bei Erhöhung der Precision: Absinken des Recallempirischer Schätzwert: Recall + Precision = 1

• Achtung Problem: dies ist ein theoretisches Modell; genaue Messergebnisse sind unmöglich, da der Wert c in großen Datenbanken prinzipiell unbekannt ist.

Page 29: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 29

Grundlagen des Information Retrieval

100

R

e

c

a

l

l

100P r e c i s i o n

„durchschnittliches“

Information Retrieval

Der “heilige Gral” der Rechercheure

Zugewinn

durch

elaborierte

Suche

Ross Evans: Beyond Boolean: Relevance ranking, natural language and the New Search Paradigm. – In:Proceedings of the Fifteenth National Online Meeting. – Medford: Learned Information, 1994, 121-128.

Page 30: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 30

Grundlagen des Information Retrieval

Suchansätze– (1) Suche nach Datensätzen (oder Teilen davon)

„Nadel-im-Heuhaufen-Syndrom“– Strategie beim problemorientierten Informationsbedarf:

Berrypicking InformationsbedarfInformationsbedarf

Ausgangsformulierung desInformationsbedarf

Datenbank 1

Datenbank 2

Datenbank iTreffermenge 1

Treffermenge 2

Treffermenge iReformulierung derSuchfrage

Reformulierung derSuchfrage

Marcia J. Bates: The design ofbrowsing and berrypicking

techniques for the online searchinterface. – In: Online Review

13 (1989), 407-424.

Page 31: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 31

Grundlagen des Information Retrieval

Suchansätze– (2) informetrische Suche

Charakterisierung ganzer „Heuhaufen“, d.h. von Treffermengen

– Faktenextraktion aus Datenbanken. Generierung von neuartigen Informationen durch das Retrieval

• Rangordnungen• Zeitreihen• semantische Netze• Informationsflussgraphen

• Hinweis: informetrische Suchen werden in der Vorlesung „Empirische Informationswissenschaft“ behandelt.Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In:

Nachrichten für Dokumentation 43 (1992), 301-315.

Page 32: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 32

Grundlagen des Information Retrieval

Informationsfilterung (erwünschte Einschränkung auf relevante / pertinente Dokumente)

• durch Strukturierung der Dokumente• durch Indexieren (Informationsfilter i.e.S.)

– Thesaurus– Klassifikation– Textwortmethode– Zitationsindexierung– usw.

• durch Informationsverdichtung– Abstracts– Ontologien– Topic Maps

Page 33: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 33

Grundlagen des Information Retrieval

Informationsbarrieren (unerwünschte Einschränkung auf Teilmengen der relevanten / pertinenten Dokumente)

• politisch-ideologische Barriere• Eigentumsbarriere• Gesetzesbarriere• Zeitbarriere• Effektivitätsbarriere• Finanzierungsbarriere• Terminologiebarriere• Fremdsprachenbarriere• Zugangsbarriere• Barrieren durch Mängel beim Information Retrieval• Bewusstheitsbarriere• Resonanzbarriere

Heinz Engelbert: Der Informationsbedarf in derWissenschaft. – Leipzig: Bibliographisches Institut, 1976. –

Kap. 4: Informationsbarrieren, 59-72.

Page 34: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 34

Grundlagen des Information Retrieval

Informationsbarrieren

Wolfgang G. Stock: Informationswissenschaft und –praxis in der

Deutschen Demokratischen Republik. – Frankfurt:IDD Verl. Werner Flach, 1986, S. 64.

Page 35: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 35

Grundlagen des Information Retrieval

• Typologie von Retrievalsystemen– (1) Boolesche Systeme

George Boole (1815 – 1864), englischer Mathematiker und Logiker („Boolesche Algebra“)

– Boolesche Systeme erfordern die Übersetzung einer Anfrage in eine formale Sprache.

– Country AND Western ANDNOT „Garth Brooks“

Page 36: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 36

Grundlagen des Information Retrieval

• Typologie von Retrievalsystemen– (2) Natürlichsprachige Systeme

Natürlichsprachige Systeme erwarten Anfragen in gewöhnlicher Sprache (mittels ganzer Sätze, einzelner Terme oder auch ganzer Musterdokumente).Beispiele: kommerzielle Content-Aggregatoren mit natürlichsprachiger Suche: WIN (Westlaw), Target (DIALOG), Freestyle (Lexis-Nexis); Content-Aggregatoren mit natürlichsprachiger automatischer Indexierung: FACTIVA, Dialog Profound, Dialog NewsEdge; alle Suchmaschinen im WWWKomponenten:a) Informationslinguistik (Abgleich Suchargument – Dokumente)b) Informationsstatistik (Relevance Ranking)c) nicht immer: Ordnungssysteme (terminologische Kontrolle)

Page 37: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 37

Grundlagen des Information Retrieval

• Typologie von Retrievalsystemen– (3) Kombinierte Systeme

Boolesches und natürlichsprachiges Retrieval in Kombination(a) zuerst Boolesches Retrieval, danach in Treffermenge Relevance RankingBeispiele: diverse Content-Aggregatoren, AltaVista(b) zuerst Informationslinguistik, danach in Treffermenge Feinrecherche mittels Boolescher OperatorenBeispiel: Lexis-Nexis

Page 38: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 38

Grundlagen des Information Retrieval

Weltregionen des Internet:Die „Oberfläche“

– digitale Dokumente im Web– (prinzipiell) auffindbar durch Suchwerkzeuge– Dokumente sind u.U. unerwünschter Ballast („Spam“)

• Suchwerkzeuge / Typen:– Suchmaschinen– Webkataloge– Meta-Suchmaschinen– Portale

Page 39: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 39

Grundlagen des Information Retrieval

Suchmaschinen (Search Engines)

Mechtild Stock; Wolfgang G. Stock: Informationslinguistik und -statistik: AltaVista, FAST und Northern Light. – In: Password Nr.1 (2001), 16-24. - Mechtild Stock; Wolfgang G. Stock: Relevance

Ranking nach „Popularität“ von Webseiten: Google. – In: PasswordNr. 2 (2001), 20-27.

Page 40: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 40

Grundlagen des Information Retrieval

Suchmaschinen (Search Engines)• Gegenstand: Dokumente im Internet (WWW, Newsgroups),

gerichtet auf einzelne Webseiten• automatisches Einsammeln der Dokumente mittels Crawler• automatisches Aktualisieren der Datenbasis• Kopieren der Dokumente (oder von Teilen) in die eigene

Datenbank• automatisches Indexieren der kopierten Dokumente• eher große Datenbasis (mehrere Mrd. Dokumente)• Suchsystem mit natürlichsprachiger Eingabe und mit Profi-

Oberfläche

Page 41: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 41

Grundlagen des Information Retrieval

Webkataloge (Web-Directories)

Mechtild Stock; Wolfgang G. Stock: Klassifikation und terminologi-sche Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich. –

In: Password Nr. 12 (2000), 26-33.

Page 42: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 42

Grundlagen des Information Retrieval

Webkataloge (Web-Directories)• Gegenstand: Dokumente im WWW (z.T. zusätzlich

exklusive Dokumente, z.B. News), gerichtet vor allem auf Einstiegs-seiten in Websites

• intellektuelle Auswahl• intellektuelles Indexieren (i.d.R. Klassifikation)• Datenbasis: „Titel“ der Dokumente (vom Webkatalog oder

vom Anmeldenden vergeben) und URL• eher kleine Datenbasis (einige Mio. Dokumente)• unregelmäßiges Update• Suchsysteme mit Klassifikationshierarchien und

natürlichsprachiger Suche (über die Klassenbezeichnungen und die Dokumenten“titel“)

Page 43: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 43

Grundlagen des Information Retrieval

Meta-Suchmaschinen

Page 44: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 44

Grundlagen des Information Retrieval

Meta-Suchmaschinen• keine Datenbasis; greifen auf die Datenbasen anderer

Suchwerkzeuge zurück („Schmarotzer“)– a) Metasuchmaschinen ohne eigenen informationellen

Mehrwert (außer der Abfrage diverser Suchwerkzeuge

und ggf. Dublettenelimination)– b) Metasuchmaschinen mit Angebot von

Dokumentationssprachen (z.B. Thesaurus)– c) mit Bearbeitung eingesammelter Dokumente

Page 45: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 45

Grundlagen des Information Retrieval

Portal• einheitlicher Einstiegspunkt in das WWW

(allgemein: „horizontales Portal“; fachspezifisch: „vertikales“ Portal)

• Simplizität• Bereitstellung von Suchwerkzeugen

(Suchmaschine und Katalog)• allgemein interessierende bzw. fachspezifische

(möglichst) exklusive Inhalte (News, Aktienkurse)• Zusatzfunktionalitäten (Tools mit

benutzerspezifischem Gebrauchswert, z.B. Übersetzungsprogramme, Kalender, Adressbuch)

• Personalisierung (Verwalten von Informationsprofilen – „MyXXX“)

• Kommunikation (E-Mail-Accounts, themenspezifische Chatrooms, Platz für benutzereigene Homepage o.ä.)

Hermann Rösch: Internetportal, Unternehmensportal,Wissenschaftsportal. – In: Gerhard Knorz; Rainer Kuhlen

(Hrsg.): Informationskompetenz – Basiskompetenz inder Informationsgesellschaft. – Konstanz: UVK, 2000,

245-264.

Page 46: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 46

Grundlagen des Information Retrieval

Weltregionen des Internet: Das „Deep Web“ (oder „Invisible Web“)– digitale Dokumente, die nicht direkt im Web liegen, aber via Web

erreichbar sind– derzeit nicht auffindbar durch Suchwerkzeuge– Dokumente sind (meist) qualitätsgeprüft– Terminologie: „invisible Web“ – Sherman & Price

„Deep Web“ – Bergman (Schätzung: Deep Web ist 500mal größer als das Oberflächenweb – wahrscheinlich stark überschätzt)

• Typen:– Kostenfreie singuläre Datenbanken– Kommerzielle Informationsanbieter

• Selbstvermarkter• Content-Aggregatoren (Online-Hosts)

Chris Sherman; Gary Price: The Invisible Web. – Medford: Information Today, 2001.Michael K. Bergman: The Deep Web: Surfacing Hidden Value. – In: The Journal of Electronic Publishing

7 (2001) Iss.1

Page 47: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 47

Grundlagen des Information Retrieval

(Kostenfreie) Singuläre Datenbanken im Web– thematisch orientierte Datenbanken– (i.d.R.) aufgebaut von öffentlichen Einrichtungen (durch

öffentliche Mittel bereits finanziert)– mehrere tausend Datenbanken via Web erreichbar

Page 48: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 48

Grundlagen des Information Retrieval

(Kommerzielle) Singuläre Datenbanken im Web – „Selbstvermarkter“– thematisch orientierte Datenbanken– (i.d.R.) aufgebaut von Privatunternehmen mit dem

Zweck der Erzielung von Gewinnen– teilweise auch zusätzlich bei Content-Aggregatoren

aufgelegt

Mechtild Stock; Wolfgang G. Stock: Professionelle Informationen über deutsche Unternehmen im Internet. – In: Password Nr. 11 (2001), 26-33, und Nr. 12 (2001), 18-25.

Page 49: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 49

Grundlagen des Information Retrieval

Content-AggregatorenWirtschaft

– Bündelung wirtschaftsrelevanter Datenbasen unter einer Oberfläche

– Wirtschaftsnachrichten, Firmeninformationen, Wirtschaftswissenschaft, Marktdaten usw.

Mechtild Stock: GBI – the contentmachine. Wirtschaftsinformationen für Hochschulen, Unternehmen und Internet-Surfer. – In: Password Nr. 2 (2003), 8-17; Mechtild Stock; Wolfgang G. Stock : Dialog / DataStar. One-Stop-

Shops internationaler Fachinformationen. – In: Password Nr. 4 (2003), 22-29. - Mechtild Stock; Wolfgang G. Stock :Dialog Profound / NewsEdge: Dialogs Spezialmärkte für Marktforschung und News. – In: Password Nr. 5 (2003).

Page 50: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 50

Grundlagen des Information Retrieval

Content-AggregatorenNews

– Bündelung von Nachrichten-Datenbasen unter einer Oberfläche

– (real-time)-Informationen von Nachrichtenagenturen, Zeitungen, Zeitschriften

Mechtild Stock: Factiva.com. Neuigkeiten auf der Spur. – In: Password Nr. 5 (2002), 31-40. - Mechtild Stock;Wolfgang G. Stock: Von Factiva.com zu Factiva Fusion. Globalität und Einheitlichkeit mit Integrationslösungen. –

In: Password Nr. 3 (2003), 19-28. – Mechtild Stock: ASV Infopool. Boulevard online. – In: Password Nr. 10(2002), 22-27.

Page 51: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 51

Grundlagen des Information Retrieval

Content-AggregatorenWTM (Wissenschaft – Technik – Medizin)

– Bündelung von Wissenschaftsdatenbasen unter einer Oberfläche

– disziplinspezifische bibliographische Datenbasen, Volltexte von Wissenschaftszeitschriften, Zitationsdatenbanken

Wolfgang G. Stock: Web of Science. Ein Netz wissenschaftlicher Informationen – gesponnen aus Fußnoten. – In:Password Nr. 7+8 (1999), 21-25.

Page 52: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 52

Grundlagen des Information Retrieval

Content-AggregatorenRecht

– Bündelung von juristischen Datenbasen unter einer Oberfläche

– Urteile, Volltexte juristischer Zeitschriften, bibliographische Datenbanken

Page 53: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 53

Grundlagen des Information Retrieval

Weltregionen des InternetGrenzüberschreitungen

– Hybrid-Suchmaschine (Content-Aggregator und WWW-Suchmaschine)

Page 54: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 54

Grundlagen des Information Retrieval

Weltregionen des Internet / Grenzüberschreitungen– Querweltein-Ergänzungen

Suchmaschinen mit Links ins Deep Web. Beispiel: AltaVista (Oberflächenweb) – Wer liefert was? (Deep Web)

Page 55: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 55

Grundlagen des Information Retrieval

Weltregionen des Internet / Grenzüberschreitungen– Querweltein-Ergänzungen

Deep Web-Datenbank mit Links ins OberflächenwebBeispiel: HWWA-Wirtschaftsdatenbank

Page 56: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 56

Grundlagen des Information Retrieval

Weltregionen des Internet / Überblick

Wolfgang G. Stock: Weltregionen des Internet: Digitale Informationen im WWW und via WWW. – In: PasswordNr. 2 (2003), 26-28.

Page 57: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 57

Grundlagen des Information Retrieval

Weltregionen des Internet und die Welt gedruckter Dokumente... wenn die benötigten Dokumente nur in Printausgaben vorliegen:

Nutzung von Document Delivery Services

Page 58: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 58

Grundlagen des Information Retrieval

Typische Dokumente: Wirtschafts-information

Beispiel: Firmendossier (Creditreform Online) - 1 -

Page 59: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 59

Grundlagen des Information Retrieval

Beispiel: Firmendossier (Creditreform Online) - 2 -

Page 60: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 60

Grundlagen des Information Retrieval

Beispiel: Firmendossier (Creditreform Online) - 3 -

Page 61: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 61

Grundlagen des Information Retrieval

Beispiel: Firmendossier (Creditreform Online) - 4 -

Page 62: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 62

Grundlagen des Information Retrieval

Typische Dokumente: News

Beispiel: Zeitungsartikel bei Factiva- 1 -

Page 63: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 63

Grundlagen des Information Retrieval

Beispiel: Zeitungsartikel bei Factiva- 2 -

Page 64: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 64

Grundlagen des Information Retrieval

Typische Dokumente: WTM (1)

Beispiel: Bibliographischer Nachweis / MEDLINE bei DIMDI

Page 65: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 65

Grundlagen des Information Retrieval

Typische Dokumente: WTM (2)

Beispiel: PatentnachweisDerwent bei DIALOG - 1 -

Page 66: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 66

Grundlagen des Information Retrieval

Beispiel: PatentnachweisDerwent bei DIALOG - 2 -

Page 67: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 67

Grundlagen des Information Retrieval

Typische Dokumente: Rechts-information

Beispiel: Grundsatzurteil (Juris) - 1 -

Page 68: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 68

Grundlagen des Information Retrieval

Beispiel: Grundsatzurteil (Juris) - 2 -

Page 69: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 69

Grundlagen des Information Retrieval

Typische Dokumente: WWW

Page 70: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 70

Grundlagen des Information Retrieval

Dateien– Dokumentenspeicher (sequentielle Aufnahme aller

Daten eines Dokumentes) – Zuordnung einer eindeutigen Dok.-Nr.

– Invertierte Dateien: feldspezifische (i.d.R. alphabetische) Listen aller Einträge eines Feldes aller Dokumente – unter Zuordnung der Dok.-Nr. und weiterer Angaben

– Basic Index: Invertierte Datei über bestimmte Felder (je nach System alle Felder oder Auswahl)

– Wortindex: jedes einzelne Wort ist IndexeintragPhrasenindex: zusammengehörige Phrasen bilden einen Indexeintrag

Page 71: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 71

Grundlagen des Information Retrieval

Invertierte Dateien. Jeder Eintrag enthält:– eigene Adresse im Speicher– Dokumentnummer(n) bzw. deren Adresse(n)– Häufigkeit in Gesamtdatenbank

• Anzahl der Dokumente, in denen der Eintrag (min. einmal) vorkommt

• Gesamtanzahl des Vorkommens in der Datenbank– Position(en) im Dokument

• Wortnummer(n)• Vorkommen in Satz/Sätzen Nummer(n) X, X‘, ...• Vorkommen in Absatz/Absätzen Nummer(n) Y, Y‘, ...• beim Einsatz syntaktischen Indexierens: Vorkommen in

Themenkette(n) T, T‘, ...– ggf.: Kennzeichen auf Position (z.B. Größe des Druckerfonts)– ggf.: Gewichtungswert– ggf. jeder Eintrag zweimal: normale Buchstabenfolge und

zusätzlich rückläufig

Page 72: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 72

Grundlagen des Information Retrieval

Invertierte Dateien. Beispiel (Textbody)

Eintrag: Unternehmen / nemhenretnU

Dok.-Nr. 2, 23, 45, 56# Dok. 4# insg. 7Wort-Nr. (2: 4, 28), (23: 99), (45: 13, 17, 55), (56: 432)Satz-Nr. (2: 1, 3), (23: 15), (45: 9, 9, 15), (56: 58)Absatz-Nr. (2: 1, 1), (23: 1), (45: 1, 2), (56: 4)Font (2.4: 28), (2.28: 10), (23.99: 12), (45.13: 72),

(45.17: 12), (45.55: 12), (56.432: 20)

Page 73: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 73

Grundlagen des Information Retrieval

Invertierte Dateien. Beispiel (Deskriptorfeld)

Eintrag: Just in Time-Logistik / kitsigoL-emiT ni tsuJ

Dok.-Nr. 44, 1204# Dok. 2# insg. 8Kette-Nr. (44: 1, 3, 10), (1204: 1-5)Gewichtung (44: 33), (1204: 100)

Page 74: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 74

Grundlagen des Information Retrieval

Wie kommen die Datenbanken zu ihren Dokumenten?

– (1) intellektuelle Auswahl nach Kriterien der Dokumentationswürdigkeit

– (2) automatisches Einsammeln durch Crawler (Spider, Robots)

• Verfolgen der Links in bereits gesammelten Dokumenten

• Beachtung von Robot Exclusion Standards

Page 75: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 75

Grundlagen des Information Retrieval

Crawler. Beispiel: Scooter von AltaVista

ja

nein

ja

nein

ja

nein

Analyse der erfassten Web-Seite

Sind alle URL-Links zu anderen Web-Seiten abgearbeitet?

Sende erfasste Seitean dasIndexierungssystem Bearbeite nächste URL

Ist im Speicher bereits ein Eintrag fürdiese URL?

Ist im Speicher bereits ein Eintrag füreine definierte Spiegelung dieser URL?

Füge Eintrag für eine neue Web-Seite in den aktuellenPuffer ein (Markierung: "nicht erfasst");

füge Eintrag für eine neue Web-Seite in die Datenbankein (Markierung: "nicht erfasst")

Louis M. Monier: System for adding a new entry to a web page table upon receiving a web

page including a link to another web pagenot having a corresponding entry in the web

page table. – Patent Nr. US 6.032.196. –Assignee: Digital Equipment Corp. –

Priorität: 28. August 1998; erteilt: 29. Februar 2000.

Page 76: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 76

Funktionalität Boolescher Retrievalsysteme

Page 77: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 77

Funktionalität Boolescher Retrievalsysteme

Einsatz boolescher Systeme bei:• bibliographischen Datenbanken• Volltextdatenbanken• Faktendatenbanken• z.T. bei Suchmaschinen im WWW

Varianten:• befehlsorientiert (für Information Professionals)• menügeführt (für Laien)

Wolfgang G. Stock: Informationswirtschaft. – München; Wien: Oldenbourg. 2000. - Kap. 4: Retrieval von elektronischen Informationen: Techniken und Strategien, 90-118.

Page 78: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 78

Funktionalität Boolescher Retrievalsysteme

Menügeführtes Boolesches Retrievalsystem

Beispiel: Profound

Page 79: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 79

Funktionalität Boolescher Retrievalsysteme

Befehls-orientiertesBoolesches Retrievalsystem

Beispiel: DialogWeb

Page 80: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 80

Funktionalität Boolescher Retrievalsysteme

Arbeiten mit booleschen Retrievalsystemen– Suchen nach den bestpassenden Datenbanken (Nadel-im-

Heuhaufen-Syndrom – Phase 1)Derzeit existieren mehrere zehntausend fachspezifische Datenbanken. (Hinweis: recht vollständig ist der Datenbankführer von GALE)

– Suchen nach den bestpassenden Dokumenten (Nadel-im-Heuhaufen-Syndrom – Phase 2)Derzeit existieren (außerhalb des WWW) mehrere zehnmilliarden Dokumente.

– Ausgeben der gefundenen Dokumente– Initiierung eines Pushdienstes

Page 81: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 81

Funktionalität Boolescher Retrievalsysteme

Suchen nach bestpassenden Datenbanken (Nadel-im-Heuhaufen-Syndrom – Phase 1)– „Bluesheets“: Detaillierte

Datenbankbeschreibungen

Page 82: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 82

Funktionalität Boolescher Retrievalsysteme

Datenbankindex: Suchen der bestpassenden Datenbanken (befehlsorientierte Variante)

• Öffnen der Indexdatenbank (bei DIALOG: b 411)• Einschränken auf thematischen Bereich / SET FILES

(sf papersmj, 47, not 703)• Suchargument eingeben / SELECT (s XXX)• ggf. Suchargument speichern / SAVE TEMP (save temp

Name)• Rangordnung der Datenbanken nach Treffern zum

Suchargument / RANK FILES (rf)• Aussuchen der Datenbanken; Aufrufen entweder mit File-

Name oder mit Ausgabenummer (N1, N2, ...) / BEGIN (b N1-N9)

Page 83: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 83

Funktionalität Boolescher Retrievalsysteme

Datenbankindex: Beispiel DIALOG (1)

Page 84: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 84

Funktionalität Boolescher Retrievalsysteme

Datenbankindex: Beispiel DIALOG (2)

Page 85: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 85

Funktionalität Boolescher Retrievalsysteme

Datenbankindex: Suchen der bestpassenden Datenbanken (menügeführte Variante)Beispiel: GBI (CROSS)

Page 86: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 86

Funktionalität Boolescher Retrievalsysteme

Suchen nach bestpassenden Dokumenten (Nadel-im-Heuhaufen-Syndrom – Phase 2)Zugang zu Datenbanken

– Öffnen einer Datenbank / BEGIN 3– Öffnen von Segmenten einer Datenbank (etwa: nur die

letzten zwei Jahrgänge) / BEGIN 3 CURRENT 2– Öffnen mehrerer (gleich strukturierter) Datenbanken

gleichzeitig / Einzelauswahl / BEGIN 3, 45, 47– Öffnen mehrerer Datenbanken eines vordefinierten

Datenbankclusters / BEGIN PAPERS

Page 87: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 87

Funktionalität Boolescher Retrievalsysteme

Feldspezifische Suche– alphanumerische Felder (wie AU, CT, TI, ...) / SELECT

S AU=Marx, Karl (bei Phrasenindex)S AU=Marx AND AU=Karl (bei Wortindex)

– numerische Felder (wie YR, UM, PL, ...) / algebraische Operatoren (gleich, größer, kleiner)YR=2003; YR>1999; YR<1999

– Basic Index / Suchen ohne FeldkürzelS Marx

Blättern im Wörterbuch– Einstieg in die invertierten Dateien / EXPAND

E AU=Marx– Anzeige der (alphabetischen) Umgebung mit lfd. Nr.

(etwa: T3 Marx, Karl)– Übernahme der lfd. Nr. / S T3

Page 88: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 88

Funktionalität Boolescher Retrievalsysteme

Schreibvarianten (Beispiele: Lexis-Nexis)– ohne weitere Befehle: je nach System: nicht

zeichensensitiv, automatische Pluralbildung, automatische Weiterleitung zum Deskriptor

– nur Großbuchstaben suchen: ALLCAPS ALLCAPS aids (findet AIDS)

– nur Kleinbuchstaben suchen: NOCAPSNOCAPS aid (findet aid)

– erster Buchstabe groß: CAPS CAPS aid (findet Aid)

– nur Pluralform suchen: PLURALPLURAL job (findet jobs)

– nur Singularform suchen: SINGULARSINGULAR job (findet job)

Page 89: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 89

Funktionalität Boolescher Retrievalsysteme

Fragmentierung (Truncation)– Links-, Mitte-, Rechtsfragmentierung– offene Fragmentierung (beliebig viele Zeichen werden

ersetzt) / $Unternehm$ findet Unternehmen, Unternehmung, Unternehmensgeschichtsschreibungstheorie, ...$unternehmen findet Bauunternehmen, Chemieunternehmen, Stahlunternehmen

– begrenzte Fragmentierung (genau ein Zeichen wird ersetzt) / *Unternehm*** findet Unternehmen, Unternehmung, aber nicht längere TermeMa*er findet Maier, Mayer, Majer (aber auch Maler)

– Je nach System müssen n Zeichen (oft: 3 oder 5) vor oder nach dem Jokerzeichen vorhanden sein

– Achtung bei großzügiger Fragmentierung: $affe$

Page 90: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 90

SchnittmengeA UND B

1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 1“.

2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 2“.

3. Bestimme Schnittmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei „Menge 3“.

4. Folge den Verweisen aus „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe!

Funktionalität Boolescher Retrievalsysteme

Gerard Salton; Michael McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. – Hamburg [u.a.]: McGraw-Hill, 1983. – Kap.2: Invertierte Dateisysteme, 27-55.

Page 91: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 91

VereinigungsmengeA ODER B

1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 1“.

2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 2“.

3. Bestimme Vereinigungsmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei „Menge 3“.

4. Folge den Verweisen aus „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe!

Funktionalität Boolescher Retrievalsysteme

Page 92: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 92

ExklusionsmengeA UND NICHT B

1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 1“.

2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 2“.

3. Lösche sämtliche Elemente aus „Menge 1“, die auch Elemente aus „Menge 2“ sind!4. Folge den Verweisen aus der verbleibenden „Menge 1“ zu den Dokumenten, kopiere

diese zur Ausgabe!

Funktionalität Boolescher Retrievalsysteme

Page 93: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 93

Ausschließende ExklusionsmengeA XOR B

1. Invertierter Index: Suche nach A nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 1“.2. Invertierter Index: Suche nach B nebst Dok.-Nr. Die Menge der Dok.-Nummern sei „Menge 2“.3. Bestimme Vereinigungsmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei „Menge 3“.4. Bestimme Schnittmenge aus „Menge1“ und „Menge 2“. Entstehende Menge sei „Menge 4“.5. Lösche alle Elemente aus „Menge 3“, die auch Element von „Menge 4“ sind!6. Folge den Verweisen aus der verbleibenden „Menge 3“ zu den Dokumenten, kopiere diese zur

Ausgabe!

Funktionalität Boolescher Retrievalsysteme

Page 94: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 94

Funktionalität Boolescher Retrievalsysteme

Boolesche Funktoren in aussagenlogischer Deutung

A B A UND B A ODER B A UND NICHT B A XOR B

w w w w f fw f f w w wf w f w f wf f f f f f

Konjunktion Disjunktion Postsektion Kontravalenz „beides“ „mindestens eines“ „das eine „entweder das eine oder ohne das andere“ das andere“

I.M.Bochenski; Albert Menne: Grundriß der Logistik. – Paderborn: Schöningh, 1973, 27-35.

Page 95: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 95

Funktionalität Boolescher Retrievalsysteme

Abstandsoperatoren (Verschärfung des Booleschen UND)– (1) direkte Nachbarschaft:

• Phrasen: „Miranda Otto“• benachbarte Worte in Reihenfolge: Miranda ADJ Otto findet Miranda Otto• benachbarte Worte ohne Beachtung der Reihenfolge: Miranda (N) Otto

findet Miranda Otto und Otto, Miranda– (2) numerische Abstandsoperatoren:

• Suche nach Worten im Abstand von n Worten (n frei wählbar): Miranda (N) Otto W/25 Eowyn findet alle Texte, in denen die Namen im Abstand von max. 25 Worten vorkommen

– mehrfache Anwendung von W/n findet (bei geschickt gewähltem n) hochrelevante Texte: Auenland W/25 Auenland W/25 Auenland

• Suche nach Worten im Abstand von n Worten (n fest, i.d.R. 10): Eowyn NEAR Aragorn findet Texte, in denen die Namen im Abstand von max. 10 Worten vorkommen

Page 96: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 96

Funktionalität Boolescher Retrievalsysteme

Abstandsoperatoren (Verschärfung des Booleschen UND)– (3) grammatische Nachbarschaft:

• (nicht) im gleichen Satz (auch bei thematischen Ketten des syntaktischen Indexierens)– A UND.S B– A NICHT.S B

• (nicht) im gleichen Absatz– A UND.P B– A NICHT.P B

• (nicht) im gleichen Feld– A UND.F B– A NICHT.F B

• Satzanfang: #A (A steht am Satzanfang)

Häufigkeitsoperator (Angabe der Minimalhäufigkeit)– ATLEAST 20 (A): A muss min. 20mal vorkommen

Page 97: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 97

Funktionalität Boolescher Retrievalsysteme

UND

Marketing Dienstleister

UB1 UB2 UB3

Werbung

UB1 UB2 UB3

Consultant

Hierarchische Suche

Page 98: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 98

Funktionalität Boolescher Retrievalsysteme

Hierarchische Suche• bei Klassifikationen durch Rechtsfragmentierung

– DDC=382 findet alles zur Klasse 382– DDC=382* findet alles zu 382 und zu den Unterbegriffen der

nächsten Hierarchieebene– DDC=382** findet alles zu 382 und zu den Unter-begriffen der

nächsten zwei Hierarchieebenen– DDC=382$ findet alles zu 382 nebst allen Unterbegriffen

• bei Thesauri – DOWN-Operator (findet alles zum Deskriptor nebst aller

Unterbegriffe)DE DOWN Hepatitis findet alles zu Hepatitis und zu allen Unterbegriffen (bis zu den Bottomterms) im unterlegten Thesaurus

– NÄCHSTE EBENE (findet alles zum Deskriptor sowie zu den Unterbegriffen der nächsten Hierarchieebene)

Page 99: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 99

Funktionalität Boolescher Retrievalsysteme

Hierarchische Suche

Beispiel:GBI

Page 100: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 100

Funktionalität Boolescher Retrievalsysteme

Klammersetzung / Bindungsstärke der Operatoren– je nach System binden die Operatoren jeweils stärker

als andere; Beispiel: UND stärker ODER– Umgehen der Bindungsstärke durch Klammern; die

Systeme arbeiten die Klammern von innen nach außen ab

– Gesucht: Artikel von Ernst Meier (oder Maier?) aus den Jahren 1998 und 1999 über Mineralwasser sowie Soft Drinks:AU=M*ier, Ernst UND (YR=1998 ODER YR=1999) UND (DE=Mineralwasser ODER DE=Soft Drinks)

– Gesucht: Unternehmen im Postleitzahlbereich Köln, die Anwendersoftware anbieten und die entweder mehr als 30 Mitarbeiter oder mehr als 20 Mio. EURO Jahresumsatz haben. Wir wollen dabei nichts mit Unternehmen zu tun haben, die Software für militärische Zwecke erstellen.(PL=5$ UND PC=7372002 UND (MI>30 ODER UM>20)) UND NICHT PC=7372003

Page 101: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 101

Funktionalität Boolescher Retrievalsysteme

Datenbankübergreifende Suche– Dubletten können vorkommen und sollten gelöscht werden– Aufruf der Datenbanken in der Reihenfolge ihrer Qualität (damit die

besten Datensätze erhalten bleiben)– nach Abschluss der Suche:

• Identifizieren der Dubletten / IDENTIFY DUPLICATES• Löschen der Dubletten / REMOVE DUPLICATES

– ggf. Aufsplitten der Ergebnisse in die einzelnen Daten- banken

– Beispiel: DataStar

Page 102: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 102

Funktionalität Boolescher Retrievalsysteme

Umformulierung von Suchergebnissen zu Suchargumenten (MAPPING)– Suchschritt 1: Suche nach Argumenten für (den

eigentlich erwünschten) Suchschritt 2– Interesse besteht nur an den gefundenen Inhalten

gewisser Felder; Zwischenspeichern / MAP (ggf. Feldkürzel verändern)

– Suchschritt 2: ggf. Aufruf einer neuen Datenbank, Ausführen des gespeicherten Sucharguments

– Beispiel: Suche nach Literatur zu „Aspirin“ – chemische Bezeichnungen unbekannt: (1) Aufruf einer Synonymdatenbank für chemische Bezeichnungen; Suche nach Aspirin; MAP RN (RN: Feld mit den Bezeichnungen) Suchergebnis wird zwischengespeichert – (2) Aufruf einer Chemie-Literaturdatenbank; Auslösen des Zwischenspeichers EXECUTE STEPS

Page 103: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 103

Funktionalität Boolescher Retrievalsysteme

Ausgeben der gefundenen Dokumente– Anzeigen / TYPE [Suchschritt]/[Format]/[Dokumente]

TYPE S3/5/1-5,9– bisherige Suchgeschichte / DISPLAY SET

– Sortieren / SORT [Suchschritt]/[Dokumente]/[Feld(er)]/ [Sortierrichtung] / SORT S3/all/yr,au/d

– Bilden einer Rangordnung nach Feldinhalten / RANK– Bestellen von Volltexten (die nicht direkt im PDF-Format vorliegen) / ORDER

Page 104: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 104

Funktionalität Boolescher Retrievalsysteme

Einrichten eines Pushdienstes– Suchargument ist vorhanden; Treffermenge

zufriedenstellend– Name des

Suchprofils definieren

– Periodizität festlegen

– Lieferanschrift eingeben hier: E-Mail (GBI)

Page 105: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 105

Funktionalität Boolescher Retrievalsysteme

Einrichten eines Pushdienstes– auf Homepage ausliefern (Beispiel: Factiva)

Page 106: HHU Düsseldorf, SS 2003Information Retrieval1. HHU Düsseldorf, SS 2003Information Retrieval2 Wer befasst sich mit Information Retrieval? Konferenzen –

HHU Düsseldorf, SS 2003 Information Retrieval 106

Funktionalität Boolescher Retrievalsysteme

Auslieferung des Pushdienstes auf Homepage