information retrieval sose10

7/31/2019 Information Retrieval SoSe10

1/340

Vorlesungsskript

Information Retrieval

Dr. Thomas Gottron

Sommersemester 2010


2/340


3/340

Vorwort

Dieses Skript ist zum Vorlesungzyklus Information Retrieval am Institut fr Informatikder Uni Mainz im Sommersemester 2009 und im Wintersemester 2009/10 entstanden. DieKapitel 1 bis 11 wurden dann im Rahmen der gleichen Veranstaltung im Sommersemester2010 berarbeitet und geringfgig ergnzt.

Das Skript soll als Ergnzung zur Vorlesung dienen. Weitere Informationen, die Folien

zur Vorlesung sowie bunsgaufgaben finden sich unter der URL:

http://www.informatik.uni-mainz.de/lehre/ir

Die Inhaltliche Gliederung ist grob am Buch von Manning, Raghavan und Schtze[MRS08] orientiert. Einige Beispiele und thematische Zusammenhnge habe ich aus denVortrgen der von der GI organisierten Herbstschule Information Retrieval 2008 ber-nommen.

Bei Berechnung in Beispielen werden die Werte zwecks bersichtlicher Darstellung aufeinige wenige Nachkommastellen gekrzt. Beim Weiterrechnen mit den Werten wird in der

Regel aber auf die volle Genauigkeit zurckgegriffen, so dass anscheinbar Ungenauigkeitenbei Rundungen oder Gleichungen auftreten. Es wurde darauf verzichtet dies an jeder Stelledurch die Verwendung des Zeichens statt eines = zu verdeutlichen.

Trotz aller Sorgfalt beim Zusammenstellen des Materials sind Fehler nicht auszuschlie-en. Daher gibt der Autor keine Garantie fr die Richtigkeit und haftet nicht fr Schden,die durch Nutzung des Materials entstehen knnten. Bei gefundenen Fehlern wre ich bereine Rckmeldung an [email protected] dankbar.

Ein Dankeschn geht an Christoph Doell, Christine Hoppe, Thomas Weischuh undRoland Zelosko fr das Aufspren und Berichten von Tippfehlern.

i


4/340

ii


5/340

Inhaltsverzeichnis

Vorwort i

Inhaltsverzeichnis iii

1 Was ist Information Retrieval? 11.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Information Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Daten, Wissen, Informationen . . . . . . . . . . . . . . . . . . . . . . . . . 71.4 Definitionen zu IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.5 Teilgebiete und Aufgaben im IR . . . . . . . . . . . . . . . . . . . . . . . . 101.6 Angrenzende Gebiete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.7 Funktionsweise und Aufbau eines IR Systems . . . . . . . . . . . . . . . . 141.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Boolsches Information Retrieval 192.1 Idee des boolschen IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Theoretisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3 Invertierter Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 Bigramm und Position Index . . . . . . . . . . . . . . . . . . . . . . . . . . 362.5 Schnelle Stringsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Dokumentvorverarbeitung und Anfrageerweiterung 433.1 Zugriff auf die Dokumentinhalte . . . . . . . . . . . . . . . . . . . . . . . . 443.2 Tokenisierung der Inhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.3 Termfilterung und -normalisierung . . . . . . . . . . . . . . . . . . . . . . . 483.4 Anfrageerweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 Erweiterungen des Boolschen Modells 634.1 Zoneninformationen im Index . . . . . . . . . . . . . . . . . . . . . . . . . 634.2 Gewichtung mit einem Zonenindex . . . . . . . . . . . . . . . . . . . . . . 654.3 Zonen in HTML Dokumenten . . . . . . . . . . . . . . . . . . . . . . . . . 684.4 Erweitertes Boolsches IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

iii


6/340

Inhaltsverzeichnis

5 Das Vektorraum Modell 775.1 Idee des Vektorraum Modells . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.2 Theoretisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.3 Die klassische Variante: TF-IDF . . . . . . . . . . . . . . . . . . . . . . . . 805.4 Praktische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.5 Varianten zur TF-IDF Gewichtung . . . . . . . . . . . . . . . . . . . . . . 885.6 Andere hnlichkeitsmae . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.7 Relevance Feedback nach Rocchio . . . . . . . . . . . . . . . . . . . . . . . 915.8 Optimierung: Bestimmung der ungefhren Top-K Dokumente . . . . . . . 965.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6 Evaluation 99

6.1 Das Cranfield Paradigma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.2 Test Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.3 Mae . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026.4 Nutzerbezug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1126.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7 Probabilistisches Information Retrieval 1157.1 Das Binary Independence Modell (BIM) . . . . . . . . . . . . . . . . . . . 1157.2 Wahrscheinlichkeitsschtzungen . . . . . . . . . . . . . . . . . . . . . . . . 1217.3 Okapi / BM25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

7.4 Praktische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1267.5 Probabilistisches Relevance Feedback . . . . . . . . . . . . . . . . . . . . . 1267.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

8 Websuchmaschinen 1318.1 Das World Wide Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1318.2 Web Crawler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1378.3 Spam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1428.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

9 PageRank und HITS 145

9.1 Das Web als gerichteter Graph . . . . . . . . . . . . . . . . . . . . . . . . . 1459.2 PageRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1469.3 HITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1539.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

10 Nutzerinteraktion 16110.1 Modellierung des Suchvorgangs . . . . . . . . . . . . . . . . . . . . . . . . 16110.2 Interaktionsformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16510.3 Ebenen der Untersttzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 16810.4 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

iv


7/340

Inhaltsverzeichnis

10.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

11 Language Models 17711.1 Einfhrung in Language Models . . . . . . . . . . . . . . . . . . . . . . . . 17711.2 Einsatz von Language Models im IR . . . . . . . . . . . . . . . . . . . . . 18011.3 Schtzen der Wahrscheinlichkeiten fr LM . . . . . . . . . . . . . . . . . . 18211.4 Praktische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18711.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

12 Cross Language Information Retrieval 19112.1 Einsatzgebiete des CLIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19112.2 CLIR auf der Basis von direkten bersetzungen . . . . . . . . . . . . . . . 19412.3 Language Models fr CLIR . . . . . . . . . . . . . . . . . . . . . . . . . . 19712.4 Cross Language Explicit Semantic Analysis . . . . . . . . . . . . . . . . . . 20112.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

13 Textklassifikation 21113.1 Einfhrung in die Textklassifikation . . . . . . . . . . . . . . . . . . . . . . 21113.2 Evaluation von Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . 21513.3 Regelbasierte Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21913.4 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23513.5 Der Rocchio Algorithmus zur Textklassifikation . . . . . . . . . . . . . . . 24513.6 K Nearest Neighbour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

13.7 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26113.8 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

14 Clusteranalyse auf Texten 27914.1 Einfhrung in die Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . 27914.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28314.3 Single-Pass Clusterverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 29114.4 K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29614.5 Agglomerative hierarchische Clusterverfahren . . . . . . . . . . . . . . . . . 30414.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309

Abbildungsverzeichnis 311

Tabellenverzeichnis 317

Liste der Algorithmen 319

Literaturverzeichnis 321

Index 325

v


8/340

Inhaltsverzeichnis

vi


9/340

1 Was ist Information Retrieval?

In diesem Kapitel wollen wir uns zunchst mit dem Begriff Information Retrieval (IR)selbst beschftigen. Dazu fhren wir zu Beginn ein paar Beispiele an, wie und wo man im(fast) alltglichen Leben mit IR Systemen in Berhrung kommen kann. Daraus lsst sichauch naiv ableiten, um welche Probleme sich beim IR eigentlich alles dreht.

Nach dieser Einfhrung gehen wir den Begriff selbst an. Zu diesem Zweck mssen wir

zunchst zwischen Daten, Informationen und Wissen unterscheiden. Danach werden De-finitionen aus verschiedenen Literaturquellen vorgestellt. Diese dienen auch dazu, unsereInteressen im Bereich des IR abzustecken. Wir betrachten anschlieend kurz einzelne Teil-gebiete und Aufgaben aus dem Bereich des IR und stellen angrenzende Gebiete vor.

Gegen Ende des Kapitels knnen wir dann ein abstraktes theoretisches Modell zur Be-schreibung der Aufgabe des IR entwickeln. Von der praktischen Seite her werden wir eineerste, schematisch Darstellung eines IR Systems angeben knnen. Damit lassen sich aufsehr allgemeiner Ebene die Bestandteile eines solchen Systems erklren, die wir in spterenKapiteln dann nher betrachten werden.

1.1 BeispieleInformation Retrieval war fr lange Zeit ein eher kleines Forschungs- und Anwendungs-gebiet im Bereich der Bibliotheken, das hchstens noch in greren Firmen von Interessewar. In Bibliotheken sind IR Systeme nach wie vor zu finden, beispielsweise im Katalogsys-tem der Mainzer Universittsbibliothek (siehe Abb. 1.1). Firmensysteme knnen ebenfallsganz allgemein auf die Suche von Dokumenten ausgerichtet sein. Es gibt aber auch sehrspezielle Anwendungen, z.B. zum Durchsuchen einer Sammlung von Patentschriften oderGerichtsurteilen.

Fr ein breites Publikum richtig interessant wurden IR Systeme dann in den 1990er Jah-

ren. Durch die Entwicklung und den rasanten Boom des World Wide Web stand pltzlich je-der Web Nutzer vor einer gigantischen Sammlung von Webseiten und Online-Dokumenten.Mit den Websuchmaschinen zogen IR Systeme dann immer mehr in den Alltag ein. Google(siehe Abb. 1.2) drfte heutzutage fr viele Nutzer wohl fast schon der Standardeinstiegins World Wide Web sein.

Aber auch andere Anstze und Versuche, Ordnung in das Web zu bringen fallen unterdie Kategorie der IR Systeme. Beispielsweise Web-Directories (siehe Abb. 1.3), in denenWebsites in einem hierarchischen und thematisch gegliederten Katalog aufgefhrt werden.Diese Kataloge werden oft hndisch gepflegt und sind daher bezglich ihres Datenbestandesselten so umfangreich wie eine Websuchmaschine.

1


10/340


Abbildung 1.1: Die Online Schnittstelle zum Katalog der Universittsbibliothek Mainz.

Abbildung 1.2: Startseite zu Google IR Systeme sind alltglich geworden.

2


11/340

1.2 Information Retrieval

Abbildung 1.3: Startseite des Open Directory Projects DMOZ.

Neben diesen fast schon offensichtlichen IR Systemen haben sich aber auch viele an-dere in den Alltag eingeschlichen. Desktopsuchmaschinen sind in den meisten modernenBetriebssystemen zu finden. Anstatt die Position eines Dokumentes oder Bildes im Datei-system zu kennen (oder hndisch danach zu suchen), kann der Nutzer ein Programm zumAuffinden seiner Daten verwenden (siehe Abbildung 1.4). Sogar auf Mobiltelefonen findensich gelegentlich schon Programme, die das Adressbuch, Dokumente, das Web oder eineMediensammlung durchsuchen.


Aus den einleitenden Beispielen erhlt man bereits einen ersten Eindruck, worum es im In-formation Retrieval geht: die Versorgung von Nutzern mit Informationen. Das setzt selbst-verstndlich voraus, dass der Nutzer ein Informationsbedrfnis hat und dieses auch befrie-digen mchte (siehe Kasten Calvin Mooers auf Seite 5 zum Thema Mooers Law).

Nutzer knnen sehr unterschiedliche Informationsbedrfnisse haben. Einige Beispiele:

Bei welchem Stand ging der DAX am Freitag aus dem Handel?

Wie hat die Handballmannschaft meines Heimatortes gestern gespielt?

3


12/340


Abbildung 1.4: Desktop Suche (Ubuntu Linux).

Welche theoretischen Modelle gibt es im IR?

Wie funktioniert Quicksort? Wann und wo findet die Vorlesung Information Retrieval statt? Was kann ich gegen den stechenden Schmerz im Fu unternehmen? Welche Schauspieler haben die besten Chancen den Oscar zu gewinnen? Wie steht die breite Masse dem letzten Konjunkturpaket der Regierung gegenber?

Wir haben es im IR also mit Nutzern zu tun, die irgendwelche Informationen bentigen.Es bleibt die Frage, wie ein Nutzer an diese Informationen gelangen kann. Es gibt durchaus

verschiedene Anstze nach Informationen zu suchen (information seeking) die nicht unbe-dingt zum Einsatz von IR Systemen fhren. Wenn man sich die obigen Beispiele ansieht,erkennt man recht schnell verschiedene Mglichkeiten zur Vorgehensweise. Es wird auer-dem klar, dass die Anstze in den einzelnen Fllen sehr unterschiedliche Erfolgsaussichtenhaben:

Experten befragen: Ein Nutzer kann schlichtweg jemanden fragen, der die bentigte In-formation voraussichtlich hat (und zu teilen bereit ist). Der Begriff Experte hat sichin diesem Zusammenhang ganz allgemein fr jemanden eingebrgert, der ber diebentigten Informationen verfgt. Ein Experte kann daher ein Spezialist auf einem

4


13/340


Calvin Mooers

Der Begriff Information Retrieval wurde von Calvin Mooers eingefhrt. Mooersgilt als einer der Pioniere der Informatik. Er entwickelte unter anderem ein mecha-nisches System namens Zatocoding, das fr Bibliotheken gedacht war. Darin wurdeeine Art Karteikarten verwaltet, ber die auf andere Dokumente verwiesen wer-den konnte. Die Karteikarten waren zustzlich durch Kerben markiert, welche denInhalt des referenzierten Dokumentes beschrieben. Diese Kerben lieen inhaltlicheSchlussfolgerungen zu, so dass das System zu einer Anfrage die inhaltlich relevantenDokumente (bzw. deren Karteikarten) heraussuchen konnte.Mooers berichtete, dass er sich damit Bibliothekare zum Feind machte. In Biblio-theken herrschte damals die Meinung, dass es fr solche Aufgaben ein denken-des, menschliches Gehirn braucht. Eine Maschine knne so eine Aufgabe nicht l-sen [Wei95].Vielleicht auch wegen dieser Reaktion formuliert Mooers spter sein Gesetz(Mooers Law [Aus01]), das viel bekannter wurde als das Zatocoding System:

An information retrieval system will tend not to be used whenever it ismore painful and troublesome for a customer to have information thanfor him not to have it.

Auch wenn das Gesetz heute hufig so interpretiert wird, dass man es dem Nutzereines IR Systems einfach machen soll, an die bentigten Informationen zu gelangen,

war die eigentliche Intention anders. Wenn eine Information oder Wissen fr einenNutzer mehr Nachteile als Vorteile bringt, so wird er ein System zum Auffindendieser Information womglich gar nicht erst nutzen (Ignorance is a bliss).

Fachgebiet sein oder schlicht ein Passant, den man nach dem Weg fragt. Letzte-res Beispiel weist aber auch darauf hin, dass bereits das Auffinden eines Expertendurchaus eine Herausforderung (und Aufgabe des IR) sein kann.

Literaturrecherche: Der Nutzer schlgt die Information in geeigneter Literatur nach.Das kann die lokale Tageszeitung, ein Fachbuch, ein Zeitschrift oder heutzutage

immer wichtiger eine Online-Ressource sein. Der Begriff nachschlagen ist dabeisehr allgemein zu verstehen. Der Nutzer knnte ein Fachbuch komplett von vornebis hinten durchlesen um an die bentigte Information zu gelangen. Ebenso kann erHilfsmittel wie ein Inhaltsverzeichnis oder einen Index verwenden. Auch ein gewissesVorwissen oder Fachkenntnisse knnen hilfreich sein, beispielsweise wenn bekannt ist,auf welcher Seite der Zeitung die Sport- oder Wirtschaftsnachrichten zu finden sind.

Bibliotheksrecherche: Wenn der Nutzer nicht genau wei, wo die bentigte Informationzu finden ist, kann er in einem Katalog nach passender Literatur suchen. Katalogein Bibliotheken sind sehr unterschiedlich organisiert. Eintrge knnen nach Titel

5


14/340


oder Autor sortiert sein. Auch Klassifikationen nach Fachgebieten und Teilbereichensind hufig anzutreffen. In der PMC1 wird beispielsweise die RVK (Regensburger

Verbundklassifikation) eingesetzt. Bcher sind thematisch aufgestellt und innerhalbeines Themas nach Autor sortiert. Der Online-Katalog erlaubt darber hinaus eineVielzahl zustzlich Suchmglichkeiten.

Websuche: Die Suche im Web unterscheidet sich von einer Bibliotheksrecherche in Hin-sicht auf den Umfang des Datenbestandes, dessen Heterogenitt und Qualitt. ImWeb ist man mit einer Vielzahl an Formaten (sowohl technisch als auch inhaltlich)konfrontiert. Die Dokumente werden auerdem meist automatisch erfasst und nichtmanuell kontrolliert. Auch deshalb ist die Urheberschaft, Qualitt und auch Aktuali-tt einer Information im Web nicht immer nachvollziehbar sie kann sogar absicht-lich verflscht oder verschleiert sein. Aus Sicht des IR ist vor allem auch das enormeDatenaufkommen, dessen stetes Wachstum sowie die dezentral angelegte Organisati-onsstruktur eine Herausforderung.

In allen Fllen geht es aus der Sicht des Informationssuchenden darum, hilfreich Infor-mationen zu erhalten (obwohl das unter Bercksichtigung der Definition im kommendenAbschnitt selbstverstndlich ist). Trotzdem ist Relevanz ein zentraler Begriff im IR. Re-levanz gibt an, ob und vielleicht sogar zu welchem Grad ein Dokumente zur Informati-onssuche passt und zur Befriedigung des Informationsbedrfnisses eines Nutzers beitrgt.Fuhr [Fuh06] listet (unter Berufung auf Fachliteratur) vier verschiedene Arten von Relevanzauf:

Situative Relevanz: Sie drckt die tatschliche Ntzlichkeit eines Dokuments in einer kon-kreten Situation aus, d.h. in wie weit liefert es eine konkrete Information. Allerdingslsst sich die situative Relevanz nicht wirklich messen.

Subjektive Relevanz: Wie ntzlich empfindet ein Nutzer ein Dokument. Dies kann sichstark von der situativen Relevanz unterscheiden, beispielsweise, wenn ein Dokumentfr den Nutzer zu kompliziert oder in der falschen Sprache geschrieben ist, es zu vielVorwissen voraussetzt oder schlichtweg zu umfangreich ist.

Objektive Relevanz: Sie basiert auf dem Urteil von (mehreren) unabhngigen Nutzern

ber die Ntzlichkeit eines Dokumentes zu einem vorgegebenen Informationsbedrf-nis. Diese Art der Relevanz wird hufig zu Evaluationszwecken herangezogen.

Systemrelevanz: Der Relevanzwert, wie er in einem IR System berechnet wird. Dies ent-spricht einem per Algorithmen bestimmten Ntzlichkeitswert als Beziehung zwischeneiner Anfrage und einem Dokument. Solche Werte werden fr die Aufnahme in eineErgebnisliste und zur Erstellung einer Rangliste (Ranking) verwendet. Es ist ledig-lich eine Schtzung der Relevanz und wird auch mit RSV (Retrieval Status Value)bezeichnet.

1PMC: Fachbereichsbibliothek Physik, Mathematik und Chemie an der Uni Mainz.

6


15/340

1.3 Daten, Wissen, Informationen

Das grte Problem im IR ist die Vagheit der Sprache. Vagheit bedeutet hier, dass sichnicht immer exakt und situationsunabhngig festmachen lsst, worum es geht. Texte und

Wrter bedrfen einer Interpretation, sie enthalten eine Semantik. Dies gilt sowohl auf derSeite der Dokumente als auch bei der Formulierung der Anfragen. Die Vagheit kann sichsehr unterschiedlich ausdrcken. Ein Wort kann mehrere Bedeutungen haben (modern,Bank, etc.) andere Wrter beschreiben das gleiche oder hnliche Konzepte (Bildschirm,Monitor, Screen, Display). Sprache erlaubt auerdem viele Feinheiten wie Ironie (Dasist aber eine tolle Vorlesung!) oder ist extrem situationsabhngig (russische Qualitt beiWodka oder Autos).

Auch wenn im IR heute nicht mehr nur Textdokumente betrachtet werden, so bleibt dasProblem der Vagheit eigentlich in allen Anwendungen erhalten (beispielsweise bei einerSuche nach Bildern).

1.3 Daten, Wissen, Informationen

Wir haben jetzt wiederholt von Informationen gesprochen. Es soll nun etwas nher daraufeingegangen werden, was Informationen eigentlich sind. In diesem Zusammenhang werdenwir auch auf die Begriffe Daten und Wissen eingehen, da diese zur Abgrenzung dienen undsomit das Verstndnis erleichtern. Wir werden dabei von den Daten ber Wissen hin zuInformationen gehen. Gleich vorweg sei jedoch erwhnt, dass man je nach Quelle auchunterschiedliche Auffassung und Definitionen findet. Insbesondere die Begriffe Wissen undInformation werden gelegentlich genau anders herum gebraucht.

Daten sind Eintrge mit einer bekannten syntaktischen Struktur. Es ist also bekannt,nach welchem Muster die Eintrge aufgebaut, d.h. durch Zeichen kodiert sind. Manspricht auch davon, dass Daten eine fr die maschinelle Verarbeitung geeignete, ko-dierte Darstellung von Informationen sind.

Beispiel: XML (trgt keine Semantik!!!), Stringformate, Zeichenkodierung

Wissen fgt den Daten eine Semantik hinzu. Das heit, es ist klar was hinter den Datensteckt und was diese darstellen. Allgemeiner wird der Begriff Wissen auch fr dieGesamtheit aller Kenntnisse eines Fachgebietes verwendet also eine Art Fakten-

sammlung.Beispiele: Buchtitel, Datum einer Reise, Standort eines Buches in der Bibliothek.

Information ergnzt nun den Aspekt der Pragmatik, es geht also um die Teilmenge desWissens, das zur Lsung einer ganz bestimmten Aufgabe ntig ist. Information istalso gewissermaen der Teil des Wissen, mit dem sich eine ganz bestimmte Fragebeantworten lsst. Anders ausgedrckt sind Informationen nutzbares Wissen.

Beispiele: Wo findet die Vorlesung statt, welches Buch empfiehlt sich, wann war ichin Inverness?

7


16/340


Nutzloses Wissen ?!?

Das Buch Schotts Sammelsurium von Ben Schott [Sch04] wird oft auch als Enzy-klopdie des nutzlosen Wissens bezeichnet. Der Autor listet darin ein Vielzahl ankuriosen Fakten, Geschichten und Begebenheiten auf. Dass die Inhalte als nutzlo-ses Wissen angesehen werden, liegt sicherlich daran, dass Sie im Alltag wohl seltenpraktische Anwendung finden drften. Aber auch das Buch selbst sorgt in gewis-sem Mae dafr, dass das Wissen nutzlos bleibt: es gibt kein Inhaltsverzeichnis undkeinen Index. Die Eintrge stehen in scheinbar willkrlicher Reihenfolge im Buch.Damit eignet sich das Buch zwar gut, um es nach Kuriosem zu durchstbern. Umallerdings Informationen daraus zu ziehen ist es ziemlich ungeeignet: es fllt schwerdas zur Lsung einer Aufgabe bentigte Wissen darin zu finden.

1.4 Definitionen zu IR

In der Fachliteratur finden sich durchaus unterschiedliche Erklrungen dazu, was Informa-tion Retrieval (IR) ist. So gibt Fuhr [Fuh06] im Skript zu seiner IR Vorlesung folgendesan:

Will man den Gegenstand des Information Retrieval [...] mit wenigen Wortenbeschreiben, so ist die Formulierung inhaltliche Suche in Texten wohl amtreffendsten.

Fuhr sagt aber auch, dass diese Definition eigentlich nur dem klassischen IR gerechtwerde. Heutzutage sei IR wesentlich breiter angelegt und es umfasse auch die Suche nachmultimedialen Daten, beispielsweise Bildern. Er verweist weiterhin auch auf die Definitionder Fachgruppe IR [fI09] in der Gesellschaft fr Informatik. Diese beschreibt IR einleitendfolgendermaen:

Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihreRolle im Proze des Wissenstransfers vom menschlichen Wissensproduzentenzum Informations-Nachfragenden betrachtet.

Diese Definition fhrt zustzlich auf, dass IR sich mit Informationssystemen beschftigt,die einem Wissenstransfer dienen knnen. Wenn dies zunchst auch etwas schwammigklingen mag (auch ein E-Mail Service kann als Informationssystem zum Wissenstransferaufgefasst werden), so ist der Transfer von Wissen doch eine zentrale Motivation fr denEinsatz von IR Systemen.

Baeza-Yates und Ribeiro-Neto [BYRN99] versuchen eine etwas umfassendere und tech-nischere Definition zu geben:

Information Retrieval [...] deals with the representation, storage, organizationof, and access to information items.

8


17/340

1.4 Definitionen zu IR

Es fllt auf, dass hier nicht mehr von Texten, sondern von Informationsobjekten dieRede ist. Weiterhin wird die Aufgabe der inhaltliche Suche verallgemeinert zum Zugriff

auf die Informationsobjekte. Und schlielich ist auch die Rede davon, dass sich IR mit derDarstellung, Speicherung und Verwaltung der Informationsobjekte beschftigt.

Im Vorlesungskript von Henrich [Hen08] wird IR so erklrt:

Gegenstand des Information Retrieval ist die Suche nach Dokumenten. Tradi-tionell handelt es sich dabei um Textdokumente. In neuerer Zeit kommt aberverstrkt die Suche nach multimedialen Dokumenten (Bilder, Videos, Audios,Hypertext-Dokumente) oder z.B. die Suche nach Experten und Arbeitsgruppenmit einem bestimmten Kompetenzprofil hinzu.

Darin kommt ein weiterer Aspekt hinzu: die Suche nach Experten ein Problem daswir bereits eingangs angesprochen haben. Auerdem wird zwischen (klassischen) Textdo-kumenten und Hypertext-Dokumenten unterschieden. Henrich weist auch darauf hin, dassim IR meist keine auf Zeichenketten basierende Suche, sondern eine inhaltsbasiernde Suchegemeint ist. Das heit, bedingt durch Vagheit in jeder Sprache, geht man weg von einerexakten Anfrage und hin zu Abstraktion und semantikbezogene Anfragen (Gib mir wasich will).

Eine letzte Definition aus dem Buch von Manning, Raghavan und Schtze [MRS08]:

Information retrieval (IR) is finding material (usually documents) of an un-structured nature (usually text) that satisfies an information need from withinlarge collections (usually stored on computers).

Damit wird eine wichtige Gemeinsamkeit der gesuchten Objekte angesprochen: sie sindunstruktriert. Auerdem wird wieder der Wissenstransfer angesprochen, und zwar in derForm, dass ein Informationsbedrfnis zu befriedigen ist. Auch der letzte Punkt ist inter-essant, nmlich dass man es mit umfangreichen Sammlungen von Daten zu tun hat, die inder Regel auf Computern gespeichert sind.

Whrend der Einsatz von IT-Systemen fr uns in diesem Zusammenhang heutzutagefast selbstverstndlich ist, so musste van Rsbergen in seinem Buch von 1979 [VR79] nochausdrcklich darauf hinweisen. Das liegt daran, dass der Begriff IR damals wohl landlufig

breiter aufgefasst wurde. So zhlte scheinbar auch die manuelle Suche in Bibliothekskata-logen zum IR.

Ein weiterer Punkt auf den van Rsbergen eingeht ist, dass Information Retrieval eigent-lich passender als Document Retrieval zu bezeichnen wre. Schlielich liefern IR Systeme(in den meisten Fllen) Verweise auf Dokumente und liefern nicht eine gewnschte Infor-mation selbst. Er zitiert dabei Lancaster [Lan67]:

An information retrieval system does not inform (i.e. change the knowledge of)the user on the subject of his inquiry. It merely informs on the existence (ornon-existence) and whereabouts of documents relating to his request.

9


18/340


In dem gleichen Buch ist weiterhin ein nette, tabellarische und viel zitierte Abgrenzungzwischen Data Retrieval und Information Retrieval zu finden. Diese Abgrenzung soll in

diesem Rahmen nicht fehlen und wird in Tabelle 1.1 angegeben und erlutert.Besonders interessant im Vergleich zu klassischen Datenbanken ist die Abgrenzung in

Bezug auf Matching und Items wanted, also die Frage nach der Bestimmung vonTreffern und welche Ergebnisse man eigentlich mchte. Die Unterschiede werden wohl ineinem Beispiel am deutlichsten.

Daten vs. Information Retrieval

Betrachten wir eine relationale Datenbank und eine Websuchmaschine. Eine Anfragean die Datenbank formulieren wir ber SQL:

select * from PFLANZEN where GATTUNG = Obstbaum

Wir erwarten, dass die Ergebnismenge nur solche Eintrge aus der Tabelle PFLANZENenthlt, die im Feld GATTUNG den Eintrag Obstbaum haben. Wir wollen also, dassErgebnisse und Suchanfragen exakt zu einander passen. Noch anschaulicher wird dieseoffensichtliche Tatsache, wenn man an eine Abfrage in einem universitren Prfungs-verwaltungssystem ber die Matrikelnummer oder hnliche Primrschlssel denkt.Der Nutzer erwartet von einer Datenbank also, dass nur exakte Treffer gefundenwerden. Entsprechend prft die Datenbank auch nur auf exakte Gleichheit. Wennsich der Nutzer bei der Anfrage vertippt (z.B. Ibstbaum), dann erhlt er keine oderfalsche Treffer.Bei einer Websuche hingegen, knnte man erwarten, dass auch solche Dokumentegefunden werden, die obstbaum (klein geschrieben) oder Obstbume (Plural)enthalten. Inzwischen sind Suchmaschinen sogar so weit, dass sie Ergebnisse liefern,in denen der Suchbegriff selbst gar nicht auftritt. So wre es durchaus denkbar, dass inder Ergebnisliste Dokumente auftauchen, die den Begriff Fruchtbaum oder Apfel-baum enthalten. Bei einer Suche nach Ibstbaum ist man ebenfalls daran gewhnt,dass das System den Nutzer auf mgliche Tippfehler hinweist und sogar Korrektur-vorschlge macht.

Alle in diesem Abschnitt vorgestellten Definitionen treffen in gewissem Sinne zu und ge-hen auf unterschiedliche Aspekte und Schwerpunkte im Bereich des IR ein. Fr uns knnenwir an dieser Stelle vielleicht ganz allgemein sagen, dass wir uns im IR fr Informations-systeme interessieren, die einen Nutzer beim information seeking untersttzen.

1.5 Teilgebiete und Aufgaben im IR

Aus den Definitionen klang es schon heraus: IR hat sich seit seinen Anfngen sehr starkentwickelt und umfasst verschiedene Teilgebiete und speziellen Teilaufgaben. Zunchst lis-

10


19/340


Tabelle 1.1: Abgrenzung zwischen Data Retrieval und Information Retrieval nach van Ri-jsbergen [VR79]

Data Retrieval Information Retrieval Erluterung

Matching Exact match Partial or best match Exakter String in Do-kument vs. passendzur Anfrage

Inference Deduction Induction Klare mathematischeRegeln vs. Beobach-tungen und Erfahrun-

gen auf den Dokumen-tenModel Deterministic Probabilistic Boolsche / Relationale

Algebra vs. BayesscheWahrscheinlichkeita

Classification Monothetic Polythetic Attribute der Objek-te sind hinreichendund notwendig fr ei-ne exakte Klassifikati-on vs. Ungenaue Ab-grenzung, nicht alleObjekte haben alleAttribute

Query Language Artificial Natural SQL vs. FreitextsucheQuery specification Complete Incomplete Formale Sprache vs.

natrliche offene Spra-che

Items wanted Matching Relevant Passende Objekte vs.relevante Objekte

Error response Sensitive Insensitive Fehlerhafte Abfrage(nicht syntaktisch)

fhrt zu keinen Er-gebnissen vs. kleineAbweichungen fh-ren nicht zu groenPerformanzeinbuen.

aDie Idee des probabilistischen IR war 1979 noch recht neu. Es stellt jedoch nicht das einzige theoretischeIR Modell dar.

11


20/340


ten wir einzelne Teilgebiete auf, danach werden wir nher auf Aufgaben im IR eingehen.Jede der Aufgaben kann dabei zumindest zu einem gewissen Grad in jedem der Teilgebiet

anfallen.

Text IR: Der klassische Einsatz des IR. Die Informationssuche luft in einer Sammlungvon Textdokumenten ab. Die Form und Art der Dokumente variiert sehr stark. VonBibliotheksbchern, wissenschaftliche Arbeiten oder Notizen ber Nachrichten (Mail,SMS) zu Patentschriften oder Gerichtsurteilen ist fast alles denkbar. Nicht zuletztdurch diesen historischen Hintergrund wird im IR auch heute noch allgemein vonDokumenten gesprochen, selbst wenn Bilder, Filme oder Musik betrachtet werden.Aber auch Textdokumente knnen in moderneren Anwendungen vielfltiger sein sieenthalten Abbildungen, Tabellen oder andere Element, die nicht einem klassischen

Text entsprechen.Hypertext IR, IR im Web: Obwohl eigentlich ein Spezialfall des Text IR muss Hyper-

text IR heutzutage gesondert erwhnt werden. Das liegt schlichtweg daran, dass dasWWW eines der Hauptanwendungsgebiete fr IR ist. Websuchmaschinen haben sichzu enorm groen und komplexen IR Systemen entwickelt. Die Hypertext Idee hinge-gen ist brigens deutlich lter. Sie wird allgemein Vannevar Bush [Bus45] zugeschrie-ben. Deshalb und da es Querverweise zwischen Texten auch in anderen Formen gibt,sind einige der im Web eingesetzten Techniken durchaus auch allgemeiner anwendbaroder haben ihren Ursprung in anderen Teilgebieten des IR.

Question Answering (QA): Im letzten Abschnitt hatten wir bereits van Rsbergens [VR79]Anmerkung erwhnt, dass IR eigentlich eher Document Retrieval heien msste. Dastrifft auf das Teilgebiet des Question Answering nicht zu. Hier wird tatschlich ver-sucht, nicht nur interessante Dokumente zur Befriedigung eines Informationsbedrf-nisses zu finden, sondern daraus direkt die gewnschte Information zu extrahieren.Auf eine Anfrage wie Welcher Dozent liest dieses Semester die Vorlesung TGI? wr-de ein solches QA System nicht mit einer Liste von Dokumentreferenzen antworten,sondern im Idealfall direkt den Namen des Dozenten ausspucken.

Multimedia IR: Die zunehmende Digitalisierung von Medien fhrt dazu, dass immer hu-figer auch in Bild-, Audio- oder Videoarchiven gesucht werden muss. Sogar auf Ani-mationen oder Bewegungsablufen wird IR betrieben. Die Suche in solchen Datenlsst sich sicherlich am einfachsten ber beschreibende Texte realisieren (Metainfor-mationen). Wirklich spannend wird es dann, wenn inhaltlich in den Bildern oderMusikdateien gesucht wird. Das lst eine ganze Menge von Problemen aus, nichtzuletzt jenes, wie Anfragen formuliert werden.

Expertensuche: Wir hatten die Suche nach Experten zu einem bestimmten Thema bereitseingangs angesprochen. Diese Suche ist ebenfalls ein Teilgebiet des IR. Hier geht esum die Frage, wen man zu bestimmten Themen fragen knnte, um an Informationenzu gelangen.

12


21/340


In jedem dieser Teilgebiete stehen fast immer die gleichen Aufgaben und Fragestellungenan:

Ad Hoc Anfragen: Die klassische Aufgabe im IR. In einer festen Menge von Dokumentensollen zu einer gegebenen Anfrage die relevanten Dokumente gefunden werden.

Routing: Hier bleibt die Anfrage fix und es werden neue Dokumente untersucht. Aus diesenDokumenten (z.B. ein Strom von eingehenden Nachrichten) sollen die zur Anfragerelevanten herausgefischt werden. Ein Ranking ist hier selten von Interesse, es gehtvielmehr um Ja/Nein Entscheidungen.

Cluster Analyse: Beim Clustern oder Gruppieren von Dokumenten ist die Frage, welchesich inhaltlich hnlich sind und wo Grenzen gezogen werden knnen.

Klassifikation: ist dem Clustern hnlich, es werden jedoch feste Kategorien vorgegeben,in welche die Dokumente einzugliedern sind.

Cross Language IR (CLIR): Information Retrieval ber Sprachgrenzen hinweg. Beispiels-weise durch die bersetzung von Anfragen und oder Dokumenten in verschiedenenSprachen.

Evaluation: die Evaluation von IR Systemen ist eine wichtige Aufgabe insbesondere beimVergleich verschiedener Verfahren, theoretischer Modelle oder bei der Optimierungvon Parametereinstellungen.

Nutzerinteraktion: welche Mglichkeiten sind dem Nutzer zur Interaktion gegeben. Wieinterpretiert das System seine Anfragen, wie sehen diese aus. Neben einer Stichwort-suche im Freitextformat kann ein System spezielle Anfrageformen mit Trunkierungoder der Angabe von Bedingungen erlauben (beispielsweise dass die Suchterme nahebei einander stehen). Andere Suchmglichkeiten umfassen Query by Example odereine explorative Suche.

Peer-2-Peer Systeme: Systeme, die als Peer-2-Peer Netzwerke aufgesetzt werden stellenkeine eigentlich Aufgabe dar. Dennoch werfen sie ein Vielzahl an Fragen auf, wasihre Umsetzung angeht. Wie werden Dokumente und Indizes an die einzelnen Peers

verteilt, wie werden Anfragen effizient und schnell ausgefhrt und die Ergebnislistenzusammengestellt.

Duplikaterkennung, Plagiaterkennung: Die Erkennung von Duplikaten, bzw. Nahezu-oder Fast-Duplikaten sowie das Auffinden von Plagiaten gehren heutzutage ebenfallszum Aufgabengebiet des IR.

Spam: Websuchmaschinen aber auch die alltglichen E-Mail-Clients haben mit trgeri-schen oder unerwnschten Dokumenten zu kmpfen. Spam ist ebenfalls ein groesThema im IR, da es sich um irrelevante Dokumente handelt, die Relevanz vortu-schen.

13


22/340


1.6 Angrenzende Gebiete

IR grenzt an eine Zahl anderer Forschungsgebiete an, die nicht nur im Bereich der Informa-tik liegen. Dazu gehren die Linguistik, Bibliothekswissensschaften oder die Psychologie.Innerhalb der Informatik gibt es berschneidungen mit dem Bereich der Datenbanksyste-me, der knstlichen Intelligenz, der natrlichen Sprachverarbeitung (NLP Natural Lan-guage Processing), des Data Mining, des maschinellen Lernens, der Visualisierung und demDesign von Nutzerinterfaces.

1.7 Funktionsweise und Aufbau eines IR Systems

Im weiteren Verlauf werden wir uns zunchst hauptschlich mit klassischen IR Systemenbeschftigen. Das bedeutet, das System arbeitet auf einer Sammlung von Textdokumentenund liefert einem Nutzer zu einer Ad Hoc Anfrage die relevanten Dokumente.

Um nun ein abtraktes theoretisches Rahmenmodell fr Information Retrieval zu ent-wickeln machen wir zwei Annahmen bezglich der Relevanz eines Dokumentes zu einerAnfrage. Zum einen gehen wir davon aus, dass die Relevanz eines Dokuments bezglicheiner Anfrage unabhngig von anderen Dokumenten ist. Dass fhrt dazu, dass wir bei derBeurteilung von Relevanz uns einzig und allein auf die Anfrage und ein Dokument be-schrnken knnen, ohne andere Dokumente betrachten zu mssen. Die zweite Annahmebezieht sich darauf, dass es keine feingradige Abstufung von Relevanz gibt. Stattdessen istein Dokument zu einer Anfrage entweder relevant oder es ist nicht relevant.

Diese Annahmen fhren dazu, dass man alle Prchen aus Anfrage und Dokument inzwei disjunkte Teilmengen aufteilen kann: jene, bei denen Relevanz vorliegt und jene beidenen das nicht der Fall ist. Bezeichnen wir mit Q die Menge der Anfragen und mit D dieMenge der Dokumente, so knnen wir also formal jedem Tupel (d, q) D Q einen WertR zuweisen, falls Relevanz vorliegt, und einen Wert R, falls das d nicht zu q relevant ist.Somit luft Information Retrieval auf eine Abbildung der Paare (d, q) nach R = {R, R}hinaus.

Dieser Zusammenhang ist in Abbildung 1.5 auf der linken Seite zu erkennen. Ein IRSystem kann diese Abbildung jedoch nicht direkt modellieren und umsetzen. Das liegtzum einen an den bereits angesprochenen unterschiedlichen Formen der Relevanz aus Nut-

zersicht, zum anderen an der Vagheit der Sprache, einem Mangel an Verstndnis der Do-kumentinhalte und der schwierigen Erfassung des exakten Informationsbedrfnisses einesNutzers. Der rechte Teil in Abbildung 1.5 modelliert daher gewissermaen den erzwungenenUmweg, den ein IR System gehen muss, um diese Abbildung anzunhern.

Hier ist zunchst anzumerken, dass IR Systeme nicht mit den Dokumenten und Anfragenselbst arbeiten, sondern lediglich mit Darstellungen Dr der Dokumente und Qr der Anfra-gen. So knnen Dokumente als Texte oder Mengen von Wrtern dargestellt werden undAnfragen beispielsweise als logische Ausdrcke oder gewichtete Suchbegriffe. Die berfh-rung der Anfragen in ihre Darstellungsform wird dabei ber eine Funktion Q modelliert,gleiches gilt fr die Dokumente und D.

14


23/340

1.7 Funktionsweise und Aufbau eines IR Systems

Q

yyssssss

s

Q// Qr

Q// Qd

%%LLLL

LLL

R //

D

ffLLLLLLLD // Dr

D // Dd

88rrrrrrr

Abbildung 1.5: Abstraktes Modell der Funktionsweise eines IR Systems [Fuh06].

Eng verbunden mit der (theoretischen) Darstellung der Dokumente und Anfragen sindderen Beschreibung im IR System. Diese werden in Abbildung 1.5 mit Qd und Dd be-zeichnet und ber Funktionen Q und D aus den Darstellungen abgeleitet. Diese zweiteAbstraktionsschritt erlaubt einen zustzliche Felixiblitt des Rahmenmodells, insebsonde-re bezglich einiger technischer Feinheiten. So kann in den -Funktionen beispielsweiseenthalten sein, dass Pluralformen oder Flexionen von Verben jeweils auf eine Grundformreduziert oder einige Wrter komplett in der Beschreibung ignoriert werden. Diese Aus-prgungen in der Beschreibung von Dokumenten und Anfragen sind von der jeweiligenDarstellungen unabhngig werden daher getrennt modelliert.

Weiterhin dienen die Objektbeschreibungen als Basis fr eine Retrievalfunktion , dieletztendlich die Systemrelevanz (d, q) fr ein Tupel aus Anfrage und Dokument be-rechnet. In der Berechnung von auf der Basis der Beschreibungen von Anfragen undDokumenten, sowie der dahinterliegenden Darstellung stecken die Unterschiede verschie-

dener theoretischer IR Modelle, wie wir sie in den nchsten Kapiteln kennen lernen werden.Die hier eingefhrt Unterscheidung zwischen D, Dr und Dd, bzw. zwischen Q, Qr und

Qd tritt also in jedem IR System auf. Wir werden allerdings selten explizit die jeweili-gen Bezeichner verwenden, da es in der Regel klar ist, wann von den Dokumente, ihrerDarstellung oder der zugehrigen Beschreibung im IR System die Rede ist.

Betrachtet man IR Systeme eher technischen und architektonischen Gesichtspunkten,so lassen sich die meisten Systeme durch ein einfaches Schema dargestellen und erklren,wie in Abbildung 1.6 zu sehen ist. Dieses Schema ist zugegebenermaen sehr grob.Dennoch verdeutlicht es die wichtigsten Komponenten und Aufgaben innerhalb eines IRSystems. Es beinhaltet implizit die eben angesprochenen Funktionen Q, D, Q, D und

des theoretischen Modells, aber auch andere Aspekte, die fr die Performanz eines IRSystems ausschlaggebend sind.

Die wichtigsten Schnittstellen zu seiner Umwelt hat ein IR System zu den Nutzern undder zu verwaltenden Dokumentsammlung. Zu letzterer zum Zeitpunkt der Indizierung, zuden erstgenannten whrend der Beantwortung von Informationsanfragen. Diese Interaktionschlgt sich in den Interna des Systems in der Dokumentverarbeitung und der Annahmevon Anfragen und eventuellem Nutzer-Feedback nieder.

Dokumentenverarbeitung: Ein IR System muss die Dokumente mit denen es umgehensoll zunchst verarbeiten. Dieser Schritt kann bei einem festen, unvernderlichen

15


24/340


Abbildung 1.6: Schematischer Aufbau eines IR Systems.

Korpus (so nennt man die Dokumentsammlung) eventuell nur einmal anfallen. n-dert sich Datenbasis in irgendeiner Form (Dokumentmenge ndert sich: es kommenDokumente hinzu oder fallen weg, bzw. Dokumentinhalte ndern sich: in den Do-

kumenten selbst treten Vernderungen auf), so muss dieser Schritt regelmig oderstndig durchgefhrt werden.

Zur Vorverarbeitung gehrt das Erkennen des Formates (Text, HTML, Word, PDF;etc.) die Extraktion und Normalisierung der Inhalte, mglicherweise eine Spracher-kennung und noch einiges mehr. Hier sind auch die Umwandlung eines Dokumentesber D und D in eine Beschreibung des Dokumentes anzusiedeln.

Dokumentbeschreibung: Sobald die Dokumente verarbeitet sind, mssen die daraus ge-wonnenen Daten und Erkenntnisse irgendwie intern gespeichert werden. Wie dieseBeschreibung aussieht und welche Informationen ber die Dokumente gespeichert

werden hngt auch vom Typ des IR Systems und den eingesetzten Modellen ab.Entscheidend ist auch die Frage, in welchem Umfang Daten ber die Dokumentegespeichert werden. Handelt es sich nur um geeignete Schlagwrter, den Titel, dieAutoren, eine inhaltliche Zusammenfassung oder eine Indizierung des Volltextes?

Anfragen: Stellt ein Nutzer nun eine Anfrage, so muss diese ebenfalls verarbeitet werden.Auch hier kann eine Vielzahl von Operationen angewendet werden, welche den obenangesprochenen Funktionen Q und Q entsprechen. Allgemein knnte man jedochsagen, dass die Anfrage in eine Form gebracht werden muss, in der sie mit denDokumenten verglichen werden kann.

16


25/340

1.8 Zusammenfassung

Matching und Ergebnislisten: Neben der Darstellung und Beschreibung drfte das Be-rechnen eines Matchings der Kern der meisten IR Modelle sein, d.h. welche Dokumen-

te passen zu einer Anfrage. Dieses Zueinander Passen entspricht der errechnetenSystemrelevanz und wurde oben formal als Funktion dargestellt. ber den Relevan-zwert kann nun die Ergebnisliste aufgebaut und dem Nutzer als Ergebnis prsentiertwerden.

Feedback: Einige Systeme erlauben es den Nutzern zu den Ergebnissen ein Feedbackabzugeben. Dieses Feedback wird dann genutzt, um die Ergebnisse in einem nchstenSchritt zu verfeinern oder zu verbessern.

1.8 Zusammenfassung

Wir haben in diesem Kapitel einen ersten Einblick in IR, dessen Aufgaben, Teilgebieteund die Struktur eines IR Systems gewonnen. Es wurden verschiedene Definitionen undinsbesondere eine Abgrenzung zu Data Retrieval gegeben. Auch wurden schon einige derSchwierigkeiten und Herausforderungen angesprochen, auf die in den nchsten Kapitelnnher eingegangen wird.

17


26/340


18


27/340

2 Boolsches Information Retrieval

Unter boolschem IR versteht man den Ansatz, Dokumente lediglich nach dem Vorkom-men oder dem Fehlen von Stichwrtern zu durchsuchen. Auch heute noch basieren vielenSuchsysteme auf diesem ltesten Modell des IR.

Wir werden in diesem Kapitel zunchst die Idee des boolschen IR etwas nher beschrei-ben und dazu ein theoretisches Modell entwickeln. Dieses Modell gibt vor, wie Dokumenteaufgefasst und dargestellt werden, wie Abfragen aussehen knnen und wie das Matchingzwischen Dokumenten und Abfragen berechnet wird. Im Zusammenhang einer praktischenUmsetzung werden wir dann auf die wichtige Datenstruktur des invertierten Index einge-hen. Diese Datenstruktur stellt nicht nur fr boolsche IR Systeme die Basis dar. Anschlie-end klren wir die Frage der Querybearbeitung und das Erzeugen einer Ergebnislistemit Hilfe des invertierten Index. Damit lsst sich dann ein erstes (einfaches) IR Systemumsetzen.

Danach werden Verbesserungen dieses einfachen invertierten Index angesprochen mitdenen auch Suchen nach lngeren Ausdrcken realisiert werden knnen. Am Ende desKapitels wird noch auf Mglichkeiten der schnellen Stringsuche in Texten eingegangen.Es wird aber auch deutlich gemacht, weshalb eine naive Stringsuche nicht wirklich eineAlternative zu den Techniken in IR Systemen darstellt.

2.1 Idee des boolschen IR

Die Idee hinter boolschem IR ist ein recht intuitiver Ansatz und entspricht einer Art Voll-textsuche in den Dokumentbeschreibungen1. Das heit, der Nutzer kann nach Wrternsuchen und enthlt als Ergebnis die Menge der Dokumente, welche die Suchbegriffe ent-

halten. Der boolsche Anteil in dieser Art der Suche liegt vereinfacht gesagt darin, dasseinerseits ein Dokument zu einer Suchanfrage entweder passend oder nicht passend ist undandererseits, dass die Suchbegriffe durch logische Operatoren kombiniert werden knnen.

Dadurch erhalten die Anfragen eine bestimmte Struktur. Das Verhalten auf einfachenAnfragen mit nur einem Suchbegriff ist klar: es sollen alle Dokumente gefunden werden,die diesen Begriff enthalten. Sobald mehrere Wrter in der Suchanfrage auftauchen mussunterschieden werden:

1Im weiteren Verlauf werden wir immer nur von Dokumenten sprechen, wir hatten aber bereits im letztenKapitel gesehen, dass die interne Dokumentendarstellung in einem IR System nicht zwangsweise daskomplette Dokument, also den Volltext enthlt.

19


28/340


Sind die Wrter durch ein Schlsselwort fr das logische und verknpft, so ms-sen alle Wrter in einem Dokument enthalten sein, damit es in die Ergebnismenge

aufgenommen wird.

Sind die Wrter durch ein Schlsselwort fr das logische oder verknpft, so gengtbereits das Vorhandensein eines Wortes fr die Aufnahme in die Ergebnismenge.

Sind die Wrter nur durch Leerzeichen getrennt, so wird der komplette Ausdruck ingenau dieser Form gesucht. Solche Anfragen gehen eigentlich schon ber die einfachsteUmsetzung des Basismodells des boolschen IR hinaus. Wir werden gegen Ende desKapitels darauf eingehen, wie man damit umgehen kann.

Auer den logischen Verknpfungen und und oder erlauben boolsche IR Systeme auch

noch den Einsatz der Negation nicht. Hierbei handelt es sich um einen unren Operator,der sich im Gegensatz zu und und oder nur auf ein Schlsselwort bezieht. Die Implikationfr die Anfrage ist klar: der entsprechende Begriff darf in den gesuchten Dokumente nichtauftreten.

Dokumente und Anfragen im Boolschen IR

Betrachten wir eine einfache Sammlung von fnf Dokumenten:

1. Information Retrieval befriedigt Informationsbedrfnisse

2. Information und Daten Retrieval unterscheiden sich3. Document Retrieval ist ein anderer Begriff

4. Information ist nutzbares Wissen

5. Daten und Wissen unterscheiden sich

Diese Dokumente stecken wir nun in ein boolsches IR System, das die logischenOperatoren schlicht durch die Zeichenketten und, oder und nicht abbildet. Nunbetrachten wir unterschiedliche Anfragen und deren Ergebnismengen:

Information: Liefert die Dokumente 1, 2 und 4. Weder in 3 noch 5 ist derSuchbegriff enthalten.

Information und Retrieval: Liefert die Dokumente 1 und 2, welche beideSuchbegriffe enthalten.

Information oder Retrieval: Liefert die Dokumente 1, 2, 3 und 4, die jeweilsmindestens einen der Begriffe enthalten.

nicht Information: Liefert die Dokumente 3 und 5, in denen das WortInformation eben nicht auftritt.

20


29/340

2.2 Theoretisches Modell

Information Retrieval: Liefert nur Dokument 1, da es als einziges genau dieseZeichenkette enthlt.

Auch komplexere Ausdrcke sind mglich: (Information und Retrieval) oder(Document und Retrieval) liefert die Dokumente 1, 2 und 3. Die Klammerungsoll hier deutlich machen, in welcher Reihenfolge die Operatoren anzuwendensind.

Boolsche IR System ordnen die Ergebnisdokumente nach keiner besonderen Reihenfolgean: entweder ein Dokument ist in der Ergebnismenge enthalten, oder es ist eben nichtenthalten. Wird ein Dokument vor einem anderen in der Ergebnisliste genannt so hat daskeinerlei Aussagekraft bezglich der Relevanz oder einem besseren Passen zur Anfrage.


Nachdem die Idee des boolschen Retrieval klar sein sollte, knnen wir ein formales Modellaufstellen, welches die Funktionsweise erklrt.

Dazu gehen wir zunchst davon aus, dass wir es mit einer Sammlung von N Dokumentenzu tun haben. Das gesamte Korpus werden wir mit D bezeichnen. Die Beschreibung dereinzelnen, darin enthaltenen Dokumente also ihre Reprsentation im IR System werden

mit di durchnummeriert. Es gilt also:

D = {d1, d2, d3, . . . , dN}Weiterhin ist fr uns interessant, welche Terme2 in diesen Dokumenten auftreten. Die

Menge der auftretenden Terme nennt man Vokabular und wird mit V bezeichnet. Gehenwir davon aus, dass insgesamt M verschieden Terme in D auftreten, dann knnen wir dieseebenfalls schlichtweg durchnummerieren und als tj bezeichnen. Damit gilt also fr V:

V = {t1, t2, t3, . . . , tM}Schaut man sich die Idee des boolschen IR an, so merkt man, dass es lediglich darauf

ankommt, welche Terme in einem Dokument enthalten sind und welche nicht. Die Darstel-lung der Dokumente beruth also auf einer Menge von Termen. Die Hufigkeit der Terme,also die Anzahl der Vorkommnisse in einem Dokument, ist nicht von Interesse. Da selbstdie Reihenfolge3 keine Rolle spielt werden die Dokumente als boolsche Vektoren ber denmglichen Termen beschrieben. Es gilt also:

2Fr den Moment knnen wir Terme einfach als Wrter im Text auffassen. Die genauen Unterschiedewerden wir in Kapitel 3 erlutern.

3Bei der Suche nach nur durch Leerzeichen getrennten Wrtern spielt die Reihenfolge natrlich ein Rolle wie in unserem Beispiel zur Suche nach Information Retrieval. Aber wie gesagt, dazu kommen wirspter.

21


30/340


di {0, 1}M

Die Reprsentation eines einzelnen Dokuments di sieht wie folgt aus:

di =

[1]i , [2]i ,

[3]i , . . . ,

[M]i

wobei

[j]i =1 falls Term j in Dokument i enthalten ist0 sonst

Diese Darstellung der einzelnen Dokumente kann man auch zu einer Matrix zusammen-fassen. Diese M N Matrix C wird als Term-Dokument Matrix bezeichnet und bestehtschlichtweg aus den Dokumenten als Spaltenvektoren:

C =

dT1 , dT2 , d

T3 , . . . , d

TN

Dokumentdarstellung und Term-Dokument Matrix

Betrachten wir wieder den gleichen Beispielkorpus wie oben, bestehend aus fnf ein-fachen Dokumenten. Die Menge D besteht also aus D = {d1, d2, d3, d4, d5}. Das Vo-kabular V enthlt folgende 15 Terme:

t1 = anderer t6 = ein t11 = Retrievalt2 = befriedigt t7 = Information t12 = sicht3 = Begriff t8 = Informationsbedrfnis t13 = und

t4 = Daten t9 = ist t14 = unterscheident5 = Document t10 = nutzbares t15 = Wissen

Jede Dokumentdarstellung besteht also aus einem Tupel mit 15 Eintrgen. Dokumentd3 mit dem Inhalt Document Retrieval ist ein anderer Begriff sieht daher so aus:

d3 = (1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0)

Und die gesamte Term-Dokument Matrix C stellt sich folgendermaen dar:

22


31/340


C =

d1 d2 d3 d4 d5

anderer t1 0 0 1 0 0befriedigt t2 1 0 0 0 0Begriff t3 0 0 1 0 0Daten t4 0 1 0 0 1

Document t5 0 0 1 0 0ein t6 0 0 1 0 0

Information t7 1 1 0 1 0Informationsbedrfnis t8 1 0 0 0 0

ist t9 0 0 1 1 0nutzbares t10 0 0 0 1 0

Retrieval t11 1 1 1 0 0sich t12 0 1 0 0 1und t13 0 1 0 0 1

unterscheiden t14 0 1 0 0 1Wissen t15 0 0 0 1 1

Auch die Abfragen lassen sich ber den Termen des Vokabulars definieren. Wir gehen beider Definition der Abfragen rekursiv vor dadurch lassen sich die mglichen Kombinationender logischen Ausdrcke am besten modellieren.

Wir bezeichnen die Menge aller mglichen (gltigen) Abfragen als Q. Rekursiv kon-struieren wir nun die Elemente dieser Menge. Zunchst einmal sind darin alle Abfragenenthalten, die aus genau einem Term bestehen.

t Q, t VZwar kann ein Nutzer in einem realen System durchaus auch Anfragen mit Termen

stellen, die nicht im Vokabular des Korpus auftreten, diese sind jedoch von der Theorie hernicht weiter interessant: sie ergeben immer eine leere Ergebnisliste. Sie knnten daher miteinem stellvertretenden Term t0 modelliert werden, der in keinem Dokument auftritt.

Aufbauend auf dieser Basis kann man nun die logischen Verknpfungen bestehenderAbfragen als neue Elemente der Menge definieren:

q1, q2 Q q1 q2 Qq1, q2 Q q1 q2 Q

q Q q Q

Eventuell kann man noch die Klammerung der Ausdrcke hinzufgen, was sich syntak-tisch leicht ber die Regel q Q (q) Q realisieren lsst.

23


32/340


Was nun noch fehlt ist eine formale Angabe, wie das Matching im boolschen IR funk-tioniert, d.h. wie zu einer Anfragen die passenden Dokumente gefunden werden. Dies lsst

sich ber die Retrievalfunktion beschreiben. Die Funktion ist im Falle des boolschenIR Modells definiert ber:

: D Q {0, 1}Die Bedeutung der angenommenen Werte der Retrievalfunktion ist sehr einfach: ein Wert

von 0 heit, dass das Dokument nicht zur Anfrage passt, whrend ein Wert von 1 aussagt,dass das Dokument bei dieser Anfrage zur Ergebnismenge gehrt.

Passend zur Definition der Anfragen lassen sich auch die Werte der Funktion am bestenrekursiv definieren. Zunchst wieder fr eine Abfrage der Form q = tj :

(di, q) = [j]i , fr q = tj

Den Anfragen ber einem Term wird in also der Eintrag des Dokumentvektors zugewie-sen, der fr den entsprechenden Term steht. Anschaulich drckt dies genau den gewnsch-ten Effekt aus. In [j]i steht eine 1, wenn der Term tj im Dokument di enthalten ist, sonststeht dort ein 0. Basierend auf den Werten der Retrievalfunktion auf einfachen Anfragenlassen sich nun wieder die Werte zu allgemeineren Anfragen mit logischen Verknpfungenangeben:

(di, q) = min ((di, q1), (di, q2)) fr q = q1 q2(di, q) = max ((di, q1), (di, q2)) fr q = q1 q2

(di, q) = 1 (di, q1) fr q = q1Die Verwendung des Minimum bei Anfragen welche die Terme mit und verknpfen fhrt

dazu, dass genau dann den Wert 1 annimmt, wenn auf den beiden verknpften Teilenjeweils den Wert 1 hat. Bei der oder Verknpfung gilt hnliches durch den Einsatz derMaximum Funktion. Sobald auf einem der Teile den Wert 1 annimmt ist der Gesamtaus-druck 1. Nur wenn keiner der Anfrageteile passt, ist auch die Gesamtanfrage unpassend.Die Negation lsst sich elegant durch die Subtraktion von 1 modellieren.

Abfragemodellierung und Retrievalfunktion

Greifen wir wieder auf unser Beispiel mit den fnf einfachen Dokumenten zurck.Betrachten wir einige der eingangs angefhrten Anfragen auf diesen Korpus:

1. Information

2. Information und Retrieval

3. nicht Retrieval

24


33/340


4. (Information und Retrieval) oder (Document und Retrieval)

Zu diesen knnen wir nun ebenfalls die formale Darstellungen angeben:

1. q1 = t7

2. q2 = t7 t113. q3 = t114. q4 = (t7 t11) (t5 t11)

Nun nehmen wir uns exemplarisch die Dokumente d3 (Document Retrieval ist ein

anderer Begriff) und d4 (Information ist nutzbares Wissen) heraus und prfenjeweils, ob sie zu den Anfragen passen.

1. Anfrage q1

(d3, q1) = (d3, t7) = [7]3 = 0

Dokument 3 gehrt also nicht zur Ergebnismenge der Abfrage q1, da der Termt7 (Information) in Dokument 3 nicht auftaucht.

(d4, q1) = (d4, t7) = [7]4 = 1

In Dokument 4 ist t7 allerdings schon enthalten, somit passt d4 zur Anfrage.

2. Anfrage q2

(d3, q2) = (d3, t7 t11)= min ((d3, t7), (d3, t11))

= min [7]3 , [11]3 = min (0, 1) = 0

(d4, q2) = (d4, t7 t11)= min ((d4, t7), (d4, t11))

= min

[7]4 ,

[11]4

= min (1, 0) = 0

Hier passt keines der beiden Dokumente zur Anfrage, da weder in d3 noch ind4 beide der gesuchten Terme auftreten.

25


34/340


3. Anfrage q3

(d3, q3) = (d3, t11) = 1 (d3, t11) = 1 [11]3 = 1 1 = 0

(d4, q3) = (d4, t11) = 1 (d4, t11) = 1 [11]4 = 1 0 = 14. Anfrage q4

(d3, q4) = (d3, (t7 t11) (t5 t11))= max ( (d3, t7 t11) , (d3, t5 t11))= max (min ((d3, t7), (d3, t11)) , min ((d3, t5), (d3, t11)))= max

min

[7]3 ,

[11]3

, min

[5]3 ,

[11]3

= max (min(0, 1), min(1, 1))

= max(0, 1) = 1

Fr Dokument d4 erhlt man auf dem gleichen Weg fr einen Wert von 0.

Bei den Beispielen fallen zwei Dinge auf. Erstens, dass die Umformungen der Retrieval-funktion von den Dokumenten unabhngig ist. Die Dokumente werden erst dann hinzu-gezogen, wenn tatschlich auf Termebene geprft wird, ob ein Term enthalten ist, also beiden [j]i . Zweitens ist auffllig, dass zur Bewertung eines Dokumentes nur das Dokumentselbst betrachtet werden muss. Dies war historisch gesehen ein groer Vorteil fr bool-sche Systeme. Es mussten lediglich die Daten zu einem Dokumenten im Speicher gehaltenwerden um dessen Aufnahme in die Ergebnisliste zu beurteilen. Selbst fr die Ergebnis-liste musste kein (elektronischer) Speicher verwendet werden. Die gefundenen Dokumentekonnten direkt ausgedruckt werden.

Eine alternative Mglichkeit ist die Auswertung einer Anfrage ber die Zeilen in derTerm-Dokument Matrix. Die Zeilen geben direkt an, in welchen Dokumenten ein bestimm-ter Term enthalten ist. ber eine bitweise logische Kombination der Matrixzeilen kann dannein Vektor erzeugt werden, der genau zu den Dokumenten der Ergebnismenge Eintrge mitdem Wert 1 enthlt.

Alternativer Ansatz ber Zeilenvektoren

Nehmen wir uns noch einmal die etwas umfangreichere Abfrage (Information undRetrieval) oder (Document und Retrieval) vor. In ihr tauchen die Terme t5, t7 undt11 auf. Die zugehrigen Zeilen der Matrix C sehen wie folgt aus:

26


35/340

2.3 Invertierter Index

1. t5 (0, 0, 1, 0, 0)

2. t7 (1, 1, 0, 1, 0)3. t11 (1, 1, 1, 0, 0)

Wenn diese Zeilenvektoren nun stellen- und bitweise gem der Anfrage miteinanderverknpft werden, so erhlt man:

((1, 1, 0, 1, 0) (1, 1, 1, 0, 0)) ((0, 0, 1, 0, 0) (1, 1, 1, 0, 0)) == (1, 1, 0, 0, 0) (0, 0, 1, 0, 0)= (1, 1, 1, 0, 0)

Und die Dokumente 1, 2 und 3 entsprechen genau der Ergebnismenge zu dieser An-frage.


Nachdem die theoretischen Grundlagen nun gelegt sind stellt sich die Frage, wie sich bool-sches Retrieval in der Praxis umsetzen lsst. Wir werden an dieser Stelle den invertiertenIndex als eine der wichtigsten Datenstrukturen im IR kennenlernen.

Der Ansatz, bei jeder Suchanfrage alle Dokumente nach den Suchtermen zu durchsuchenist nicht praktikabel (siehe Abschnitt 2.5). Dafr sind die Datenmengen in einem IR Systemeinfach zu umfangreich. Wie wir gegen Ende des letzten Abschnittes gesehen haben, lassensich Anfragen auch wunderbar ber die Zeilen in der Term-Dokument Matrix zu einerErgebnismenge auswerten. Genau diesen Ansatz werden wir jetzt verfolgen.

Da es die Zeilen der Matrix sind, die fr die Berechnung der Ergebnismenge von Interessesind, optimiert man zunchst den Zugriff auf einzelne Zeilen. Jede Zeile lsst sich einem

Term zuordnen, so dass man die Terme als Schlssel fr die Zeilen verwenden kann. Daskommt auch der spteren Auflsungen einer Anfrage entgegen. Die Datenstruktur die hierzuvorrangig zum Einsatz kommt sind Suchbume4. Jedem Term im Suchbaum kann dannsein Zeilenvektor der Term-Dokument Matrix zugeordnet werden.

Problematisch ist allerdings, dass die Term-Dokument Matrix in den meisten Fllen nichtmehr komplett gespeichert werden kann. Geht man von einer Sammlung von 1.000.000

4Tabellen mit Hashwerten der Terme als Schlssel wren ebenfalls geeignet. Bei einem stndig wachsendenund vor allem sehr groem Vokabular wird allerdings irgendwann die Gefahr von Kollisionen zu grozu werden. Weiterhin kann die Sortierung in einem Baum fr weitere Funktionen ausgenutzt werden(s. Kapitel 3).

27


36/340


Dokumenten5 aus, die auf einem Vokabular von 100.000 Terme6 basieren, so haben wirbereits eine Matrix der Gre 1.000.000 x 100.000. Um diese vollstndig zu speichern wren

also 100.000.000.000 Bit ntig. Das entspricht 12.500.000.000 Byte oder 12,5 Gigabyte.Fr die Matrix gilt aber auch, dass sie extrem dnn besetzt ist. Nehmen wir an, dass in

jedem der Dokumente 1.000 verschiedene Terme7 auftreten, dann stehen in der Matrix nurin 1% der Eintrge eine 1. Die restlichen 99% enthalten eine 0. Die Idee ist daher, nur die1 Eintrge zu speichern und die 0 Eintrge nicht ausdrcklich zu erwhnen. Eine solcheListe, die nur noch angibt in welchen Dokumenten ein Term zu finden ist, heit PostingListe. Ein Eintrag in dieser Liste, der fr das Auftreten eines Terms in einem Dokumentsteht, wird als Posting bezeichnet. Ein einfaches Beispiel ist in Abbildung 2.1 zu sehen.

Abbildung 2.1: Eine einfache Posting Liste.

Ein Posting enthlt nur eine Referenz auf das eigentliche Dokument. Hierzu knnenknstlich generierte Dokumenten-IDs verwendet werden. Eine Mglichkeit solche IDs zuerzeugen besteht darin, die Dokumente im Korpus einfach abzuzhlen, beispielsweise inder Abfolge, in der die Dokumente indiziert werden. Die Posting Liste fhrt die Dokumen-

treferenzen (aufsteigend) sortiert auf. Das hat wie wir spter sehen werden Vorteile beider Suche.

Die Kombination aus Suchbaum fr die Terme und Posting Listen ergibt den inver-tierten Index8. Der invertierte Index erlaubt es sehr effizient die Liste der Dokumente zubestimmen, in denen ein bestimmter Term auftritt. Doch bevor wir den Index fr die Sucheverwenden, schauen wir uns vorher noch an, wie man den Index aufbauen kann.

Zum Aufbau des Index durchluft man die Dokumente des Korpus und bestimmt zu-nchst die darin enthaltenen Terme. Dadurch enthlt man Tupel aus Dokument, bzw.Dokument-ID und Term. Diese Tupel werden dann nach den Termen sortiert und doppeltvorkommende Tupel knnen entfernt werden. Danach fasst man zu jedem Term die Tu-

pel zusammen und sortiert gegebenenfalls noch die Dokument-IDs in der so entstehendenListe.

5Eine Schtzung gegen Ende 2006 gab fr das WWW eine Gre zwischen 15 und 30 Milliarden Doku-menten an.

6Der Duden enthlt etwa 130.000 Eintrge. Man kann diese Zahl also gut als untere Abschtzung fr dasdeutsche Vokabular heranziehen.

7Bei einer einfachen Zhlung auf Nachrichtenseiten im Web brachten es viele Dokumente auf kaum mehrals 300 verschiedene Terme.

8Eigentlich sind Indizes immer invertiert, der Begriff hat sich aber als Name fr die Datenstruktur indieser Form eingebrgert.

28


37/340


Konstruktion des invertierten Index

Der Aufbau eines invertierten Index aus den fnf Dokumenten des Beispiels vomAnfang des Kapitels wird in Abbildung 2.2 gezeigt. Die drei Spalten stehen fr dieSchritte der Erstellung der Term-Dokument-ID Tupel ganz links, die Sortierung derTupel nach Termen in der Mitte und die Zusammenfassung gleicher Terme ganzrechts.

Abbildung 2.2: Aufbau eines invertierten Index aus Dokumenten.

Abbildung 2.3 zeigt den vollstndigen invertierten Index zu diesem Beispiel inklusivedes Suchbaumes fr die Terme. Der bersichtlichkeit sind die Eintrge die zum selbenDokument gehren weiterhin gleich eingefrbt.

Hufig werden die Posting Eintrge in den Listen und auch die Terme im Suchbaum umzustzliche Daten erweitert. Auf diese Mglichkeit sowie deren Sinn und Zweck werden wiran den jeweiligen Stellen in diesem und den nchsten Kapiteln eingehen.

Nun stellt sich die Frage, wie die Datenstruktur des invertierten Index fr eine schnelleSuche genutzt werden kann. Fr eine Suchanfrage in der genau ein Term enthalten ist (alsovon der Form q = ti) gestaltet sich die Suche denkbar einfach: Wir brauchen im Index nur

29


38/340


Abbildung 2.3: Aufbau eines invertierten Index aus Suchbaum fr die Terme und den an-

gehngten Posting Listen.

den Eintrag zum Term ti zu suchen, und dessen Posting Liste stellt bereits die Ergebnislistedar.

Am Beispiel des Suchbaumes in Abbildung 2.3 lsst sich das einfach nachvollziehen.Eine Suchanfrage nach dem Term Retrieval fhrt zur Posting Liste in Abbildung 2.4,die auf die Dokumente d1, d2 und d3 verweist genau die Dokumente, die den Suchbegriffenthalten.

Abbildung 2.4: Die Posting Liste zum Term Retrieval entspricht auch dem Suchergebnisnach diesem Begriff.

Um nun komplexere Suchanfragen zu bearbeiten, mssen mehrere Posting Listen miteinander verglichen und verarbeitet werden. Wir betrachten zunchst die einfachen Fllefr eine Verknpfung zweier Terme mit logischem und oder logischem oder.

Bei einer Anfrage Daten und Retrieval werden zuerst die Posting Listen der einzelnenSuchterme bestimmt. Sie sind in Abbildung 2.5 zu sehen. Anschlieend mssen aus den

30


39/340


zwei Listen jene Eintrge herausgesucht werden, die jeweils in beiden enthalten sind. Hierzuwird nun die Sortierung der Eintrge nach Dokument-IDs ausgenutzt.

Abbildung 2.5: Die Posting Listen der Terme Daten und Retrieval.

Es gengt nmlich, beide Liste gleichzeitig mit je einem Zeiger zu durchlaufen. DieErgebnisliste ist zunchst leer und die beiden Zeiger stehen am Anfang (d.h. den ersten

Eintrgen) der Posting Listen, wie in Abbildung 2.6 dargestellt. Sofern die Dokumenten-IDs an den Positionen der Zeigern nicht gleich sind, wird der Zeiger ber der kleinerenDokument-ID weiterbewegt.

Abbildung 2.6: Aufbau der Ergebnisliste zu Daten und Retrieval mit zwei Zeigern ...

Stehen die Zeiger dann ber zwei Postings mit der gleichen ID (wie in Abbildung 2.7), sowird diese Dokumentreferenz in die Ergebnisliste aufgenommen. Dadurch, dass die Listensortiert sind und immer nur der Zeiger ber der kleineren ID weiterbewegt wird, werdengemeinsame Eintrge auf jeden Fall gefunden. Nach der bernahme eines gemeinsamenEintrages werden beide Zeiger weiterbewegt.

Abbildung 2.7: ... die Zeiger suchen gemeinsame Eintrge ...

31


40/340


Sind schlielich eine oder sogar beide Listen abgearbeitet, d.h. der Zeiger ist am Endeder Liste angekommen, so ist die Ergebnismenge komplett. In unserem Beispiel ist dies

in Abbildung 2.8 zu sehen, und Dokument d2 ist auch tatschlich das einzige, das beideSuchbegriffe gemeinsam enthlt.

Abbildung 2.8: ... bis keine weiteren Eintrge mehr enthalten sind.

In Algorithmus 2.1 ist dieses Schneiden (Intersection), also das Suchen und Zusammen-tragen der gemeinsamen Eintrge in zwei Posting Listen, formal beschrieben.

Algorithmus 2.1 : Zusammenfhren der gemeinsamen Eintrge zweier Posting Listen.Input : L1, L2: Posting Listen.Output : R: Liste mit gemeinsamen Eintrgen.

function Intersect(L1,L2);begin

p1 L1.first;p2 L2.first;R new List;while (p1 = NULL) (p2 = NULL) do

if p1.ID = p2.ID thenif p1.ID < p2.ID then

p1 p1.next;else

p2

p2.next;

elseR.append(p1.ID);p1 p1.next;p2 p2.next;

return Rend

Das Erstellen einer Ergebnisliste fr die Suche nach zwei mit logischem oder verknpftenTermen verluft hnlich. Anstatt die gemeinsamen Eintrge in den Posting Listen zu finden,

32


41/340


mssen alle Eintrge aus beiden Listen zusammengetragen werden. Auch dabei kann dieSortierung der Eintrge ausgenutzt werden.

Der Algorithmus sieht hnlich aus. Der Hauptunterschied liegt darin, dass auch dannein Eintrag in die Ergebnisliste bernommen wird, wenn die Dokument-IDs an den bei-den Zeigern nicht bereinstimmen. Dann wird jeweils die kleinere Dokument-ID an dieErgebnisliste angehngt, also die, dessen Zeiger danach weiterbewegt wird. Stimmen dieIDs berein, so wird natrlich nur ein Eintrag bernommen aber beide Zeiger eine Positionweitergerckt. Am Ende der Anfrage Daten oder Retrieval sieht die Situation also auswie in Abbildung 2.9.

Abbildung 2.9: Ergebnis nach dem Zusammenfhren zweier Listen bei einer oder-Abfrage.

Ein kleiner wenn auch fast offensichtlicher Unterschied ist, dass beim Verschmelzen(Merge) von Posting Listen beide Listen bis zum Ende durchlaufen werden mssen. Selbst

wenn das Ende der einen Liste erreicht wurde, mssen nmlich noch die verbleibendenEintrge aus der zweiten Liste ergnzt werden. In der formalen Darstellung in Algorithmus2.2 ist dies bercksichtigt.

Die beiden beschriebenen Vorgehensweisen zur Bestimmung der Eintrge in einer Ergeb-nisliste zu zwei verknpften Eintrgen kann bei mehreren verknpften Suchtermen schlicht-weg mehrfach wiederholt werden. Da die verschmolzenen oder geschnittenen Listen wieder-um sortiert sind, knnen sie wie jede andere Posting Liste gehandhabt werden. Abbildung2.10 skizziert das schrittweise Vorgehen fr die Anfrage (Information und Retrieval) oder(Document und Retrieval).

Bei der Reihenfolge, in der die einzelnen Listen in Anfragen mit mehr als zwei Termen ab-

gearbeitet werden, gibt es jedoch Mglichkeiten die Effizienz zu steigern. Wie erwhnt, kannbei der Verknpfung mit und das Verschmelzen der Listen beendet werden, sobald bereitseine der Listen abgearbeitet ist. Verwendet man weiterhin etwas intelligentere Strukturenfr die Liste (z.B. Skiplisten), kann auch das Weiterrcken des Zeigers ber der kleinerenDokument-ID in greren Schritten vollzogen werden. Das fhrt dazu, das Verknpfungenmit sehr kurzen Listen sehr schnell berechnet werden knnen. Auerdem werden die Lis-ten durch die Verknpfung nur krzer und nicht lnger. Es empfiehlt sich also, immer diekrzesten Listen zuerst mit einander zu vergleichen. Unter Umstnden gelangt man dabeisogar zu einem Punkt, an dem die Ergebnismenge schon vorab leer ist. Dann braucht manauf die restlichen Posting Listen gar nicht nher eingehen.

33


42/340


Algorithmus 2.2 : Zusammenfhren aller Eintrge zweier Posting Listen.Input : L1, L2: Posting Listen.

Output : R: Liste mit allen enthaltenen Eintrgen.function Merge(L1,L2);begin

p1 L1.first;p2 L2.first;R new List;while (p1 = NULL) (p2 = NULL) do

if p1.ID = p2.ID thenif p1.ID < p2.ID then

R.append(p1.ID);

p1 p1.next;else

R.append(p2.ID);p2 p2.next;

elseR.append(p1.ID);p1 p1.next;p2 p2.next;

while (p1 = NULL) doR.append(p1.ID);

p1 p1.next;while (p2 = NULL) do

R.append(p2.ID);p2 p2.next;

return Rend

Betrachten wir dazu die Abfrage Information und Retrieval und befriedigt. Geht mandie Posting Listen (siehe Abbildung 2.11) in der Reihenfolge der Auffhrung der Suchtermedurch, werden zunchst die Listen zu Information und Retrieval verglichen. Bei beidenListen wandern die Zeiger bis auf das letzte Element durch.

Vergleicht man jedoch zuerst die Posting Liste zu befriedigt mit der zu Informati-on, dann ist die Berechnung der Ergebnisliste bereits nach dem ersten Eintrag vollendet.Gleiches gilt dann fr den Vergleich dieses Ergebnisses mit der Liste zu Retrieval.

Um schnell und einfach eine geeignete Reihenfolge fr die Kombination der PostingListen bestimmen zu knnen, wird die Lnge der Liste mit in den Sucheintrag des Termsgeschrieben. Die Lnge der Liste gibt an, in wie vielen Dokumenten der Term auftritt.Diese Information wird auch Dokumentfrequenz genannt und fr den Term t mit df(t)

34


43/340


Abbildung 2.10: Abarbeiten mehrfach verknpfter Suchterme am Beispiel von (Informa-tion und Retrieval) oder (Document und Retrieval)

Abbildung 2.11: Posting Listen zu Information, Retrieval und befriedigt

bezeichnet. Ergnzen wir die Dokumentfrequenz in den Termeintrgen unseres invertierten

Index, dann sieht er aus wie in Abbildung 2.12.Auf die logische Negation mit nicht sind wir bisher nicht nher eingegangen. Das An-

wenden der Negation auf eine Ergebnimenge oder Posting Liste stellt algorithmisch keinegroe Herausforderung dar. Im Prinzip gengt es, ber die Liste zu laufen, alle nicht vor-handenen Dokumenten-IDs in die Ergebnismenge aufzunehmen und alle vorhandenen IDsauszulassen.

Von der praktischen Seite jedoch kann das schnell schwierig werden, da dieses Verfahrensehr lange Listen erzeugen kann. Wenn wir ber einem Korpus von 1.000.000 Dokumenteeine Anfrage negieren, die 10 Treffer enthlt, ist die Ergebnismenge 999.990 Eintrge lang.

Eine Lsung zu dieser Problematik wird in [BYRN99] angesprochen. Anstatt ein volles

logisches nicht zu untersttzen kann der Operator but verwendet werden, im Sinne vonauer oder ohne. Die Anfrage Information but Retrieval wre damit gleichwertigzu Information und (nicht Retrieval). Da but aber ein binrer Operator ist (und keinunrer wie nicht) erfordert er immer die Angabe zweier Listen. Damit ist es dann mglichaus einer (kurzen) Trefferliste lediglich die Vorkommnisse einer zweiten (ebenfalls kurzen)Trefferliste herauszunehmen.

Mathematisch bedeutet das, dass nicht das Komplement der Ergebnismenge bezglichaller Dokumente gebildet wird, sondern lediglich bezglich einer anzugebenden Obermenge.Diese Obermenge wird durch den ersten Operanden des but spezifiziert und drfte in denmeisten Fllen deutlich weniger Dokumente als der gesamten Korpus enthalten.

35


44/340


Abbildung 2.12: Invertierter Index mit Speicherung der Dokumentfrequenz zu den Termen.

2.4 Bigramm und Position Index

Wenn wir uns wieder an die Beispiele vom Anfang des Kapitels erinnern, dann fllt auf,dass wir mit unseren bisherigen Anstzen die Anfrage Information Retrieval zwangswei-se mit einer leeren Ergebnisliste beantworten mssen. Denn wenn wir die Anfrage an denboolschen Operatoren zerlegen und alle dazwischen stehenden Begriffe als Terme identi-fizieren, dann interpretieren wir fr diese Anfrage den kompletten Suchbegriff als eineneinzigen Term. Zum Term Information Retrieval haben wir im invertierten Index aberkeinen Eintrag, d.h. der Term taucht fr ein boolsches IR System in keinem Dokument

auf.Das Problem ist ganz klar: Die Terme im Index entsprechen den Wrtern in den Doku-

menten, die Terme in der Suchanfrage den Zeichenketten zwischen den logischen Operato-ren. Eine einfache Mglichkeit das Problem zu lsen wre, das Leerzeichen stillschweigendin ein logisches und umzuwandeln, im Endeffekt also nach Information und Retrievalzu suchen. Dadurch kann man dem Nutzer eine Ergebnismenge liefern, die nher an sei-nem Informationsbedrfnis liegen drfte als die leere Ergebnismenge. Sie fllt allerdingsgrer aus als erwartet, da sie auch Dokumente enthlt, in denen zwar beide Suchbegriffeauftreten, aber nicht direkt nebeneinander stehen. Daher enspricht dieser Lsungsansatznicht wirklich der Semantik der Anfrage.

36


45/340

2.4 Bigramm und Position Index

Anfragen, die wie Information Retrieval mehrere Terme enthalten werden als PhrasenAnfragen bezeichnet. Gelegentlich muss der Nutzer durch Setzen der Anfrage in Anfh-

rungszeichen auch ausdrcklich angeben, dass er eine Phrasen Anfrage stellen mchte. Esgibt zwei einfache Varianten des invertierten Index, mit denen sich eine Suche nach Phrasenrealisieren lsst: der Bigramm Index und der Position Index.

Ein Bigramm fasst zwei aufeinanderfolgende Terme zu einem Term zusammen (manch-mal auch nur zwei Zeichen oder Silben je nach Anwendung und Zweck). Die Menge dermglichen Bigramme entspricht also den 2-Tupeln die ber dem Vokabular gebildet werdenknnen. Bigramme sind ein Spezialfall der N-Gramme, in denen jeweils Gruppen von NTermen betrachtet werden. Bigramme oder auch N-Gramme lassen sich einfach konstru-ieren. Nachdem ein Text in Terme zerlegt wurde, betrachtet man jeweils die Prchen derdirekt aufeinanderfolgenden Terme (siehe Abbildung 2.13).

Abbildung 2.13: Erstellung der Bigramme ber einer Termsequenz.

Baut man nun einen invertierten Index ber den Bigrammen als Terme auf, hat mandie Anfrage Information Retrieval im Griff. Man sucht im Bigramm Vokabular den ent-sprechenden Eintrag und erhlt die passende Posting Liste. Was aber wenn sich die Ab-frage aus noch lngeren Sequenzen zusammensetzt, wenn die Anfrage beispielsweise daskomplette Dokument Information Retrieval befriedigt Informationsbedrfnisse ist? Dienaheliegendste Lsung wre neben einem normalen invertierten Index und einem BigrammIndex auch einen Trigrammindex oder noch hhergradige N-Gramm Indizes aufzubauen.Das Problem dabei ist, dass diese Indizes im Hinblick auf den Suchbaum sehr schnell sehrgro werden knnen. Viele der in einem Text beobachteten Kombinationen werden sehr sel-ten oder gar nur einmalig auftreten. Daher werden lngere Termsequenzen in Suchanfragen

in Bigramme zerlegt und mit logischem und verknpft. Aus der Anfrage Information Re-trieval befriedigt Informationsbedrfnisse wird also Information Retrieval und Retrievalbefriedigt und befriedigt Informationsbedrfnisse. Das kann zwar theoretisch immer nochzu faktischen Falschtreffern fhren, in realen Szenarien sind diese fr Nutzer aber vernach-lssigbar oder sogar erwnscht9.

In der Praxis bauen viele IR Systeme Bigramm Indizes auch nicht ber allen beobachte-ten Bigrammen auf, sondern nur ber solchen die mit einer gewissen Hufigkeit auftreten.Der Hintergrund liegt in der Annahme, dass solche hufigen Bigramme feststehende Begriffe

9Gerade bei lngeren Phrasen Anfragen ist eine gewisse Flexibilitt bezglich eingestreuter Wrter ehersinnvoll, da sie zu fehlertoleranteren Ergebnissen fhrt.

37


46/340


oder Redewendungen darstellen (z.B. der Ausdruck Information Retrieval oder Floskelnwie Pro und Contra). Auch werden meist semantisch wenig aussagekrftige Fllwrter

(wir kommen zu Stoppwrtern und dergleichen im nchsten Kapitel) aus der Termsequenzentfernt, bevor die Bigramme erstellt werden (so z.B. das und in Pro und Contra, waszum Bigramm Pro Contra im Index fhren wrde).

Einen anderen Ansatz um Anfragen nach exakten Phrasen wie Information Retrievalbeantworten zu knnen ist der Position Index. Anstatt nur das Auftreten eines Terms ineinem Dokument zu speichern, knnen wir in den Posting Eintrgen auch gleich dessenPosition(en) innerhalb des Dokumentes mit ablegen. Dazu zhlt man die Terme im Doku-ment zunchst ab, so dass jedem ein eindeutiger Positionswert zugewiesen werden kann.Diese Positionswerte speichert man (ebenfalls sortiert) in den Posting Eintrgen ab. Dasganze sieht dann aus wie in Abbildung 2.14.

Abbildung 2.14: Posting Liste mit Positionseintrgen.

Der gesamte Position Index zu unserem bisherigen Beispiel mit Angabe der Dokument-frequenzen ist in Abbildung 2.15 zu sehen. Die Positionslisten sind in diesem knstlichenBeispiel etwas verkmmert, da in keinem der Dokumente ein Term mehr als einmal vorkam.

Eine Information, die fr sptere IR Modelle von Interesse ist kann ebenfalls noch mitaufgenommen werden: die Termfrequenz tfd(t). So wie die Dokumentfrequenz df(t) angibt,in wie vielen Dokumenten ein Term t auftritt, gibt die Termfrequenz an, wie oft der Termin einem bestimmten Dokument d auftritt. hnlich dem Aufnehmen der Dokumentfre-quenz in die Termeintrge des Suchbaumes, wird die Termfrequenz dann in jedem Postinggespeichert, so dass nicht die Lnge der Positionsliste bestimmt werden muss.

Um nun Anfragen wie Information Retrieval mit einem Positionsindex zu beantwortengengt es zunchst wie bei einer Anfrage Information und Retrieval vorzugehen. Wenndie beiden Posting Listen zu den Termen Information und Retrieval dann geschnittenwerden, wird auer auf die Gleichheit der Dokument-IDs auch auf passende Positionsein-trge geachtet. Dazu kann auch wieder die Sortierung der Positionseintrge ausgenutztwerden.

Ein Position Index erlaubt aber auch die Einfhrung eines weiteren Operators: near.Damit lassen sich Abfragen stellen, die verlangen, dass zwei Begriffe nahe bei einanderstehen. Was dabei mit nahe gemeint ist hngt entweder vom System ab oder lsst sichals Parameter bergeben. Eine Abfrage wie Information near3 Retrieval knnte also

38


47/340

2.5 Schnelle Stringsuche

Abbildung 2.15: Invertierter Index mit Dokumentfrequenz und Angabe der Positionen in

den Posting Eintrgen .

solche Dokumente liefern, in denen Information und Retrieval nicht weiter als drei Wortevon einander entfernt stehen (Retrieval drfte dabei brigens je nach Konvention auchvor Information stehen).

Position Indizes fhren ebenfalls zu deutlich mehr Bedarf an Speicherplatz. Sie sindflexibler als der

information retrieval sose10

Documents