onnen im t - uni-due.de
TRANSCRIPT
p
4.1 Problemstellung
Repr�asentation von Textinhalten:
Problem: Konzepte aus der Anfrage k�onnen im Text aufunterschiedlichste Weise formuliert werden
L�osungsans�atze
� semantischer Ansatz:Zuordnung von Deskriptionen zu Texten! Dokumentationssprachen� Freitextsuche
{ informatischer Ansatz:Textretrieval als Zeichenkettensuche
{ computerlinguistischer Ansatz:i.w. Normalisierung von Wortformen
p
4.2.1 Allgemeine Eigenschaften
formulierungsunabh�angige Repr�asentation vonTextinhaltendurch Verwendung eines speziellen Vokabulars
4.2.2 Klassi�kationen
Strukturierung eines Wissensgebietes nach einemvorgegebenen formalen Schemaz.B. Dezimalklassi�kation: Baum der Ordnung 10
Monohierarchie | Polyhierarchie
ccc
###
ccc
###
����
�� PPPPPP
Steinobstbaum
Kirschbaum P�rsischbaum
Kernobstbaum
BirnbaumApfelbaum
Obstbaum
������
XXXXXXX
Birnbaum
NutzholzbaumObstbaum
Kernobstbaum
Monodimensionalit�at | Polydimensionalit�atProblem: auf einer Stufe gibt es mehrere Kriterien, nachdenen eine weitere Aufteilung in Unterklassenvorgenommen werden kann
��
HHHBBBBBB
@@�������
������
Steinobstbaum
hochst�ammiger Obstbaum
halbst�ammiger Obstbaum
niederst�ammiger ObstbaumKernobstbaum
Abbildung 1: Polydimensionalit�at
EEEEEEEEEE
���������
@@
###
PPPPPP
������
nach Stammbildungnach Fruchtart
Obstbaum
halbst.
niederst.
ObstbaumObstbaum
hochst.
obstbaum
Kern-
obstbaum
Stein-
Abbildung 2: Aufgel�oste Polydimensionalit�at
Analytische vs. synthetische Klassi�kationanalytische Klassi�kation: top-down Vorgehensweise(wie oben)
synthetische Klassi�kation: bottom-up
1. Erhebung der Merkmale der zu klassi�zierendenObjekte und Zusammenstellung imKlassi�kationssystem
2. Bildung der Klassen durch Kombination derMerkmale
Facettenklassi�kation
Facette Facette FacetteA Fruchtart B Stammart C ErntezeitA1 Apfel B1 hochst�ammig C1 fr�uhA2 Birne B2 halbst�ammig C2 mittelA3 Kirsche B3 niederst�ammig C3 sp�atA4 P�rsischA5 P aume
A1B3C1 = niederst�ammiger Fr�uhapfelbaum
Regeln:
� Facetten m�ussen disjunkt sein� monodimensionale Unterteilung innerhalb einerFacette
Ursprung: Dewey Decimal Classi�cation (DDC),1876 von Melvil Dewey (USA) entwickelt
Universalklassi�kation zur Aufstellung von Buchbest�anden
Weiterentwickelt durch Paul Otlet und Henri Lafontaine(Belgien) zur Universellen Dezimalklassi�kation(DK)
Grundelemente der DK
� Hierarchisch gegliederten Klassen (130000)� Anh�angezahlen zur Facettierung� Sonderzeichen zur Verkn�upfung mehrerer DK-Zahlen
Hauptklassen der DK
0 Allgemeines1 Philosophie2 Religion, Theologie3 Sozialwissenschaften, Recht, Verwaltung4 (zur Zeit nicht belegt)5 Mathematik, Naturwissenschaften6 Angwandte Wissenschaften, Medizin, Technik7 Kunst, Kunstgewerbe, Photographie, Musik,Spiel, Sport
8 Sprachwissenschaft, Philologie, Sch�oneLiteratur, Literaturwissenschaft
9 Heimatkunde, Geographie, Biographien,Geschichte
Beispiel:
3 Sozialwissenschaften, Recht, Verwaltung33 Volkswirtschaft336 Finanzen. Bank- und Geldwesen336.7 Geldwesen. Bankwesen. B�orsenwesen336.76 B�orsenwesen. Geldmarkt. Kapitalmarkt336.763 Wertpapiere. E�ekten336.763.3 Obligationen. Schuldverschreibungen336.763.31 Allgemeines336.763.311 Verzinsliche Schuldbriefe336.763.311.1 Langfristig verzinsliche Schuldbriefe
Anh�angezahlen: durch spezielle Zeichen eingeleitet
allgemeine Anh�angezahlen: Facetten, die �uberall in derDK verwendet werden d�urfenZeichenfolgen/Facetten:
= Sprache(0...) Form(...) Ort
(=...) Rassen und V�olker
"...\ Zeit.00 Gesichtspunkt-05 Person
spezielle Anh�angezahlen: nur f�ur bestimmte Klasseninnerhalb der DK erlaubt
Verkn�upfung von DK-Zahlenspezielle Sonderzeichen zur Verkn�upfung von DK-Zahlen:
+ Aufz�ahlung mehrerer Sachverhalte: symmetrische Beziehung zwischen zweiSachverhalten (umkehrbar)
:: asymmetrische Beziehung zwischen zweiSachverhalten
/ Erstreckungszeichen (zur Zusammenfassungmehrerer nebeneinanderstehender DK-Zahlen)
' Zusamenfassungszeichen zur Bildung neuerSachverhalte aus der Kombination einzelnerDK-Komponenten
Klassi�kation in der Zeitschrift ACM Computing Reviews,liegt auch der Datenbank Compuscience zugrunde
Elemente:
� general terms: vorgegebene Menge vonallgemeinen Begri�en� classi�cation codes: dreistu�ge monohierarchischeKlassi�kation
� subject headings: vorgegebene Menge vonnat�urlichsprachliche Bezeichnungen f�ur jede einzelneKlasse, die diese weiter di�erenzieren; au�erdem alleEigennamen� free terms: zus�atzliche, frei w�ahlbare Stichw�orter
General terms:These apply to any elements of the tree that are relevant
ALGORITHMS MANAGEMENTDESIGN MEASUREMENTDOCUMENTATION PERFORMANCEECONOMICS RELIABILITYEXPERIMENTATION SECURITYHUMAN FACTORS STANDARDIZATIONLANGUAGES THEORYLEGAL ASPECTS VERIFICATION
A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX
TeilgebietesH.3 INFORMATION STORAGE AND RETRIEVAL
H.3.0 GeneralH.3.1 Content Analysis and Indexing
Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses
H.3.2 Information StorageFile organizationRecord classi�cation
H.3.3 Information Search and RetrievalH.3.2 Information Storage
ClusteringQuery formulationRetrieval modelsSearch processSelection process
H.3.4 System and SoftwareCurrent awareness systems(selective dissemination of information-SDI)Information networksQuestion-answering (fact retrieval) systems
H.3.5 Online Information ServicesData bank sharing
H.3.6 Library AutomationLarge text archives
H.3.m Miscellaneous
DIN 1463:
"Thesaurus ist geordnete Zusammenstellung von Begri�enmit ihren (nat�urlichsprachlichen) Bezeichnungen.Merkmale eines Thesaurus:
a) terminologische Kontrolle durch{ Erfassung von Synonymen{ Kennzeichnung von Homonymen undPolysemen
{ Festlegung von Vorzugsbenennungenb) Darstellung von Beziehungen zwischen Begri�en\
Reduktion von Mehrdeutigkeiten und Unsch�arfe dernat�urlichen Sprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu�Aquivalenzklassen
Arten von Synonymie:
� SchreibweisenvariantenFriseur | Fris�orUN | UNO | Vereinte Nationen� unterschiedlichen Konnotationen, Sprachstile,VerbreitungTelefon | FernsprecherPferd | GaulMyopie | Kurzsichtigkeit
� Quasi-SynonymeSchauspiel | Theaterst�uckRundfunk | H�orfunk
geringen / irrelevanten Bedeutungsdi�erenzen zu�Aquivalenzklassen zusammengefa�t:
� unterschiedliche Spezi�t�atSprachwissenschaft | Linguistik� AntonymeH�arte | Weichheit
� zu spezieller Unterbegri�Weizen | Winterweizen� Gleichsetzung von Verb und Substantiv / T�atigkeitund ErgebnisWohnen | Wohnung
PolysemkontrolleAufteilung von einer (mehrdeutigen) Bezeichnung aufmehrere �Aquivalenzklassen
� Homonyme (Bs. Tenor)� Polyseme (Bs. Bank)
Problem: Wie spezi�sch sollen einzelne Begri�e imThesaurus sein?
"Donaudampfschi�ahrtskapit�an\
Nachteile zu spezieller Begri�e:
� Thesaurus zu umfangreich / un�ubersichtlich� nur wenige Dokumente zu einer �Aquivalenzklasse
UNITERM-Verfahren:Nur Begri�e, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe einesSachverhaltes (Postkoordination)Nachteil: gr�o�ere Unsch�arfe beim RetrievalBaum + Stamm = Baumstamm / Stammbaum
Thesaurusmethode: Kompromi� zwischen beiden Ans�atzen
Terminologische Kontrolle liefert �Aquivalenzklassen vonBezeichnungen
Darstellung dieser �Aquivalenzklassen:
� Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der�Aquivalenzklasse
� Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der �Aquivalenzklasse zurBenennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennungbetrachtet)
�Aquivalenzrelationzwischen Nicht-Deskriptoren und Deskriptoren
Bezeichnungen:BS Benutze Synonym (use)BF Benutzt f�ur (used for, UF)
Fernsprecher BS TelefonTelefon BF Fernsprecher
Hierarchische Relationzwischen Deskriptoren
Bezeichnungen:UB Unterbegri� (narrower term, NT)OB Oberbegri� (broader term, BT)
Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum
Assoziationsrelationzwischen begri�sverwandten Deskriptoren, symmetrisch
Bezeichnung: VB verwandter Begri� (see also, SEE)
Obstbaum VB ObstObst VB Obstbaum
Deskriptor-Eintr�age
� Begri�snummer� Notation / Deskriptor-Klassi�kation� Scope note / De�nition� Synonyme� Oberbegri�e / Unterbegri�e� Verwandte Begri�e� Einf�uhrungs-/Streichungsdatum
Gesamtstruktur des Thesaurus(in gedruckter Form)Hauptteil mit den Deskriptor-Eintr�agenalphabetisch / systematisch geordnet
zus�atzliche Register mit Verweisen auf dieDeskriptor-Eintr�age
� systematisch / alphabetisch (komplement�ar zumHauptteil)� Index f�ur Komponenten mehrgliedrigerBezeichnungenKWIC | keyword in contextKWOC | keyword out of context
Anpassung des Thesaurus an Ver�anderungen in derAnwendung notwendig aufgrund von
� Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimedialeSysteme� Entwicklung der Fachsprache� Indexierungsverhalten / Indexierungsergebnisse� Benutzerverhalten� Rechercheergebnisse
Problem: �Uberwachung der Konsistenz des Thesaurus
Voraussetzungen:
� Zerlegung von Texten in W�orter� (Stopworteliminierung)� (Satzendeerkennung)
Probleme bei der Freitextsuche:
� HomonymeTenor: S�anger / Ausdrucksweise� PolysemeBank: Sitzgelegenheit / Geldinstitut� FlexionsformenHaus { (des) Hauses { H�auserschreiben { schreibt { schrieb { geschrieben� DerivationsformenFormatierung { Format { formatieren� Komposita (mehrgliedrige Ausdr�ucke)Bundeskanzlerwahl { Wahl des Bundeskanzlersinformation retrieval { retrieval of information {information was retrieved
Das Problem der Wortwahl bleibt ungel�ost!
Zeichenketten-Operatoren f�ur die Freitextsuche
� TruncationFront-/End-Truncation,beschr�ankt ($) / unbeschr�ankt(#)schreib#: schreiben, schreibt, schreibst, schreibe
schreib$$: schreiben, schreibst
#schreiben: schreiben, beschreiben, anschreiben,verschreiben
$$schreiben: beschreiben, anschreiben� (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben
Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von W�ortern zusammenzuf�uhrenVorteil: weniger Schreibarbeit als beim explizitenAufz�ahlenNachteil: m�oglicherweise unerw�unschte W�orter dabei
Ausdr�uckeninformation AND retrieval:boolesche Operatoren beziehen sich nur auf dasVorkommen irgendwo im Text!{ genauer Wortabstand ($):retrieval $ information: retrieval of information,retrieval with information loss
{ maximaler Wortabstand (#):text # # retrieval: text retrieval, text and factretrieval
{ Wortreihenfolge (,):information # , retrieval: information retrieval,retrieval of information
{ gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
Arten von Verfahren:
� graphematische Verfahrenauf der Analyse von Buchstabenfolgen basierendeAlgorithmen, haupts�achlich zur Zusammenf�uhrungvon Flexions- oder Derivationsformen (Morphologie)
� lexikalische VerfahrenW�orterbuch-basierte Verfahren zurZusammenf�uhrung von Flexions- oderDerivationsformen sowie von mehrgliedrigenAusdr�ucken� syntaktische Verfahrenzur Identi�kation von mehrgliedrigen Ausdr�ucken
(Sprache)
� GrundformreduktionZur�uckf�uhren auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im In�nitiv{ lexikographische Grundformentsteht durch Abtrennen der Flexionsendungund ggfs. Rekodierungapplies ! appl ! apply
{ formale Grundformnur Abtrennen von Endungen, ohneRekodierungactivities ! activit
� StammformreduktionEntfernen der Derivationsendungen, d.h.Zur�uckf�uhren auf den Wortstammcomputer, compute, computation, computerization! comput
(nach Kuhlen 77)
% alle Vokale (einschlie�lich Y)� alle KonsonantenJ L�ange des Wortes/ ,oder'
Leerzeichen! ,zu' ,aus': ,nicht'
)2) ES ! wenn �O / CH / SH / SS / ZZ / X
vorangehen3) S ! wenn � / E / %Y / %O / OA / EA
vorangehen4) S' !
IES' ! YES' !
5) 'S !
' !6) ING ! wenn �� / % / X vorausgehen
ING ! E wenn %� vorausgehen7) IED ! Y8) ED ! wenn �� / % / X vorausgehen
ED ! E wenn %� vorausgehen
g
Beispiele zu 1:APPLIES ! APPLYIDENTIFIES ! IDENTIFYACTIVITIES ! ACTIVITY
Regel 2 ES ! , wenn �O / CH / SH / SS / ZZ /
X vorangehen
Beispiele zu 2:BREACHES ! BREACHPROCESSES ! PROCESSFISHES ! FISHCOMPLEXES ! COMPLEXTANGOES ! TANGOBUZZES ! BUZZ
g , / / % / % / /
EA vorangehen
Beispiele zu 3:METHODS ! METHODHOUSES ! HOUSEBOYS ! BOYRADIOS ! RADIOCOCOAS ! COCOAFLEAS ! FLEA
Regel 4 S' !
IES' ! Y
ES' !
Beispiele zu 4:MOTHERS' ! MOTHERLADIES' ! LADYFLAMINGOES ! FLAMINGO
Regel 5 'S !
' !
Beispiele zu 5:MOTHER'S ! MOTHERCHILDREN'S ! CHILDRENPETRUS' ! PETRUS
g , / % / g
ING ! E, wenn %� vorausgehen
Beispiele zu 6:DISGUSTING ! DISGUSTGOING ! GOMIXING ! MIXLOOSING ! LOOSERETRIEVING ! RETRIEVE
Regel 7 IED ! Y
Beispiel zu 7:SATISFIED ! SATISFY
Regel 8 ED ! , wenn �� / % / X vorausgehen
ED ! E, wenn %� vorausgehen
Beispiel zu 8:DISGUSTED ! DISGUSTOBEYED ! OBEYMIXED ! MIXBELIEVED ! BELIEVE
besonders f�ur stark ektierte Sprachen (z.B. deutsch)geeignet
Relationen im W�orterbuch:
� Flexionsform (Vollformen) | zugeh�orige GrundformHauses - Haus, ging - gehen� Derivationsform | zugeh�orige GrundformenLieblosigkeit | lieblos, Berechnung | rechnen� Komposita | zugeh�orige DekompositionHaust�ur | T�ur, Armbanduhr | Uhr.
(zur Identi�kation von Komposita)
1. Wortklassenbestimmung2. Parsing
typische Wortklassen:AT articleBEZ \is"CONJ conjunctionIN prepositionJJ adjectiveJJR comparative adjectiveMD modal (can, have, may, shall. . . )NN singular or mass nounNNP singular proper nounNNS plural nounPERIOD .:?!PN personal pronounRB adverbRBR comparative adverbTO \to"VB verb, base formVBD verb, past tenseVBG verb, present participle, gerundVBN verb, past participleVBP verb, non 3rd singular presentVBZ verb, 3rd singular presentWDT wh-determiner (what, which)
� (Vollformen-)W�orterbuch� graphematische Verfahren(insbesondere f�ur nicht im W�orterbuch enthalteneW�orter)
Problem:Wortklassenbestimmung in wenig ektierten Sprachen
The boys play football vs.She saw the new play
! zus�atzliche Ber�ucksichtigung der syntaktischenStruktur (Bigramme, Trigramme) notwendig:
AT NNS VBP/NN NN ! VBPPN VBD AT JJ NN/VBP ! NN
Wortklassenbestimmung basierend auf demKuhlen-Algorithmus
Nr. Regel Klasse1 IES ! Y NNS/VBP2 ES ! NNS/VBP3 S ! NNS/VBP4 S' ! NNS
IES' ! YES' !
5 'S ! NN' !
6 ING ! VBGING ! E
7 IED ! Y VBD/VBN/JJ8 ED ! VBD/VBN/JJ
ED ! E
Kombination von graphematischem Verfahren undVollformen-WB:(R�uckf�uhrung unbekannter W�orter auf WB-Eintr�agemittels graphematischer Verfahren)
Beispielregeln:
Pr�a�x WB-Klassen Wortklassenre JJ NN VBG JJ NN VBGex NN NNself- NN NNinter JJ JJnon JJ JJun RB RBdis JJ JJanti- NN JJde JJ VBD VBN JJ VBD VBNin RB RB
Post�x WB-Klassen Wortklassenment NN VB VBP NNing NN VB VBP JJ NN VBGed NN VB VBP JJ VBD VBNs NN VB VBP NNS VBZly JJ NN RB RBness JJ NNship NN NNable NNVBVBP JJs NN NNS
Wortklassenbestimmung mit deterministischem Taggernur 70 % korrekte Zuordungen!
aber:die meisten W�orter kommen in einer bevorzugtenWortklasse vorto our a pan
to web the �nal report
! seltene Verwendungen ignorieren!Charniak et al. 93: 90 % korrekte Zuordungen!
Verbesserung:statistische Ans�atze zur Ber�ucksichtigung dersyntaktischen Struktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
eine einfache Grammatik:
S ! NP VPNP ! AT? JJ* NNS+
! AT? JJ* NN+! NP PP
VP ! VB PP! VBZ! VBZ NP
PP ! IN NP
Beispiele:The analysis of 25 indexing algorithms shows consistent
retrieval performance.
AT NN IN JJ NN NNS VBZ JJ NN NN
A good indexing technique for Web retrieval is manual
classi�cation.
AT JJ NN NN IN VBG NNS NNS VBZ JJ NNS
nur bestimmte syntaktische Strukturen relevant! partielles parsing
einfache Muster (ohne Unterscheidung (NN/NNP/NNS):
phrase ! NN NN+! NN+ IN JJ* NN+
Beispiele:indexing algorithms
retrieval performance
retrieval of Web documents
retrieval of new documents
aber:text and image retrieval
retrieval of text or images
! zus�atzliche Transformationsregeln:NN1* CONJ NN2 NN+ ! NN1 NN+NN+ IN NN1 CONJ NN 2 ! NN1 NN+, NN2 NN+
g
Repr�asentation von Textinhalten
� Dokumentationssprachen bieten prinzipiell Vorteilegegen�uber der Freitextsucheaber: dieser Vorteil ist bislang experimentell nichtbelegt, es gibt sogar gegenteilige Ergebnisse
� Erfahrungen aus TREC1:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nichtabzudecken� wissensbasiertes IR:ben�otigt zun�achst gro�e Wissensbasen, die bislangnicht verf�ugbar sind (CYC Project)� syntaktische Verfahren:f�ur Nominalphrasen� maschinenlesbare W�orterb�ucher:f�ur Nominalphrasen und zur Disambiguierung
g
und Repr�asentationen
4.5.1 Einfache statistische Modelle
Beispiel f�ur computerlinguistischen Ansatz
Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not producedconsistent retrieval performance. The best indexingtechnique for retrieving documents is not known.
Stoppworteliminierung:experiments indexing methods analysis indexingalgorithms produced consistent retrieval performance bestindexing technique retrieving documents known
Stammformreduktion:experiment index method analys index algorithm producconsistent retriev perform best index techni retrievdocument
Multimenge von Terms
Modell:
� Abbildung auf Attribute� Semantik durch Statistik!
Computerlinguistische Verfahren sind pr�aziser (undbenutzerfreundlicher) als der informatische Ansatz
aber:alle Verfahren sind mit Fehlern behaftet!