informationsintegration heterogenität 27.10.2004 felix naumann
TRANSCRIPT
![Page 1: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/1.jpg)
InformationsintegrationHeterogenität
27.10.2004
Felix Naumann
![Page 2: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/2.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2
Überblick
Semantische Heterogenität Namenskonflikte Identität Datenkonflikte
Gebundene und Freie Variablen (link) Adornments Anfrageplanung
![Page 3: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/3.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3
Semantik
Fremdwörterduden “Semantik”1. Teilgebiet der Linguistik, das sich mit den Bedeutungen
sprachlicher Zeichen und Zeichenfolgen befasst
2. Bedeutung, Inhalt eines Wortes, Satzes oder Textes
„Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung.“ [ÖV91]
![Page 4: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/4.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 4
Semantik vs. Struktur
Strukturelle Heterogenität Betrifft Schemas Bedeutung der Labels im Schema egal Annahme bisher: Gleiche Label -> Gleiche Semantik
Semantische Heterogenität Betrifft Daten Betrifft „Bedeutung“
Person( Id, Vorname, Nachname, Männlich, weiblich)
Männer( Id, Vorname, Nachname)
Frauen( Id, Vorname, Nachname)
A( Id, X, Y)
B( Id, X, Y)
P( Id, X, Y, a, b)
![Page 5: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/5.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 5
Unterschiedliche Namen
Die Probleme Konzept (z.B. Gen)
Definition des Konzepts Synonyme (z.B. surname vs. last name) Homonyme (z.B. biweekly) Einheiten (z.B. cm vs. inch) Werte (z.B. „manager“)
Eher auf Schema Ebene
![Page 6: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/6.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 6
Konzept
Definition eines Konzepts Noch nicht einmal hier sind sich immer alle einig. Gen, Transaktion, Bestellung, Mitarbeiter
Semantisch überlappende Weltausschnitte mit einander entsprechenden Klassen
Korrespondenzarten zwischen Klassenextensionen: A=B Äquivalenz AB Inklusion AB Überlappung AB Disjunktion
![Page 7: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/7.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7
Konzept
Definition Mitarbeiter: temporäre MA Diplomanden Berater Studentische Mitarbeiter Stellen oder Köpfe?
Definition IBM Welche Region? Welcher Geschäftsbereich? Informix? PWC?
Welcher Zeitpunkt? Definition der Zählung:
Doppelte Zählung bei mehreren Anstellungen?
![Page 8: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/8.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 8
Synonyme
Verschiedene Worte mit gleicher Bedeutung Im Kontext der zu integrierenden
Datenbanken
DB2:
Person( Id, Vorname, Nachname, Geschlecht)
DB1:
Angestellter( Id, Vorname, Name,männlich,weiblich)
![Page 9: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/9.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 9
Homonyme
Gleiche Worte verschiedener Bedeutung Andere Domäne Andere Bedeutung
DB2:
Person( Id, Vorname, Nachname, Titel, Geschlecht)
DB1:
Angestellter( Id, Vorname, Name, m, w, Titel)
Sekr., Sachbearbeiter, Bereichsleiter, etc.
Herr, Frau, Dr,. Dipl.Ing., etc.
![Page 10: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/10.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 10
-nym Wörter Synonym
Verschiedene Wörter, gleiche Semantik Homonym
Gleiche Wörter, verschiedene Semantik Antonym
Verschiedene Wörter, gegenteilige Semantik Auto-Antonym:
Gleiche Wörter, gegenteilige Semantik Transparenz Overlook
Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik
Autonym (selbstbeschreibend, Wort = Semantik, „Substantiv“) Pseudonym u.v.a.m.
http://www.fun-with-words.com/nym_words.html
![Page 11: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/11.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 11
Einheiten
Gleiche „Bedeutung“ aber anderes Maß. Werden auch als Homonym bezeichnet, da
anderes Maß eine andere Bedeutung erzeugt.
DB2 (Spanien):
Person( Id, Vorname, Nachname, gehalt)
DB1 (USA):
Angestellter( Id, Vorname, Name,gehalt)
USD
EUR
![Page 12: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/12.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 12
Überblick
Semantische Heterogenität Namenskonflikte Identität Datenkonflikte
Gebundene und Freie Variablen Adornments Anfrageplanung
![Page 13: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/13.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 13
Identität Drei zentrale Fragen
Was ist ein Objekt? XML: Über mehrere Schachtelungsebenen hinweg Relationales Modell: Über mehrere Relationen hinweg
Repräsentiert Objekt A die gleiche Entität wie Objekt B? Wie finde ich effizient gleiche Repräsentationen?
Namen des Problems Duplikaterkennung Objektidentifikation Record Linkage Data Cleansing ...
Auf Datenebene
![Page 14: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/14.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 14
Typische Anwendungen Personen- und Adressdaten
Volkszählungen Werbeaktionen Kundenpflege
Molekularbiologische Daten Bibliographische Daten
Zentrale Register Typische Merkmale zur Entstehung:
Gleiches Objekt mehrfach beobachtet Manuelle Erfassung der Daten Objekt ändert Eigenschaften von Zeit zu Zeit Keine global konsistente ID
ISBN, IBAN, URL, ISO, EAN, SSN, etc.
![Page 15: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/15.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15
Duplikaterkennung
Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt
repräsentieren Semantik! Attributwerte dürfen sich unterscheiden.
Formales Problem Eine Tabelle (der Größe N), potentiell mit Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate
gleiche Identifier erhalten Problemerweiterungen
Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten
![Page 16: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/16.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 16
Duplikaterkennung
Praktisches Problem Wie entscheide ich, ob zwei Tupel das gleiche
Objekt repräsentieren? Ähnlichkeitsmaße und Klassifikation
Edit-Distance N-grams IDs Wahrscheinlichkeitstheoretische Ansätze Maschinelles Lernen Augenschein
![Page 17: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/17.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 17
Duplikaterkennung Praktisches Problem
Sehr große Datenmenge Millionen Tupel
Kein quadratischer Algorithmus Kein Hauptspeicher-Algorithmus
Als SQL Anfrage Sei R die Relation mit Duplikaten SELECT C1.*, genID(C1,C2)
FROM R as C1, R as C2WHERE M(C1,C2)
Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit
Algorithmen zur Objektidentifikation in VL „Duplikaterkennung“
ID ErzeugungKreuzprodukt
Ähnlichkeit
![Page 18: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/18.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 18
Überblick
Semantische Heterogenität Namenskonflikte Identität Datenkonflikte
Gebundene und Freie Variablen Adornments Anfrageplanung
![Page 19: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/19.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 19
Datenkonflikte
Datenkonflikt: Zwei Duplikate haben unterschiedliche Attributwerte für ein
semantisch gleiches Attribut. Im Gegensatz zu Konflikten mit Integritätsbedingungen
Datenkonflikte entstehen innerhalb eines Informationssystems (intra-source) und bei der Integration mehrerer Informationssysteme (inter-
source). Voraussetzung:
Duplikat! d.h. Identität schon festgestellt.
![Page 20: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/20.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 20
Datenkonflikte - Beispiel
amazon.deamazon.de
bol.debol.de
IDID
$5.99Moby DickHerman Melville0766607194
$3.98H. Melville0766607194
Konflikt kann auch mit NULL-Wert herrschen
![Page 21: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/21.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 21
Datenkonflikte – Entstehung Innerhalb eines Informationssystems
Mangels Integritätsbedingungen oder Konsistenz-Checks Bei redundanten Schemata Bei Entstehung von Duplikaten Nicht korrekte Einträge
Tippfehler, Übertragungsfehler Falsche Rechenergebnisse
obsolete Einträge div. Aktualisierungszeitpunkte
ausreichende Aktualität einer Quelle verzögerte Aktualisierung
vergessene Aktualisierung
![Page 22: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/22.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 22
Datenkonflikte – Entstehung
Innerhalb eines Informationssystems bei div. Datentypen (mit/ohne Codierung)
1,2,...,5 bzw. "sehr gut", "gut", ..., mangelhaft" bei gleichem Datentyp
Schreibvarianten Kantstr. Kantstrasse Kant Str. Kant Strasse Kolmogorov Kolmogoroff Kolmogorow
Typische Verwechslungen U<->V,0<->o, usw. (OCR)
![Page 23: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/23.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 23
Datenkonflikte – Behebung
Referenztabellen für exakte Wertabbildung Z.B. Städte, Länder, Produktnamen, Codes...
Ähnlichkeitsmaße bei Tippfehlern bei Sprachvarianten (Meier, Mayer,...)
Standardisieren und transformieren Nutzung von Hintergrundwissen (Metadaten)
bzgl. von Konventionen (landestypische Schreibweisen) Ontologien zur Behandlung von Zusammenhängen Thesauri, Wörterbücher zur Behandlung von Homonymen,
Synonymen, ...
![Page 24: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/24.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 24
Datenkonflikte – Entstehung
Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen Lokale Schreibweisen/Konventionen
![Page 25: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/25.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25
Datenkonflikte – Behebung
Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten
usw. Informationsqualität Konfliktlösungsfunktionen
Wie implementieren?
![Page 26: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/26.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 26
Relationale Objektintegration
Union (Vereinigung) Duplikat-Eliminierung
Minimum Union Eliminierung sub-
summierter Tupel
... Aber keine
Duplikatintegration Konfliktlösung
Mehr dazu in VL „Datenfusion“
![Page 27: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/27.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 27
Überblick
Semantische Heterogenität Namenskonflikte Identität Datenkonflikte
Gebundene und Freie Variablen Adornments Anfrageplanung
![Page 28: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/28.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 28
Gebundene & Freie Variablen
Gebundene Variablen müssen bei einer Anfrage spezifiziert werden. z.B.: „Search“-Feld bei Google
Freie Variablen müssen nicht gebunden werden. z.B. „Autor“-Feld bei Amazon.de, falls Titel gebunden ist.
Einordnung: Heterogenität
Syntaktische Heterogenität Schnittstellenheterogenität
![Page 29: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/29.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 29
Gebundene und Freie Variablen – Adornments
Jede Quelle exportiert eine oder mehrere relationale Sichten.
IIS erlaubt Anfragen auf diese Sichten mittels Join, Union, Selektion und Projektion.
Quelle: [YLGU99]
![Page 30: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/30.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 30
Gebundene und Freie Variablen – Adornments
5 Quellen (für später):R1(X,Y,Z)R2(X,Y,Z)R3(X,Y,Z)R4(Z,U)R5(U,V,W)
Quelle: [YLGU99]
Beispiel Quelle 1:R1(X,Y,Z)
Daten:(x1,y1,z1)(x1,y2,z1)(x2,y2,z2)
Beispiel Anfrage 1:Q1(X,Y,z1)
Beispiel Ergebnis:(x1,y1,z1)(x1,y2,z1)
Beispiel Anfrage 2:Q2(X,y1,Z)
Beispiel Ergebnis:(x1,y1,z1)
Z gebunden
![Page 31: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/31.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31
Gebundene und Freie Variablen – Adornments Anfragefähigkeiten der Quellen als templates
Wie ein WWW Formular Templates bestehen aus einem adornment für jedes Attribut
Anhänge (adornments = Verzierungen) an Attribute schränken ein: f: free
Frei: Kann in Anfrage spezifiziert werden, muss aber nicht. u: unspecifiable
Unbestimmbar: Kann nicht spezifiziert werden. Ist aber Teil des Ergebnisses.
b: bound Gebunden: Muss spezifiziert werden.
c[s]: constant Auswahl aus einer Menge s von Konstanten Implizit bound: muss spezifiziert werden
o[s]: optional Auswahl aus einer Menge s von Konstanten Implizit free: Muss nicht spezifiziert werden.
Quelle: [YLGU99]
![Page 32: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/32.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 32
Adornments - BeispieleBeispiel Quelle 1:
R1(X,Y,Z)Anfragemöglichkeit 1:
X muss spezifiziert werdenY kann nicht spezifiziert werdenZ kann spezifiziert werden
Anfragemöglichkeit 2:X kann nicht spezifiziert werden Y kann spezifiziert werdenZ ist entweder z1 oder z2
Template:buf
Template:ufc[z1, z2]
![Page 33: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/33.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 33
Adornments – Anfragebearbeitung Anfragebearbeitung
R1(X,Y,Z): bff, ffb R2(X,Y,Z): fbf Sei M = R1 R2 eine integrierte Sicht des IIS, gegen die
man Anfragen stellen kann. Annahme über Anfragebearbeitung:
Anfragen werden übersetzt in je eine Anfrage pro Quelle (gebundene Variablen werden weitergereicht)
Ergebnisse werden entsprechen der Sicht verknüpft (hier )
Frage: Was ist das Template der Sicht M?
Quelle: [YLGU99]
bff fbf= bbf
ffb fbf= fbb
![Page 34: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/34.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 34
Adornments – Verknüpfung durch UNION
3 Sichten und deren Adornments:R1(X,Y,Z): bff, ffbR2(X,Y,Z): fbfR3(X,Y,Z): ffc[s1], c[s2]ff
R1 R2:bff fbf = bbfffb fbf = fbb(R1 R2) R3:bbf ffc[s1] = bbc[s1] usw.
Quelle: [YLGU99]
![Page 35: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/35.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 35
Adornments – Verknüpfung durch Join (⋈)
Unterschied zu UNION Nicht jedes Attribut der integrierten Sicht ist auch
Attribut jeder beteiligten Quelle. Beispiel: R1(X,Y,Z) und R4(Z,U) Sicht: M(X,Y,Z,U) = R1(X,Y,Z) ⋈ R4(Z,U)
Berechnung des Templates der Sicht Adornments der nicht-Join-Attribute werden
kopiert. Adornments der Join-Attribute werden gemäß der
UNION Tabelle vereint.
![Page 36: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/36.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 36
Adornments – Selektion und Projektion
Selektion Sicht im IIS selektiert mit Prädikaten.
X = `Test´ oder U > 1999 Prädikate werden auf Ergebnisse der Quellen angewandt. Deshalb: Kein Einfluss auf adornments
Projektion Einfach projizierte Attribute weglassen. Aber: Falls Attribut mit b oder c adornment durch Projektion
wegfallen soll => Sicht des IIS nicht ausführbar Sonst: Adornments bleiben erhalten
![Page 37: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/37.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 37
Adornments – Anfragebearbeitung
Problem UNION-Matrix
zu restriktiv
Idee: Erhöhung der Menge beantwortbarer Anfragen durch Post-Processing durch Passing Bindings
![Page 38: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/38.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 38
Adornments und Postprocessing
R1(X,Y,Z): bfuR2(X,Y,Z): bufR1 R2 = buu
Anfrage 1: (x1,Y,Z) beantwortbar?Anfrage 2: (x1,y1,z1) beantwortbar?
Quelle: [YLGU99]
Idee: (x1,y1,Z) an R1
(x1,Y,z1) an R2
Dann im Mediator filtern: Z=z1 bzw. Y=y1
Was ist neu? u = f : durch nachträgliches Filtern (postprocessing) o[s] = f : falls Bindung nicht in s, weglassen und später Filtern Zusammen: R1 R2 = bff
![Page 39: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/39.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 39
Adornments – Verknüpfung durch UNION
Quelle: [YLGU99]
Vorher:
Nachher:
![Page 40: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/40.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 40
Adornments und Passing Bindings
JOIN über templates ohne passing bindingsR1(X,Y,Z) : fbfR5(Z,U) : bfR1 ⋈ R2 = fbbf
Passing Bindings: Ergebnisse einer Sicht werden vom Mediator in die gebundene Variable der nächsten Sicht eingetragen.
Quelle: [YLGU99]
JOIN über templates mit passing bindings:R1 R5 = fbff
Anfrage 1: (X,y1,z1,U) beantwortbar?Anfrage 2: (X,y1,Z, U) beantwortbar?
Idee: (X,y1,Z) an R1
(z1,U)…(zn,U) an R5
![Page 41: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/41.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 41
Adornments und Passing Bindings
Quelle: [YLGU99]
Vorher:
Nachher:
Erste Quelle
Zweite Quelle
![Page 42: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/42.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 42
Adornments – Selektion mit Postprocessing
Variante 1: R1(X,Y,Z), X < x1: bfu Q(x2, Y, Z) beantwortbar?Q(x2, Y, z1) beantwortbar?Q(X, y1, z1) beantwortbar?
Variante 2: R1(X,Y,Z), X = x1: bfu
bfu wird zu bff mit postprocessing
Q(X, y1, z1) beantwortbar?
Q(X, y1, z1) = Q(x1, y1, z1)wegen Prädikatbfu wird zu bff wird zu fff
Quelle: [YLGU99]
![Page 43: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/43.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 43
Adornments – Selektion mit Postprocessing
Vorher Nachher
Quelle: [YLGU99]
![Page 44: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/44.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 44
Viele Templates
Problem: Quellen exportieren oft mehrere templates Beispiel: Amazon (Autor Titel, Schlagwort, ISBN, Verlag) bffff, fbfff, ffbff, fffbf, ffffb Beispiel: Verlage(Verlag, Ort) bf, fb Sicht im IIS: Amazon ⋈Verlag Verlage Templates der Sicht aus jeder Kombination:
bfffff, fbffff, ffbfff, fffbff, ffffbf bffffb, fbfffb, ffbffb, fffbfb, ffffbb + fffffb (ffffb ⋈ fb mit passing binding)
Lösung: Einige templates sind redundant
Quelle: [YLGU99]
![Page 45: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/45.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 45
Redundanz in Templates
c
f
ob
u
Weniger restriktiv
Weniger restriktivfalls AuswahllistenTeilmengen sind
• bfffff, fbffff, ffbfff, fffbff, ffffbf• bffffb, fbfffb, ffbffb, fffbfb, ffffbb
Quelle: [YLGU99]
Algorithmus zur Entfernung redundanter templates.
![Page 46: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/46.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 46
Adornments – Fallbeispiel Amazon
Formular 1: Mindestens eine Spezifikation aus author, title, subject, format (format aus Auswahlliste)
Formular 2: ISBN spezifizieren Formular 3: Mindestens eine Spezifikation aus keyword,
publisher, date Antwortrelation: author, title, ISBN, publisher, date, format,
price, shipping info Barnes & Noble
Formular 1: Mindestens eine Spezifikation aus author, title, keywords; optionale Spezifikation in format subject, price, age (alles aus Auswahllisten)
Formular 2: ISBN spezifizieren
Quelle: [YLGU99]
![Page 47: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/47.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 47
Adornments - Fallbeispiel
Amazon
Barnes & Noble
IIS
Quelle: [YLGU99]
![Page 48: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/48.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 48
Adornments - Fallbeispiel
IIS
Ableiten von 4 Formularen im IIS nach [YLGU99]- Spezifikation der ISBN (template 1)- Spezifikation des keyword (template 2)- Mindestens author oder title spezifizieren (templates 3 und 4)- Mindestens author oder title und mindestens publisher oder date spezifizieren (templates 5-8)
Quelle: [YLGU99]
![Page 49: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/49.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 49
Überblick
Semantische Heterogenität Namenskonflikte Identität Datenkonflikte
Gebundene und Freie Variablen Adornments Anfrageplanung
![Page 50: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/50.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 50
Gebundene & Freie Variablen – Beispiel
Quelle: [LC00]
![Page 51: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/51.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 51
Gebundene & Freie Variablen – Beispiel
Bastelaufgabe 1:Wie teuer ist die billigste CDmit einem Song namens “Friends”?
Quelle: [LC00]
![Page 52: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/52.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 52
Gebundene & Freie Variablen – Beispiel
Bastelaufgabe 2:Welches ist die billigste CDmit einem Song namens “Friends”, die Sie anfragenkönnen?
![Page 53: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/53.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 53
Gebundene & Freie Variablen – Beispiel
Quelle: [LC00]
![Page 54: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/54.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 54
Gebundene & Freie Variablen – Beispiel
Idee 1:(v1 ⋈CD v2)⋈Artist v3
Ergibt zusätzlich:<Story, Lucy, $13> ^---PECH
1
2
![Page 55: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/55.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 55
Gebundene & Freie Variablen – Beispiel
Idee 2:(((v1⋈v2)⋈v3)⋈v2)⋈v3)⋈v1
Ergibt zusätzlich:<Love, Snoopy, $10> ^--- Glück, weil auch in v1!
1
23 4
5
![Page 56: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/56.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 56
Gebundene & Freie Variablen – Beispiel: Semantik
1
23 4
5
Ziel: Maximale AntwortAnnahme: Universal Relation mit globalen Attributen.Semantik: Relationale Algebra
![Page 57: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/57.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 57
Gebundene & Freie Variablen – Beispiel: Semantik
1
23 4
5
Schon Schritt 1 macht eineAnnahme.Schritte 2-5 überwinden nurBinding-Muster. Direkter Joinüber v1⋈v3 hätte gleichesResultat.Wichtig deshalb: Data Lineage und Visualisierung
![Page 58: Informationsintegration Heterogenität 27.10.2004 Felix Naumann](https://reader035.vdocuments.site/reader035/viewer/2022070310/55204d6349795902118b7ac9/html5/thumbnails/58.jpg)
27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 58
Literatur
Wichtige Literatur [YLGU99] Ramana Yerneni, Chen Li, Hector
Garcia-Molina, Jeffrey D. Ullman, „Computing Capabilities of Mediators“, SIGMOD 1999
Weitere Literatur [LC00] Chen Li, Edward Chang „Query Planning
with Limited Source Capabilities“, ICDE 2000