institute of scientific computing – university of viennap.brezany integration von föderierten...

21
Institute of Scientific Computing – University of Vienna P.Brezany Integration von Integration von föderierten Datenbanken föderierten Datenbanken Peter Brezany Institut für Scientific Computing Universität Wien

Upload: gert-nesser

Post on 06-Apr-2015

104 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany

Integration von föderierten Integration von föderierten DatenbankenDatenbanken

Peter Brezany

Institut für Scientific Computing

Universität Wien

Page 2: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany2

Motivation

• 2 widersprüchliche Ziele:– Verteilung/Dezentralisation

» Insbesondere bei Neuentwicklungen (Lastverteilung, Erhöhung der Ausfallssicherheit,...)

– Integration» Bei bestehenden Systemen will man verteilt gespeicherte und

unabhängig verwaltete Daten (die aber inhaltlich zusammengehören) wieder logisch zusammenführen

• Anwendungsbeispiele:– Geizhals: Produktdatenbanken von verschiedenen Händler

ansprechen– Biomedizin: Zu Begriff Bilder, Übersetzungen,... verfügbar machen

• Für beide Ziele gilt:– Techn. Vorraussetzung (Vernetzung heterogener Rechner) gegeben– Entfernter Zugriff auf Daten in der Regel effizient möglich

Page 3: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany3

Probleme I

• Autonomie– Design: Datenquellen Manager entscheidet was und wie

gespeichert– Kommunikation: wie und wann auf Anfrage geantwortet

wird– Ausführung: lokale Operationen ohne Einwirkung von

externen ausführbar– Verbindung: ob und wieviel von Funktionalität/Resourcen

zur Verfügung gestellt wird

• Verteilung

(hybrid)

Page 4: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany4

Probleme II

• Heterogenität– Syntaktisch

» Technisch: OS, Platform,...» Schnittstelle: Abfragesprache, ...

– Datenmodel» Relational, OO,.....» Oft über Wrapper aufgelöst

– Logisch» Semantisch:

• Gleiche Namen für unterschiedliche Konzepte (Hynonyme)• Unterschiedliche Namen für gleiche Konzepte (Synonyme)• Attribut kann gleiche Bedeutung haben, aber unterschiedliche Einheit

» Schematisch: • Kodierung von Concepten mit unterschiedlichen Elementen des Datenmodels

» Strukturell:• E.g. Attribute in verschiedenen Tabellen

• Evolution– Änderungen im Laufe der „Lebenszeit“ der Integration erforderlich

Page 5: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany5

Föderierte Datenbanken

5 Schichten Referenz-Architecture:

• Lokales Schema: ausgedrückt in lokaler DDL & Datenmodel

• Component Schema: in gemeinsames Datenmodel überführtes lokales Schema

• Export Schema: Teil des Component Schemas welches extern sichtbar ist

• Global Schema: Integration aller export. Schemas

• External Schema: Global Schema angepasst an spezielle User/Anwendungen

Page 6: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany6

Kriterien für Integrationsmethoden

• Vollständigkeit– Es darf keine in einem lokalen Schema enthaltene

Information verloren gehen

• Korrektheit– Alle in dem integrierten Schema enthaltenen Informationen

müssen in mindestens einem lokalen Schema semantisch äquivalent vorhanden sein

» Nur konsistente Ergänzungen der bestehenden Schemata erlaubt

• Minimalität– Konzepte, die in mehreren lokalen Schemata modelliert sind,

dürfen nur einmal im integrierten Schema repräsentiert sein

• Verständlichkeit– Integriertes Schema sollte leicht verständlich sein!!!

Page 7: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany7

Mediatoren

• Wiederhold 92• Wrapper:

– Komponente die Datenquellen einheitlich zugreifbar macht (Interface)

– Versteht Anfragen des Mediators– VT: neue Arten/Strukturen/Quellen einfach hinzufügbar

• Mediator:– Verwendet Wrapper und andere Mediatoren als Quellen– Hat föderiertes Schema, Aufgaben können aber weit über

reine Datenintegration hinausgehen» Abstrahierung von Daten » Enthalten techn. und administratives „Wissen“ um

Informationen für Entscheidungsfindung zu liefern– Sollten leichtgewichtig, wiederverwendbar und flexible sein– Verteilung vorgesehen

Page 8: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany8

Architecture of a Mediation-Based Information System

Page 9: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany9

Mediators – centralisiert vs. verteilt

Centralized Model Distributed Model

Page 10: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany10

A Prototypical Architecture

of a Data Integration

System

Page 11: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany11

Case Studie - Gegebenheiten

• Heterogenitäten:– Name in A ist „Vorname Nachname“ (wie im Ziel Format)– Name in C über 2 „Spalten“ verteilt => zusammenführen

• Verteilung:– 3 Datenquellen (XML, relational, Datei mit bestimmten

Format)

Page 12: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany12

Case Studie - Infobedarf

• Vorgangsweise via Top Down Approach:– Welche Daten sollen in welcher Form verfügbar sein

» Tabelle: patient (p_id, p_name, p_adr, p_dob, p_fc)

– Quellen beschreiben damit sie gewünschte Datenliefern können

» SQL View Definitions, XML Dokumente,...mit eingebauter Funktionalität oder auchder Möglichkeit externe Funktionen zu verwenden

– Zusätzliche Operatoren nötig um Datenzusammenzuführen

Page 13: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany13

Case Studie - Infobedarf

• Mediator:– Userschnittstelle– Schema für User– Kennt teilnehmende Wrapper und Operationen um Ergebnisse

zusammenzuführen » R = (A JOIN B) UNION C

– Mägl. Abfragesprache: SQL

• Wrapper:– Nicht direkt vom User angesprochen– Kennt sein eigenes „Schema“ und Daten die er zur Verfügung stellt– Versteht Anfragen des Mediators

» E.g. Anfrage besteht aus array mit gewünschten Spalten und Bedingungen an die Daten

» Wie er sie auf tatsächliche Datenquelle anwendet» Für jeden Type von Datenquellen eigenen Wrapper

– Gibt Ergebnisse in vordefinierter Form zurück (XML Dokument mit speziellem Schema, e.g. XMLWebRowSet)

Page 14: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany14

Case Studie - Komponenten

• Mediator:– User Schema: : patient (p_id, p_name, p_adr, p_dob, p_fc)– Zerlegt Anfrage in benötigte Spalten für jeden Wrapper + dazugehörige

Bedingungen

• Wrapper:– Einen für XMLDB:

» Schema: patient (p_id, p_name, p_adr, p_dob)» Setzt Anfragen in XPath um » Transformiert XML Ergebnisse in Standardformat

– Einen für MySQL:» Schema: patient (p_id, p_fc)» Baut SQL Anfrage aus Mediator Anfrage zusammen» Hat schon richtiges Ergebnissformat, nämlich WebRowSet

– Einen für CSV:» Schema: patient (p_id, p_name, p_adr, p_dob, p_fc)» Liest Zeile für Zeile und retuniert nur solche, die Bedingungen erfüllen

– Gleicht „Schwächen“ der Quellen aus, e.g. keine Abfragesprache, keine Sortierung,....

Page 15: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany15

Mediation Schema

Page 16: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany16

Grid Data Mediation Service - Architecture

Page 17: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany17

Case Studie - Anfrage

• Query:– SELECT p_name FROM patient WHERE id=10

to

Standard

optimized

Page 18: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany18

Mögl. Probleme bei Mediatoren

• Wer programmiert neu benötigte Wrapper? Offene gut dokumentierte Schnittstellen?

– semiautomatisiert

• Wer generiert Beschreibungen für Wrapper bei Schemaänderungen?

• Welches einheitliche Austauschformat zw. Wrapper – Mediator verwendet?

– OO (Amos II), relational, XML,...

Page 19: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany19

Adaptive Semantic Data Integr. on the Grid

Page 20: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany20

Zusammenfassung

• Datenintegration zur Entscheidungsfindung immer wichtiger

• Hohe Anforderungen (Autonomie!)

• Vielzahl von Problemen (Evolution, Semantik)

• FDBS vs VDBS vs Mediator/Wrapper

Page 21: Institute of Scientific Computing – University of ViennaP.Brezany Integration von föderierten Datenbanken Peter Brezany Institut für Scientific Computing

Institute of Scientific Computing – University of Vienna

P.Brezany21

Weiterführende Informationen

• IBM Systems Journal Vol. 41 zum Thema „Information Integration“ http://www.research.ibm.com/journal/sj41-4.html

• Vorlesung der Uni Freiburg zum Thema „Heterogene Datenbanksysteme”

http://www.informatik.uni-freiburg.de/~dbis/lehre/is-ss99/integra.ps