servicebasierte datenintegration - dbs.uni-leipzig.de · heterogener systeme ... ispider project...
TRANSCRIPT
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 1
Servicebasierte DatenintegrationPräsentation zur Seminararbeit
Christoph Aßmann
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 2
Inhalt
● Begriffe● Motivation● Abgrenzung Grid – Cloud● OGSA: Architektur servicebasierter Grids
– Standardisierung– Evolution / Erweiterungen
● Informatica Cloud Data Integration Solutions● Zusammenfassung
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 3
MSSQL
Begriffsbestimmung: Datenintegration
● Ziel: einheitlicher Zugriff auf mehrere DBs– Verteilte Datenbanken– Dezentral verwaltete Datenbanken
→ Problem:Heterogene Datenbanken
eXist
ObjectStore
DB2
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 4
Begriffsbestimmung: Datenintegration
● Heterogenität: Ausprägungen– Zugriff– Syntax– Datenmodell– Schema– …
● Data Cleaning● Erstellung einheitlicher Sicht
eXist
ObjectStore MSSQL
DB2
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 5
Begriffsbestimmung: Dienstbasierte Architekturen
● Ziel: technologieunabhängige Integration heterogener Systeme
– Transportprotokoll– Programmiersprache– Plattform
?
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 6
Begriffsbestimmung: Dienstbasierte Architekturen
● Beschreibung, Veröffentlichung, Suche, Nutzung von Diensten
Dienstverzeichnis
Dienstkonsument Dienstanbieter
!
SOAPXMLHTTPTCP/IP
Ethernet
WSDLWSDL
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 7
Motivation
● ISPIDER Project– Erfassung biochemischer Daten– Identifizierung von Proteomen an verschiedenen
Standorten– Zusammenführung der Informationen
PEDRo
PepSeeker
gpmDB
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 8
Abgrenzung Grid - Cloud
● Gemeinsamkeit: Dynamische Bereitstellung von Speicher und Rechenkapazität über Netzwerk
● Unterschiede:– Cloud
● Zentraler Anbieter● Ökonomischer Ansatz
– Grid● Virtuelle Organisation (VO) / dezentrale Admin.● Wissenschaftlicher Kontext
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 9
Abgrenzung Grid - Cloud
VO
O1
O2
O3Grid
Cloud
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 10
OGSA: Architektur servicebasierter Grids
● Hoher Grad an Heterogenität● Autonome Datenquellen● Dezentrale Administration
Standardisierung→O1
O2
O3
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 11
OGSA: Architektur servicebasierter Grids
● Standardisierungsgremium:Open Grid Forum (OGF)
● Diverse Arbeitsgruppen, u.a.:Database Access and Integration Services (DAISWG)
● Architektur:Open Grid Services Architecture (OGSA)
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 12
OGSA: Architektur servicebasierter Grids
● Repräsentation von Ressourcen durch Dienste Grid Services→
● Standardisierung von Schnittstellen– Auffinden von Grid Services– Erzeugen / Beenden von GridDienstinstanzen– Nachrichtenaustausch
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 13
● OGSADAI:dienstbasierter Zugriff auf Datenbanken
● OGSADQP:Koordinierung des Zugriffs auf mehrereOGSADAIRessourcen
OGSA-DAI / OGSA-DQP: Übersicht
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 14
OGSA-DAI
● Data Access and Integration (OGSADAI)● Javabasierte Middleware zur Integration
heterogener Datenquellen auf Basis der OGSA
XML
Rel. DB
FS
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 15
OGSA-DAI
● Ablauf einer Anfrage gegen das Grid(a) ContainerStart
Factory(GDSF)
Registry(GDSR)
(1 je Container)
(1 je DBMS)
RegisterS
ervice
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 16
OGSA-DAI
● Ablauf einer Anfrage gegen das Grid(b) Dienstlokalisierung
Factory(GDSF)
Registry(GDSR)
Service Instance(GDS) Rel. DB
Grid ServiceHandle (GSH)
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 17
OGSA-DAI
● Ablauf einer Anfrage gegen das Grid(c) Durchführen einer Anfrage
Factory(GDSF)
Registry(GDSR)
Service Instance(GDS) Rel. DB
Grid ServiceHandle (GSH)
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 18
OGSA-DQP
● Ablauf einer Anfrage gegen das Grid(c) Durchführen einer verteilten Anfrage via DQP
Factory(GDSF)
Registry(GDSR)
Service Instance(GDS) Rel. DB
Grid ServiceHandle (GSH) Coordinator
(GDQS) Evaluator(GQES)
Service Instance(GDS)
Evaluator(GQES) XML
Factory(GDSF)
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 19
Einschub: Schemaintegration
● Dezentrale Administration Schemaevolution→ einmalige Schemaintegration unzureichend→
● Grid Data Integration System (GDIS)– MappingKatalog– Änderung / Hinzufügen einer Ressource: Update
● Ausführliche Beschreibung s. Ausarbeitung
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 20
ISPIDER: virtuelle Datenintegration
PEDRoPepSeeker gpmDB
ENSP00000339074
ENSP00000339074
ENSP00000339074
...
...
...
URN:LSID:ispider.man.ac.uk:pepseeker.protein:1 ENSP00000339074 ...
2
1
1
1
URN:LSID:ispider.man.ac.uk:pepseeker.protein:2
URN:LSID:ispider.man.ac.uk:pedro.protein:1
URN:LSID:ispider.man.ac.uk:gpmdb.protein:1
LSID acc_nr col_xysrc_id
SPEDRoSPepSeeker SgpmDB
Sintegr
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 21
ISPIDER
● Nutzung von OGSADAI und OGSADQP● Manuelles Erstellen des globalen Schemas
– Basis: SPEDRo
– Beschreibung der Korrespondenzen Slocal S→ global
IQL, Transformation Pathways→
● Speicherung in Schemas & Transformations Repository
Schemaevolution möglich→
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 22
Informatica Cloud Data Integration Solutions
● SaaS Anwendung: Salesforce CRM● Cloud Plattform: Force.com● Problematik: Migration lokaler Datenbestände
aus Legacy Software nach Salesforce CRM
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 23
Informatica Cloud Data Integration Solutions
● Informatica On Demand (IOD):Webbasierte Konfiguration von Verbindungen
– Source Connection, Target Connection– Filter Definition– Field Mappings, Transformation– Schedule
IOD
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 24
Zusammenfassung
● Integrationsproblematik in Grids und Clouds vorhanden
● Lösung in Grids: Standardisierung
– Virtuelle Integration
– Dienstbasierte Ansätze
– OGF● Lösung in Clouds: Eigenentwicklungen
– Physische Integration
– Migration in die Cloud
– Proprietäre Ansätze
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 25
ISPIDER Architecture
[ZFB+ 06]
Abteilung Datenbanken
am Institut für Informatik
Seminar Cloud Data ManagementServicebasierte Datenintegration
Aßmann, Christoph Leipzig, 26.01.2010 Folie 26
● [ZFB+ 06] Lucas Zamboulis, Hao Fan, Khalid Belhajjame, Jennifer A. Siepen, Andrew Jones, Nigel J. Martin, Alexandra Poulovassilis, Simon J. Hubbard, Suzanne M. Embury und Norman W. Paton. Data Access and Integration in the ISPIDER Proteomics Grid. In Ulf Leser, Felix Naumann und Barbara A. Eckman, Hrsg., DILS, Jgg. 4075 of Lecture Notes in Computer Science, Seiten 3–18. Springer, 2006.