datenqualität im kontext der deutschen digitalen...
TRANSCRIPT
![Page 1: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/1.jpg)
Datenqualität im Kontext der Deutschen Digitalen Bibliothek
Session: Datenqualität und Standards
DDBforumBerlin, 04. Juni 2018
Francesca [email protected]
+49 (0) 69 1525-1763
![Page 2: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/2.jpg)
2
Metadatenstandards sind Voraussetzung für einheitliche Erfassung und Austausch von strukturierten Kulturerbe-Daten
![Page 3: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/3.jpg)
„… if we have standards, then‚ why isthe data so craped at the end?‘“ (Valentine Charles 2015)
![Page 4: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/4.jpg)
4
• Zusammenführen von heterogenen Metadaten massenweise: > 24 Millionen Datensätze zu Kulturobjekten jeglicher Art
unterschiedlicher Herkunft: 369 Einrichtungen aus sechs Kultursparten (Archiv, Bibliothek, Denkmalpflege, Forschungseinrichtung, Mediathek, Museum)
• Metadaten sind … in verschiedenen Anwendungen entstanden
… für unterschiedliche Zielgruppen entstanden
… über verschiedene Workflows an DDB geliefert worden
• Metadatenstandards werden unterschiedlich angewendet Regelwerke: sparten-/domänenspezifisch, hausintern oder gar keine
Austauschformate: 7 Standardformate (Dublin Core, EAD, EDM, ESE, LIDO, MARCXML,
METS/MODS), plus diverse Anwendungsprofile und proprietäre Formate
Kontrollierte Vokabulare: anwendungsspezifisch vs. anwendungs-übergreifend, domänenspezifisch vs. domänenübergreifend, teils gar keine
Herausforderungen der DDB
![Page 5: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/5.jpg)
5
• Allgemeine Kriterien menschen- und maschinenlesbar, vertrauenswürdig, sichtbar/auffindbar,
standardisiert, aussagekräftig, nachnutzbar, konsistent
vgl. Europeana Metadata Quality Task Force Report 2015
• Abhängig von Anforderungen seitens Anwendungen (lokal vs. domänenspezifisch vs. domänenübergreifend)
Nutzer (wissenschaftliche Nutzung vs. „Kulturtourist“)
Zeitfaktor (alt vs. neu)
• Metadaten im anwendungsübergreifenden Kontext Finden – Identifizieren – Explorieren/Navigieren – Zugreifen
vgl. bspw. User Tasks im IFLA Library Reference Model 2017, S. 15
Metadatenqualität
![Page 6: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/6.jpg)
„What metadata quality is and what itmeans is therefore context-dependant.“(Valentine Charles 2015)
![Page 7: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/7.jpg)
7
Explorieren?
„Wenn Sie an eine tolle Sammlung von Kulturerbe denken und Ihre erste Anlaufstelle ein Suchfeld ist, ist das einfach nur tragisch.“ (George Oates 2015)
![Page 8: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/8.jpg)
8
Finden: Freitextsuche
“Should I look under violin or fiddle or both?” (Michael Buckland 2017, S. 92)
![Page 9: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/9.jpg)
9
Finden: kontrollierte Vokabulare
von insgesamt 2.692 Ergebnissen bei Freitextsuche nach „violine“
Informationsverlust: Mangelnde Vollständigkeit durch fehlende Synonymkontrolle
![Page 10: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/10.jpg)
10
Finden: kontrollierte Vokabulare
Informationsballast: Mangelnde Genauigkeit durch fehlende Homonymkontrolle
mit nur 13 Ergebnissen zu Fidel als Musikinstrument
![Page 11: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/11.jpg)
11
Identifizieren: aussagekräftige Titel/Objektnamen
mangelnde Unterscheidbarkeit ähnlicher Objekte
![Page 12: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/12.jpg)
12
Identifizieren: kontextunabhängige Beschreibung
https://www.deutsche-digitale-bibliothek.de/item/LR7HC4TWPMIK23OKRELA7P4YPE3IXSQ5
![Page 13: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/13.jpg)
13
Navigieren: Normdaten
https://www.deutsche-digitale-bibliothek.de/entity/118584588
GND-URI
?
?
![Page 14: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/14.jpg)
14
Rechte
Standort
?
Zugreifen
Direkter Link
https://www.deutsche-digitale-bibliothek.de/item/CFGRZE4FA6VLDQMBMJROO4IAOGLZXUYX
![Page 15: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/15.jpg)
„As the data travels through different channels its quality deteriorates.”(Valentine Charles 2015)
![Page 16: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/16.jpg)
16
Der „lange Weg“ der Metadaten
Erzeugung unterschiedliche
Erschließungspraktiken und Use Cases
Weitergabedurch den
Datengeber
Vorverarbeitungdurch Fachstellen/
Aggregatoren
Aufbereitung/Bearbeitungfür DDB und
andere Anwendungen
einrichtungs-/spartenspezifisch spartenübergreifend kontextabhängig
Erfassungs-/ Verbundsysteme
Internes Datenformat z.B. OAI-DC, EAD(DDB),
ESE, EDM, DDB-LIDO, METS/MODS-Profil,
MARCXML
DDB-LieferformatExportformat
z.B. CSV, XML, OAI-DC, EAD, EDM, ESE, LIDO, METS/MODS,
MARCXML
Export-schnittstellen
DDB-Metadatenformatz.B. EDM RDF/XML
DDB-View (Objektseite)
z.B. FTP, OAI-PMH
DDB-Systemkomponentenz.B. Mapping Library,
DDBDash
DigitalisierungErschließungRegelwerkeVokabulare
Analyse
Validierung
Mapping
Bereinigung
Anreicherung
D
D
B
A
P
I
Analyse
Validierung
Mapping
Bereinigung
Anreicherung
Werkzeugez.B. Data Preparation
Tool, MINT, OpenRefine
Nutzungin verschiedenen
Anwendungen
![Page 17: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/17.jpg)
„All metadata is dirty, but you can do something about it“ (Seth van Hooland and Ruben Verborg 2014)
![Page 18: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/18.jpg)
18
Buckland, Michael (2017): Information and Society. Cambridge, Massachusetts: The MIT Press.
Charles, Valentine (2015): We want better data quality: NOW!. Europeana Foundation. – URL: https://pro.europeana.eu/page/data-quality-etech15-roundtables.
Claire-Dangerfield, Marie; Karlshoven, Lisette (2013-2015): Report and Recommendations from the Task Force on Metadata Quality. Europeana. – URL: https://pro.europeana.eu/post/metadata-quality-task-force-report.
Pekel, Joris (2015): Finden ohne Suche: Ein Interview mit George Oates. – URL: https://www.deutsche-digitale-bibliothek.de/content/ueber-uns/aktuelles/finden-ohne-suche-ein-interview-mit-george-oates.
Riley, Jenn; Becker, Davin (2009-2010): Seeing Standards: A Visualization of the Metadata Universe. –URL: http://jennriley.com/metadatamap/.
Riva, Pat; Le Boeuf, Patrick; Zumer, Maja (August 2017): IFLA Library Reference Model. Hrsg. International Federation of Library Associations and Institutions. – URL: https://www.ifla.org/files/assets/cataloguing/frbr-lrm/ifla-lrm-august-2017_rev201712.pdf.
Van Hooland, Seth; Verborgh, Ruben (2014): Linked Data for Libraries, Archives and Museums. How toclean, link and publish your metadata. London: Facet Publishing.
Quellen
![Page 19: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten](https://reader035.vdocuments.site/reader035/viewer/2022071100/5fd91d24fbb1c04d9c6c25e6/html5/thumbnails/19.jpg)
19
Vielen Dank!
Francesca [email protected]
Twitter: https://twitter.com/ddbkultur
http://www.deutsche-digitale-bibliothek.de/
DDBpro: https://pro.deutsche-digitale-bibliothek.de/
Foliensatz: CC-BY 4.0. Das gilt nicht für einzelne Abbildungen.
http://creativecommons.org/licenses/by/4.0/
Facebook: https://twitter.com/ddbkultur