europeana newspapers german infoday - semantics
TRANSCRIPT
![Page 1: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/1.jpg)
Der Einsatz automatisierter
Verfahren zur vertieften
Erschließung historischer
Zeitungsbestände. Ein DFG-
Pilotprojekt der ULB Sachsen-
Anhalt
Europeana Newspapers ProjectInformation Day Berlin, 27. Februar 2014
Kay Heiligenhaus
semantics GmbH, Aachen
![Page 2: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/2.jpg)
Einführung
Teilprojekt der
ULB Sachsen-Anhalt
![Page 3: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/3.jpg)
Digitalisierung des Halleschen Tageblattes
∙Laufzeit von Mai 2013 bis April 2015
∙Digitalisierung von 117 Bänden
unterschiedlichen Formats (vom Original in
Farbe)
∙durch Strukturdaten inhaltlich erschlossen
∙durch Fraktur-OCR im Volltext erschlossen
∙persistent adressierbar bis auf Ausgabe-,
Artikel- und Seitenebene
![Page 4: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/4.jpg)
Digitalisierung des Halleschen Tageblattes
Zeitraum Format Anzahl der
Bände
Anzahl der
Seiten
1799 - 1855 Oktav 68 74.280
1856 - 1864 Quart 9 13.611
1865 -1871 Folio 4° 8 11.586
1872 -1892 Folio 2° 32 42.922
Gesamt 117 142.399
![Page 5: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/5.jpg)
TEIL I
Rahmenbedingungen
![Page 6: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/6.jpg)
DFG-Positionspapier (2012): Digitalisierung
Ausschuss für Wissen-
schaftliche Bibliotheken und
Informationssysteme: Die
digitale Transformation weiter
gestalten – Der Beitrag der
Deutschen Forschungs-
gemeinschaft zu einer
innovativen Informations-
infrastruktur für die Forschung,
Bonn, 3. Juli 2012.
http://www.dfg.de/download/pdf/foerderung/programme/lis/positionspapier_digitale_transformation.pdf
![Page 7: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/7.jpg)
DFG-Positionspapier (2012): Förderschwerpunkte
Zur weiteren Umsetzung der
digitalen Transformation analoger
Überlieferung wird sich der
Schwerpunkt der
Förderaktivitäten im Bereich
Digitalisierung nach und nach von
Drucken hin zu historischen
Zeitungen und unikalem
Material […] verschieben. (S. 10)
![Page 8: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/8.jpg)
DFG-Positionspapier (2012): Pilotprojekt Zeitungen
Bei der […] Förderung von
Digitalisierungsmaßnahmen im
Bereich historischer Zeitungen
[…] wird es in erster Linie darum
gehen, im Rahmen von
Pilotphasen methodische,
organisatorische und
technische Rahmen-
bedingungen […] zu definieren.
(S. 10)
![Page 9: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/9.jpg)
DFG-Positionspapier (2012): Automatisierung
Vor dem Hintergrund technischer
Weiterentwicklungen sollte […]
eruiert werden, wie
automatisierte Verfahren zur
vertieften Erschließung […]
Anwendung finden können. Dabei
soll auch die Entwicklung neuer
Methoden, zum Beispiel im Bereich
des Machine Learning, gefördert
werden. (S. 12)
![Page 10: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/10.jpg)
TEIL II
Ziele des Projektes
![Page 11: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/11.jpg)
Herausforderung: Inhaltliche Erschließung aller in Deutschland erschienenen Zeitungen bis 1945
o Zeitungen in der ZDB:
~ 50.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland:
~ 30.000 Titel;
o Zeitungen, eingeschränkt auf
Deutschland vor 1945:
~ 16.000 Titel.
http://dispatch.opac.d-nb.de/DB=1.1/ZEITUNG
![Page 12: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/12.jpg)
Mindestanforderung: Von der ZDB zu einer strukturierten Navigation im DFG-Viewer
![Page 13: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/13.jpg)
Umsetzung der Mindestanforderung: Erschließung bis auf Ausgabeebene (Jahr/Monat/Tag)
![Page 14: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/14.jpg)
Ist-Stand: Manuelle Strukturdatenerfassung
![Page 15: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/15.jpg)
Mengengerüst und Kosten: Minimal-Erschließung
o Umfang: ~ 160 Mio. Strukturdaten (~ 16.000 Titel,
~ 1 Mrd. Seiten)
o Aufwand: ~ 1.000 Personenjahre (80 Strukturdaten/Stunde, 8
Stunden/Tag, 250 Arbeitstage/Jahr)
o Kosten: ~ 35 Mio. EUR (~ 2.161 EUR/pro Titel, ~ 0,035 EUR/pro
Seite)
� Herausforderung: Reduktion der Erschließungskosten.
![Page 16: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/16.jpg)
TEIL II
Lösungsansätze
![Page 17: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/17.jpg)
Lösungsoption I: Nutzung der Layout-Analyse und Text-Erkennung von Abbyy-Finereader
![Page 18: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/18.jpg)
Lösungsoption I: Kernproblem ist die Erkennung vonFrakturschriften
![Page 19: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/19.jpg)
Kosten der Lösungsoption I:
Einsatz von Abbyy Finereader
o ~ 10 Mio. EUR Lizenzkosten OCR
o ~ 0,25 Mio. EUR Verarbeitungskosten (64 Rechenjahre
auf aktueller Server-Hardware)
o ~ 7 Mio. EUR Personalkosten (80% Effizienzsteigerung)
� ~ 17,25 Mio. EUR Gesamtkosten
(~ 50% Einsparung)
![Page 20: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/20.jpg)
Lösungsoption II: Mustererkennung
![Page 21: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/21.jpg)
Lösungsoption II: Musterwiederholungen beiperiodischen Werken
![Page 22: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/22.jpg)
Lösungsoption II: Ermittlung eines Fingerprints
![Page 23: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/23.jpg)
Lösungsoption II: Technische Parameter zurErmittlung des Fingerprints
o Ziel: Identifikation hinreichend eindeutiger Objekte (Pixelhaufen) von bestimmter Größe auf einer Seite, um eine Segmentierung eines Seitenstroms (Jahrgang) in homogene Segmente zur erreichen.
o Objektgröße
o Erosion/Dilation
o Position
o Objektanzahl(min/max)
o 11 Mio. Kombinationen(50 x 15 x 250 x 600)
o ~ 1 Seite/Sekunde pro Core
![Page 24: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/24.jpg)
Einsatz in der Projekt-Praxis: AutomatischeSegmentierung eines Jahrgangs
![Page 25: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/25.jpg)
Einsatz in der Projekt-Praxis: Qualitätssicherung dersegmentierten Jahrgänge
![Page 26: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/26.jpg)
Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe
![Page 27: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/27.jpg)
Einsatz in der Projekt-Praxis: Zuweisung vonkonkreten Datumswerten je Tagesausgabe II
![Page 28: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/28.jpg)
Kosten der Lösungsoption II:
Einsatz von Mustererkennung
o ~ ? EUR Entwicklungs-/Lizenzkosten
o ~ ? EUR Verarbeitungskosten
o ~ 3,5 Mio. EUR Personalkosten (90%
Effizienzsteigerung)
� ~ ? Mio. EUR Gesamtkosten
(> 75% Einsparung)
![Page 29: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/29.jpg)
TEIL IV
Ausblick
![Page 30: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/30.jpg)
Ausblick I: Vertiefte Erschließung von Rubriken,
Artikeln, Einzelseiten
![Page 31: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/31.jpg)
Ausblick II: Nutzung von OCR / Vertiefte
Volltextrecherche (im DFG-Viewer)
![Page 32: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/32.jpg)
Ausblick III: Persistente Adressierung
von Artikeln
![Page 33: Europeana Newspapers German infoday - Semantics](https://reader030.vdocuments.site/reader030/viewer/2022020115/554fc56eb4c9050e7d8b4ff3/html5/thumbnails/33.jpg)
Ausblick III: Persistente Adressierung
von Einzelseiten