![Page 1: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/1.jpg)
Digitalisierte Zeitungen &
die Digital Humanities –
Probleme und Chancen
Europeana Newspapers Information Day
16. Oktober 2014, Wien, ÖNB
Clemens Neudecker, Staatsbibliothek zu Berlin
@cneudecker
![Page 2: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/2.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2
“Big data?”
Immer größere Mengen an digitalisierten Zeitungen stehen in digitaler Form für die Forschung bereit.
• Chronicling America: 8,148,101 Seiten
• Trove (Australien): 137,247,947 Zeitungsartikel
• ANNO: 13 Millionen Seiten
• Europeana Newspapers: • > 10 Millionen Seiten (Volltexte) • > 18 Millionen Seiten (Metadaten)
![Page 3: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/3.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3
Europeana Newspapers: Drei Portale
• Europeana Newspapers Content Browser:http://www.theeuropeanlibrary.org/tel4/newspapers
• Europeana Portal:http://europeana.eu/portal/
• Zeitschriftendatenbank:http://www.zeitschriftendatenbank.de/suche/
![Page 4: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/4.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 4
Neu! Objektpräsentation direkt in der Europeana
• http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html
Public domain
Neues Interface
für die Objektanzeige
Anzeige in der Digitalen
Bibliothek
![Page 5: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/5.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5
ABER…
![Page 6: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/6.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6
Nur die Spitze des Eisbergs
Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/
![Page 7: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/7.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7
Wieviel ist insgesamt schon digitalisiert?
![Page 8: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/8.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 8
Digitalisierte Zeitungen
Quelle: European Newspapers Survey Report http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf
![Page 9: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/9.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9
Mission impossible?
![Page 10: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/10.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10
Ein kleiner Vergleich…
Geschätzte Kosten für die Digitalisierung sämtlicher Objekte in Bibliotheken, Archiven und Museen:€100 Milliarden
Oder €10 Milliarden/Jahr für die nächsten 10 Jahre!
Das Gesamtbudget für die Entwicklung des „Joint Strike Fighter“ wird auf €40 Milliarden geschätzt. Für die Digitalisierung des Kulturerbes Europas würden ca. 40% der Entwicklungskosten des JSF benötigt.
Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf
![Page 11: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/11.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11
Problemfelder
• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen
• Keine ausreichenden Ressourcen für die vollständige Digitalisierung
• Fehler und Probleme bei der Digitalisierung, z.B.• Schlechte Qualität der OCR• Unvollständige oder fehlerhafte Metadaten• Unterschiedliche Lizenzmodelle• “Copyright Cliff of Death” (@wragge)• Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten)• Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities)
![Page 12: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/12.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Wie also damit umgehen?
• Ist es überhaupt möglich auf dieser Datengrundlage eine repräsentative Aussagen z.B. durch ein „random sample“ zu treffen?
12
Quelle: http://dilbert.com/strips/comic/2001-10-25/
![Page 13: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/13.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13
Labs to the rescue?
Pieter Francois, Gewinner der British Library Labs competition 2013 hat sich genau diese Frage gestellt:
“How representative are the historical texts digital humanities scholars study of the overall body of ‘surviving’ texts that are held in the various library collections?”labs.bl.uk/Sample+Generator
![Page 14: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/14.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14
Was ist “gut genug”?
Digging into Data Project “Trading Consequences”
“Welche Auswirkungen haben OCR Fehler beim Text Mining einer großen Sammlungen von digitalisierten Beständen?”
![Page 15: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/15.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 15
Statistik, Statistik, Statistik
10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet?http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf
![Page 16: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/16.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Vorbild Trove
API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse statistische Anwendungen & Präsentationsmöglichkeiten:
16
Trove newspapers word count app
![Page 17: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/17.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp
Das „Hathi Trust Model“
Hathi Trust Digital Library/Research Center (Aggregator aller US Google-Partner) stellt für durch Copyright geschütze Materialien nur extrahierte „Features“ bereit wie z.B.:
• Wortfrequenz (pro Seite/Überschriften/Fußnoten)
• Anzahl Zeilen/Sätze
• Zeichenanzahl
Darüber hinaus gibt es auch die Möglichkeit über eine geschützte virtuelle Forschungsumgebung (HTRC Sandbox Portal) direkt auf den Servern des HTRC Algorithmen auf den Daten auszuführen.
17
![Page 18: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/18.jpg)
This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 18
Es gibt viel zu tun…packen wir es an!
![Page 19: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen](https://reader035.vdocuments.site/reader035/viewer/2022062406/558b3307d8b42a68648b4637/html5/thumbnails/19.jpg)
Danke für Ihre Aufmerksamkeit!
@eurnews
http://www.europeana-newspapers.eu
http://www.theeuropeanlibrary.org/tel4/newspapers
http://www.europeana.eu/