mühlberger digitalisierung impact workshop muc
Post on 14-Jun-2015
575 Views
Preview:
TRANSCRIPT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Digitalisierung und OCR-Erkennung in Bibliotheken. Einige Anmerkungen aus der Praxis
Günter Mühlberger
Abteilung für Digitalisierung und elektronische Archivierung
Universitäts- und Landesbibliothek Tirol
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR in Bibliotheken Schwieriges Kapitel Glas halbvoll oder halbleer? Fraktur EU Projekt METADATA ENGINE Digitalisierungszentren Göttingen und BSB Google
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
OCR und Digitalisierung OCR ändert alles! Workflow muss an allen Ecken und Enden angepasst werden
– Vorbereitung
– Imagebearbeitung
– Scannen
– Qualitätskontrolle
– Speicherung und Archivierung
– Korrektur
– Volltextsuche
– Webinterfaces
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vorbereitung und Auswahl für das Scannen Für welche Art des Scannens entscheidet man sich?
– Gebundene Vorlage?
– Lose Blätter?
– Mikrofilm?
Welcher Scanner?– Overheadscanner
– Scanroboter?
– Mikrofilmscanner?
Inhouse oder Dienstleister?– Qualitätskontrolle?
– Deutschland oder Off-shore?
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Gute und schlechte Bilder Sorgfalt ist alles! Allerdings:
– Scanroboter und Dokumentenscanner verringern die Anforderungen nach individueller Fähigkeit des Operators, trotzdem immer noch entscheidend
Gutes Bild:– Scharf, heller Hintergrund, deutliche Buchstaben, keine Wölbungen und
Verzerrungen, genügender Rand, Zeilen parallel bzw. senkrecht zum Bildrand, kein Durchscheinen von der Rückseite, keine Unterstreichungen etc. durch Benutzer
Beispiele
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
9
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Bad print – broken characters
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11
und wenn
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Binarisierung
13
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Layout analysis
14
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
300 oder 400 ppi – bitonal oder 8/24 Bit? Rose Holley: Dlib Aufsatz 2009
– Grau scannen führt nicht zu besseren Ergebnissen
Einfache Experimente– Innsbrucker Zeitungsarchiv: bitonal und Farbe– Beispiel– Ergebnisse sind eindeutig bei Farbe besser– Sehr kleine Schrift: Wordvorlage: 4 Punkt Schrift– Ergebnisse
Schluss– Einfache Dokumente können mit 300 ppi und bitonal gescannt werden,
kein Qualitätsverlust gegeben– Schwierige Dokumente eher mit 400 ppi und 8 oder 24 Bit
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Erkennungsgenauigkeit Glas halbvoll oder halbleer?
– Rose Holley <90% Wortgenauigkeit: Poor
– Google: Jedes Wort ist schon ein Vorteil gegenüber dem reinen Image
– Peinliche Fehler?
– Mündige Benutzer?
Buchstaben vs. Wortgenauigkeit– Wortgenauigkeit sagt mehr aus und ist wesentlich leichter zu erstellen:
Jedes Wort, das bei einer Volltextsuche korrekt gefunden wird, gilt als richtig erkannt
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Beispiele aus der Praxis Grundlage: ABBYY Recognition Server 2
– Reichstagsprotokolle, 1925– Zedler, 1744– Coburger Zeitung, 1808– Judentum, 1803– Eckartshausen, 1792– Landesbauernkammer, 1921– Galvani, 1793– Hieber, 1722– Hofmann, 1875– Buschendorf, 1805– Schreiben, 1689– Lateinische Texte
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Korrektur Bis vor kurzem als völlig absurd zurückgewiesen worden Aber:
– Crowd sourcing
– Neue Technologien
Crowd sourcing– Zahlen aus Australien: 450.000 korrigierte Zeilen durch ehrenamtliche
Mitarbeiter z.B. für Monat Dezember 2008 (= ca. 400-1000 Zeitungsseiten)
Neue Technologien– IBM: CONCERT Tool, LMU: PostCorrection Tool
– Erhöhung der Produktivität um mehrfachen Faktor
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Weiterverarbeitung der OCR Ergebnisse Strukturerkennung
– Innsbrucker Zeitungsarchiv
– Functional Extension Parser Flexible und kontrollierte Regelerstellung für Strukturerkennung
Archivierung– Komplexität wird deutlich erhöht
– Output: TXT, PDF, ABBYY XML
– ALTO Format
– Wie Korrektur integrieren?
– Antrag auf Erweiterung des ALTO Formats
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Anwendungen und Suchinterfaces Volltextsuche
– JSTOR, Google, Verlage
– Facetted Search (SOLR)
Indexierung durch Suchmaschinen– Site XML
Sichtbarkeit des OCR Textes– Benutzerschulung
– Unumgänglich, wenn korrigiert werden soll
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Zusammenfassung OCR ist „Pflicht“
– Dokumente des 19. und 20. Jahrhunderts generell sehr brauchbare bis exzellente Ergebnisse
– Davor: deutliche Verbesserungen durch IMPACT zu erwarten
– Vorraussetzung ist sorgfältiges und genaues Scannen mit 400 ppi und in Farbe
– Testprojekt mit Zufallsstichprobe
Moderne Anwendungen integrieren– Sichtbarkeit des fehlerhaften Textes
– Korrekturmöglichkeit für den Benutzer
– Diverse Exportformate
– Site XML
– Facettierte Suche für Volltext
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Vielen Dank für Ihre Aufmerksamkeit!
top related