bachelorarbeit - uni-muenchen.de...bachelorarbeit im studiengang computerlinguistik an der ludwig-...

64
Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit¨ at M¨ unchen Fakult¨ at f¨ ur Sprach- und Literaturwissenschaften Department 2 Vom Faksimile zum TEI-5 konformen XML Dokument: Handbuch und Programme vorgelegt von Benjamin Leak Betreuer: Dr. Maximilian Hadersbeck Aufgabensteller: Dr. Maximilian Hadersbeck Bearbeitungszeitraum: 17. M¨ arz - 26. Mai 2014

Upload: others

Post on 10-Aug-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Bachelorarbeitim Studiengang Computerlinguistik

an der Ludwig- Maximilians- Universitat Munchen

Fakultat fur Sprach- und Literaturwissenschaften

Department 2

Vom Faksimile zum TEI-5 konformen XMLDokument: Handbuch und Programme

vorgelegt vonBenjamin Leak

Betreuer: Dr. Maximilian HadersbeckAufgabensteller: Dr. Maximilian HadersbeckBearbeitungszeitraum: 17. Marz - 26. Mai 2014

Page 2: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Erklarung

Hiermit versichere ich, dass ich diese Bachelorarbeitselbstandig verfasst und keine anderen als die angegebe-nen Quellen und Hilfsmittel verwendet habe.

Munchen, den bis 26. Mai 2014

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Benjamin Leak

Page 3: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Zusammenfassung

Deutsch:

Diese Arbeit gibt einen Uberblick der verwendeten Techniken in Bereich der optischen Zei-chenerkennung sowie der Auszeichnungssprache XML im Bezug auf die aktuellen Richtliniender ’Text Encoding Initiative (TEI)’. Derzeitige Projekte und Standards im Bereich der di-gitalen Editionstechnik werden beleuchtet. Anschließend wird ein spezifisches XML-Formatgemaß TEI-5 definiert und Programme zu dessen Erzeugung bereitgestellt. Dabei wird inzwei Phasen vorgegangen; zuerst wird der TEI Kopf erzeugt und anschließend der durcheinen Satzenderkenner annotierte Text an diesen Kopf angefugt. Abschließend werden Pro-bleme des TEI-5 XML Standards anhand uberlappender Hierarchien und Interoperabilitatbetrachtet.

English:

This Paper summarizes the often used concepts in optical character recognition and themarkup language XML in regards to the present guidelines of the ’Text Encoding Initiative(TEI)’. Current digital editing methods and their projects and standards will be examined.Afterwards a custom TEI-5 conform XML format will be defined and programms to createsuch will be provided. This is done in two steps; the TEI header will be generated and after-wards the ’end of sentence’ tagged text will be added to it. Finally problems with the TEI-5XML standard, such as conflicting hierarchical structures and interoperability are examined.

Page 4: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften
Page 5: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Inhaltsverzeichnis

1

1. Einleitung 11.1. Digital Humanities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Digitale Reprasentation von Text . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3. Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Verwandte Arbeiten 3

3. Optische Zeichenerkennung 53.1. Allgemeine optische Zeichenerkennung . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.1. Digitales Abbild und Erkennung . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.2. Fehlerkorrektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.1.3. Beeinflussende Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.2. Texterkennung mit Abbyy FineReader . . . . . . . . . . . . . . . . . . . . . . . . 10

4. Digitale Editionstechnik 134.1. OHCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.2. TUSTEP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.3. TextGrid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.4. AustESE Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4.5. Wittgenstein Nachlass am Centrum fur Informations- und Sprachverarbeitung . . 14

4.6. Digitale Monumenta Germaniae Historica . . . . . . . . . . . . . . . . . . . . . . 15

5. Die Auszeichnungssprache XML 175.1. Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.2. Validierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.3. Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

6. Text Encoding Initiative 216.1. Geschichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6.2. Aktuelle Richtlinien und Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . 21

7. Semi-automatischen Erstellung von TEI-5 XML 277.1. Erzeugung des TEI-5 Kopfes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

7.1.1. Ausgangssituation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

7.1.2. Konzeptioneller Dateikopf . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

7.1.3. Erstellen des Dateikopfes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

7.2. Erzeugung des TEI-5 Textkorpers . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

7.2.1. Vorbereitung durch Satzenderkennung . . . . . . . . . . . . . . . . . . . . 31

7.2.2. Erstellen des TEI-5 Textkorpers . . . . . . . . . . . . . . . . . . . . . . . 32

7.2.3. Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

I

Page 6: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

8. Probleme mit Editionen im TEI-5 XML-Format 378.1. Uberlappende Hierarchien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378.2. Interoperabilitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

9. Zusammenfassung und Ausblick 41

A. Zwischenergebnis der OCR (Beispiel 1) 42

B. Endergebnis der OCR (Beispiel 2) 43

C. Ergebnis der Erzeugung des TEI-5 Kopfes 44

D. Blindtexte 45

E. Modifizierte CISWAB DTD 47

F. Ergebnis der XML Erzeugung (Korper) 49

G. Inhaltsverzeichnis der beigelegten CD 52

Literatur 53

Abbildungsverzeichnis 57

Tabellenverzeichnis 58

II

Page 7: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

1. Einleitung

1.1. Digital Humanities

Zahlreiche Wissenschaften greifen heute auf computergestutzte Methoden der Datenverarbei-tung zuruck. Dies betrifft nicht nur die Natur-, sondern auch die Geisteswissenschaften. ’DigitalHumanities’ stellt dabei das Bindeglied zwischen beiden dar. Es fließt Methodologie aus den Gei-steswissenschaften ein, welche mit computergestutzten Verfahren konkrete Anwendung findenund realisierbar werden. Hierbei wurde es immer wichtiger gemeinsame und allgemeine Stan-dards zu definieren und einzuhalten, um eine Nachhaltigkeit der erarbeiteten Daten zu sichernund diese breit-flachig zur Verfugung zu stellen. Diese Nachfrage nach fachubergreifender, digi-taler Verarbeitung von Materialien fuhrte nicht zuletzt zu der weltweiten Entstehung diverser’digital humanities center’ und schließlich 2007 zu deren Zusammenschluss zu einem großenNetzwerk. [DH14]Im Zusammenhang mit dieser Nachfrage wurde seit 1988 ebenfalls das Forschungsprojekt (undspateres Konsortium) “Text Encoding Initiative (TEI)” betrieben, welches heute umfangreicheRichtlinien fur die Kodierung von Texten bereitstellt. [Sah13]

1.2. Digitale Reprasentation von Text

Schon 1984 wurde ein erfolgreicher Versuch unternommen eine digitale Edition des Werkes “Ja-mes Joyce - Ulysses” mit kritischem Textapparat zu erstellen. Damals war das Ziel allerdingseine computergestutzte Verarbeitung, die als Ziel lediglich den Druck vorsah. [Gab95]Auch mit neuen Technologien benutzen wir noch immer die vorherrschenden Muster des tradi-tionellen Buchdrucks. Ungeachtet dessen uben Aspekte eines neuen Textverstandnisses Einflussauf die vorherrschenden Strukturen aus. Die Integration von Kontext in den eigentlichen Text,Abgrenzung einzelner Textteile, einen dynamischen und Variablen Text zu erzeugen und dabeiSchriftbild von Text zu trennen. Da Klartext fur solch ein Unterfangen ungeeignet ist, haben sichzur Kodierung von digitalem Text Auszeichnungssprachen durchgesetzt. Mit diesen Sprachenwird implizite Information durch eine begrenzte Anzahl expliziter Bezeichner semistrukturiertdargestellt. Des Weiteren werden die Elemente (Bezeichner) hierarchisch angeordnet und sind(fast) beliebig erweiterbar. Die Datenstruktur kann mehrere Modelle reprasentieren, aus deneneins fur die konkrete Betrachtung gewahlt wird. Dabei konnen Redundanzen (z.B. im Vergleichzu relationalen Datenbanken) auftreten, allerdings bleibt die Lesbarkeit fur den Menschen ge-wahrt. [Sah13]

1.3. Uberblick

Das Ziel soll sein, einen Uberblick uber die Frage zu geben, wie wir von einem Faksimile zu einerdigitalen Reprasentation seiner Informationen gelangen, wahrend dabei geltende Konventionen(in Form der ’TEI Guidelines’) berucksichtigt werden. Dazu wird zuerst auf die einzelnen re-levanten Konzepte eingegangen, um davon ausgehend einen simplen Standard zu formulieren,welcher nicht von einer bestimmten Dokumentenart abhangt. Dabei werden die Komponenteneines Systems zur optischen Zeichenerkennung dargestellt und anschließend das Programm ’AB-BYY FineReader’ [Abb11] mit Dokumenten getestet. Darauf folgt eine Ubersicht der digitalen

1

Page 8: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Editionstechnik anhand von Projekten in diesem Bereich. Danach folgt ein Uberblick uber denAufbau und die Moglichkeiten von XML. Die Richtlinien der ’Text Encoding Initiative’, welchedaraufhin vorgestellt werden, bauen auf dem XML-Format auf.Die anschließende Erzeugung von TEI-5 konformen XML mittels PERL erfolgt in mehrerenSchritten. Zuerst wird ein TEI-5 konformer Dateikopf erzeugt. Danach wird der Text einerSatzenderkennung unterzogen, bevor er mit dem Kopf zusammengefugt wird. Zuletzt wird dieRealisierung von sich uberschneidenden Strukturen und Interoperabilitat in TEI-5 XML be-trachtet.

2

Page 9: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

2. Verwandte Arbeiten

Im Rahmen dieses Projektes gibt es eine Fulle an relevanten Organisationen und deren Arbei-ten bzw. Projekte. Die Aufgaben dieser liegen in der Erschließung und Verwertung (zuganglichmachen) von digitalen Transkripten fur Werke von wissenschaftlichem Interesse. Hierbei spieltvor allem eine semantische und standardisierte Auszeichnung der Texte - durch (semi-) automa-tische Verarbeitung - eine große Rolle.

Organisationen:

• ’Text Encoding Initiative’ (TEI )Konsortium

• ’Alliance of Digital Humanities Organizations’ (ADHO)

• ’The Association for Computers and the Humanities ’ (ACH)

Projekte:

• TEI Richtlinien

• Wittgenstein Source: Bergen Text Edition

• TUSTEP

• TextGrid

• Nietzsche Source

3

Page 10: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften
Page 11: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

3. Optische Zeichenerkennung

In diesem Kapitel soll geklart werden, welche Methoden in der optische Zeichenerkennung An-wendung finden, um von einem gedruckten Dokument, uber ein Faksimile, die digitale Re-prasentation des Textes zu erlangen. Dies wird auch anhand von Beispielen demonstriert underlautert, wie erfolgreich diese Verfahren sind.

3.1. Allgemeine optische Zeichenerkennung

3.1.1. Digitales Abbild und Erkennung

Die einzelnen Schritte konnen je nach Dokumententyp (und Anwendungsgebiet) angepasst wer-den und variieren damit in der Praxis. Somit werden andere Konditionen fur Dokumente mituneingeschranktem Layout vorausgesetzt, als fur solche mit fest definierten Strukturen (z.B. For-mulare). Allerdings musste demzufolge vorab eine Analyse bzw. Klassifikation der Dokumentestattfinden, bevor diese verarbeitet werden. [Sch06]

Im Folgendem wird die Funktionsweise von optischer Texterkennung anhand der Kapitel 1 und2 aus [HB97] beschrieben:

Bild-Akquisition

Der erste Schritt ist in den Besitz der digitalen Abbildung eines Textes zu gelangen. Dabeiwird grundsatzlich ein physikalisches Dokument in eine digitale Zahlenreprasentation uberfuhrt.Dabei werden drei Teilschritte unterschieden:

• Abtasten (Sampeling)

• Quantifizieren

• Kodieren

Abtasten

Zuerst wird ein Raster mit geeignet großer Auflosung gewahlt, welches die einzelnen Bildpunktedes Dokuments darstellt. Eine hohere Auflosung bietet zwar beim Endresultat eine großere De-tailtreue, allerdings eine zu hohe Auflosung kann z.B. Verschmutzungen sichtbar machen. Diesewiederum beeintrachtigen die spatere Quantifizierung und erschweren damit auch die Klassifika-tion. Außerdem nimmt die Datengroße unverhaltnismaßig zu, im Vergleich zur Gute der Informa-tionen, die dadurch gewonnen wird. Danach wird das analoge zweidimensionale Bild raumlichdurch adaquate Hardware (z.B. Scanner) abgetastet und die Helligkeitswerte der Punkte aufdem Raster ermittelt und erfasst.

Quantifizieren

Ziel der Quantifizierung ist es die Symbole vom Hintergrund abzuheben und somit eine eindeutigeZuordnung fur jedes Pixel zu erleichtern (ist er Teil vom Hintergrund oder Teil vom Text). Dazu

5

Page 12: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

werden die zuvor ermittelten Helligkeitswerte von kontinuierlichen in diskrete Werte umgewan-delt; meist in 2x Graustufen fur das ganzzahlige Intervall x ∈ [1, 8]. Wenn jedes Pixel nur zweidiskrete Werte annehmen kann, spricht man auch von einer Binarisierung oder Binardarstellung,da nur noch zwischen Schwarz und Weiß bzw. Schriftzeichen und Hintergrund, ohne Ubergange.Der Vorteil ist, dass durch die Einschrankung auf nur zwei Werte die anschließende Segmen-tierung und Erkennung erleichtert und außerdem der Speicherplatzbedarf reduziert wird. EineBinarisierung anstatt mehrerer Graustufen wird haufig verwendet und ist fur die meisten An-wendungen ausreichend, obwohl der absolute Informationsgehalt logischerweise abnimmt. Derrelative Informationsverlust sollte demnach so gering wie moglich gehalten werden. Dies machteine genauere Betrachtung im Einzelfall notwendig, ob unter den gegeben Umstanden eine feinereAbstufung sinnvoll ist, oder sogar mehrere sequenzielle Abstufungsprozesse vorteilhaft sind.

Kodieren

Gerade bei hoheren Auflosungen und vielen Graustufen sind die entstandenen Grafiken ent-sprechend groß. Um die Archivierung, Ubertragung und Bearbeitung zu vereinfachen, werdenKodierungen verwendet. Dabei wird zwischen verlustfreier und verlustbehafteter Kodierung un-terschieden. ’Run-length coding’, basierend auf der Tatsache, dass die betrachteten Symbolezusammenhangende Strukturen aufweisen und ’Huffman coding’, eine statistische Kodierung,sind zwei Beispiele fur verlustfreie Verfahren.

Bildtransformation

Bildtransformation wird auf die erzeugten Bilder angewendet um unerwunschte Effekte zu be-seitigen oder das Bildmaterial so nachzubearbeiten, dass die Ergebnisse in den nachfolgendenArbeitsschritten positiv beeinflusst werden. Dabei wird unterschieden zwischen:

• Geometrische Transformation bei Abbildverzerrung

– Verschiebung

– Rotation

– Neigung

– Dehnung

– Verzerrung

∗ Tonnenformige Verzerrung

∗ Kissenverzerrung

6

Page 13: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

• Filter

– Linearer Filter

– Rangordnungsfilter

– Morphologische Filter

∗ Dilatation

∗ Erosion

∗ Konturen Erkennung

∗ Median1

Segmentierung

Segmentierung beschreibt den Prozess ein Bild in verschiedene Areale zu unterteilen, in denensich einzelne und auch Gruppen von Symbolen befinden. Der Gedanke hierbei ist, dass es moglichist, einen Textteil zu ermitteln und ihn in Zeilen, Worter und danach in Zeichen, zu unterteilen.Hier seien vier verschiedene Algorithmen fur die Segmentierung genannt:

• Connected Component Labeling

• X-Y-Tree Decomposition

• Run-Length Smearing

• Hough Transform

Merkmalsextraktion

Merkmalsextraktion soll die darauf folgende Klassifikation erleichtern, indem Objekte schon inrudimentare Klassen unterteilt werden, wie z.B. Schrift, Grafiken und Rander. Die extrahier-ten Merkmale konnen auch Informationen uber die zu klassifizierenden Symbole enthalten, wiez.B. Formfaktor und Beschaffenheit (die “Signatur”) der Schriftzeichen. In vielen Fallen ist eineAnpassung an die spezifischen Eigenschaften des Dokuments notwendig, da die relevanten Merk-male so genau wie moglich beschrieben werden sollen, allerdings nur eine begrenzter Anzahl vonVariablen zur Verfugung steht. Beispiele fur verwendete Verfahren:

• Momenten-verfahren

• Transformationsverfahren

• Strukturelle Analyse

Symbol-Klassifikation

Ein Klassifikator nimmt eine abstrakte Beschreibung eines Symbols (Buchstabe, Ziffer, Satzzei-chen) und versucht die Zugehorigkeit dieses zu genau einer Klasse, aus einer endlichen Menge

1wurde eine Binarisierung vorgenommen wird der Median zu einem Mehrheitsfilter

7

Page 14: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

von Klassen zuzuweisen. Die Anzahl der Klassen ist durch den Umfang des Alphabets - alleSchriftzeichen einer Sprache - definiert. Dabei wird zwischen Regelbasierten und stochastischen,als auch uberwachten und unbeaufsichtigten Verfahren unterschieden. Hier seien nur ein paarder moglichen Klassifikationsverfahren genannt:

• Bayes-Klassifikator

• Nachste-Nachbarn-Klassifikator

• Hidden Markov Modelle

• Viterbi-Algorithmus

• Neuronale Netze

Neuronale Netze

Neuronale Netze sind eine Form kunstlicher Intelligenz und demzufolge in der Lage Informa-tionen (das Wissen) zu speichern, Informationen zu verarbeiten (das Wissen anzuwenden) undneue Informationen aufzunehmen (Neues zu erlernen). [Hay99]Grundsatzlich ist ein neuronales Netz dem menschlichen Gehirn nachempfunden und modelliertkunstliche Neuronen mit einem Schwellenwert und Netzen mit veranderbarer Gewichtung. Eskann eine oder mehrere Lagen besitzen. Durch das Lernen werden die Gewichtungen so langeerhoht oder verringert, bis die tatsachliche, der gewunschten Ausgabe entspricht.

3.1.2. Fehlerkorrektur

Hierbei findet zuerst eine Korrektur auf Zeichenebene statt, die in einem statistischen Verfahren,basierend auf linguistischen Kenntnissen der Sprache, die Wahrscheinlichkeit der Fehlerfreiheitermittelt und gegebenenfalls falsch klassifizierte Symbole berichtigt. Darauf folgt eine Fehlerkor-rektur auf Wortebene mit lexikalischen und statistischen Methoden. Es werden die Wahrschein-lichkeiten berechnet, dass bestimmte Zeichen hintereinander Vorkommen; Korrekturen werdenmit einem Lexikon abgeglichen. Kommt das Token nicht im Worterbuch vor, konnen Techniken,wie das Levenshtein-Abstandsmaß, verwendet werden, um das ahnlichste im Worterbuch vor-kommende zu bestimmen. Des Weiteren konnen N-Gram Wahrscheinlichkeiten des Auftretensbestimmter Wortfolgen benutzt werden, um eine Kontextanalyse zu ermoglichen.Dennoch kann es gerade bei Wortneuschopfungen und Komposita, wenn man sich auf Le-xika verlasst, zu einer falschen Interpretation fuhren. Somit werden richtig erkannte Wortefalschlicherweise als inkorrekt klassifiziert. Ebenso konnen fehlerhaft identifizierte Worte alskorrekt kategorisiert werden, wenn die “Fehlerkennung” auch im Lexikon vorhanden ist. Einemenschliche Korrektur kann in den meisten Fallen nicht vermieden werden.

3.1.3. Beeinflussende Faktoren

Alle Verfahren (insbesondere Segmentierung und Klassifikation) sind fehleranfallig und damitGegenstand aktueller Forschung und sollten unter keinen Umstanden als vollstandig gelostesProblem betrachtet werden. [Sch06]

8

Page 15: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Abgesehen von kleineren und großeren Unzulanglichkeiten der Algorithmen spielen tatsachlichdie Eigenschaften eines Dokumentes (bzw. die des Faksimiles) ebenfalls eine wichtige Rolle beider Qualitat der Digitalisierung.

Beschaffenheit der physikalischen Quelle

Die korrekte Erkennung von Zeichen wird verschlechtert durch bestimmte physikalische Merk-male des Originals, welche im Laufe der Zeit auftreten konnen:

• Knicke und Risse im Papier

• Verfarbungen (insbesondere Verblassen der Schrift)

• Schmutz

• Rauschen (z.B. durch schlechte Kopie)

Ungewohnliche Gestaltung kann das Ergebnis ebenfalls negativ beeinflussen:

• Zu kleine Schriftgroße des Textes

• Ungewohnliche Schriftsatze bzw. ungewohnliches Layout (z.B. Formulare)

• Handschriften

• Streichungen

Auflosung

Die gewahlte Detailgenauigkeit bei der Abtastung des Dokuments hat ebenso Einfluss auf dieGute des daraus resultierenden Faksimiles - gemessen wird dieser Wert ublicherweise in ’dotsper inch (dpi)’. Eine zu niedrige Auflosung fuhrt zum Verwischen einzelner Punkte, was bei derQuantifizierung und Segmentierung zu schlechteren Ergebnissen fuhrt und logischerweise dieKlassifikation erschwert. Gleiches gilt fur eine zu hoch gewahlte Auflosung, da in diesem Fall(feine) Strukturen des bedruckten Materials sichtbar werden konnen, welche keine Relevanz furdie Schrifterkennung haben.Es werden ublicherweise Auflosungen im Bereich von 150 bis 600 dpi - je nach Beschaffenheit undForm der Vorlage - verwendet. 300 dpi wird dabei oft als Standardwert fur ein durchschnittliches- mittels moderner Hardware digitalisiertes - Dokument empfohlen. [Abb11]

Handschrift

Handschrifterkennung (auch ’intelligent character recognition (ICR)’ genannt) funktioniert nurbedingt und setzt sowohl eine gezielte Anpassung der Erkennungsmuster, als auch Trainingfur den Verfasser der Handschrift voraus. Ergebnisse konnen verbessert werden, wenn einegleichmaßige und einheitliche die Schrift wird.Handschriftliche Streichungen, Ersetzungen und Einschube lassen sich grundsatzlich nicht oder

9

Page 16: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

nur sehr eingeschrankt erkennen. Eine menschliche Nachbearbeitung ist in diesem Fall relativaufwendig jedoch unvermeidbar. Siehe dazu auch Kapitel 3.2.Neuere Methoden basierend auf neuronalen Netzwerken konnen mit Hilfe von Trainingsdaten(bzw. der direkten Eingabe) und modifizierten Lernmethoden Handschriften erkennen. Die Er-folgsquote der korrekten Bildklassifikation liegt bei ca. 80% [CMGS11], kann sich allerdings jenach Aufgabe und Trainingsset stark unterscheiden [CMS12].

3.2. Texterkennung mit Abbyy FineReader

In diesem Kapitel wird eine kleine Auswahl untersucht, inwieweit zufriedenstellende Ergebnissebei verschieden strukturierten Dokumenten erreicht werden konnen.In diesem Rahmen wurde ABBYY FineReader 11 Professional Edition (Build 11.0.113.164) alsSoftware verwendet.

Betrachtete Dokumente

Zur Untersuchung wurden zwei verschiedene Dokumente herangezogen, welche sich in ihremAufbau unterscheiden.

Beispiel 1:

Eine relativ simple Seite eines Buches. [LL82]

(a) Original Dokument (b) Dokument nach der Segmentierung

Abbildung 3.1: OCR Beispiel 1

An diesem Beispieldokument kann man erkennen, dass die korrekte Segmentierung gelungenist. Dies geschah bei einer Auflosung von 150 dpi. Bei der anschließenden Texterkennung und

10

Page 17: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Fehlerkorrektur wurde ein gutes Ergebnis erzielt. Alle Worter wurden korrekt erkannt, obwohlvor der Korrektur teilweise eine Verschmelzung von "rn" zu "m" vorlag2.

Beispiel 2:

Eine Seite aus dem ’Big Typescript (TS-213)’ von Ludwig Wittgenstein. Diese Seite wurdegewahlt, da sie intensiv handschriftlich nachbearbeitet wurde.

(a) Original Dokument (b) Dokument nach der Segmentierung

Abbildung 3.2: OCR Beispiel 2

Es ist zu erkennen, dass bereits die korrekte Segmentierung misslungen ist, obwohl die Grund-struktur annahernd korrekt erkannt wurde. Die Algorithmen sind nicht in der Lage eine eindeu-tige Unterscheidung zwischen Text, handschriftlichen Notizen und Streichungen vorzunehmen.Eine Veranderung der Auflosung von 150 dpi zu 300 dpi hat keinerlei positive Auswirkung aufdas Ergebnis3.

Aus dem Vergleich zwischen Original und digitalem Text ergibt sich das Ergebnis in Tabelle3.1.

Anzahl gedruckt gestrichen handschriftlich

Worte im Original 225 47 65

Wort (-fragmente) durch OCR erkannt ca. 236 0

Tabelle 3.1: OCR Ergebnis von TS-213

2Siehe ohne Korrektur erzeugtes Textdokument im Anhang A3Das entstandene Textdokument, nach der Korrektur, ist im Anhang B zu finden

11

Page 18: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Die gedruckten Worte enthalten auch alle Modifikationen durch Streichungen (handschriftlichund maschinell), wobei auf diese Weise nur Teile eines Ausdrucks erhalten bleiben. Die Anzahlder durch das Programm erkannten Worte kann unterschiedlich aufgefasst werden. Einerseitssind viele korrekt erkannte Wortfragmente enthalten, welche unter Umstanden nicht als solchezu zahlen sind, da sie durch falsche oder falschlicherweise erkannte Symbole getrennt werden undsomit streng genommen keine gultigen Worter darstellen, andererseits werden durchgestricheneTeile - wenn auch nicht als solche - zum Teil erkannt. Dies macht eine automatische Nachbear-beitung in den meisten Fallen unrealisierbar. Handschriftliche Notizen und Einfugungen werdennicht erkannt.

Fazit

Es ist wichtig domanenspezifische Eigenschaften zu kennen und anhand dieser die Verwertbarkeitdes Dokuments durch Texterkennung abzuschatzen. Generell kann man sagen, dass ein Doku-ment schlechtere Ergebnisse erzielt je weiter es von einem standardisiertem Layout abweicht.Dies gilt insbesondere bei unregelmaßiger Unterteilung von Zeilen und Paragraphen, sowie derVerwendung von Handschrift. “Wohlgeformte” Dokumente hingegen liefern durchaus verwertba-re Ergebnisse, wodurch sich der Umfang der Nachkorrektur minimiert oder sogar ganz vermeidenlasst.

12

Page 19: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

4. Digitale Editionstechnik

Im folgenden Kapitel werden Projekte (und ein Konzept) vorgestellt, die zur Bearbeitung undVerwaltung umfangreicher Dokumente und Dokumentensammlungen bzw. derer Daten dienen.Insbesondere durch den Verlust der visuellen Ebene mussen Informationen fur kritische Ausga-ben in einer Art strukturiert werden, die sie fur den Computer prozessierbar und gleichzeitig furden Benutzter auf unterschiedliche Weise verfugbar machen.

4.1. OHCO

“Ordered Hierarchy of Content Objects (OHCO)” ist ein Modell, nach dem sich jeglicher Text ingeordnete Untereinheiten teilen lasst. Somit lasst sich ein Buch in Kapitel und diese wiederum inUnterkapitel zerlegen, welche sich in einer eindeutigen Reihenfolge befinden. Hierarchien durfenhierbei nicht verletzt werden. Ein Prinzip, welches sich in der Benutzung von XML (und fruherSGML) widerspiegelt.Allerdings hat sich gezeigt, dass mit dieser Interpretation von Text (und seiner Weiterentwick-lung) nicht alle in konkreten Texten vorkommende Strukturen - wie z.B. uberlappende Hierar-chien4 - korrekt und vollstandig erfasst werden konnen. [RMD93]

4.2. TUSTEP

Das Zentrum fur Datenverarbeitung der Universitat Tubingen entwickelt Textdaten-Verarbeit-ungsprogramme welche seit 1978 unter dem Namen “Tubinger System von Textverarbeitungs-programmen (TUSTEP)” bekannt sind. Der Fokus liegt dabei auf den Einzelschritten fur denwissenschaftlichen Umgang mit Textdaten - deren Erfassung, Analyse und Bearbeitung. [Tus14a]

TUSTEP wurde entworfen um die Voraussetzung zu schaffen mit wissenschaftlichen Texten undgroßen Datenmengen umgehen zu konnen. Es ist eine Sammlung von einzelnen Programmen,welche - passend zum betrachteten Problem - kombiniert werden, um das gewunschte Ergebniszu erreichen. Somit wird keine vorgefertigte Losung prasentiert, sondern Arbeitsmittel, um dieseselbst zu erarbeiten. Dabei kann die Ausgabe eines jeden Programms als Eingabe des Nachstenverwendet werden. Außerdem ist die Oberflache auf verschiedenen Betriebssystemen gleich, umeine einheitliche Arbeitsumgebung zu schaffen. Dies wird erreicht indem Funktionen, die nor-malerweise vom Betriebssystem gestellt werden, durch TUSTEP selbst implementiert werden.[Tus14b]

Nach [Tus14a] umfasst TUSTEP eine Reihe von Operationen:

• Vergleichen: Unterschiede zwischen Textfassungen ermitteln

• Korrigieren: Manuell oder durch spezielle Anweisungen

• Zerlegen: Text in Einheiten unterteilen (z.B. Tokenisierung)

• Sortieren: Anordnung nach eine Fulle von Kriterien

4siehe Kapitel 8.1

13

Page 20: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

• Register: Erstellt ein Register von sortierten Textteilen

• Bearbeiten: Ersetzen, Umstellen, Einfugen, Format-Transformation

4.3. TextGrid

TextGrid ist eine - seit 2006 vom Bundesministerium fur Bildung und Forschung geforderte- plattformunabhangige virtuelle Umgebung, welche diverse Arbeiten im Bereich der digitalenGeisteswissenschaften realisiert und erleichtert. Dazu zahlt das Erstellen und Editieren digitalerEditionen von Papier-basierten Medien mit spezifischen und erweiterbaren Werkzeugen, sowiedie nachhaltige Archivierung der erarbeiteten Daten. Außerdem wird ein Rechtemanagement ver-wendet, um das gemeinsame Arbeiten an Projekten zu vereinfachen. Dabei wird zwischen demlokalen Programm und dem Server unterschieden. Uber den Internet-basierten Service (’Repo-sitory’) konnen Text und Bild Dateien, sowie Datenbanken hochgeladen werden. Diese konnenanschließend verwaltet, durchsucht, veroffentlicht oder mit anderen Forschungsprojekten ver-knupft werden. Dabei wird der Anspruch erhoben, dass das publizierte Material (die digitalenEditionen) zitierfahig sein sollten. Als Format zur Archivierung wird hierbei XML (unter denTEI Richtlinien) benutzt. Es konnen auch satzfahige Dokumente aus den Daten erzeugt werden.[Tex14]Unter anderem findet ein sogenannter “Text-Bild-Link-Editor” Einsatz, der benutzt werdenkann, um Faksimile(s) mit den korrelierenden Textstellen zu verbinden. Diese Verknupfung kannauf einer grafischen Oberflache betrachtet und sofort bearbeitet werden.

4.4. AustESE Tools

AustESE ist ein Projekt das darauf abzielt, allgemein wiederverwendbare Werkzeuge fur dasErstellen elektronischer wissenschaftlicher Arbeiten durch Mitglieder, zu entwickeln. Fur dasErkennen und Kennzeichnen von Variationen eines Textes werden Werkzeuge aufbauend auf’nmerge’, ’CATT’, ’CorTex’ und ’CollateX’ verwendet. Es soll den Benutzern moglich sein An-merkungen hinzuzufugen, welche zur Suche und Wiederverwendung in einer externen Dateiausgelagert werden. Des weiteren sind Werkzeuge fur das Erstellen von standardisierten Datei-formaten fur die Publikation enthalten. Bei diesem Projekt steht ebenfalls die Verwendung einesonline ’repository’ im Vordergrund. [Aus12]

4.5. Wittgenstein Nachlass am Centrum fur Informations- und Sprachverarbeitung

Bei diesem Projekt wurde ein Vollformenlexikon und eine Suchmaschine fur das ’Big Typescript(TS-213)’ von Ludwig Wittgenstein entwickelt. Dazu wurde eine XML-Transkription des Werkesvon der Universitat Bergen verwendet, aus welcher zuerst eine HTML-Datei extrahiert und dieseanschließend in ein speziell entwickeltes ’CISWAB’ XML-Format - mit simpleren allerdings allenwichtigen Strukturen - uberfuhrt wurde. Das daraus erstellte Lexikon (’WiTTLex’) bedient dieSuchmaschine (’WiTTFind’), welche - mit Hilfe von Graphen und Automaten - eine differenzierteSuche ermoglicht. Somit konnen morphologische Variationen der Suchanfrage gefunden werden.Außerdem ist eine Suche nach Worten, Wortarten, Phrasen oder ganzen Satzen moglich. DasErgebnis der Anfrage wird mit dem korrespondierenden Faksimile angezeigt. [Had12]

14

Page 21: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

4.6. Digitale Monumenta Germaniae Historica

Die ’digitalen Monumenta Germaniae Historica (dMGH)’ sind eine Digitalisierung der Werkeder ’Monumenta Germaniae Historica (MHG)’, welche in Zusammenarbeit mit der BayerischenStaatsbibliothek erstellt wurden. Neuerscheinungen werden stetig, nach einer Schutzfrist hinzu-gefugt. Zusatzlich wird ein Benutzeroberflache5 fur die Volltextsuche im Gesamtbestand bereit-gestellt. [Mgh14a]Außerdem befinden sich Programmierschnittstellen fur online Anfragen in Entwicklung. [Mgh14b]

5siehe http://www.dmgh.de/

15

Page 22: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften
Page 23: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

5. Die Auszeichnungssprache XML

Es wurden und werden diverse Formate zur Auszeichnung verwendet, wie SGML, HTML,XHTML und XML. Die neuesten Richtlinien der TEI sehen eine Nutzung von ’Extensible Mark-up Language (XML)’ vor. Im Folgenden sollen die fur diese Arbeit relevanten Eigenschaften vonXML betrachtet und ein Uberblick geschaffen werden, wie man die Sprache fur eine Darstellungvon Dokumenten nutzen und verarbeiten kann.

Einsatz

Die XML-Sprache dient der fur Menschen lesbaren Darstellung und semantischen Kodierungvon hierarchisch strukturierten Daten und wird von vielen Anwendungen zum Austausch voneben solchen uber das Internet genutzt.Sie ist plattformunabhangig, prazise definierbar und aufgrund der Moglichkeit semantische Klas-sen zur Unterteilung und Formatierung Text-basierter Daten zu verwenden auch medienneutral,da die konkrete Darstellung von den verwendeten Geraten abhangt und nicht von vornhereinfestgelegt ist.Dennoch ist es so, dass jede Notation eines Textes eine Interpretation zu einem gewissen Gradevoraussetzt. [Gan00] Deshalb wird hier versucht, eine Interpretation der Einzelteile so geringwie moglich zu halten. Dies wirkt sich auch auf die Auswahl der moglichen Elemente der TEI-5Richtlinien (Kapitel 6) aus.

5.1. Aufbau

In XML werden Elemente verwendet um Einheiten von Informationen in einer Baumstrukturzu reprasentieren und ihnen konnen Attribute zugewiesen werden. Elemente konnen wiederumweitere Elemente enthalten. Entitaten konnen, zwischen die sogenannten ’Tags’, in ein Ele-ment eingefugt werden. Um Wohlgeformtes XML zu erhalten, mussen innere Elemente vor ihrenElternelementen geschlossen werden; außerdem darf es nur eine Wurzel in dieser Struktur geben.

1 <?xml version=” 1 .0 ” encoding=”UTF−8”?>2 <dokument>3 <sa t z>4 <wort a t t r i b u t=” a r t i k e l ”>Ein</wort>5 <wort a t t r i b u t=” a d j e k t i v ”>kurzer</wort>6 <wort a t t r i b u t=”nomen”>Satz</wort>7 </ sa t z>8 </dokument>

Listing 5.1: XML Beispiel

Damit ist XML den Mustern der gedruckten naturlichen Sprache in gewisser Weise ahnlich:Dokumente beinhalten Kapitel, Kapitel bestehen aus Satzen, Satze beinhalten Worte.

17

Page 24: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

5.2. Validierung

Abgesehen von der Wohlgeformtheit lasst sich XML Syntax formal eindeutig definieren, wasdie automatische Uberprufung auf formale Richtigkeit ermoglicht. Dies bezieht sich ausschließ-lich auf die Auswahl und Schachtelung der Elemente und Attribute. Bei XML geschieht diesublicherweise durch Dokumenttypdefinitionen (DTD) oder seltener durch XML Schemata (XSD)[Pag14]. Fur die Uberprufung konnen ubliche XML Editoren verwendet werden. Im spateren Ver-lauf wird diese Aufgabe von dem Programm “XML Copy Editor”6 ubernommen, welcher sowohlein vorgefertigtes TEI-5 Schema bereitstellt, als auch lokale DTDs verarbeiten kann [XCE].

5.3. Transformation

Unter Umstanden sollen Strukturinformationen uber ein Dokument beibehalten und nicht nureine schlichte Wiedergabe des Textes dargestellt werden. Meist wird diese Informationen in Formeiner XML-Datei (zusammen mit den Metadaten) ausgegeben. Daher ist moglicherweise eineTransformation von nicht TEI-5 konformen XML in eine Darstellung, welche diesen Standardunterstutzt, notig.

Extraktion von Daten aus XML

Es soll eine Transformation durch die Extraktion von Informationen und den Neuaufbau diesererfolgen. Es wird angenommen, dass die Datei wie der Kode Ausschnitt 5.1 in 5.1 aufgebaut ist.Das Ziel soll sein, die einzelnen Worte zu extrahieren, die Unterteilung in Satze beizubehalten,allerdings die Namen des Wurzelelements und der Satzelemente neu zu definieren. Fur die Ex-traktion von Daten aus XML wird in diesem Rahmen das PERL-Modul ’XML::Twig’ [Cpa14a]benutzt.Das dafur entwickelte PERL Script nimmt zwei Argumente in der Kommandozeile entgegen. AlsErstes muss die XML Datei spezifiziert werden, aus der Informationen extrahiert werden sollen,als Zweites die Ziel-Datei (wenn diese nicht existiert, wird sie kreiert). Fur die Eingabedateiwird kein ’Dateihandle’ benotigt, da ’XML::Twig’ dieses selbst erstellt und verwaltet.

1 my $ inputF i l e = $ARGV[ 0 ] ;2 my $outputFi l e = $ARGV[ 1 ] ;3 open(XMLSTRIPPED, ”>>:u t f 8 ” , $outputF i l e ) or die ”Konnte Datei n i cht o

f f n en : $ ! ” ;4 $twig−>p a r s e f i l e ( $ inputF i l e ) ;

Listing 5.2: Parse XML.perl - Dateien spezifizieren

Durch die sogenannten ’twig handlers’ kann das Verhalten des Parsers definiert werden, wennbestimmte Elemente gefunden werden. Außerdem erlaubt dieses Vorgehen große Dateien zubearbeiten, ohne das ganze Dokument in den Speicher laden zu mussen. In diesem Fall wird eineSubroutine ausgelost, wenn das Element <satz> gefunden wird.

6http://xml-copy-editor.sourceforge.net/

18

Page 25: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

1 my $twig = XML: : Twig−>new(2 tw ig hand l e r s => { sa t z => \&worte sammeln , } ,3 ) ;

Listing 5.3: Beispiel fur ’twig handlers’

Dabei wird das Element - mit allen enthaltenen Elementen - an die Subroutine ubergeben. Diesegreift nun auf alle Unter-Elemente zu und fugt sie in ein Array. Dieses wird durchlaufen um denInhalt aus den Elementen zu extrahieren und ihn daraufhin in ein neues Element <s>, welches<satz> ersetzt, einzufugen. Zuletzt wird der bereits bearbeitete Teil aus dem Speicher entfernt.

1 sub worte sammeln {2 my( $t , $ sa tz )= @ ;3 my @woerter = $satz−>c h i l d r e n ( ”wort” ) ;4 print XMLSTRIPPED ”<s>” ;5 foreach ( @woerter ) {6 my $temp = $ −>t ex t ;7 print XMLSTRIPPED ”$temp ” ;8 }9 print XMLSTRIPPED ”</s>\n” ;

10 $t−>f l u s h ;11 }

Listing 5.4: Parse XML - Wort Extraktion

Das Wurzelelement wird geandert indem der so Erzeugte Block manuell zwischen die <body>

Bezeichner eingefugt wird.

Ergebnis

Dabei entsteht ein neu strukturiertes Dokument aus dem Kode Beispiel aus 5.1, welches wiefolgt aussieht:

1 <body>2 <s>Ein kurzer Satz </s>3 </body>

Listing 5.5: Parse XML - Ergebnisdatei

19

Page 26: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften
Page 27: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

6. Text Encoding Initiative

Dieses Kapitel stellt die ’Text Encoding Initiative (TEI)’ vor und erlautert ihre Zielsetzung,sowie Vorgehensweise zur Kodierung von Text in Form der aktuellen Richtlinie. Hierbei wirdeine Teilmenge der moglichen XML Bezeichner in TEI-5 definiert.

6.1. Geschichte

Basierend auf [Tei14a]:

1987 wurde die TEI gegrundet mit dem Ziel, Hard- und Software unabhangige Herangehens-weisen zu entwickeln, die es erlauben geisteswissenschaftliche Dokumente in elektronische Formzu uberfuhren. Dies war notig, da fast kein entwickeltes System zur Archivierung mit Anderenkompatibel war.Drei Jahre spater wurde der erste Entwurf der Richtlinien (’P1’) herausgegeben.1994 wurde die erste offizielle Version der Richtlinien (’P3’)7 veroffentlicht. Der Leitfaden wurdevon einer Reihe von Institutionen angenommen, sowie durch konstruktive Kritik erweitert undverbessert.Zwischen 1999 - 2001 wurde das TEI Konsortium als gemeinnutzige Organisation geschaffen,mit dem Ziel wissenschaftliche und wirtschaftliche Unabhangigkeit zu gewahrleisten.2002 wurde die Auszeichnungssprache XML in die ’P3’ Richtlinien eingearbeitet. Daraus resul-tierte eine neue Version ’P4’.2007 wurde die neuste und aktuelle Richtlinie vorgestellt: ’P5’ - eine grundliche Uberarbeitungder veralteten Version, bei der die Wunsche und Bedurfnisse der Offentlichkeit mit eingeflossensind.

6.2. Aktuelle Richtlinien und Umsetzung

Da die TEI Richtlinien fur eine breite Auswahl von Dokumenten spezifiziert ist (und Erweite-rungen zulasst), kann nur ein Ausschnitt aus dem gesamten Spektrum der verfugbaren Elemente(derzeit uber 500 Tags) in diesem Rahmen dargestellt werden. Die Auswahl muss aufgrund derInformationen gewahlt werden, welche dargestellt werden sollen.Die aktuellen Richtlinien [Tei14c] spezifizieren ein gultiges TEI-5 Dokument in XML folgender-maßen:

Das Wurzelelement des gesamten Dokuments ist entweder <TEI>, das genau einen Kopfteilmit Informationen uber das Dokument und einen Textkorper beinhaltet, oder <teiCorpus>,der ebenfalls einen Kopfteil besitzt, allerdings mehrere (beliebig viele, mindestens eins) <TEI>

Elemente (abermals mit eigenen Kopfen) aufweist.

Hier sei ein Beispiel fur einen <teiCorpus> mit genau zwei <TEI> Elementen gegeben:

7Die Version ’P2’ bestand aus kleinen inkrementellen Teilen zwischen 1990 und 1993

21

Page 28: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

1 <te iCorpus>2 <te iHeader>3 < !−− Korpus K o p f t e i l −−>4 </ te iHeader>5 <TEI>6 <te iHeader>7 < !−− TEI K o p f t e i l −−>8 </ te iHeader>9 <t ex t> < !−− Ein Text −−> </ text>

10 </TEI>11 <TEI>12 <te iHeader>13 < !−− Ein anderer TEI K o p f t e i l −−>14 </ te iHeader>15 <t ex t> < !−− Ein anderer Text −−> </ text>16 </TEI>17 </ te iCorpus>

Listing 6.6: Beispiel eines ’teiCorpus’

Wie man sieht, konnen verschiedenen Texte (z.B. Sammlungen) in einer Datei gespeichertwerden, oder nur ein bestimmtes Dokument, indem man <TEI> als Wurzelelement wahlt. Alsnachstes wird der Inhalt des <teiHeader> betrachtet.

Der Kopfteil (Header)

Der <teiHeader> beinhaltet mindestens das <fileDesc> Element, welches wiederum zumindest<titleStmt>, <publicationStmt> und <sourceDesc> enthalt. Diese drei obligatorischen Ele-mente in <fileDesc> mussen abermals wenigstens ein Element beinhalten, in der die eigentlicheInformation enthalten ist. [Tei14d]

22

Page 29: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Der minimalste Kopf wurde demzufolge wie folgt aussehen:

1 <te iHeader>2 < f i l e D e s c>3 <t i t l e S t m t>4 < t i t l e>5 < !−− T i t e l des Werkes −−>6 </ t i t l e>7 </ t i t l e S t m t>8 <publ i cat ionStmt>9 <p>In format ionen zum Vert r i eb</p>

10 </ publ i cat ionStmt>11 <sourceDesc>12 <p>In format ionen uber das Or i g i na l ( gg f . ’ born d i g i t a l ’ )</p>13 </ sourceDesc>14 </ f i l e D e s c>15 </ te iHeader>

Listing 6.7: Minmaler teiHeader

Das <publicationStmt> Element enthalt alle Informationen uber den Verlag, Ort, Veroffentlich-ungsdatum und Verfugbarkeit. <sourceDesc> enthalt alle Daten uber die Originalvorlage derDigitalisierung. Handelt es sich um ein Edition, welche digital entstanden ist, wird hier diePhrase ‘born digital’ verwendet [Tei14d]. Die einzelnen Bezeichner konnen auch feiner unterteiltwerden, hier wurde das Element <p> gewahlt; es reprasentiert einen Paragraphen, der die notigenBeschreibungen enthalt.

Der Textteil (Body)

Der Textteil muss durch das Tag <text> eingeleitet und geschlossen werden. Der eigentlicheText8 wird in das Element <body> eingefugt. [Tei14c]

Dieser kann (und sollte) weiter unterteilt werden. Im Rahmen dieser Arbeit sind folgende Struk-turen relevant:

• <div> unterteilt den Text in Einheiten und kann <p> und <ab> enthalten

• <ab> beschreibt einen anonymen Abschnitt - eine beliebige Unterteilung des Textes

• <s> dient der Unterteilung in Satze und ist in jeder der hier genannten Strukturen verfugbar

Paragraphen sind zweckdienlich, wenn man die Struktur einzelner Abschnitte erhalten mochte,wie z.B. Zeilenumbruche und damit verbundene Trennzeichen. Der <ab> Block kommt einerReprasentation von Teilen mit unbekannter Funktion am nachsten, da bei <div> eher eine Un-terteilung in logische Einheiten (Abschnitte, Kapitel, Unterpunkte) vorgesehen ist. Beide konnen

8Fur Titelei und Anhang gibt es eigene Elemente.

23

Page 30: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Attribute enthalten, wie z.B. einen Verweis auf das Faksimile (bzw. Koordinaten), von dem derTeil des Textes stammt, um eine Verknupfung zu erreichen. Dabei sollte die konkrete Struktu-rierung einem bestimmten Zweck dienen und daran angepasst werden.

Somit konnte ein simpler TEI-5 konformer Textblock wie folgt aussehen:

1 <t ex t>2 <body>3 <div type=” Faks imi l e ” n=” Bi ld 001 ”>4 <ab>5 <s> < !−− Ers ter Satz −−> </ s>6 <s> < !−− Zwei ter Satz −−> </ s>7 </ab>8 </ div>9 <div type=” Faks imi l e ” n=” Bi ld 002 ”>

10 <ab>11 <s> < !−− Noch ein Satz −−> </ s>12 </ab>13 </ div>14 </body>15 </ text>

Listing 6.8: Minmalistischer teiBody

Sollen die Seiten zu einem Teil des gesamten Textes zusammengefasst werden (in diesem Fallnach Kapiteln), ware eine mogliche Struktur:

1 <t ex t>2 <body>3 <div type=” Kapi te l ” n=”1”>4 <div type=” Faks imi l e ” n=” Bi ld 001 ”>5 <ab>6 < !−− T e x t t e i l −−>7 </ab>8 </ div>9 <div type=” Faks imi l e ” n=” Bi ld 002 ”>

10 <ab>11 < !−− T e x t t e i l −−>12 </ab>13 </ div>14 </ div>15 </body>16 </ text>

Listing 6.9: Unterteilter teiBody

24

Page 31: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Hierbei ist anzumerken, dass eine sehr feine Gliederung mit <div> moglich ist, da es sich selbstals Element beinhalten kann. Im Rahmen dieser Arbeit wird der Textkorper in Seiten (<div>),Absatze in Form von abstrakten Blocken (<ab>) und Satze (<s>) aufgeteilt. Dies ist eine Allge-meine Aufteilung, die darauf abzielt dem Material moglichst keiner Interpretation zu unterzie-hen. Außerdem soll mit einer vergleichbar kleinen Menge von Elementen eine moglichst einfacheVerwendung in verschiedenen Anwendung ermoglicht werden.Es ist allerdings fragwurdig, ob das Ziel einer interpretationslosen Verarbeitung, sowohl in derTheorie als auch Praxis, vollstandig realisierbar ist, da gerade einer digitalisierten Version immerein physikalisches Werk vorausgeht, welches nur durch Interpretation der Intention des Autorsumsetzbar ist. [Sah13]

25

Page 32: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften
Page 33: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

7. Semi-automatischen Erstellung von TEI-5 XML

In diesem Kapitel wird beschrieben, wie mit Hilfe von Satzenderkennung und geeigneten PERLProgrammen aus einem Klartext eine TEI-5 konforme XML Datei erzeugt werden kann. DieInformationen im <teiheader> werden manuell eingegeben, der Textkorper wird hauptsachlichautomatisch erzeugt.

7.1. Erzeugung des TEI-5 Kopfes

Zuerst soll der <teiheader> erstellt werden.

7.1.1. Ausgangssituation

Der Umfang der Textauszeichnung hangt sehr stark von der Art des Dokuments und dem Zweckbzw. des Ziels der weiteren Verwendung ab. Trotz der Fulle an Tags und Attributen gibt esfaktisch keine Vorgehensweise um alle beliebigen Dokumente zu bearbeiten. [Tei14b]Aus diesem Grund werden fur die nachfolgenden Beschreibungen und in Kapitel 7.2 Blindtexteverwendet, da sie keinen nennenswerten komplizierten semantischen Inhalt und einem simplenAufbau aufweisen. Sie kommen außerdem als Ersatz fur konkrete digitalisierte Texte zum Ein-satz, da sie fehlerfrei sind (unter der Annahme, dass vorherige Texterkennung ein perfektesErgebnis produziert hat) und einfach in beliebiger Große erstellt werden konnen.

Verwendete PERL Module

Module, die zur Losung der Aufgabe verwendet wurden:

XML::Writer

’XML::Writer’ dient der automatischen formatierten Ausgabe von XML Elementen und einerubersichtlichen Lesbarkeit im Programmcode. Das Modul wird objektorientiert verwendet underwartet ebenfalls einen Ausgabestrom als Argument. Des Weiteren kann ’XML::Writer’ diesyntaktische Korrektheit verifizieren, wahrend die XML-Datei erzeugt wird. [Cpa14b]

IO::File

Dieses Modul wird dazu verwendet, um objektorientiert auf Datenstrome zuzugreifen. [Cpa14c]Die Verwendung ist beschrankt auf die Kombination mit ’XML::Writer’, da dieser ein Objektals Aufrufargument erwartet. Dies betrifft nur die Ausgabe; fur die Eingabe wird der StandardPERL Befehl ’open(2)’ (bzw. ’open(3)’) verwendet.

7.1.2. Konzeptioneller Dateikopf

Bevor der ’TEI-header’ kreiert werden kann, muss festgelegt werden, welche Informationen inihm enthalten sein sollen. Dies wird durch den Umfang des Projekts, im Bezug auf die Anzahlund Rolle der beteiligten Personen, sowie der Menge und Art des Materials beeinflusst. Der indiesem Rahmen entwickelte Kopf soll zumindest die Informationen enthalten, die notig sind um

27

Page 34: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

die Literatur und den Ersteller der digitalen Version eindeutig zu identifizieren. Des Weiterensoll es moglich sein, eine Notiz hinzuzufugen und eine Angabe zur zeitlichen Entstehung desTextes zu machen. Der Umfang der Auszeichnung wird aus dem minimalen Kode Beispiel 6.7aus Kapitel 6.2 ubernommen und erweitert.

Erweiterungselemente:

• <author>: Der Author des Werkes

• <respStmt>: Abschnitt uber die Zustandigkeiten der beteiligten Personen

– <resp>: Aufgabe des Mitarbeiters

– <name>: Name des Mitarbeiters

• <notesStmt>: Abschnitt fur Notizen und Anmerkungen

– <note>: Zusatzliche Informationen

• <profileDesc>: Beschreibung des Textprofils

– <creation>: Datum an dem der Text entstand

∗ <date>: Datumsangabe

Diese Elemente sind optional und entsprechen den TEI-5 Richtlinien. [Tei14d] <author> und<respStmt> sind dabei direkte Unterelemente von <titleStmt>, welches ein Geschwister-Elementvon <notesStmt> ist. <profileDesc> befindet sich auf der gleichen Ebene wie <fileDesc>.

7.1.3. Erstellen des Dateikopfes

Benutzereingabe der Daten

Zu aller erst werden die oben und in Kapitel 6.2 beschriebenen Informationen benotigt. Da-zu wird eine Reihe von Subroutinen nach dem Start des Programms aufgerufen, welche denBenutzter zur Eingabe uber die Kommandozeile (<STDIN>) auffordern. Sollte die Menge dergewunschten Informationen zunehmen, kann durch das Hinzufugen von weiteren Subroutineneine umfangreichere Benutzereingabe verlangt werden.

1 my ( $ t i t l e , $author , $name , $pubStmt , $note , $sourceDesc , $date ) ;2 my @authors = ( ) ;3 my ( $makeNote , $moreAuthors ) = (0 , 1) ;4 $ t i t l e = g e t T i t l e ( ) ;5 $author = getAuthor ( ) ;6 while ( $moreAuthors ) {7 addAuthor ( ) ; }8 $name = getName ( ) ;9 $pubStmt = getPubStmt ( ) ;

10 $makeNote = makeNote ( ) ;

28

Page 35: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

11 i f ( $makeNote ) {12 $note = getNote ( ) ; }13 $sourceDesc = getSourceDesc ( ) ;14 $date = getDate ( ) ;

Listing 7.10: Create TeiHeader.perl Subroutinen

An den Titel sollte nach Moglichkeit ein Affix, wie z.B. “- eine maschinenlesbare Umschrift”angefugt werden, wenn es sich um die Digitalisierung eines gedruckten Werkes handelt, um eineUnterscheidung zu gewahrleisten. [Tei14d] Bei der Subroutine ‘getAuthor()’ wird der Benutzergefragt, ob der Autor unbekannt ist. Sollte dies der Fall sein, wird der String “unknown” furden Autor substituiert. Außerdem ist es moglich weitere Autoren hinzuzufugen, was uber eineAbfrage geschieht. ‘$moreAuthors’ dient dabei als Kontroll-Variable (initialisiert mit ‘1’ bzw.‘true’) und kann durch ‘addAuthor()’ manipuliert werden. Alle zusatzlichen Autoren werden ineinem Array gespeichert, durch das spater iteriert wird.

1 sub addAuthor {2 my $ z e i l e ;3 ADDAUTHOR:4 print ” Weiteren Autor h inzu f ugen ? y/n ( Eingabe mit ENTER beenden ) \

n” ;5 chomp( $ z e i l e = <STDIN>) ;6 i f ( $ z e i l e eq ”y” ) {7 print ” Bi t t e geben S i e den Namen e i n e s we i t e ren Autors e in (

Eingabe mit ENTER beenden ) :\n” ;8 chomp( $ z e i l e = <STDIN>) ;9 push( @authors , $ z e i l e ) ;

10 }11 e l s i f ( $ z e i l e eq ”n” ) {12 $moreAuthors = 0 ;13 }14 else {15 print ”Ungu l t i g e Eingabe !\n” ;16 goto ADDAUTHOR;17 }18 }

Listing 7.11: addAuthor Subroutine

Nach einem ahnlichen Muster wird mit ‘makeNote()’ nachgefragt, ob eine zusatzliche Notizhinzugefugt werden soll. Gegebenenfalls wird daraufhin ‘getNote()’ aufgerufen, welches die An-merkung einliest. Die so gespeicherten Variablenbelegungen werden spater benutzt, um die ent-sprechenden Elemente damit zu fullen.Die restlichen Subroutinen dienen dem Einlesen einer Zeile mit entsprechenden Informationen.

29

Page 36: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

XML::Writer initialisieren

Es wird Gebrauch von den Einstellungsmoglichkeiten des XML::Writer Moduls gemacht. Dieersten zwei Parameter, die bei der Initialisierung ubergeben werden bestimmen, wohin die Aus-gabe geschrieben und welche Kodierung benutzt wird. Wenn ‘DATAMODE’ ‘wahr’ ist, wirddie Ausgabe formatiert, um eine moglichst lesbare Datei zu erzeugen. Die Option ‘UNSAFE’unterbindet die automatische Uberprufung zum Schluss, da das Element <TEI> noch geoffnetbleiben muss, bis das gesamte Dokument zusammengefugt wurde.

1 use XML: : Writer ;2 use IO : : F i l e ;3 my $output = IO : : F i l e−>new( ”teiHeaderTemp . xml” , ”w” ) ;4 my $wr i t e r = XML: : Writer−>new(OUTPUT => $output , ENCODING => ” utf−8” ,

DATA MODE => 1 , UNSAFE => 1) ;

Listing 7.12: XML::Writer Einstellungen

XML::Writer Syntax

XML::Writer wird hauptsachlich von drei Befehlen gesteuert:

• $writer->startTag("Name", "Attribut" => "Beliebig") um einen Startbezeichner ei-nes Elements mit dem Attribut “Beliebig” zu erstellen.

• $writer->characters("String") um das zuvor geoffnete Element zu befullen.

• $writer->endTag("Name") um das Element abzuschließen

So erzeugt das Programmfragment:

1 $wr i ter−>startTag ( ” t i t l e S t m t ” ) ;2 $wr i ter−>startTag ( ” t i t l e ” , ”n” => ”1” ) ;3 $wr i ter−>c h a r a c t e r s ( B e i s p i e l ) ;4 $wr i ter−>endTag ( ” t i t l e ” ) ;5 $wr i ter−>endTag ( ” t i t l e S t m t ” ) ;

Listing 7.13: XML::Writer Syntax

Einen Teil des ‘TEI-headers’ in der Ausgabe:

1 <t i t l e S t m t>2 < t i t l e n=”1”>B e i s p i e l</ t i t l e>3 </ t i t l e S t m t>

Listing 7.14: XML::Writer Ausgabe

30

Page 37: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Mit diesen Regeln wird durch das Programm eine korrekte Schachtelung nach TEI-5 vorgenom-men. Wenn ein Element erstellt wird, wird es zugleich mit den zuvor abgefragten Benutzerein-gaben befullt.

Zwischenergebnis

Das Ergebnis ist ein TEI-5 konformer Teil9 (der ‘TEI-Header’) mit allen wichtigen bibliographi-schen Informationen, welcher ohne den eigentlichen Text kein komplettes nach TEI-5 struktu-riertes Dokument - allerdings den ersten Schritt dazu - darstellt.

7.2. Erzeugung des TEI-5 Textkorpers

In diesem Kapitel wird der Text zuerst vorverarbeitet, um Satzenden zu erkennen und zu mar-kieren. Anschließend wird erklart, wie der daraus entstandene Text in einen TEI-5 konformenBlock eingeschlossen und in Satze und Paragraphen unterteilt werden kann.

7.2.1. Vorbereitung durch Satzenderkennung

Hierbei kommt ein am “Centrum fur Informations- und Sprachverarbeitung” der Ludwig-Maximilians-Universitat entwickelter Satzenderkenner [CIS14] zum Einsatz. Dieser parst den Text und fugtnach einem erkannten Satzende das Element {eos} in den Text ein, gefolgt von einem Zeile-numbruch. Bereits vorhandene Zeilenumbruche im Original belieben erhalten.

Zuerst soll getestet werden, ob und welche Satzenden korrekt erkannt werden.

Korrekte Erkennung

In folgenden Satzen wurde das Satzende korrekt erkannt (dem erkannten Satzende ist noch einweiterer Satz nachgestellt):

• Ein Satz mit einem Punkt am Ende. Noch ein Satz.

• Eine elliptische Satzkonstruktion am Satzende ... Wird erkannt.

• Ebenfalls eine Konstruktion mit zwei Punkten am Ende.. Wird erkannt.

• Alle Ausrufe! Eine einfache Ubung.

• Ebenfalls Fragen? Auch diese werden erkannt.

• Er sagte: “So ist es!”

Inkorrekte Erkennung

Datumsangaben am Satzende werden nicht korrekt erkannt:

• Heute ist der 01.01.2014. Ein besonderer Tag.

9siehe Anhang C

31

Page 38: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Nicht ausgeschriebene Ordinalzahlen bereiten ebenfalls Probleme:

• Das sind mehr als 28. Kein gutes Ergebnis.

Manche Worte werden anscheinend falschlicherweise als Abkurzungen betrachtet, obwohl einWort mit Großbuchstaben folgt, welches normalerweise kleingeschrieben wird:

• Das ist so. Keiner kann etwas anderes Behaupten.

Generell werden Satzenden, denen eine Abkurzung und damit ein kontrahierter Punkt vor-ausgeht [Dud13], meist nicht korrekt erkannt. Dabei ist es unbedeutend, ob sich Leerzeichenzwischen den Zeichen der Abkurzung befinden:

• Ich lebe in den U.S.A. Europa besuche ich manchmal.

In diesem Fall besonders schwierig zu Erkennen, das nachfolgende Wort immer groß geschrie-ben wird. Aber auch normalerweise klein geschriebene Worte nach dem Satzende werden nichtkorrekt verarbeitet:

• Ich lebe in den U.S.A. Manchmal besuche ich Europa.

7.2.2. Erstellen des TEI-5 Textkorpers

Konzeptionelle Planung

Nachdem der Text mit Informationen uber Satzenden angereichert wurde, muss die grundlegendeAnordnung der Elemente festgelegt werden. Dabei wird die Struktur aus Kode Beispiel 7.1 inKapitel 6.2 verwendet. Ein abstrakter Block entspricht einem einzigen Paragraphen und sollanhand doppelter Zeilenumbruche identifiziert werden. Außerdem soll es moglich sein, mehrereTextdateien zu verarbeiten, um eine Reihe von Blocken zu den korrespondierenden Faksimiles zubilden. Somit soll die Struktur nur einmal geoffnet werden, und der Reihe nach alle benotigtenBlocke eingefugt werden, bevor das gesamte Dokument geschlossen wird. Zum erstellen derinneren Elemente wird ’XML::Writer’ eingesetzt.

Programm zur Erstellung

Das Programm erwartet zwei Eingabeargumente: Das erste Argument gibt an, von welcher Dateigelesen wird. Diese muss den Text mit annotierten Satzenden enthalten. Das zweite Argumentspezifiziert, in welche Datei geschrieben wird (nur Anfugen); diese muss den bereits erstell-ten ‘TEI-Header’ beinhalten. Anschließend wird wahrend des Programmablaufs nachgefragt, obmehrere Texte aus mehreren Faksimiles zusammengefugt werden sollen und es konnen beliebigviele Dateien - jedoch nur eine auf einmal - eingegeben werden, in welchen sich weiterer Textbefindet.

32

Page 39: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

1 my $nextPage = 1 ;2 while ( $nextPage ) {3 print ” Weiteren Text h inzu f ugen ? y/n ( Eingabe mit ENTER beenden ) :

” ;4 my $ z e i l e ;5 GETANSWER:6 chomp( $ z e i l e = <STDIN>) ;7 i f ( $ z e i l e eq ”y” ) {8 print ” Datei angeben ( Eingabe mit ENTER beenden ) :\n” ;9 chomp(my $date i = <STDIN>) ;

10 $ inputF i l e = $date i ;11 c r ea t e ab ( ) ;12 }13 e l s i f ( $ z e i l e eq ”n” ) {14 $nextPage = 0 ;15 }16 else {17 print ”Ungu l t i g e Eingabe !\n” ;18 goto GETANSWER;19 }20 }

Listing 7.15: Add TeiBody.perl Schleife fur mehrere Textdokumente

Zuerst werden die einleitenden Elemente eingefugt (<text> und <body>). Daraufhin wird die furden Zusammenbau der Textstruktur verantwortliche Subroutine (create ab()) aufgerufen. Diesenimmt einen Dateinamen und offnet die zugehorige Datei. Außerdem wird ein Attribut mit demNamen der Datei erstellt und dient der Identifizierung des korrespondierenden Faksimiles bzw.der Datei, die den digitalisierten Text beinhaltet, was durch das zweite Attribut kenntlich ge-macht wird. Dies entspricht einer Aufteilung nach Seiten, wenn davon ausgegangen wird, dassein Faksimile genau eine Seite eines Dokuments enthalt.

1 open(TEXT, ”<” , ” $ inputF i l e ” ) or die ”Couldn ’ t open f i l e : $ ! ” ;2 my $absatz = 0 ;3 $wr i ter−>startTag ( ”ab” , ” type ” => ” Faks imi l e ” , ”n” => ” $ inputF i l e ” ) ;

Listing 7.16: Add TeiBody.perl - creat ab Subroutine

Als Nachstes folgt die zeilenweise Analyse des Textes, um Satze und Absatze zu ermitteln unddiese korrekt ineinander zu schachteln. Solange noch Zeilen im Text vorhanden sind, wird mit-tels eines regularen Ausdrucks nach den {eos} Bezeichnern am Zeilenende gesucht. Indem dieFormatierung des Satzenderkenners genutzt wird, konnen alle Zeichen nach dem Beginn desBezeichners verworfen werden, da darauf immer ein Zeilenumbruch folgt. Die Zeichen vor demBezeichner sind ein ganzer Satz und werden als solcher in den entsprechenden Block eingefugt.Findet sich kein Treffer in einer Zeile, handelt es sich um den Beginn eines neuen Absatzes und

33

Page 40: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

wird gleichermaßen von dem dafur vorgesehenen Bezeichner <ab> umschlossen.

1 while (my $ l i n e = <TEXT>) {2 i f ( $ l i n e =˜ /ˆ ? ( . ∗ ? ) { eos }/) {3 i f ( $absatz ) {4 $wr i ter−>endTag ( ”ab” ) ;5 $wr i ter−>startTag ( ”ab” ) ;6 $wr i ter−>startTag ( ” s ” ) ;7 $wr i ter−>c h a r a c t e r s ( $1 ) ;8 $wr i ter−>endTag ( ” s ” ) ;9 $absatz = 0 ;

10 }11 else {12 $wr i ter−>startTag ( ” s ” ) ;13 $wr i ter−>c h a r a c t e r s ( $1 ) ;14 $wr i ter−>endTag ( ” s ” ) ;15 }16 }17 else {18 $absatz = 1 ;19 }20 }

Listing 7.17: Add TeiBody.perl - creat ab Subroutine

Nachdem alle Iterationen der Subroutine abgeschlossen sind und die Eingabe durch den Benut-zer beendet wurde, werden alle noch geoffneten Bezeichner geschlossen und damit ein komplettesXML-Dokument erzeugt. Abschließend wird der Textteil von dem Modul XML::Writer die syn-taktische Korrektheit gepruft.

7.2.3. Ergebnis

Testlauf

Zum Testen wurden drei unterschiedliche Blindtexte10 benutzt um daraus eine XML-Datei zuproduzieren. Anschließend wurde das entstandene Dokument mit der TEI-DTD [Tei14e] und ei-ner modifizierten Version der DTD11 fur das ’Big Typescript (TS-213)’ von Ludwig Wittgensteindes ’CISWAB’12 uberpruft und validiert.

10siehe Anhang D11siehe Anhang E12Zusammenarbeit des “Centrums fur Informations- und Sprachverarbeitung” und der “Wittgenstein Archives”

an der Universitat Bergen im Bereich des Nachlasses von Ludwig Wittgenstein (siehe http://www.cis.uni-muenchen.de/forschung/ehumanities/research-group-co/index.html)

34

Page 41: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Fazit

Die XML-Datei ist zu den TEI-5 Richtlinien konform und formal Korrekt. Es handelt sich hierbeium eine generische Losung, deren Formatierung und Struktur allgemein gehalten ist, was sichnicht zuletzt in der Anzahl der verwendeten Elemente niederschlagt. Durch das Einfugen neuerElemente und Subroutinen kann das Programm erweitert werden, um spezifische Bedurfnissezu erfullen. Durch die Verwendung von Blindtexten (im Gegensatz zu reellen Werken mit allihren Eigenschaften) haben sich im Verlauf gewisse Probleme, welche in Kapitel 8.1 genauerbesprochen werden, noch nicht gezeigt. Damit sind die entwickelten Programme ohne Modifika-tion nur fur Texte brauchbar, welche ein ahnliches Aussehen wie die hier verwendeten Beispieleaufweisen.

35

Page 42: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften
Page 43: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

8. Probleme mit Editionen im TEI-5 XML-Format

In diesem Kapitel soll die Problematik von Strukturen erlautert werden, welche nicht hierarchischgeordnet werden konnen und zu welchen Konsequenzen dies bei der Verwendung von XML fuhrt.Außerdem wird auf die - in der Praxis - unzureichende Interoperabilitat der TEI-5 Auszeichnungeingegangen.

8.1. Uberlappende Hierarchien

Problematik

Uberlappende Strukturen in der Auszeichnung (auch “concurrent markup hierarchies”) sind, imBezug auf XML, bestimmte Muster, dies es nicht erlauben ubergeordnete Elemente vor ihrenKinderelementen zu schließen. Dies verletzt die hierarchische Schachtelung der Bezeichner undwurde zu einem nicht wohlgeformten XML-Dokument fuhren.Im Folgenden sei ein Beispiel gegeben, welches anhand einer Unterteilung in Seiten (<div>),Satzen (<s>) und direkter Rede (<q>) diese Problematik verdeutlicht.

1 <div type=”page” n=”1”>2 <s> < !−− Ein Satz −−>3 <q> < !−− Direk te Rede −−>4 </ div>5 <div type=”page” n=”2”>6 < !−− F o r t g e s e t z t e d i r e k t e Rede −−> </q>7 </ s>8 <s> < !−− Noch ein Satz −−> </ s>9 </ div>

Listing 8.18: Nicht wohlgeformtes XML

Eine direkte Rede, die uber die Grenze einer Seite hinausgeht, lasst sich auf diese Weise nichtabbilden. Die Hierarchien von logischer (direkte Rede) und physikalischer Struktur (Seiten)uberlappen und lassen sich nicht konsistent in einem Dokument darstellen. Eine vergleichbareProblematik findet sich oft bei manuskriptartigen Dokumenten, in denen viele Streichungen undEinfugungen in beliebiger Kombination vorhanden sind. Ahnliche Uberschneidungen sind auchbei Variationen zu beobachten.

Ansatze

Es gibt diverse Versuche, dieses Problem zu losen. Dabei gibt es Ansatze, die XML basiertsind als auch XML fremde Strukturen13. Hier werden XML und TEI-5 konforme Verfahren aus[Nas10] betrachtet:

13z.B. GODDADG, CONCUR, MACS

37

Page 44: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

• Multiple Dokumente

Bei dieser Methode werden mehrere Dokumente mit einer jeweils in sich einheitlichenhierarchischen Ordnung der Elemente erzeugt. Diese (oder Teile dieser) werden bei Bedarfverglichen und angezeigt. Somit entspricht jede Variation (und Edition) einem eigenenDokument mit einer einzigartigen Struktur, welche uberschneidungsfrei ist.

Der offensichtliche Nachteil dieses Ansatzes ist, dass durch die Redundanz der Speicherbe-darf fur die Dokumente zunimmt, insbesondere wenn viele sich widersprechende (uberlappende)Hierarchien kodiert werden sollen.

• Meilensteine

Es werden leere Elemente (z.B. <pagebreak/>) eingefugt, welche sozusagen die End- undAnfangsbezeichners einer anderen impliziten Hierarchie darstellen. Die Problematik wirdinsoweit umgangen indem die Elemente, die sich mit anderen uberschneiden, als Markie-rungen benutzt werden. Bei diesen wiederum ist der Geltungsbereich und damit ihr Inhaltfestlegen, sie sind selbst allerdings leer.

Dass die logische Baumstruktur dabei zerstort wird, ist ein Nachteil von Meilensteinen. Esmuss eine primare Hierarchie gewahlt werden, die in gewisser Weise wichtiger ist als eineandere und die sekundare Hierarchie vermischt sich mit den Daten, da eine Rekonstruktionvirtuell erfolgen muss.

• Fragmentierte Auszeichnung

Ein Element wird als Elternelement gewahlt. Alle Elemente, die mit der Hierarchie des El-ternelements in Konflikt stehen, werden aufgeteilt und mit speziellen Attributen versehen(z.B. “prev” oder “next”). Dies erlaubt eine Zuordnung oder Anordnung. Somit werdenElemente aufgeteilt und konnen bei Bedarf zusammengefugt werden. Beispiel 8.18 wurdefolglich so aussehen:

1 <div type=”page” n=”1”>2 <s> < !−− Ein Satz −−>3 <q id=”1” next=”2”> < !−− Direk te Rede −−> </q>4 </ div>5 <div type=”page” n=”2”>6 <q id=”2” prev=”1”> < !−− F o r t g e s e t z t e d i r e k t e Rede −−> </q>7 </ s>8 <s> < !−− Noch ein Satz −−> </ s>9 </ div>

Listing 8.19: Fragmentiertes XML

Auch hier stellt sich die Problematik, dass die logische Baumstruktur verletzt wird undeine Hierarchie der anderen gegenuber bevorzugt werden muss.

38

Page 45: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Alle drei Ansatze sind problembehaftet und es liegt ihnen eine gewisse Komplexitat zugrunde,was eine Wiederverwertbarkeit (durch fehlende Kompatibilitat) verhindert und damit den Nut-zen fur die wissenschaftliche Gemeinschaft mindert. [Schm12]

Abgesehen von der gesamten Große der Daten bei multiplen Dokumenten bestehen Proble-me beim Vergleich von verschiedenen Versionen, welche unterschiedlich aufgebaut sind. WerdenTeile der Struktur extrahiert erhalt man nicht zweifelsfrei wohlgeformtes XML, allerdings sol-len moglicherweise Informationen aus dem Ausgangsformat ubernommen werden. Ein Vergleichvon zwei unterschiedlichen Auszeichnungen ohne Extraktion gestaltet sich ahnlich kompliziert.Auch das Entfernen aller Bezeichner aus einem ausgezeichneten Text ist alles andere als trivial,insbesondere bei Variationen (welche nach TEI auf diverse Arten kodiert werden konnen), beidenen Auswahl, Ersetzungen und Streichungen vorhanden sind. Werden alle Bezeichner entfernt,entsteht ein ungeordnetes Aneinanderreihen dieser Teile. Als Folge ist der einzige Ausweg einemanuelle und zeitaufwandige Bearbeitung. [Schm12]

Meilensteine eignen sich um zwei verschiedene Hierarchien (wie in Beispiel 8.18 - logische undphysische Ebene) darzustellen, jedoch lassen sich Variationen, mit Uberschneidungen auf mehre-ren logischen Ebenen und ohne eine Verknupfung (wie bei der Fragmentierung) nicht ausreichenddarstellen.

Die Fragmentierung ist durchaus mit weitreichenden Problemen behaftet. Eine Verifizierungund Bearbeitung der Daten in XML wird - je nach Verwendung bzw. Umfang - erschwert oderist sogar unmoglich14, eine Verknupfung zwischen Fragmenten kann eine zyklische Form anneh-men und es gibt keine einheitliche Form diese zu realisieren. [Schm12]

’Stand-off’ Auszeichnung

Eine weitere Art um der Problematik mit Uberschneidungen zu begegnen, ist die so genannte’Stand-off’ Auszeichnung (ebenfalls von TEI unterstutzt), bei der ein Quelldokument (mit weni-ger oder keiner XML-Auszeichnung) benutzt wird, um mit Verweisen auf dessen Teile ein neuesannotiertes Dokument zu erstellen. Dabei wird ’XInclude’ (welches auf dem ’XPointer frame-work’ aufbaut) verwendet, um die entsprechende Adressierung der Elemente zu gewahrleisten.Die komplikationsfreie Verwendung ist allerdings nur unter der Bedingung garantiert, dass dieQuelldatei keine XML-Bezeichner enthalt und somit keine Uberlappung zwischen Quell- undAuszeichnungsdatei entstehen kann. [Tei14f]Somit konnten auch die Informationen des <teiHeader> Elements dynamisch aus einer Daten-bank erzeugt werden, welche Informationen uber die Quelldatei und die Menge der verschiedenenAuszeichnungen enthalt.

8.2. Interoperabilitat

Durch eine Vielzahl an Projekten nimmt der Bestand von Dokumenten im Bereich der digita-len Geisteswissenschaften zu. Zusatzlich zu den vorher beschriebenen Nachteilen stellt sich die

14Das Problem der Verknupfung bei Varianten wird mit dem “Problem des Handlungsreisenden” verglichen

39

Page 46: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Problematik, dass die Auszeichnung in XML eingebettet ist und somit das Werk nicht direktverarbeitet werden kann. Durch die Anzahl der Bezeichner und durch die Moglichkeit identischeStrukturen auf unterschiedliche Weise in den TEI-5 Richtlinien zu kodieren, ist eine Einheitlich-keit der Daten bei verschiedenen komplexen Projekten nicht gegeben. Es wird eine stattdesseneine sehr individuelle Interpretation erzeugt, beruhend auf den Gegebenheiten und Anspruchendes Fachgebietes. [Schm12]

Ein ahnliches System wie in 8.1, wird in [Schm12] vorgeschlagen, indem eine Quelldatei nur ausKlartext besteht und mehrere externe und distinktive Auszeichnungssets (nicht zwingenderma-ßen in XML) verwendet werden, um komplette Trennung von Inhalt und Struktur zu erreichen.Es wird auch eine Verwendung von ’nmerge’ diskutiert, ein Programm, das multiple Versioneneines Dokuments erstellen und verwalten kann. Hierbei findet ein Vergleich der Versionen aufByte-Ebene statt. Dies soll die meist komplizierte und subjektive Erstellung von Variationenerleichtern.

40

Page 47: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

9. Zusammenfassung und Ausblick

Im Verlauf dieser Arbeit wurden Methodik und konkrete Programme dargestellt, um Faksimilein TEI-5 konformes XML zu transformieren. Die Methoden sind bereits bei der Texterkennungfehlerbehaftet bzw. unzureichend, wenngleich fur viele Dokumente mit simplem Aufbau aus-reichende Ergebnisse erzielt werden konnen. Bei der Kodierung der Dokumente wurde XMLverwendet und den TEI-5 Richtlinien gefolgt. Die verwendeten Programme zu Erzeugung vonXML sind einfach aufgebaut und erwarten einfache Strukturen, was nicht die Komplexitat vie-ler Dokumente widerspiegelt. Sobald komplexere Strukturen reprasentiert werden sollen gelangtman schnell an eine Grenze dessen, was mit XML und den TEI-5 Richtlinien unkompliziertkodierbar ist. Es muss sich zeigen ob Projekte, die den TEI-5 Standard nur teilweise oder garnicht verfolgen bessere oder schlechtere Ergebnisse erzielen. Dabei ist es nicht immer moglichalle Eigenheiten objektiv abzuschatzen, dennoch sollten gerade Eigenschaften wie die einfacheAnwendung und Wiederverwendbarkeit maßgeblich sein. Hierbei sollte vor allem ein Austauschzwischen verschiedenen Fachbereichen betrachtet werden, um eine langfristige Nutzung durchInteroperabilitat zu gewahrleisten.

41

Page 48: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

A. Zwischenergebnis der OCR (Beispiel 1)

Effects of Text Illustrations: A Review of Research

W. Howard Levie Richard Lentz

W. Hoivard Levie is professor of instructional Systems technology, School of

Education, Indiana University, and Richard Lentz is a graduate Student in that

de-partment. Requests for reprints should be sent to W. Hoivard Levie,

Audio-Visual Center, Indiana University, Bloomington, IN 47405.

Can illustrations aid leaming of text material? These authors review the

results of 55 experiments comparing leaming from illustrated text with leaming

from text alone. They go on to look at research in closely related fields

(involving, for example, nonrepresentational pictures, graphic organizers,

leamer-produced drawings) and conclude by offering guidelines for practice.

This review has three major sections. First, we summarize the results of 55

experiments comparing learning from illustrated text with leaming from text

alone. In this section we deal only with the effects of normal

rep-resentational pictures on the leaming of in-formation that appears in the

written text material. Second, to place that body of research in a broader

context, we present short summaries of some closely related areas of research.

These areas deal with other types of imaginal aids in learning text

(nonrepresentational pictures, learner-produced drawings, and mental imagery)

and with other kinds of prose leaming situ-ations (learning from oral prose

and leaming how to read). This allows us to make comparisons, for example,

between reading prose with and without pictures and listen-ing to prose with

and without pictures. Third, we take a functional approach to the effects of

text illustrations and present some research bearing on how illustrations might

function to promote leaming.

This is not a methodological review. AI-though we have been careful to

eliminate from consideration any study we feel is clearly invalid because of

methodological flaws, any piece of research can be faulted in some respect, and

we do not dwell on such issues. Our primary goal is to offer generali-zations

that may be relevant to practice and to further research.

LEARNING FROM ILLUSTRATED TEXT VS. TEXT ALONE

ECTJ, VOL. 30. NO. 4. PAGES 195-232 ISSN 0148-5806

Illustrations in instructional text can have a variety of effects. For example,

they may add to reader interest and enjoyment. They

42

Page 49: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

B. Endergebnis der OCR (Beispiel 2)

verstehe ich ihn. Ich wusste, wie man diesen Satz etwa gebrauchen konnte ,

ich konnte selbst einen Zusammenhang fur ihn erfinden. Und doch verstehe

ich ihn nicht s o , wie ich ihn verstunde, wenn ich-dae--due-h^bis zu

dieser Stelle gelesen hatte. (Vergleiche Snrachspiele.)|+

Was heisst es, ein gemaltes Bild zu verstehen? Auch da gibt es Ver- V ^z4e.

Ce-^ j

standnis und Niohtverstehen. Und auch hier kann "ilerstehen" und "flicht

15:-# 4 i a :><r " \:

verstehen" verschiedenerlei heissen. - Wir konnen uns ein Btl’d"

ilmik-en, ’ ri&e eine Anordnung von Segen standen im _dr^timieea$ea23Z£5

Raum dar#�*

-vrrd|7. |-(ye-ct ‘*5 Z 5~’ A f/j |dci < *5 ’

einen Teil des Bildes 4unfahig,

rW’5-cux^’O*

^Sflur’aber wir sind fti ’•*•*’*•7-\--s |/ -

zu _sehen; sondern sehehv^nur die gemalte Bildflache. Wir konnen dann sagen,

jsiiar verstehe^i _dies_e Teile des Bildes nicht

^xhyaili^he^Segenstande-die|darge stellt

ft*9n�Au<lu auf _v^XL-^rpr^T

auohJJ.orrae-rr Hsuh dem Bild dargestellt sein, die wir noch nie gesehen

haben. Und da gibt esjvlcdfr’den Fall, wo etwas f/z.3.) wie ein Vogel aus- ^

’sieht, nur nicht wie einer, dessen Art ich kenne; oder aber>_-wtr ein

raum- ^ liches Gebilde edargest eilt ls< dergleichen ich nodlf nie gesehen

habe.

-Auch in - die s en Fallen|kann man v-on- eln-em-N-ieht-v erst

ah�n-des|B-Hrdea -re den,

.aber in oinom-andoron-Sinne-als-ua-e-rsten-Fall-

n- Angenommen, das Bild stellte**� Menschen dar,-wa-re^ ^

-jvxtfr-

^aber__kl^rrr, und die Menschen darauf,-"etwa einen- Zoll lang. Angenommen

nun,

es gabe Menschen,die diese Lange hatten, so wurden wir sie in dem

Bild erkennen und es wurde uns nun einen ganz andem Eindruck machen,

ob-(Cc-xx <2L.C.CUX-, . cCcx.4 -C A-C- b A,

wohl doch die Illusion der dreidimensionalen Gegenstande ganz dieselbe

-A. A £~;

ware. Und doch ist der tatsachliche // dieser__tatsachliche // Eindruck,

wie er da ist, unabhangig davon, dass ich einmal Menschen in der

gewohnlichen Grosse, und nie Zwerge, gesehen habe,, wenn a_uch MgA

^eß,-^££.ache LCu^A tl ’ck-iL. 4 cCc<< *<} <4 ’L <L.�\tit/ 4-xU

-c-x-t-c* tt.L cL-t-c-U,

\J ’’Zer * | |- -

43

Page 50: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

C. Ergebnis der Erzeugung des TEI-5 Kopfes

1 <TEI>2 <te iHeader>3 < f i l e D e s c>4 <t i t l e S t m t>5 < t i t l e>Vom Faks imi l e zum TEI−5 konformen XML−Dokument: Handbuch und

Programme</ t i t l e>6 <author>Benjamin Leak</ author>7 <respStmt>8 <re sp>compiled by</ resp>9 <name>Benjamin Leak</name>

10 </ respStmt>11 </ t i t l e S t m t>12 <publ i cat ionStmt>13 <p>In format ionen uber den Ver t r i eb ( born d i g i t a l )</p>14 </ publ i cat ionStmt>15 <noteStmt>16 <note>E r s t e l l t im Rahmen der Bache l o ra rbe i t ’Vom Faks imi l e zum TEI−5

konformen XML−Dokument: Handbuch und Programme ’ an der Ludwig−Maximil ians−U n i v e r s i t a t Munchen 2014</ note>

17 </noteStmt>18 <sourceDesc>19 <p>In format ionen zur o r i g i n a l Vorlage</p>20 </ sourceDesc>21 </ f i l e D e s c>22 <p r o f i l e D e s c>23 <c r e a t i o n>24 <date>2014</ date>25 </ c r e a t i o n>26 </ p r o f i l e D e s c>27 </ te iHeader>

Listing C.20: Erzeugter teiHeader

44

Page 51: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

D. Blindtexte

1 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diamnonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

23 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }4 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }5 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

67 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }8 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }9 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

1011 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }12 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }

Listing D.21: Lorem ipsum 1

1 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diamnonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

2 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }3 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }4 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

56 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }7 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }89 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

45

Page 52: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

10 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }1112 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }

Listing D.22: Lorem ipsum 2

1 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diamnonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

23 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }45 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }67 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

89 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }

10 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsumdo lo r s i t amet .{ eos }

11 Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diamnonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .{ eos }

12 At vero eos et accusam et j u s t o duo d o l o r e s et ea rebum .{ eos }13 Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .{ eos }

Listing D.23: Lorem ipsum 3

46

Page 53: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

E. Modifizierte CISWAB DTD

1 < !ELEMENT TEI ( te iHeader , t ex t )>23 < !ELEMENT te iHeader ( f i l e D e s c , p r o f i l e D e s c ?)>45 < !ELEMENT f i l e D e s c ( t i t l e S t m t ? , t i t l e ? , author ? , e d i t o r ? ,

publ i cat ionStmt ? , noteStmt ? , sourceDesc ?)>67 < !ELEMENT t i t l e S t m t ( t i t l e , author , respStmt )>8 < !ELEMENT respStmt ( resp , name) ∗>9 < !ELEMENT noteStmt ( note )>

1011 < !ELEMENT publ i cat ionStmt ( date | p)>1213 < !ELEMENT t i t l e (#PCDATA)>14 < !ELEMENT author (#PCDATA)>15 < !ELEMENT e d i t o r ( persName , orgName )>16 < !ELEMENT persName (#PCDATA)>17 < !ELEMENT orgName (#PCDATA)>18 < !ELEMENT re sp (#PCDATA)>19 < !ELEMENT name (#PCDATA)>2021 < !ELEMENT sourceDesc (#PCDATA | p) ∗>2223 < !ELEMENT p r o f i l e D e s c ( c r e a t i o n )>24 < !ELEMENT c r e a t i o n ( date )>25 < !ELEMENT date (#PCDATA)>2627 < !ELEMENT p (#PCDATA)>28 < !ELEMENT note (#PCDATA)>29 < !ELEMENT t ex t ( ( div | ab | pb) ∗ | body )>30 < !ELEMENT body ( div+)>31 < !ELEMENT s (#PCDATA)>32 < !ELEMENT div ( head ? , ( div | ab ) ∗)>33 < !ELEMENT ab (#PCDATA| s a t z | a l t e r n a t i v e | a l t | pb | s ) ∗>34 < !ELEMENT sa t z (#PCDATA| lb | pb | notat ion | a l t e r n a t i v e ) ∗>35 < !ELEMENT lb (#PCDATA)>36 < !ELEMENT pb (#PCDATA)>37 < !ELEMENT head (#PCDATA)>38 < !ELEMENT a l t e r n a t i v e ( a l t e r n a t i v e | a l t ) ∗>39 < !ELEMENT a l t (#PCDATA| notat ion | sa t z | lb | pb | a l t e r n a t i v e | a l t ) ∗>40 < !ELEMENT notat ion (#PCDATA| lb | pb | a l t e r n a t i v e | a l t | notat ion ) ∗>

47

Page 54: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

41 < !ATTLIST div42 type CDATA #IMPLIED43 n CDATA #IMPLIED>44 < !ATTLIST pb n CDATA ”0”>45 < !−− < !ATTLIST ab46 n CDATA ”0”47 abnr CDATA #REQUIRED> −−>48 < !ATTLIST lb rend ( hyphen | abs | div ) ” div ”>49 < !ATTLIST sa t z50 n CDATA ”0”51 f CDATA ”0”52 abnr CDATA ”0”53 sa t znr CDATA #REQUIRED>54 < !ATTLIST orgName r e f CDATA ”0”>55 < ! [IGNORE[ <!ATTLIST a l t type ( de l | hand | type | over . type | over . hand |

other ) ” type ”>56 ]]>57 < !ATTLIST a l t type CDATA #IMPLIED>58 < !ATTLIST p n CDATA ”0”>

Listing E.24: Modifizierte CISWAB DTD

48

Page 55: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

F. Ergebnis der XML Erzeugung (Korper)

1 <t ex t>2 <body>3 <div type=” Facs imi l e ” n=”Lorem ipsum 1 . txt ”>4 <ab>5 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

6 </ab>7 <ab>8 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>9 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>10 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

11 </ab>12 <ab>13 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>14 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>15 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

16 </ab>17 <ab>18 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>19 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>20 </ab>21 </ div>22 <div type=” Facs imi l e ” n=”Lorem ipsum 2 . txt ”>23 <ab>24 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

25 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>26 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>27 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

49

Page 56: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

28 </ab>29 <ab>30 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>31 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>32 </ab>33 <ab>34 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

35 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>36 </ab>37 <ab>38 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>39 </ab>40 </ div>41 <div type=” Facs imi l e ” n=”Lorem ipsum 3 . txt ”>42 <ab>43 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

44 </ab>45 <ab>46 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>47 </ab>48 <ab>49 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>50 </ab>51 <ab>52 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

53 </ab>54 <ab>55 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>56 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>57 <s>Lorem ipsum do lo r s i t amet , con s e t e tu r s a d i p s c i n g e l i t r , sed diam

nonumy eirmod tempor inv idunt ut l abore et do l o r e magna aliquyamerat , sed diam voluptua .</ s>

50

Page 57: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

58 <s>At vero eos et accusam et j u s t o duo d o l o r e s e t ea rebum .</ s>59 <s>Stet c l i t a kasd gubergren , no sea takimata sanctus e s t Lorem ipsum

do lo r s i t amet .</ s>60 </ab>61 </ div>62 </body>63 </ text>64 </TEI>

Listing F.25: Textkorper (Body)

51

Page 58: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

G. Inhaltsverzeichnis der beigelegten CD

Arbeit im Originalformat:

Die Arbeit im LATEX und PDF-Format mit allen verwendeten Bildern und Kode-Fragmentennach Kapitel sortiert.

DTD:

Die ’Document Type Definition’ Dateien, welche zur Validierung verwendet wurden.

Erstellte PERL Programme:

Die im Rahmen der Arbeit erstellten PERL Programme zur Erstellung von TEI-5 XML.

Quellen:

Alle verwendeten Quellen in PDF oder als Webseite.

Verwendete Software:

In der Arbeit verwendete Software (außer das proprietare ABBYY FineReader 11).

52

Page 59: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Literatur

[Abb11] Abbyy FineReader. Version 11 User’s Guide. 27.04.2014. http://www.abbyy.com/

fr11guide_en.pdf.

[Aus12] University of Queensland. AustESE Project Overview. 21.05.2014. http://www.itee.uq.edu.au/eresearch/projects/austese.

[CIS14] Ludwig-Maximilians-Universitat: Centrum fur Informations- und Sprachverarbeitung.Satzendeerkennung (eos Version 3). 29.04.2014. http://demomax.cis.uni-muenchen.de/home_demos/eosv3/index.html.

[CMGS11] Dan Claudiu Ciresan, Ueli Meier, Luca Maria Gambardella, Jurgen Schmidhu-ber. Convolutional Neural Network Committees For Handwritten Character Classification.27.04.2014. http://www.idsia.ch/~juergen/icdar2011a.pdf.

[CMS12] Dan Claudiu Ciresan, Ueli Meier, Jurgen Schmidhuber. Multi-column Deep NeuralNetworks for Image Classification. 27.04.2014. http://www.idsia.ch/~juergen/cvpr2012.pdf.

[Cpa14a] CPAN. XML::Twig by Michel Rodriguez. 01.05.2014. http://search.cpan.org/

dist/XML-Twig/Twig.pm.

[Cpa14b] CPAN. XML::Writer by Joseph Walton. 04.04.2014. http://search.cpan.org/

dist/XML-Writer/Writer.pm.

[Cpa14c] CPAN. IO::File by Jarkko Hietaniemi. 04.04.2014. http://search.cpan.org/~jhi/perl-5.8.0/ext/IO/lib/IO/File.pm.

[DH14] centerNet - international network of digital humanities centers. About. 03.05.2014. http://digitalhumanities.org/centernet/about/.

[Dud13] Duden. Abkurzungen. 06.05.2014. http://www.duden.de/sprachwissen/

rechtschreibregeln/abkuerzungen.

[Gab95] Hans Walter Gabler. Computergestutztes Edieren und Computer-Edition.21.05.2014. https://www.academia.edu/1786351/_Computergestutztes_Edieren_

und_Computer-Edition._.

[Gan00] Jerome McGann. Rethinking Textuality. 21.04.2014. http://www2.iath.virginia.

edu/jjm2f/old/jj2000aweb.html.

[Had12] Max Hadersbeck, Alois Pichler, Florian Fink, Patrick Seebauer, Olga Strutynska.New (Re)search Possibilities for Wittgenstein’s Nachlass . 21.05.2014. http://www.cis.

uni-muenchen.de/publikationenvor2013/conference_journal/12wittgenstein.html.

[Hay99] Simon Haykin. Neural Networks: A Comprehensive Foundation, second edition.Prentice-Hall, 1999.

53

Page 60: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

[HB97] T.M. Ha and H. Bunke. Image processing methods for document image analysis. In: H.Bunke, P.S.P. Wang. Handbook of character recognition and document image analysis. WorldScientific, 1997.

[LL82] W. Howard Levie, Richard Lentz. Effects of Text Illustrations: A Review of Research.In: Educational Communication and Technology Journal, 1982: Vol. 30, k.A., S. 198.

[Mgh14a] Monumenta Germaniae Historica. Die digitalen Monumenta Germaniae Historica(dMGH). 22.05.2014. http://www.mgh.de/dmgh/.

[Mgh14b] Monumenta Germaniae Historica. dMGH-Services. 22.05.2014. http://www.mgh.de/dmgh/services/.

[Nas10] Mohamadou Nassourou. Markup Overlap: Improving Fragmentation Method.15.05.2014. http://www2.iath.virginia.edu/jjm2f/old/jj2000aweb.html.

[Pag14] Pagina GmbH. SGML-Konstruktionen in der XML-Vorstufe. 15.04.2014.http://www.pagina-online.de/xml-hintergruende/pagina-das-kompendium/

themenkomplex-ii-xml/sgml-als-xml-erweiterung-in-redaktion-herstellung-und-satz/

sgml-konstruktionen-in-der-xml-vorstufe/.

[RMD93] Allen Renear, Elli Mylonas, David Durand. Refining our Notion of What Text ReallyIs: The Problem of Overlapping Hierarchies. 15.05.2014. http://cds.library.brown.edu/resources/stg/monographs/ohco.html.

[Sah13] Patrik Sahle. Digitale Editionsformen. Zum Umgang mit der Uberlieferung unter denBedingungen des Medienwandels. Teil 3: Textbegriffe und Recodierung. 15.04.2014. http:

//kups.ub.uni-koeln.de/5013/1/DigEditionen_3_online.pdf.

[Schm12] Desmond Schmidt. The Role of Markup in the Digital Humanities. 20.05.2014 http:

//www.cceh.uni-koeln.de/files/Schmidt_final.pdf.

[Sch06] Klaus U. Schulz. Nachkorrektur von Ergebnissen einer optischen Charakterer-kennung. 14.04.2014 http://www.cis.uni-muenchen.de/people/kristof/DIGHIST2010/

ocrSkript.pdf.

[Tei14a] Text Encoding Initiative. TEI: History. 21.04.2014. http://www.tei-c.org/About/history.xml.

[Tei14b] Eileen Gifford Fenton and Hoyt N. Duggan. Electronic Textual Editing: Effective Me-thods of Producing Machine-Readable Text from Manuscript and Print Sources. 21.04.2014.http://www.tei-c.org/About/Archive_new/ETE/Preview/duggan.xml

[Tei14c] Text Encoding Initiative. Default Text Structure. 21.04.2014. http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DS.html.

[Tei14d] Text Encoding Initiative. The TEI Header. 21.04.2014. http://www.tei-c.org/

release/doc/tei-p5-doc/en/html/HD.html.

54

Page 61: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

[Tei14e] Text Encoding Initiative. Index. 20.05.2014. http://www.tei-c.org/Vault/P5/

current/xml/tei/schema/dtd/.

[Tei14f] Text Encoding Initiative. Linking, Segmentation, and Alignment. 20.05.2014. http:

//www.tei-c.org/release/doc/tei-p5-doc/en/html/SA.html.

[Tex14] TextGrid. Handbuch. 07.05.2014. https://textgrid.sub.uni-goettingen.de/

fileadmin/dokumentation/user-manual-2.pdf.

[Tus14a] Tubinger System von Textverarbeitungs-Programmen. Textdatenverarbeitung mit TU-STEP. 14.04.2014. http://www.tustep.uni-tuebingen.de/tdv11.html.

[Tus14b] Tubinger System von Textverarbeitungs-Programmen. Modularity, Professionality,Integration: A Conception Revisited. 14.04.2014. http://www.tustep.uni-tuebingen.de/tustep_ox92.html.

[XCE] XML Copy Editor. Features. 01.05.2014. http://xml-copy-editor.sourceforge.net/index.php?page=features.

55

Page 62: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Listings

5.1. XML Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175.2. Parse XML.perl - Dateien spezifizieren . . . . . . . . . . . . . . . . . . . . . . . . 185.3. Beispiel fur ’twig handlers’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.4. Parse XML - Wort Extraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195.5. Parse XML - Ergebnisdatei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196.6. Beispiel eines ’teiCorpus’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226.7. Minmaler teiHeader . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.8. Minmalistischer teiBody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.9. Unterteilter teiBody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247.10. Create TeiHeader.perl Subroutinen . . . . . . . . . . . . . . . . . . . . . . . . . . 287.11. addAuthor Subroutine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297.12. XML::Writer Einstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307.13. XML::Writer Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307.14. XML::Writer Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307.15. Add TeiBody.perl Schleife fur mehrere Textdokumente . . . . . . . . . . . . . . . 337.16. Add TeiBody.perl - creat ab Subroutine . . . . . . . . . . . . . . . . . . . . . . . 337.17. Add TeiBody.perl - creat ab Subroutine . . . . . . . . . . . . . . . . . . . . . . . 348.18. Nicht wohlgeformtes XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378.19. Fragmentiertes XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38C.20.Erzeugter teiHeader . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44D.21.Lorem ipsum 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45D.22.Lorem ipsum 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46D.23.Lorem ipsum 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46E.24.Modifizierte CISWAB DTD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48F.25.Textkorper (Body) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

56

Page 63: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Abbildungsverzeichnis

3.1. OCR Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2. OCR Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

57

Page 64: Bachelorarbeit - uni-muenchen.de...Bachelorarbeit im Studiengang Computerlinguistik an der Ludwig- Maximilians- Universit at M unchen Fakult at f ur Sprach- und Literaturwissenschaften

Tabellenverzeichnis

3.1. OCR Ergebnis von TS-213 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

58