wolfenbüttel, 16.09.05 das projekt dwds: auf dem wege zu einem digitalen wörterbuch der deutschen...
TRANSCRIPT
![Page 1: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/1.jpg)
Wolfenbüttel, 16.09.05
Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache
des 20./21. Jahrhunderts
– Alexander Geyken –Berlin-Brandenburgische Akademie der Wissenschaften
www.dwds.de
![Page 2: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/2.jpg)
Motivation
![Page 3: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/3.jpg)
Es gibt kein befriedigendes Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts.
Gründe (vgl. Hartmut Schmidt (1994,1995)):
- fehlende ‚balancierte‘ Textcorpora
- zu stark einzelwortbezogene Darstellung
- unzureichende Darstellung der deutschen Sprache in Österreich und der Schweiz
- Deutschland liegt hinter England und Frankreich zurück
Motivation
![Page 4: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/4.jpg)
- Arbeitsgruppe: M. Bierwisch, W. Klein, H. Schmidt, D. Simon, A. Geyken
- Kuratorium: Enzensberger, Frühwald, Honnefelder, Lepennies, Rau, Weizsäcker, Zimmer
- Erstellung einer Machbarkeitsstudie für ein elektronisches Corpus; Beantragung eines DFG-Projekts
Vorbereitungsphase
![Page 5: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/5.jpg)
DWDS: Erstellung eines ausgewogenen Corpus des 20./21. Jh. [Einschub – Wozu ein Korpus]
DWDS: beschreibt nicht nur das Einzelwort, sondern das Wort in seinem Gebrauch (=> auf der Basis eines großen und ausgewogenen Corpus)
DWDS: breite Nutzungsmöglichkeiten => On-line Plattform: akademische Basis für Sprachbeschreibung und Sprachvermittlung
DWDS: Nutzung computerlexikographischer Methoden
Ziele des DWDS
![Page 6: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/6.jpg)
Einschub – Warum Corpora …
![Page 7: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/7.jpg)
Einschub – Warum Corpora …
![Page 8: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/8.jpg)
Einschub – Warum Corpora …
![Page 9: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/9.jpg)
Einschub – Warum Corpora …
![Page 10: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/10.jpg)
- Vorbereitungsphase (11/1997 - 02/2000)
- Erstellung der Textgrundlage (20. Jh.)(03/2000 - 06/2004 -> DFG-Projekt)
- Erstellung der Textgrundlage (17.-19. Jh.) -> DFG Projekt Deutsches Textarchiv
- Computerlinguistische Erschließung der Wörterbuchgrundlage (seit 10/2002)
Projektphasen
![Page 11: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/11.jpg)
- Wie läßt sich die Wörterbucherstellung in einem zeitlich und finanziell planbaren Maß gestalten?
=> ‚breadth first‘-Strategie bei allen Projektetappen.
1. ‚Industrielle‘ Digitalisierung der Texte2. modulare Erstellung des Wörterbuchs 3. effiziente informatische Unterstützung des
Bearbeitungsprozesses: Textfiltermethoden
Vorgehensweise
![Page 12: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/12.jpg)
1. Einleitung
2. Das Projekt DWDS: Stand
2.1 Corpuserstellung
2.2 Webpräsenz
2.3 Anwendung Sprachbeobachtung
3. Ausblick: Schritte zu einem Digitalen Wörterbuch
Gliederung
![Page 13: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/13.jpg)
1. Textauswahl und Copyrightvereinbarung
2. Digitalisierung
3. XML-Konvertierung
4. Qualitätskontrolle
(2.1) Corpuserstellung: Vorgehensweise
![Page 14: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/14.jpg)
•Belletristik (27%)
•Journalistische Prosa (26%)
•Wissenschaftliche Fachtexte (21%)
•Gebrauchsliteratur (21%)
•Transkriptionen gesprochener Sprache (5%)
Ausgewogenheit der Textauswahl
![Page 15: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/15.jpg)
Textauswahl wird vorgenommen von:
•Akademiemitgliedern der BBAW, Schriftstellern (Belletristik)
• Akademiemitgliedern (Wissenschaft und Journalistische Prosa)
• Arbeitsgruppe (Gebrauchstexte, Gesprochene Sprache)
Textauswahl
![Page 16: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/16.jpg)
Literatur
![Page 17: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/17.jpg)
Zeitungen
![Page 18: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/18.jpg)
Wissenschaft
![Page 19: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/19.jpg)
Werbung
![Page 20: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/20.jpg)
Werbung
![Page 21: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/21.jpg)
Flugblätter
![Page 22: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/22.jpg)
Gebrauchsliteratur
![Page 23: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/23.jpg)
Gebrauchsliteratur
![Page 24: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/24.jpg)
•Grimm, Hans, Volk ohne Raum, München: Albert Langen 1926
•Hesse, Hermann, Der Steppenwolf, Berlin: S. Fischer 1927
•Kafka, Franz, Der Process, [1925]
•Luckner, Felix Graf, Seeteufel, Leipzig: Köhler 1921
•LeFort, Gertrud von, Schweißtuch der Veronika, München: Kösel & Pustet 1928
•Salten, Felix, Bambi: Eine Lebensgeschichte aus dem Walde, Berlin: Zsolnay 1926
•Winkler, Josef, Der tolle Bomberg: Ein westfälischer Schelmenroman, Stuttgart u.a.: Dt. Verl. Anstalt 1923
Beispiele: Belletristik – 20er Jahre
![Page 25: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/25.jpg)
•Merian, Svende, Der Tod des Märchenprinzen, Hamburg: Buntbuch Verlag 1980
•Ransmayr, Christoph, Die letzte Welt, Nördlingen: Greno 1988
•Strittmatter, Erwin, Der Laden, Berlin: Aufbau 1983
•Bieler, Manfred, Der Bär, Hamburg: Hoffmann & Campe 1983
•Loest, Erich, Völkerschlachtdenkmal, Hamburg: Hoffmann & Campe 1984
•Nadolny, Sten, Die Entdeckung der Langsamkeit, München: Piper 1983
•Pausewang, Gudrun, Die Wolke, Ravensburg: Maier 1987
Beispiele: Belletristik – 80er Jahre
![Page 26: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/26.jpg)
26
RBB - Textquellen
![Page 27: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/27.jpg)
• Verlage (Aufbau Verlagsgruppe, Diogenes, DirectMedia, Eichborn, Fischer Verlags-gruppe, Hoffmann & Campe, Kiepenheuer & Witsch, Saur, Spiegel, Suhrkamp, Ullstein-Heyne-List-Econ, ZEIT, Zsolnay)
• Autoren: u.a. Böll, Dürrenmatt, Habermas, Hesse, G. Hauptmann, Klemperer, K. Kraus, S. Lenz, Th. und H. Mann, Moers, Perutz, Seghers, Süskind, Walser
Copyrightvereinbarungen
![Page 28: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/28.jpg)
DWDS verwendet die Werke bzw. Extrakte auf seiner on-line Plattform
Einschränkungen:
• das Werk darf nicht rekonstruierbar sein
• nur Auszüge aus dem Werk im Corpus: reicht von 5% bis 75%
• kleine Belegkontexte: Je nach Vereinbarung:
Paragraph oder 3 Sätze oder 1 Satz oder +/- 3 Wörter
• keine kommerzielle Nutzung
Copyrightvereinbarungen
![Page 29: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/29.jpg)
29
Kontextgröße Beispiel
![Page 30: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/30.jpg)
Textgeber (60% des Kerncorpus):
Verlage (s. oben)
Bibliotheken (Staatsbibliothek Berlin)
Archive (Deutsches Rundfunkarchiv)
Textakquise (1)
![Page 31: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/31.jpg)
Eigendigitalisierung (40%)
Manuelle Transkription von
-30.000 Zeitungsartikel (1900-1945),
-250 Monographien (Fraktur).
Transkription: Grepect GmbH (Peking)
Metatagging (Autor, Titel, Seitenumbruch etc.): bis zu 15 studentische MitarbeiterInnen in Berlin
Textakquise (2)
![Page 32: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/32.jpg)
1. Textauswahl und Copyrightvereinbarung
2. Digitalisierung
3. Qualitätskontrolle
4. Integrierter Workflow und Dokumentenmanagement-System
Corpuserstellung: Vorgehensweise
![Page 33: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/33.jpg)
Abtippen: bei nicht serieller Fraktur und schlecht erhaltenen Antiqua-Vorlagen
• Double oder Triple-keying
• Genauigkeiten von 99,95%.
OCR: bei serieller und wenig strukturierter Fraktur und gut erhaltenen Antiqua-Vorlagen
Einschub: OCR oder Abtippen
![Page 34: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/34.jpg)
Berliner Tageblatt vom 18.2.1902
![Page 35: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/35.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Geclippter Artikel und Datenblatt
<a>Block, Paul</a><t>Das Drama von Springe</t><st>Ein Rückblick auf den Prozeß Falkenhagen</st> <pubdata>1902-02-18</pubdata><journal>Berliner Tageblatt</journal><page>1-2</page>
![Page 36: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/36.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Text nach Abtippen in China: XML „light“
<a>Block, Paul</a><t><b>Das Drama von Springe.</b></t><st><b>Ein Rückblick auf den Prozeß Falkenhagen.</b></st><p><b>Hannover,</b> 17. Februar.</p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-<lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle<lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu<lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen<lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber<lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-<lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-<lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle<lbr/>
[...]
<PB NS=2>neugierig nach ihr hin. </p>[...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p>
![Page 37: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/37.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Konvertierung nach TEI: (1) Die Metadaten
<teiHeader><fileDesc><publicationStmt><publisher id="DWDS-Corpus-Publisher">BBAW - AG Digitales Wörterbuch</publisher><availability n=„OR3S" status="restricted"></availability></publicationStmt><sourceDesc><biblFull><titleStmt><title level="a" type="main">Das Drama von Springe.</title><title level="a" type="sub">Ein Rückblick auf den Prozeß Falkenhagen.</title><author>Block, Paul</author></titleStmt><publicationStmt><publisher id="Rechtsinhaber">Rudolf Mosse</publisher><pubPlace>Berlin</pubPlace><date>19020218</date></publicationStmt><seriesStmt><title level="j">Berliner Tageblatt</title><idno type="Seite">1</idno></seriesStmt></biblFull></sourceDesc></fileDesc>...<profileDesc><textClass><keywords><term n="1">Zeitung</term>
</keywords></textClass></profileDesc></teiHeader>
![Page 38: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/38.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Konvertierung nach TEI: (2) Der Text
<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- <lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle <lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu <lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen <lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber <lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- <lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- <lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <lbr/><PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>
![Page 39: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/39.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Problemfälle der OCR/Abtippen – Beispiel 1
Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle
Bedingter Trennstrich oder Bindestrich?
![Page 40: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/40.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Worttrennungen am Zeilenende
Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>
Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">
Trauerspiel</w>
![Page 41: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/41.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>
Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">
Trauerspiel</w>
=> Bedingter Trennstrich: Wortbestandteile werden zusammengezogen
Worttrennungen am Zeilenende
![Page 42: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/42.jpg)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>
Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">
Trauerspiel</w>
=> Bindestrich und Zeilenumbruch werden durch bedingten Trennstrich ersetzt
Worttrennungen am Zeilenende
![Page 43: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/43.jpg)
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Problemfälle der OCR/Abtippen – Beispiel 2
Sondern ist Weingutsbesitzer und Wein-und Kognakhändler. Seine Kognakmarke ...
Bedingter Trennstrich oder Bindestrich?
=> Lemma: Weinhändler und nicht Weinund!
![Page 44: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/44.jpg)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>
Linguistische Annotierung:<w state="unknown" errC="001">
Weinund</w>
Worttrennungen am Zeilenende
![Page 45: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/45.jpg)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>
Linguistische Annotierung:<w state="unknown" errC="001">
Weinund</w>
=> Wortbestandteile bleiben erhalten
Worttrennungen am Zeilenende
![Page 46: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/46.jpg)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>
Linguistische Annotierung:<w state="unknown" errC="001">
Weinund</w>
=> Wortbestandteile bleiben erhalten=> Zeilenumbruch wird durch 'Leerzeichen' ersetzt
Worttrennungen am Zeilenende
![Page 47: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/47.jpg)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Unbekannte Wörter werden identifiziert und annotiert:
Linguistische Annotierung
<w n="6" c="w.art">die</w>
<w n="7" state="unknown" errC="001">tödtliche</w>
<w n="8" nb="sg" g="f" s=„artef" c="noun">Schlinge</w>
![Page 48: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/48.jpg)
<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die tödtliche Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Ergebnis nach der linguistischen Aufbereitung
![Page 49: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/49.jpg)
<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die <w errC=„001" state=„unknown"> tödtliche </w> Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Ergebnis nach der linguistischen Aufbereitung
=> Annotierung unbekannter Wörter
![Page 50: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/50.jpg)
Problemfälle OCR/Abtippen
Grenzen der automatischen Analyse: Falsche Analysen sind im Nachhinein nur noch mühsam „per Kopf“ zu erkennen
-Preis#geh#krön#teen (statt Preisgekrönten)-Weit|geh#hände (statt Weitgehende)-Hoch#bedeut#hände (statt Hochbedeutende)-Zeit#raub#hände (statt Zeitraubende)
-Zeichen#orient#hirt (statt zeichenorientiert)-Lebens#orient#hirte (statt Lebensorientierte)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
![Page 51: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/51.jpg)
1. Textauswahl
2. Digitalisierung
3. Qualitätskontrolle
4. Integrierter Workflow und Dokumentenmanagement-System
Corpuserstellung: Vorgehensweise
![Page 52: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/52.jpg)
Nach der linguistischen Analyse verbleiben mehrere 100.000 Prüffälle (d.h. für das linguistische Analysewerkzeug unbekannte Wörter)
Qualitätskontrolle
![Page 53: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/53.jpg)
Digitalisierungsfehler (saben statt sahen)
Namen bzw. Ableitungen:
Geographie: Abessinien, japanesisch
Familiennamen: Moltke, vossische
Veraltete Abkürzungen und Akronyme (lebh . Beif. rechts u. im Zentr.)
Historische Rechtschreibung (diktirt, That)
lexikographisch interessantes Material (Antichambrist, branchekundig statt heutzutage branchenkundig)
Prüffälle: Klassifizierung einer Stichprobe
![Page 54: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/54.jpg)
54
Ergebnis: DWDS-Corpus
Kerncorpus: Größe: 100 Millionen Textwörter
- ausgewogen - rechtlich abgesichert - XML/TEI Format- linguistisch voranalysiert
Ergänzungscorpus: Größe: 1 Milliarde Textwörter
![Page 55: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/55.jpg)
Lemmatisierung: Ärzte, Arztes -> Arzt
Disambiguierung von Wortarten:
(1) Er tritt vor die Tür vs. das kommt vor
PräpositionVerbpartikel
(2) Der Strauß Blumen vs. Richard Strauß
NomenEigenname
Automatische Analyse durch einen Part-of-Speech Tagger (s. www.dwds.de)
Automatische linguistische Analyse
![Page 56: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/56.jpg)
Exkurs: Corpora und Größe
Corpus Textwörter verschiedene Wörter
Dürrenmatt (Verdacht) 33.888 6.201
Brown (US, 1969) 1 Million 50.406
Limas (D, 1973) 1 Million 98.138
British Nat. Corp. (1993) 100 Mio. 659.270
DWDS-Kerncorpus (2003) 100 Mio. 2,1 Millionen
DWDS-Ergänzungscorpus (2003)
1 Mrd. ?
![Page 57: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/57.jpg)
British National Corpus (100 Mio): hinreichend groß?
Unbekannt ist:
• Wie wächst das Vokabular bei wachsender Corpusgröße [ab 100 Mio]?
• Konvergiert die Menge der verschiedenen Wortformen bei genügend großer Corpusmenge? [Besonderheit des Deutschen: Komposition]
Experiment
![Page 58: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/58.jpg)
Vokabularentwicklung-Kerncorpus(L)
0
0,5
1
1,5
2
2,5
0 50 100
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n
(in
Mio
)
![Page 59: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/59.jpg)
Vokabularentwicklung-Kerncorpus(L)
0
0,5
1
1,5
2
2,5
0 50 100
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n
(in
Mio
)
BNC
![Page 60: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/60.jpg)
Vokabularentwicklung-DWDS (1 Mrd)
8,98
0123456789
10
0 200 400 600 800 1000 1200
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n
(in
Mio
)
![Page 61: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/61.jpg)
Vokabularentwicklung-DWDS (1 Mrd)
0123456789
10
0 200 400 600 800 1000 1200
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n (
in
Mio
)
8,9 Mio
Kerncorp.
![Page 62: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/62.jpg)
62
Aufarbeitung des Corpus
Produktive Wortbildung im Deutschen: lange Komposita: z.B. Frühlingsanfangsschokoladenhohlkörper
Einsatz von automatischen Verfahren zur Wortzerlegung: Das Programm TAGH (s. www.dwds.de)
Grundidee: verschiedene Wortformen werden auf ihre Grundformen reduziert. So zählen Haus, Häuser, Hauses beispielsweise zur gleichen Grundform, nämlich Haus.
Durch Abgleich der Zerlegungen mit den Wörterbüchern lassen sich neue Wortformen identifizieren.
![Page 63: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/63.jpg)
63
AutomatischeWortzerlegung Die korrekte Zerlegung von abgeleiteten oder zusammengesetzten Wortformen spielt dabei eine sehr große Rolle. Dadurch können beispielsweise die Selbstbauanlage, Selbstbauanleitung den Bestandteilen Selbstbau, Anlage bzw. Anleitung zugeordnet werden.
Umgekehrt würden falsche Zerlegungen zu einem „falschen Alarm“ führen. In solchen Fällen würde das Verfahren fälschlicherweise neue Wörter vorschlagen:
• Gendarm sollte ein Einzelwort bleiben und nicht in Gen und Darm zerlegt werden.
• Telekommunikation sollte am besten gar nicht oder als Tele+kommunikation analysiert werden, keinesfalls jedoch als Tele+komm+unikat+ion, noch in Tele+komm+uni+kation und auch nicht in Telekom+muni+kation (Muni = schweiz. der Zuchtstier)
![Page 64: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/64.jpg)
WDG und Corpusy = 5039,6 ln(x)
50000
55000
60000
65000
70000
75000
80000
85000
90000
95000
0 1.000 2.000 3.000 4.000 5.000 6.000 7.000
Corpusgröße (in Mio Textwörtern)
WD
G-S
tic
hw
ört
er
![Page 65: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/65.jpg)
Corpus und Deutsche Städte (IFAG)y = 393,33 ln(x)
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
0 1000 2000 3000 4000 5000
Corpusgröße (in Mio Textwörtern)
dt.
Stä
dte
u.
Gem
ein
den
![Page 66: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/66.jpg)
66
(2.2) Webpräsenz – www.dwds.de
Wörterbuchabfrage: Wörterbuch der deutschen Gegenwartssprache (WDG, 1961-1977)
Corpora: DWDS-Kerncorpus, ZEIT (wochenaktuell), Tagesspiegel (ab Okt. 2005)
Wortinformationssystem:
- WDG und Corpus
- Automatisch generierte Informationen:
• Synonyme, Ober- und Unterbegriffe
• Kollokationen
![Page 67: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/67.jpg)
67
Maske - Wortinformation
![Page 68: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/68.jpg)
68
WDG-Artikel
![Page 69: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/69.jpg)
69
Quellenverzeichnis
![Page 70: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/70.jpg)
70
Stichwörter von Thälmann
![Page 71: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/71.jpg)
71
Stichwort: Schlotbaron
![Page 72: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/72.jpg)
72
Wortinfo – Syn etc.
![Page 73: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/73.jpg)
73
Corpus,1
![Page 74: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/74.jpg)
74
Corpus,2
![Page 75: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/75.jpg)
75
Corpus,3
![Page 76: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/76.jpg)
76
Corpus,4
![Page 77: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/77.jpg)
77
Kollok , 1
![Page 78: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/78.jpg)
78
Kollok, 2
![Page 79: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/79.jpg)
i. Verknüpfung Beleg – Wörterbuch
ii. Vernetzung Wörterbuch mit anderen on-line Angeboten
iii. Verknüpfung Beleg – Bild – Volltext
Weitere Web-Anwendungen
![Page 80: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/80.jpg)
• ZEIT-online Wörterbuchportal
• dict.leo.org (größtes deutsch-englisches on-line Wörterbuch)
• uni-deutsch (BMBF, DAAD)
etwa 40.000 Seitenaufrufe (p.i.) täglich
ii) on-line Plattform - Vernetzung
![Page 81: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/81.jpg)
![Page 82: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/82.jpg)
![Page 83: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/83.jpg)
92
(C) Fortlaufende Sprachbeobachtung
„Eigentlich hätte uns das Wort nicht durch die Lappen gehen dürfen“, gesteht Beate Varnhorn, Chefredakteurin von Wahrig, der Wörterbuchmarke bei Bertelsmann. Doch immer wieder ist das Wort „Ceranfeld“ Sprachbeobachtern durchgerutscht.... Nun bekommen die [Wörterbuchmacher] Unterstützung von Computerlinguisten. Deren Programme sollen Texte schneller nach neuen Wörtern durchsuchen und dabei weniger Fehler machen.” (Süddeutsche Zeitung, 2.7.2002)
![Page 84: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/84.jpg)
Möglichkeiten (Beispiele):
a) empirische Ermittlung der Entwicklung von ´s (Helga´s Hundesalon, Kant´s Schriften)
b) empirische Ermittlung der Entwicklung von Anglizismen
c) Korrektiv für Wörterbücher
d) Erweiterung von Wörterbüchern
(C) Fortlaufende Sprachbeobachtung
![Page 85: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/85.jpg)
Beispiel 1: WDG
Corpus: sternhagelbesoffen (0 Corpusbelege)
sternhagelvoll (40)
Beispiel 2: Grimm Neubearbeitung (1998)
Corpus: Angstkauf (0)
Angstkäufe (17)
![Page 86: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/86.jpg)
Beispiel 3: Duden (10-Bände, 2001)
Stichwort: Selbst
Wörterbuch: 244 Einträge
Selbstabholer ... Selbstbedienung ...
Selbsterfahrung ... Selbstzweifel
Corpus: 7884 verschiedene Wörter
![Page 87: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/87.jpg)
Nicht im Duden, aber im Corpus sehr häufig:Selbstverpflichtung (2139 Mal)
Selbstmordattentäter (801)
Selbstregierung (727)
Selbstregulierung (450)
Selbstbeschreibung (380)
Selbstbefragung (312)
...
Selbstauskunft (185)
Selbstmordanschlag (171)
...
Selbstbedienungsmentalität (143)
Selbstbau (105)
Selbstbeschäftigung (105)
Selbstgänger (91)
Selbstnutzung (81)
Selbstinteresse (80)
Selbstähnlichkeit (77)
Selbstlernen (30)
![Page 88: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/88.jpg)
Im Duden, aber nicht im Corpus:- Selbstabholerin
- Selbstanzeigerin
- Selbstbucherin
- Selbstentlader
- Selbsterzeugerin
- Selbstinserent
Selbstladevorrichtung
Selbstverstand
Selbststellerin
Selbstverlegerin
Selbstverpflegerin
![Page 89: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/89.jpg)
Vokabularentwicklung-Selbstkomposita
10.871
0
2
4
6
8
10
12
0 200 400 600 800 1000 1200
laufende Textwörter (in Mio)
An
zah
l Se
lbst
%
![Page 90: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/90.jpg)
![Page 91: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/91.jpg)
Wortform(en): Selbstbau-Sarg Orig: o.A., Der Niedergang nach dem Abgang, in: Süddeutsche Zeitung 08.11.1997, S. 13
Sargdiscounter, Sonderangebote, Selbstbau-Särge, vorsorgliche Hausbesuche bei potentiellen Kunden, Werbung bei Zielgruppen in Krankenhaus und Altenheim, Provisionsverträge mit Hausmeistern und Rettungsdienstpersonal – dies alles muß zugelassen werden.Datum: 1997-11-08Seite: unknownTextsorte: Zeitung Feuilleton
![Page 92: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/92.jpg)
Beispiel 4: rückläufige Wörterbücher
Mater (1967): etwa 100 verschiedene Substantive mit -kasten
Farbkasten ... Baukasten, Steinbaukasten
DWDS-Corpus: 1500 verschiedene Substantive mit –kasten
insgesamt 177 Substantive auf -baukasten
Baukasten, Modellbaukasten, Chemiebaukasten, Metallbaukasten, Stabilbaukasten, Steinbaukasten, Legobaukasten, Satzbaukasten (alle Frequenz > 10)
... Begriffsbaukasten
![Page 93: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/93.jpg)
„Stolpe greift zielsicher in den Begriffsbaukasten.“
Geis, Matthias, Stolpe - die Krönung einer Kampagne, in: die tageszeitung - 12 ½ Jahre taz auf CD-ROM, Berlin: Contrapress-Media-GmbH 1999 [1992]
![Page 94: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/94.jpg)
Beispiel 5: Zeitliche Veränderungen
NACHHALTIG, adj. und adv. auf längere zeit anhaltend und wirkend: nachhaltiger ertrag des bodens wird nur erzielt, wenn der boden in gutem stand erhalten wird. (DWB – Grimm)
nachhaltig<Adj.>: 1. Sich auf längere Zeit stark auswirkend: einen –en Eindruck hinterlassen; etw. wirkt sich nachhaltig aus; jmdn. N. beeinflussen. 2. (Forstw.) die Nachhaltigkeit (2) betreffend, auf ihr beruhend: -e Forstwirtschaft (Duden 2001)
![Page 95: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/95.jpg)
1. Wörterbücher: nachhaltig ohne Wertung
Im Corpus bis Ende der 30er Jahre nur neutrale und positive Wertung [des betroffenen Objekts]: Eindruck, Einfluß, Erfolg, Wirkung
ab 1940 auch negative Wertung: z.B. Brände, Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Verminung
![Page 96: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/96.jpg)
2. Was ist alles nachhaltig?
1900-1909: Wirkung, Eindruck, Erfolg, Einfluß, Besserung (5)
1910-1919: Weise, Druck, Abgabedruck, Genuß, Stärkung, ... (10)
1920-1929: Fleiß, Kraft, Bewirtschaftung, Widerstand, Spuren...(6)
1930-1939: Bedeutung, Unterstützung, Abhilfemaßnahmen ... (5)
1940-1949: Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Brände, Abwehr, Sprengung, Verminung .. (12)
1950-1959: Interesse, Überwindung, Entspannung, Wirtschaftlichkeit, Verhinderung, Verbesserung, Störung ... (16)
1960-1969: Anstrengungen, Abbau, Impuls, Versuch ... (16)
1970-1979: Verkehrsstunden, Aufwertung, Anerkennung ... (20)
1980-1989: Abfuhr, Akzeptanzschub ... (72)
1990-1999: Entwicklung, Tourismus, Politik, Zukunft ... (> 100)
![Page 97: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/97.jpg)
nachhaltige Sprachbeobachtung?
![Page 98: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/98.jpg)
107
Sprachbeobachtung mit Computerlinguistik
Institut für deutsche Sprache
Projekt Deutscher Wortschatz – Uni Leipzig
Lothar Lemnitzer (www.wortwarte.de)
DWDS: Prototyp: ZEIT-Wörter der Woche
![Page 99: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/99.jpg)
108
Wörter der Woche - ZEIT
![Page 100: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/100.jpg)
109
ZEIT-Woewo – 2
![Page 101: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/101.jpg)
110
3. Schritte zu einem Digitalen Wörterbuch
Vorzüge des elektronischen Mediums:
unbegrenzter Platz (für die Darstellung der Stichwörter)
Gewichtung entsprechend des Vorkommens in Texten
Belege können beliebig sortiert, ein- und ausgeblendet werden
Das Wörterbuch kann „modular“ erarbeitet werden
![Page 102: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/102.jpg)
• DWDS-Kerncorpus mit Suchmaschine
• Wörterbuch der deutschen Gegenwartssprache (1977)
- 6 Bände, 5000 Seiten, ca. 130.000 Stichwörter
Basis des Digitalen Wörterbuchs
![Page 103: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/103.jpg)
„Modular“: Statt Corpus + Wörterbuch ...
![Page 104: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/104.jpg)
... ein System von Wörterbüchern
![Page 105: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/105.jpg)
... und einer Texterschliessungskomponente
![Page 106: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/106.jpg)
... mit Wörterbuchmodulen als Kooperationen
![Page 107: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/107.jpg)
• in Kooperation mit C. Fellbaum (Princeton) im Rahmen des Wolfgang-Paul-Preis Projekts
- Thema: Kollokationen im Wörterbuch
Corpusbasierte lexikographische Beschreibung von Verb/Nomen Idiomen: sein Mütchen kühlen, den Nagel auf den Kopf treffen, sein blaues Wunder erleben, ...
„Modul“ Kollokationen
![Page 108: Wolfenbüttel, 16.09.05 Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts – Alexander Geyken –](https://reader036.vdocuments.site/reader036/viewer/2022062404/55204d7f49795902118d0854/html5/thumbnails/108.jpg)
Zusammenfassung
1. DWDS stellt Sprach- und Wortschatzforschung auf eine neue empirische Grundlage.
2. DWDS – Texterschließung ist vielseitig nutzbar:
- Linguistische Suchmaschine
- Lemmatisierung, Wortartenzuordnung
3. Kooperation zur Erarbeitung weiterer Wörterbuchmodule
4. Gewinnung weiterer Textgeber