FRaMedEin medizinisches Textkorpus des Deutschen
Udo HahnJULIE Lab
Friedrich-Schiller-Universität Jena
Besonderheitenmedizinischer Fachsprache
• Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten
• Tendenz zu paragrammatischem Sprachgebrauch• Schreib- und Interpunktionsfehler• Häufige Verwendung von (idiosynkratischen)
Abkürzungen und (sehr ambigen) Akronymen• Keine kohärente „medizinische“ Fachsprache,
sondern textsorten- und subdomänenspezifische Medizinsprachen
• Experte-Experte-Annahme: verdichteter Jargon• Lexikonzentrierung
Besonderheitenmedizinischer Textkorpora
• Im Allgemeinen nicht öffentlich zugänglich (klinische Dokumente)– Sicherung der Anonymität von Patienten
• AMIA 2006: FIRST SHARED-TASK FOR CHALLENGES IN NATURAL LANGUAGE PROCESSING FOR CLINICAL DATA http://www.bisti.nih.gov/ahm2006/abstracts/L-2.pdfhttp://www2.amia.org/meetings/f06/workshops.asp
• F=99.75 (best-performing system)
– Besitzstandswahrung von Klinikchefs
Textsorten in FRaMed(Wermter & Hahn, LREC 2004)
Textsorte # Sätze # Tokens # Types mittlere Satzlänge
(Standardabweichung)
normalisierter Token/Type Ratio basierend auf 7138 Sample
Entlassberichte summaries
513 7138 2076 12.9 (11.1) 3.4 Pathologieberichte reports
1522 20734 3815 12.6 (8.6) 3.6
Histologieberichte 881 15022 2821 16.1 (13.8) 4.8
Operationsberichte reports
1303 17003 3123 12.7 (7.4) 3.7
Textbuch-Texte 1222 24347 5372 18.9 (11.7) 3.3
Konsumenten-Texte 1053 15906 3522 14.1 (8.6) 3.6
FRAMED total 6494 100150 20729 14.4 (10.8) 3.7 NEGRA (Sample) Nachrichtentexte
5254 100139 18954 20.4 (11.5) 2.7
Klinische Texte
Nichtklinische Texte („Manual der Diagnostik und Therapie“, Webportal netdoktor.de)
IAA3 = 98.4
Tag Set STTS-med
POS tag Definition Beispiele
ADJD adverbial modifier zunehmend (increasingly) ADJA prenominal adjective fiebrige (febril)
NN common noun Krankheit (disease) NE proper noun Aspirin, Pfizer KON coordination und (and), oder (or) KOUS subordinating
conjunction weil (because)
PTKZU infinitive marker zu (to) XY non-words H2O, P02.7, Q61.3
POSTag Beschreibung Beispiele
LATIN Lateinische Nominative od. Genitive in medizin. Termen
Arteria pulmonalis dextra Ulucs ventriculi
ENUM Aufzählungen 1., 2., a., (b), i., ii.
FDSREF Referenzmuster bzgl. formaler Dokumentstrukturen
wie unter 2. beschrieben wie in 1.a. erwähnt
POS-Tagging-Experimente(Hahn & Wermter, PRICAI 2004)
• Brill Tagger vs. TnT (Brants)• STTS vs. STTS-med• TnT, nachrichtentrainiert (Default)
auf FRaMed: 97% acc• TnT, FRaMED-trainiert: 98% acc
• Fazit– Nachrichtentrainierter POS-Tagger direkt
anwendbar– Minimale Genauigkeitssteigerung für med. Tag-Set
Perspektiven
• Entitäten-Tagging– Krankheiten, Anatomie, Arzneien,
Untersuchungsmethoden, …
• Relationen-Tagging– (anatomische) Lokalisation, Behandlungs-
und Interventionsroutinen, …
• JenAge – Altersforschungsschwerpunkt der FSU Jena, Klinikum Jena, diverse Leibniz-Institute
Verfügbarkeit
• • … wir mussten unsere Tagging-Software im
Universitätsklinikum installieren …• … und alle Beteiligten mussten sich (wegen
fehlender Anonymisierung) strikten Geheimhaltungsklauseln unterwerfen …
• • … und diese Restriktionen werden sich ver-
schärfen, je mehr Semantik kodiert werden wird
•
FRaMedEin medizinisches Textkorpus des Deutschen
Udo HahnJULIE Lab
Friedrich-Schiller-Universität Jena
http://www.julielab.de