10. Natürliche Sprache in Biologie und Medizin
Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz
Ebenen der SprachtechnologieI. „Speech“
Erkennung gesprochener Sprache (speech recognition)Erzeugung gesprochener Sprache (speech synthesis)
II. „Content“TextretrievalText MiningTextgenerierungTextzusammenfassungInformationsextraktion Maschinelle Übersetzung
Information Retrieval
Sucher-gebnisse
Kollektion von Dokumenten(Dokumentationseinheiten)
Anfrage (Query) ?
PersonOutPersonInPositionOrganizationTimeOutTimeIn
Template
Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach
Pressenotiz
PersonOut Dr. Hermann WirthPersonIn Sabine KlingerPosition LeiterOrganization Musikhochschule MTimeOut HeuteTimeIn
PersonOut Christian MeindlPersonIn Annelie HäfnerPosition MusikdirektorOrganization Musikhochschule MTimeOutTimeIn
Informationsextraktion
Maschinelle Übersetzung
Question Answering
Grundbegriffe der Linguistik
• Semiotik• Phonetik, Phonologie• Morphologie• Syntax• Grammatik• Semantik• Pragmatik• Textlinguistik• Lexikographie• Terminologie
Ebenen der Linguistik
• Morphologie:– be + end + en, In + fekt + ion, In + fekt + ion + en
• Syntax:– Eine schwere Infektion beendete die Schwangerschaft vs.– Eine Infektion schwere die Schwangerschaft beendete.
• Semantik:– Es wurde eine Entbindung per Kaiserschnitt vorgenommen– Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen
• Textverstehen: – Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene
befindet sich in gutem Allgemeinzustand– Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat
wurde bisher nicht abgestoßen.
Medizinische Anwendungen von Sprachtechnologien
• Unterstützung der Befunderstellung durch Spracherkennungssysteme
• Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW- Dokumenten, WWW-Portalen
• Zusammenfassung von Krankengeschichten• Automatische Wissensaquisition aus medizinischen Freitexten• Automatisierte Verordungen• Multilinguale Erzeugung von Patienteninformation• Automatische Kodierung / Klassifikation von Diagnosen und
Prozeduren
Semiotik... Lehre von den Zeichen
• Ein Zeichen ist Stellvertreter für etwas Bezeichnetes• Alles sinnlich wahrnehmbare kann Zeichen sein• Alles beliebige kann als Zeichen fungieren• Sprachwissenschaft: Zeichensystem „Sprache“ •
Das semiotische Dreieck
Symbol, Wort,Code, Bezeichner
Objekt,InstanzReferent
Begriff, Gedanke, Inhalt, Konzept
"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.
Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.
Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln
Sprachliche Zeichen
• Laute• Phoneme• Morpheme ver auf mitt haut • einfache Wörter Magen, Schleim, Haut• Komplexe Wörter Magen-schleim-haut• Phrasen das ödematös aufgelockerte Stroma• Sätze Es finden sich vereinzelt Lymphfollikel.• Texte
Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhautvom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrtbasophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.
Linguistische Betrachtungsweisen
• Grammatik: Zeichenformen und Möglichkeiten ihrer
Kombination
• Semantik: Bedeutung einfacher und komplexer
Zeichenformen
• Pragmatik: Allgemeine Regularitäten, die dem
Sprachgebrauch zugrundeliegen
Grammatik
• Lehre vom – Wort (Morphologie, Morphosyntax) – Satz (Syntax)– Laut (Phonologie)– Text (Textgrammatik)
• Formale Seite sprachlicher Ausdrücke:– System minimaler Einheiten mit Regeln zur Generierung
komplexerer Einheiten– Berührung zur Theorie der formalen Sprachen
Sprachliche Zeichen
• Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten
LautePhoneme
MorphemeWörter
(einfach / komplex)
Phrasen TexteSätze
Morphem-bedeutung
Wort-bedeutung
Phrasen -bedeutung
Textbedeutung
Satz-bedeutung
Grammatik: Morphologie, Übung
• Morphologie = Lehre vom Wort• Was ist ein Wort ?• Beispiel:
• Übung: Wie viele Wörter hat dieser Satz ?
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.
Token, Type, Lexem• Token: Einzelne Vorkommen eines Zeichens (Wortes)
• Type: Einzelne Muster eines Zeichens (Wortes)
• Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter)
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach
1 2 3 4 5 6
7 8 9 10 11
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach
1 2 3 4 5 6
6 4 5 3 7
Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach
1 2 3 4 3 6
6 4 3 3 6
Morphosyntax• Morphemarten: Stamm, Präfix, Suffix• Bildungsregeln „wohlgeformter“ (well-formed)
Wörter:Beispiele: – Kein Wort kann mit einem Suffix beginnen– Keine zwei Beugungssuffixe hintereinander– Kein Wort kann nur aus Affixen bestehen
• Beugungsregeln z.B. past part
went gone
pres
go
Morphologische Besonderheiten der Bio/Medizinsprache (I)
• Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen
• Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal
• Zwei Wortbildungsschemata:1. Deutsch: Orthographische Anpassung
lateinischer Morpheme caka; ceze; cizi; coko; cuku;
es gelten deutsche Wortbildungsregelnwenige hybride Pluralbildungen (-itis , -itiden, -zera)
2. Lateinisch:Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen
Morphologische Besonderheiten der Medizinsprache (II)
• Eponyme (Eigennamen) werden oft wie Wortstämme behandeltParkinsonismus
• Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient)
• Abkürzungen (in der geschriebenen Sprache):meist Wortstämmechron., persist., Herzinsuff.,
• Ad-hoc KompositabildunglymphoplasmazellulärBecherzellbesatz
Wortbildungsphänomene in der Molekularbiologie
Syntax
• Lehre vom Satz– Regeln zur Bildung „well-formed“ Wordgruppen– Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.)
Worttypen: POS („Part of Speech“)
• Komponenten: – Lexikon, Syntax:– Regeln der Kombination elementarer Ausdrücke zu
komplexen Ausdrücke
• Ähnlichkeit zu formalen Sprachen (z.B. Programmiersprachen)
Syntax: Konstituentenstruktur• Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort
bis zum Satz– np: Nominalphrase „Hans“, „der Arzt“– vp: Verbalphrase „verlegt“, „verlegt Hans“– pp: Präpositionalphrase „auf die Intensivstation“
• Einfachstbeispiel:Regelns-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np.
Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf].
Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...
Beispiel: Strukturbaum
det n np n
np
v det
np
Der Arzt Hansauf Intensivstationverlegt die
np
pp
vp
vp
vp
s
Parser
pn nv det
Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fernglas
p det n
npnp
pp
np vp
vp
vp
s
pn nv det p det n
npnp
pp
np vp
vp
s
np
Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen
Lesarten entsprechen)
Wir beobachten das Kind mit dem Fahrrad Wir beobachten das Kind mit dem Fahrrad
Semantik
Symbol, Wort,Code, Bezeichner
Objekt,InstanzReferent
Begriff, Gedanke, Inhalt, Konzept
"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.
Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.
Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln
Begriffsinhalt / Begriffsumfang
Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke
Begriffsinhalt (intensionale Bedeutung): definiert den
Begriffsinhalt auf der Ebene des Denkens
Begriffsumfang (extensionale Bedeutung): definiert den
Begriffsumfang auf der Ebene der Wirklichkeit
Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung
Aufgaben von Semantik
• Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ?
• Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ?
• Semantik der Arbitrarität oder lexikalische Semantik:definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B.
Stethoskop
Bedeutung
• Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile
• Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Naturdurch die Lappen gehen
• Synonymie: Bauchspeicheldrüse = Pankreas• Mehrdeutigkeit:
– Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit– Syntaktische Ambiguität:
Ich sehe das Kind mit dem Fernglas
Merkmalssemantik• Theorie vom Begriff
(Aristoteles: genus proximum et differentia specifica)• Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in
Bedeutungseinheiten zerlegen• Ähnlichkeit zu formalen Ontologien
• Defizit: viele Begriffe lassen sich so nicht definieren
weiblich erwachsen menschlich
Mann - + +
Frau + + +
Mädchen + - +
Weibchen + 0 -
Modelltheoretische Semantik
• Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik)
• Wahrheit von Aussagen in möglichen Welten (Modellen)Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn
• arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x)Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik)
• Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !
Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem
Datenbasismedizinischer Freitexte
T1
T2
...
Tn
SyntaktischeRepräsentation
InhaltlicheRepräsentation
........
.......
.......
........
.....
........
........
.........
.....
........
.......
.......
........
.....
........
........
.........
.....
?
Das
Partikelspec:
einer
Colonschleimhaut
mit
ödematösen
Zotten
genatt:
spec: ppatt:
pobj:
adj:
zeigtsubject:
Dependenzgrammatik
• Kanten repräsentieren syntaktische Rollen• Begriffe:
– syntaktischer Kopf– syntaktischer Modifier
Show.5
show-patientParticle.1
Colon-Mucosa.2anatomical-fragment-of
has-phenomenonEdema.3
has-anatomical-partVillus.4
Ontologische Repräsentation
Das
Partikelspec:
einer
Colonschleimhaut
mit
ödematösen
Zotten
genatt:
spec: ppattr:
pobj:
adj:
SyntaktischeEbene
Edema.3
Villus.4
zeigtsubject:
Particle.1
OntologischeEbene
Show.5
Colon-Mucosa.2
Dasspec:
einer
ödematösen
spec:
adj:
SyntaktischeEbene
Colon-Mucosa.2
Edema.3
Villus.4
zeigt
Partikel
mitZotten
ppatt:
pobj:
Colonschleimhaut
genatt:
subj:
Show.5Particle.1
OntologischeEbene
Von der Semantik zur Pragmatik
• Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutetPatient mit karzinomverdächtigem Befund der linken Lunge
• Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet.„Ihr Befund ist positiv“
• Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“„Es zieht“„Tupfer!“ „Kompresse!“
• Pragmatik untersucht den kommunikativen Austausch
Pragmatik
• Sprechakttheorie:– Konstative Sätze (Behauptungen)– Performative Sätze (Aktionen)
1. Äußerung „Der Hund ist bissig“ (Grammatik, Syntax)
2. Proposition bissig(Hund) = True (Semantik)
3. Warnung oder Empfehlung4. Hörer entfernt sich oder Hörer kauft den Hund• Indirekte Sprechakte
„Können Sie mir sagen, wie spät es ist ?“
Kontext
• Lokaler Kontext„Der Bruch wurde eingegipst“
• Sprachlicher Kontext:„Diabetes“ als Diagnose, Verdacht, oder Familienanamnese
• Intentionaler Kontext„es ist kalt“ (Fenster schließen !)
• Situativer Kontext„der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)
Generisches Textverstehenssystem
Lexicon GrammarSemanticRule Base
DomainOntology
# 150,000# 1,000,000
# 10,000# 10,000
# 150,000# 1,000,000
end + edPastTense
ended
infection pregnancy
a severe the
Ending
Pregnancy
Infection
severe
E-patient
E-agent
I-degree
P-patient
IF ... Pregnancy & inf.THEN ... mortal danger
* The baby survived
MotherBaby
Pregnancy
P-co-patient
MorphologicalProcessor
SyntacticProcessor(Parser/
Generator)
SemanticInterpreter
InferenceEngine
Generisches Textverstehenssystem• Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis
nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen)
• Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren.
• In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen
Text-Mining statt Textverstehen
• Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab:– exponentielle Komplexität der wissensintensiven
Verfahren– „Knowledge acquisition bottleneck“– Verfügbarkeit riesiger Textmengen (WWW)– Skalierbarkeit („shallow“ methods)
Standardtools und - ressourcen
• Tagger• Chunker / partielle Parser• Namenserkenner• …• Textkorpora
– annotiert (POS, Chunks, Nes, Semantik)– nicht annotiert
Beispiel: Tagging
45
A severe infection ended the pregnancy .
DET NOUN VERBADJ DET NOUN ST
Tag Set (Penn treebank)
Tag Description Examples
. sentence terminator . ! ?
DT determiner all an many such that the them these this
JJ adjective, numeral first oiled separable battery-powered
NN common noun cabbage thermostat investment
PRP personal pronoun herself him it me one oneself theirs they
IN preposition among out within behind into next
VB verb (base form) ask assess assign begin break bring
VBD verb (past tense) asked assessed assigned began broke
WP WH-pronoun that what which who whom
Statistisches HMM – Tagging (I)
• Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags
– P1(Tagi | Tagi-1 ... Tagi-n)
• Wahrscheinlichkeit eines Tokens bzgl. eines Tags – P2(Tokeni | Tagi)
• die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN
Statistisches HMM – Tagging (I)
• State transition probabilities (trigrams):– P1(DET | COMMA NOUN) = 0.0007
– P1(PREL | COMMA NOUN) = 0.01
• State emission probabilities:– P2( die | DET) = 0.7
– P2( die | PREL) = 0.2
• Compute probabilistic evidence for the tag being– DET: P1 • P2 = 0.00049
– PREL: P1 • P2 = 0.002
• die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN
Statistische Methoden erfordern Trainingsdaten