namn- och termigenkänning i specialiserade texter

17
Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik

Upload: thu

Post on 15-Jan-2016

55 views

Category:

Documents


0 download

DESCRIPTION

Namn- och termigenkänning i specialiserade texter. Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik. Namn- och termigenkänning. Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Namn- och termigenkänning  i specialiserade texter

 

Namn- och termigenkänning i specialiserade texter

Cecilia Hemming

Högskolan i SkövdeInstitutionen för Kommunikation och Information

Datalingvistik

Page 2: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Namn- och termigenkänning

Automatisk sammanfattningplocka ut det väsentliga ur en text

Informationsextrahering (IE) hitta och presentera relevant information

Informationsåtkomst (IR)hitta och presentera relevanta dokument

Frågebesvarande systemMaskinöversättning

Page 3: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Namn och översättning

I met Usama bin Laden

Jag mötte Usama slänga i soptunnan Laden

Page 4: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Vad är ett namn?

Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck.

Inte specifikt för en viss domän

Page 5: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Namnigenkänning

Hitta datum-/tid-/måttsuttryck, telefon/e-post,…

Identifiera namn och dela in i relevanta kategorierNamn på personer, organisationer, platser, …

Hitta domänspecifika termernamn på biologiska objekt (gener, proteiner,…)namn på tekniska objekt (maskiner, maskindelar, …)

Page 6: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Problem

Metonymi: mer än bara egentlig betydelse

PolysemiMaj – person eller månad (maj)?

Namn eller vanligt ord?Stig Flod

Interpunktion, stavning, mellanrum, formatering

Olika i olika språk och typer av text“Högskolan i Skövde”, “541 45” Skövde

, Volvo satsar i Polen, släpp av mig på Volvo han har en Volvoorganisation platsprodukt

Page 7: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Hur kan namn hittas?

Namndatabaser och namnlistor+enkelt, snabbt, språkoberoende, anpassningsbart- samla/underhålla, hanterar inte

ambiguitet/varianter

Även titta på ords inre strukturFörnamn + Ord -> person (Ola Person)Ord + AB, HB, KB, … -> organisation (Bala AB)

Page 8: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Databaser/namnlistor + ytparsning

(forts.)

Dessutom titta på kontextenOrd + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad.

Problem med ytparsningCharles de Gaulle [namn], [flygplats]?Svenska Britt Ekland gör ny film. Högskolan i Skövde – Föräldrarna i Bullerbyn

Page 9: Namn- och termigenkänning  i specialiserade texter

Namnigenkänning (engelsk nyhetstext)

The

English-languageArab NewsreportedonMondaythatPrinceNayefrefusedtoanswerreportersquestionsonthe arrest of HaniAbdel-RahimHusseinal-Sayegh

From previous procedure

Place pointer at the firstword in the sentence

Move pointer to next word*

First LetterUppercase?

Closed-class word?

Add to Proper NameCandidate String **

Word inProper Name

IndicatorDB?***

More words in thesentence?

To next procedure(if needed, takes care of thefirst word in the sentence)

Yes

No

Yes

No

NoYes

No

Proper NameCandidate String

empty?Yes

Yes

The 1:st wordin Proper Name Candidate

String =2nd word in the

sentence?

The 1:st word in thesentence = closed-

class word?

Add to Proper NameCandidate String (initial

position)

Yes

NoYes

No

No

Mark CandidateString as Proper

Name

From previous procedure

Place pointer at the firstword in the sentence

Move pointer to next word*

Yes

No

Closed-class word?

Add to Proper NameCandidate String **Yes

English-languageArabNews

No

First LetterUppercase?

No

Word inProper Name

IndicatorDB?***

No

Yes

Yes

The 1:st word in thesentence = closed-

class word?

Mark CandidateString as Proper

Name

Yes

Proper NameCandidate String

empty?Yes

Prince Nayef

No

The 1:st wordin Proper Name Candidate

String =2nd word in the

sentence?

HaniAbdel-RahimHussein

Yes

al-Sayegh

No

From previous procedure

Place pointer at the firstword in the sentence

Move pointer to next word*

First LetterUppercase?

Closed-class word?

Add to Proper NameCandidate String **

Word inProper Name

IndicatorDB?***

More words in thesentence?

To next procedure(if needed, takes care of thefirst word in the sentence)

Yes

No

Yes

No

NoYes

No

Proper NameCandidate String

empty?Yes

Yes

The 1:st wordin Proper Name Candidate

String =2nd word in the

sentence?

The 1:st word in thesentence = closed-

class word?

Add to Proper NameCandidate String (initial

position)

Yes

NoYes

No

No

Mark CandidateString as Proper

Name

More words in thesentence?

To next procedure(if needed, takes care of the firstword in the sentence and mark

Candidate String as Proper Name ifnot empty)

Page 10: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Termer

“lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002]

Ofta sammansättningar Ett eller flera ordOfta okända (inte i termdatabaser/-listor)

Page 11: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Termer och översättning

oljeledningsfäste

oil management foothold

Page 12: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Problem med termer – exempel från biomedicinska

texter

Olika benämningar/kortversioner för samma sak

Interleukin-1 beta interleukin NF-IL6-beta NF IL

Samma benämning på flera olika sakerIngen enhetlig standard

på hur termer byggs uppTR2interferon alpha-D

hur termer skrivsnamn, term eller vanlig nominalffras?

Enkla termer, minst 6 olika skrivsättEGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1

Page 13: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Komplexa termer

-- NF Kappa B – alltid stor inledande bokstav och mellanslag

-- NF kappa B -- ingående ord skrivs med liten bokstav

-- NF kappaB --vissa delar av namnet skrivs ihop

-- NFkappaB --alla delar skrivs ihop

Page 14: Namn- och termigenkänning  i specialiserade texter

Länka akronymer till namn på biologiska objekt

Find next acronym

Found?

L1:= First Letter in theacronym

N := Number ofoccurrences of L1 in the

acronym

Yes Withinparentheses

Yes

Find the N:th word beginningin L1 to the left of the

parentheses and mark thatword and the rest of the left

side context as Named Entityand link to the acronym

Yes

Is the acronymfollowed by ’(’ and a

word beginning whithL1

No

Mark the words insidethe (…) as Named Entityand link to the acronym

YesNo

No

Place pointer at the firstword in the sentence

To next procedure(Named Entity Recognition

shown in Figure 4)

From previousprocedure

ThereareaslotumorrelatedgeneslikeNF2neurofibromatose of type 2.p16INK4a

belongsto a groupcellcycleregulator calledcyclindependentkinaseinhibitors CDKI .

( )

( )

Page 15: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Tack för mig!

Page 16: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Syntaktiska termbildningsmönster

Språkspecifika bildningsmönstersvenska noun+noun ->

franska noun prep noun/verb

Swedish noun-2+noun-1 (modifierare+huvud) ->

French noun-1 prep noun-2 (huvud + prep + modifierare)

oljekanal # canalisation à huile

bränsleledning # conduite de carburant

Page 17: Namn- och termigenkänning  i specialiserade texter

GU-Språkteknologidagen, 22 april 2005.

Semantiska koncept

Term: lingvistisk representation för ett domänspecifikt konceptViktiga semantiska koncept för en domän relevanta termer för domänenFör att kunna översätta en sammansatt term krävs korrekt semantisk tolkning

t.ex. val av preposition“de” om modifierande substantiv uttrycker vad ngt är avsett för