Estrazione di terminologia da corpora
Maria Teresa PAZIENZA
a.a. 2006-07
Termine
Un termine (o unità terminologica) è:• una parola (termine semplice), • una espressione composta da più parole (termine
composto), • un simbolo • una formula
che indica un particolare concetto all’interno di un dato dominio cognitivo
Estrazione di terminologia
Approccio classicoTermine è una etichetta linguistica per un concetto;
la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti
Approccio computazionaleTermine è l’output di una procedura di analisi
terminologica (-> termini, concetti, ontologia)
Estrazione di terminologia
Può essere realizzata:• manualmente• automaticamente
Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad un’analisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini.
In ogni caso necessaria l’adozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare un’analisi terminologica).
Estrazione di terminologia
Database terminologico
Consiste di item lessicali stabili e dipendenti dal dominio
Contiene unità che siano utili per la specifica applicazione
Necessità di aggiornamenti continui
Estrazione di terminologia
Compito non completamente definito
• termini possono essere solo parole note • l’identificazione di un termine richiede una
consapevolezza del compito da parte di chi lo esegue• nessun criterio formale per distinguere i termini dai
non termini• la frequenza non è sempre un indicatore significativo
Estrazione di terminologia
Ambiguità
Esistono molti modi in cui un termine può risultare ambiguo
Sintattica {noun/verb, adjective/noun}
POS taggers sono ragionevolmente accurati (95%-99% ): l’identificazione sintattica può essere non problematica ove segua una fase opportuna di training
Estrazione di terminologia
Ambiguità
Semantica
polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato
omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati
Estrazione di terminologia
Problemi con i termini
• La maggioranza dei termini sono composti (multi-word unit): qual è l’elemento trainante (come significato) nella composizione?
• Multidimensionalità di un termine: ereditarietà multipla all’interno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione)
Variabilità di un termine
Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine)
La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance.
Variabilità di un termine
Come variano i termini?
Morfologicamente acqua stagnante / acque stagnanti
Sintatticamente attività degli enzimi / attività enzimatica
vaccino HIV / vaccino contro l’HIV
Semanticamente assicurazione medica
Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL
Metodi per l’estrazione di terminologia
1. Tecniche di IR
2. Approcci linguistici
3. Approcci statistici
4. Metodi ibridi
Metodi per l’estrazione di terminologiaTecniche di IR
• Una parola in un documento può essere un utile termine per indicizzare il documento stesso
• Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso
• Una parola che appare in un numero limitato di documenti è non in un documento può essere un utile termine per indicizzare quei documenti
• Una parola che appare frequentemente in un solo documento e non nel resto del corpus in un documento può essere un utile termine per indicizzare il documento stesso
• Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza
Metodi per l’estrazione di terminologiaTecniche di IR (termini indice / termini tecnici)
L’obiettivo dell’indicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro
L’obiettivo dell’estrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico
Termini indice non sono necessariamente termini tecniciTermini tecnici non sono necessariamente termini indice per
alcune collezioni di documenti
Metodi per l’estrazione di terminologia
Tecniche di IR (procedura classica)
Elaborazione del testo alla ricerca di termini complessi
Analisi morfologica
Identificazione di NP
Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti
• Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione)
• Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato
Metodi per l’estrazione di terminologia
Approcci linguisticiBasati su preprocessing linguistico ed annotazioniSi riconoscono pattern sintattici ricorrenti nella
formazione di un termine (in genere frasi nominali)
Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…)
Nomi composti scritti in modi diversi (database, data base, data-base)
Metodi per l’estrazione di terminologia
Approcci statistici
Le misure usate più frequentemente sono:
• Frequenza delle occorrenze
• Mutua informazione
Metodi per l’estrazione di terminologia
Approcci statistici Frequenza delle occorrenze
La più usataIndipendente dal dominio, non richiede alcuna
competenza ulterioremaTermini con bassa frequenza possono essere buoni
terminiLa frequenza è una utile misura solo con frasi che
si ripetono allo stesso modo
Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione
Usata per l’estrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences)
Sovrapposizione tra collocation e termini tecnici
Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione (Fano,1961)
L’ammontare di informazione fornita dall’occorrenza di un evento y rispetto all’occorrenza di un evento x è definita come:
I(x y)=log P(x y) / P(x) P(y)Ovvero fornisce l’informazione di quanto una parola si
relazioni con un’altraProblemi: data sparseness, bigrammi composti da parole a
bassa frequenza vengono sovrastimatiVa bene per estrarre termini candidati composti da due
parole
Metodi per l’estrazione di terminologia
Metodi ibridi
Combinazione di informazioni linguistiche, shallow parser e statistica
Si aggiunge informazione di contesto (clustering contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su, ..)
Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto)
Metodi per l’estrazione di terminologiaapproccio di Tor Vergata
• First task: extract and validate Terms
A Term is a surface representation of a key domain concept.
“launch vehicle”
“Magnetic field”
“Entity#ne# mission”
• A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain)
Ex: Spacecraft Design Domain
“ESA mission”
“Voyager mission”
“SOHO mission” ......
Ex: “Entity#ne#_mission”
Metodi per l’estrazione di terminologia
• Second task: extract and validate Verb Relations
A Verb Relation (or Surface Form) is a surface representation of a key domain “relational concept”
Operatively: A relational concept can be intended as a semantic relation among
domain concepts
A verb relation is a semantically generalized lexical fragment of text governed by a verb
satellite reaching celestial body
Ex:
Relational Concept Surface Form Text Fragments
approach((SUBJ,satellite),(OBJ,celestial_body#ne#))get_close((SUBJ,satellite),(OBJ,celestial_body#ne#))
“the satellite approached the Moon in 1974.”
Validazione:• 7821/58267 (14%) retained terms• 482/1814 (38%) retained terms with freq>5
Discarded terms as “part”, “level”, “table”, while expressing domain concepts are too generic to be accepted
Metodi per l’estrazione di terminologia
10 MOST RELEVANT TERMS
• Compound terms have been devided into groups of same length
Metodi per l’estrazione di terminologia
• Most interesting terms usually are those of 2/3-words length:Launch_vehicle
Magnetic_field
Solar system
Entity#ne#_mission
Microwave Radio Frequency
Trajectory correction manoueuvre
10 MOST RELEVANT 2-WORDS TERMS
Difficulties in validation:– Hardness in comprehension of semantic meaning of the
forms, due to lack of information:
Ex.
approach((SUBJ,null),(OBJ,orbit))
leave((SUBJ,mission#ne#))
Metodi per l’estrazione di terminologia
Who is the subject??
What is the object of “leave”??
– Overgeneration: every sentence in corpus can create several surface forms
leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#'))leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null))leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#'))
“Voyager 2 leaves Earth
at about 36 km/s relative to the sun”
Metodi per l’estrazione di terminologia
• It could be possible to create a domain syntactic-semantic subcategorization frame for each verb, using semantic resources, such as WordNet
Ex. absorb,((subj,'x-rays'))
absorb,((subj,dust))
absorb,((subj,gas))
absorb,((subj,radiation))
absorb,((subj,substrate))
absorb,((subj,atmosphere))
absorb,((subj,ENTITY))
absorb,((subj,PHYS_ELEMENT)) absorb,((subj,PHYS_ENTITY))
absorb,((subj,'x-rays'))
absorb,((subj,dust))
absorb,((subj,gas))
absorb,((subj,radiation))
absorb,((subj,substrate))
absorb,((subj,atmosphere))
Uso della terminologia
Text indexation
Text summarization
Information extraction
Information retrieval
Question answering
Machine translation (text alignment)
…
Text alignment
Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc)
L’allineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue
Qualche conclusione
L’estrazione della terminologia è un problema mal definito e complesso
La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase parsing)
•Algoritmi ben definiti e pubblicamente accessibili
Uso di filtri•Named entities
–Problema concettualmente semplice–Software maturo e di pubblico dominio
•Lexicalized noun phrases–Soluzioni non definitive ma con buoni suggerimenti–Focus su terminologie specifiche di dominio
•Informazioni di contesto nel documento –Metodologie ancora non definite completamente –Modelli che usano metriche di IR