estrazione di terminologia da corpora maria teresa pazienza a.a. 2007-08
TRANSCRIPT
![Page 1: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/1.jpg)
Estrazione di terminologia da corpora
Maria Teresa PAZIENZA
a.a. 2007-08
![Page 2: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/2.jpg)
Termine
Un termine (o unità terminologica) è:• una parola (termine semplice), • una espressione composta da più parole (termine
composto), • un simbolo • una formula
che indica un particolare concetto all’interno di un dato dominio cognitivo
![Page 3: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/3.jpg)
Estrazione di terminologia
Approccio classicoTermine è una etichetta linguistica per un concetto;
la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti
Approccio computazionaleTermine è l’output di una procedura di analisi
terminologica (-> termini, concetti, ontologia)
![Page 4: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/4.jpg)
Estrazione di terminologia
Può essere realizzata:• manualmente• automaticamente
Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad un’analisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini.
In ogni caso necessaria l’adozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare un’analisi terminologica).
![Page 5: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/5.jpg)
Estrazione di terminologia
Database terminologico
Consiste di item lessicali stabili e dipendenti dal dominio
Contiene unità che siano utili per la specifica applicazione
Necessità di aggiornamenti continui
![Page 6: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/6.jpg)
Estrazione di terminologia
Compito non completamente definito
• termini possono essere solo parole note • l’identificazione di un termine richiede una
consapevolezza del compito da parte di chi lo esegue• nessun criterio formale per distinguere i termini dai
non termini• la frequenza non è sempre un indicatore significativo
![Page 7: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/7.jpg)
Estrazione di terminologia
Ambiguità
Esistono molti modi in cui un termine può risultare ambiguo
Sintattica {noun/verb, adjective/noun}
POS taggers sono ragionevolmente accurati (95%-99% ): l’identificazione sintattica può essere non problematica ove segua una fase opportuna di training
![Page 8: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/8.jpg)
Estrazione di terminologia
Ambiguità
Semantica
polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato (banca, banca dati, banca del sangue,…)
omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati
![Page 9: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/9.jpg)
Estrazione di terminologia
Problemi con i termini
• La maggioranza dei termini sono composti (multi-word unit): qual è l’elemento trainante (come significato) nella composizione?
• Multidimensionalità di un termine: ereditarietà multipla all’interno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione)
![Page 10: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/10.jpg)
Variabilità di un termine
Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine)
La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance.
![Page 11: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/11.jpg)
Variabilità di un termine
Come variano i termini?
Morfologicamente acqua stagnante / acque stagnanti
Sintatticamente attività degli enzimi / attività enzimatica
vaccino HIV / vaccino contro l’HIV
Semanticamente assicurazione medica
Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL
![Page 12: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/12.jpg)
Metodi per l’estrazione di terminologia
1. Tecniche di IR
2. Approcci linguistici
3. Approcci statistici
4. Metodi ibridi
![Page 13: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/13.jpg)
Metodi per l’estrazione di terminologia
Tecniche di IR
• Una parola in un documento può essere un utile termine per indicizzare il documento stesso
• Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso
• Una parola che appare in un numero limitato di documenti e non in un documento può essere un utile termine per indicizzare quei documenti
• Una parola che appare frequentemente in un solo documento e non nel resto del corpus può essere un utile termine per indicizzare il documento stesso
• Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza
![Page 14: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/14.jpg)
Metodi per l’estrazione di terminologiaTecniche di IR (termini indice / termini tecnici)
• L’obiettivo dell’indicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro
• L’obiettivo dell’estrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico
Termini indice non sono necessariamente termini tecniciTermini tecnici non sono necessariamente termini indice per
alcune collezioni di documenti
![Page 15: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/15.jpg)
Metodi per l’estrazione di terminologia
Tecniche di IR (procedura classica)
Elaborazione del testo alla ricerca di termini complessi
Analisi morfologica
Identificazione di NP
Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti
• Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione)
• Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato
![Page 16: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/16.jpg)
Metodi per l’estrazione di terminologia
Approcci linguistici
Basati su preprocessing linguistico ed annotazioni
Si riconoscono pattern sintattici ricorrenti nella formazione di un termine (in genere frasi nominali)
Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…)
Nomi composti scritti in modi diversi (database, data base, data-base)
![Page 17: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/17.jpg)
Metodi per l’estrazione di terminologia
Approcci statistici
Le misure usate più frequentemente sono:
• Frequenza delle occorrenze
• Mutua informazione
![Page 18: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/18.jpg)
Metodi per l’estrazione di terminologia
Approcci statistici Frequenza delle occorrenze
La più usataIndipendente dal dominio, non richiede alcuna
competenza ulteriore
ma
Termini con bassa frequenza possono essere buoni terminiLa frequenza è una utile misura solo con frasi che si
ripetono allo stesso modo
![Page 19: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/19.jpg)
Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione
Usata per l’estrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences)
Sovrapposizione tra collocation e termini tecnici
![Page 20: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/20.jpg)
Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione (Fano,1961)
L’ammontare di informazione fornita dall’occorrenza di un evento y rispetto all’occorrenza di un evento x è definita come:
I(x y)=log P(x y) / P(x) P(y)Ovvero fornisce l’informazione di quanto una parola si
relazioni con un’altraProblemi: data sparseness, bigrammi composti da parole a
bassa frequenza vengono sovrastimatiVa bene per estrarre termini candidati composti da due
parole
![Page 21: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/21.jpg)
Metodi per l’estrazione di terminologia
Metodi ibridi
Combinazione di informazioni linguistiche, shallow parser e statistica
Si aggiunge informazione di contesto (clustering contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su, ..)
Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto)
![Page 22: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/22.jpg)
Metodi per l’estrazione di terminologiaapproccio di Tor Vergata
• First task: extract and validate Terms
A Term is a surface representation of a key domain concept.
“launch vehicle”
“Magnetic field”
“Entity#ne# mission”
• A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain)
Ex: Spacecraft Design Domain
“ESA mission”
“Voyager mission”
“SOHO mission” ......
Ex: “Entity#ne#_mission”
![Page 23: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/23.jpg)
Metodi per l’estrazione di terminologia
• Second task: extract and validate Verb Relations
A Verb Relation (or Surface Form) is a surface representation of a key domain “relational concept”
Operatively: A relational concept can be intended as a semantic relation among
domain concepts
A verb relation is a semantically generalized lexical fragment of text governed by a verb
satellite reaching celestial body
Ex:
Relational Concept Surface Form Text Fragments
approach((SUBJ,satellite),(OBJ,celestial_body#ne#))get_close((SUBJ,satellite),(OBJ,celestial_body#ne#))
“the satellite approached the Moon in 1974.”
![Page 24: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/24.jpg)
Validazione:• 7821/58267 (14%) retained terms• 482/1814 (38%) retained terms with freq>5
Discarded terms as “part”, “level”, “table”, while expressing domain concepts are too generic to be accepted
Metodi per l’estrazione di terminologia
10 MOST RELEVANT TERMS
![Page 25: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/25.jpg)
• Compound terms have been devided into groups of same length
Metodi per l’estrazione di terminologia
• Most interesting terms usually are those of 2/3-words length:Launch_vehicle
Magnetic_field
Solar system
Entity#ne#_mission
Microwave Radio Frequency
Trajectory correction manoueuvre
10 MOST RELEVANT 2-WORDS TERMS
![Page 26: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/26.jpg)
Difficulties in validation:– Hardness in comprehension of semantic meaning of the
forms, due to lack of information:
Ex.
approach((SUBJ,null),(OBJ,orbit))
leave((SUBJ,mission#ne#))
Metodi per l’estrazione di terminologia
Who is the subject??
What is the object of “leave”??
– Overgeneration: every sentence in corpus can create several surface forms
leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#'))leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null))leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#'))
“Voyager 2 leaves Earth
at about 36 km/s relative to the sun”
![Page 27: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/27.jpg)
Metodi per l’estrazione di terminologia
• It could be possible to create a domain syntactic-semantic subcategorization frame for each verb, using semantic resources, such as WordNet
Ex. absorb,((subj,'x-rays'))
absorb,((subj,dust))
absorb,((subj,gas))
absorb,((subj,radiation))
absorb,((subj,substrate))
absorb,((subj,atmosphere))
absorb,((subj,ENTITY))
absorb,((subj,PHYS_ELEMENT)) absorb,((subj,PHYS_ENTITY))
absorb,((subj,'x-rays'))
absorb,((subj,dust))
absorb,((subj,gas))
absorb,((subj,radiation))
absorb,((subj,substrate))
absorb,((subj,atmosphere))
![Page 28: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/28.jpg)
Uso della terminologia
Text indexation
Text summarization
Information extraction
Information retrieval
Question answering
Machine translation (text alignment)
…
![Page 29: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/29.jpg)
Text alignment
Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc)
L’allineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue
![Page 30: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/30.jpg)
Qualche conclusione
L’estrazione della terminologia è un problema mal definito e complesso
La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase parsing)
•Algoritmi ben definiti e pubblicamente accessibili
Uso di filtri•Named entities
–Problema concettualmente semplice–Software maturo e di pubblico dominio
•Lexicalized noun phrases–Soluzioni non definitive ma con buoni suggerimenti–Focus su terminologie specifiche di dominio
•Informazioni di contesto nel documento –Metodologie ancora non definite completamente –Modelli che usano metriche di IR
![Page 31: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/31.jpg)
Approfondimenti
Maria Teresa Pazienza, Marco Pennacchiotti, Fabio Massimo Zanzotto. Terminology extraction: an analysis of linguistic and statistical approaches. In Knowledge Mining, S.Sirmakessis (Ed.), Series: Studies in Fuzziness and Soft Computing, Vol.185, Springer Verlag, 2005.
![Page 32: Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2007-08](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb73497959361e8d9f6a/html5/thumbnails/32.jpg)
Argomenti trattati in questa lezione
Estrazione di terminologia da testi: metodologie e confronti