arte di ascoltare - slide rita marinelli

20
La terminologia condivisa: uno strumento trasversale di lavoro Rita Marinelli[email protected]

Upload: personae

Post on 05-Dec-2014

1.311 views

Category:

Technology


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Arte di Ascoltare - Slide Rita Marinelli

La terminologia condivisa: uno strumento trasversale

di lavoro

Rita [email protected]

Page 2: Arte di Ascoltare - Slide Rita Marinelli

Parlo della mia esperienza di lavoro, presso l’ILC, che si occupa di studiare il linguaggio naturale utilizzando metodologie informatiche

Si tratta della costruzione di tre db di terminologia di tre domini diversi ma costruiti con criteri simili e usando lo stesso modello concettuale

Sono destinati a varie tipologie di utenti: professionisti e non

Non è importante qui il tipo di dominio considerato, quanto la metodologia di lavoro usata

Page 3: Arte di Ascoltare - Slide Rita Marinelli

Modello concettuale

Metodologia o modello concettuale valido indipendentemente

dalla materia trattata

dal livello di competenza che l’utente ha nel settore, perché può servire anche a chi questa competenza non ce l’ha affatto e quindi ha bisogno di formarsela

Page 4: Arte di Ascoltare - Slide Rita Marinelli

Database di terminologia

Dal qualche anno sono in corso di costruzione tre database di terminologia appartenenti a domini diversi: ▪ “marittima” (settore nautico e trasporti marittimi) ▪ “fiscale” ▪ “sindacale e del lavoro”

per rispondere alla richiesta di uno strumento di consultazione e di supporto per utenti con differenti gradi di competenza, operanti nel settore.

Page 5: Arte di Ascoltare - Slide Rita Marinelli

Il modello dei database

Il modello usato per la costruzione dei database è di tipo relazionale, con relazioni semantico lessicali, secondo i modelli di riferimento

EuroWordNet (progetto europeo), ItalWordNet (SI-TAL progetto nazionale basato

sull’ampliamento del db costruito per EWN) e Mariterm, primo esperimento di db terminologico;

tutto nella filosofia “WordNet”

Page 6: Arte di Ascoltare - Slide Rita Marinelli

Metodologia

◘ I database contengono rispettivamente 4000, 1600, 1500 termini.

◘ Primo passo della costruzione: fissare i concetti principali da cui partire per poi

popolare il database → è stata composta, con la collaborazione dei committenti ed esperti di dominio, una lista di concetti centrali e altamente rappresentativi. Come?...

Page 7: Arte di Ascoltare - Slide Rita Marinelli

Dai testi al corpus

⇨ I committenti hanno inviato insiemi di testi in vari formati (word, pdf, ecc.) appartenenti al dominio in questione

⇨ i testi sono stati indicizzati, per poi essere trasformati in un corpus, e quindi sottoposti al sistema di gestione di db testuali (disponibile in ILC) per:

− interrogarli, − ottenere liste di frequenza, concordanze e co-occorrenze.

Page 8: Arte di Ascoltare - Slide Rita Marinelli

Primi concetti inseriti• La lista di frequenza in ordine decrescente è stata

usata per estrarre le 150 parole più frequenti nei testi, come probabili concetti principali da inserire nel database.

• E’ stata consultata la rete generica IWN per vedere se e quali concetti di questa lista vi fossero presenti: quelli presenti sono stati valutati per poi essere esportati in un file xml e inseriti nel database specialistico importando lo stesso file xml, come prevede l’architettura del tool di gestione del database.

IWN xml DB Term

Page 9: Arte di Ascoltare - Slide Rita Marinelli

Altri concetti inseriti

¤ Il database è stato poi popolato inserendo altri concetti (non presenti in IWN), appartenenti al dominio, con un grado più alto di specificità, in quanto ritenuti rappresentativi del dominio e/o con un grande numero di iponimi

¤ fonti usate: glossaritesti e pubblicazioni del settore, scaricati da

Internet o su supporto cartaceo.

Page 10: Arte di Ascoltare - Slide Rita Marinelli

Termini come “synsets”

Ogni termine compare nel database con i suoi sinonimi, se ci sono, e costituisce un synset (insieme di sinonimi), es.: N bollo auto·1, tassa automobilistica·1, [ tassa che colpisce il

possesso dei veicoli iscritti nei pubblici registri automobilisticiN abbordaggio·1, abbordo·1, [urto volontario o collisione

accidentale tra imbarcazioni]] ogni termine ha

– una categoria grammaticale di appartenenza – una definizione, es.: tassa che colpisce il possesso dei veicoli

iscritti nei pubblici registri automobilistici; – un legame con altri termini (synset) rappresentato dalle relazioni

semantico-lessicali “interne”

Page 11: Arte di Ascoltare - Slide Rita Marinelli

Relazioni semantiche interne

☆ di tipo gerarchico/verticale (ipo/iperonimia):

– abbordaggio has_hyponym arrembaggio, abbordaggio intenzionale– abbordaggio has _hyperonym atto, azione

☆ di tipo orizzontale (relazioni di ruolo, parte, luogo, causa, ecc.):– abbordaggio causes naufragare·1, colare a picco·2, affondare·2, [ detto di imbarcazione, affondare in mare; detto di persone imbarcate, fare naufragio, a causa di danni prodotti dal mare in tempesta o da altri tipi di sinistro (urti, incendi, ecc.).]

Page 12: Arte di Ascoltare - Slide Rita Marinelli

Abbordaggio

Page 13: Arte di Ascoltare - Slide Rita Marinelli

Porto

Nave porta containerAltri esempi

Page 14: Arte di Ascoltare - Slide Rita Marinelli

Campo semantico

✹ L’insieme dei termini collegati al termine dato (tassa) per mezzo delle relazioni e le relazioni stesse costituiscono il campo semantico di quel termine e quindi contribuiscono ad arricchire la nostra conoscenza di quel termine. I vari componenti del campo semantico di ogni entrata sono nodi di informazione che va sviluppata e popolata.

✹ Un concetto del dominio è così definito da un insieme di relazioni all’interno del database terminologico; queste relazioni dicono sia qual è il suo iperonimo, sia quali sono gli altri concetti con cui è collegato.

✹ Considerando le catene tassonomiche, i concetti che hanno una posizione “intermedia” sono quelli più rappresentativi del dominio (Rosch 1978-88).

Page 15: Arte di Ascoltare - Slide Rita Marinelli

Relazioni di equivalenza legano i synsets ai concetti equivalenti in Inglese, es.:

nave da carico eq_synonym cargo_ship

Page 16: Arte di Ascoltare - Slide Rita Marinelli

Relazioni plug-in

Un synset della rete terminologica può essere collegato alla rete generica IWN

nella “consultazione integrata” possiamo

vedere un synset (legato al db generico con relazioni plug_in) con tutte le relazioni che ha sia nel database terminologico (downward relations) sia nel database generico (upward relations)

Page 17: Arte di Ascoltare - Slide Rita Marinelli

“Tributo”: consultazione integrata

Downward relations Upward relations

Page 18: Arte di Ascoltare - Slide Rita Marinelli

Classificazione ontologica

ogni termine ha una sua classificazione ontologica, cioè è legato a uno o più concetti dell’ontologia ereditata da IWN (Top Ontology): insieme di concetti con grande livello di astrazione, organizzati gerarchicamente e indipendenti dal linguaggio:

abbordaggio cause, dynamic

per ogni termine è previsto il collegamento a uno o più concetti dell’ontologia di dominio, vale a dire un nucleo centrale di concetti, caratterizzante e rappresentativo del dominio stesso e della sua struttura,

abbordaggio nautica, governo

in modo da rendere cognitivamente più chiaro il significato del termine che viene visto come un “nodo di accesso” nella rete di conoscenza (Langacker, 1987).

Page 19: Arte di Ascoltare - Slide Rita Marinelli

Interazione e trasversalità

Questo settore della LC (costruzione di db terminologici) rappresenta esso stesso la convergenza e l’interazione di settori culturali diversi per

la materia/materie trattata

la metodologia e i criteri che sono il risultato di ricerche precedenti fatte in Europa (progetti europei e italiani in particolare), in America (il WordNet di Princeton), ecc.

l’impostazione culturale che viene da mondi diversi: quello dell’informatica (si tratta di database), quello della linguistica (vengono elaborati lessici specialistici) e quello della psicologia cognitiva e psicolinguistica (risultati importanti di ricerche fatte sulle associazioni semantiche)

Page 20: Arte di Ascoltare - Slide Rita Marinelli

Interazione e trasversalità

l’utilizzo: la particolare struttura ad albero consente all’utente di fermarsi ad un livello intermedio, per avere una visione di insieme ampliabile in un secondo tempo con visioni più specialistiche; l’utente è libero di approfondire e aumentare il livello di specializzazione

insomma

interazione e trasversalità:

fra discipline, fra materie oggetto di studio, fra utenti e gruppi di lavoro