arte di ascoltare - slide rita marinelli
DESCRIPTION
TRANSCRIPT
Parlo della mia esperienza di lavoro, presso l’ILC, che si occupa di studiare il linguaggio naturale utilizzando metodologie informatiche
Si tratta della costruzione di tre db di terminologia di tre domini diversi ma costruiti con criteri simili e usando lo stesso modello concettuale
Sono destinati a varie tipologie di utenti: professionisti e non
Non è importante qui il tipo di dominio considerato, quanto la metodologia di lavoro usata
Modello concettuale
Metodologia o modello concettuale valido indipendentemente
dalla materia trattata
dal livello di competenza che l’utente ha nel settore, perché può servire anche a chi questa competenza non ce l’ha affatto e quindi ha bisogno di formarsela
Database di terminologia
Dal qualche anno sono in corso di costruzione tre database di terminologia appartenenti a domini diversi: ▪ “marittima” (settore nautico e trasporti marittimi) ▪ “fiscale” ▪ “sindacale e del lavoro”
per rispondere alla richiesta di uno strumento di consultazione e di supporto per utenti con differenti gradi di competenza, operanti nel settore.
Il modello dei database
Il modello usato per la costruzione dei database è di tipo relazionale, con relazioni semantico lessicali, secondo i modelli di riferimento
EuroWordNet (progetto europeo), ItalWordNet (SI-TAL progetto nazionale basato
sull’ampliamento del db costruito per EWN) e Mariterm, primo esperimento di db terminologico;
tutto nella filosofia “WordNet”
Metodologia
◘ I database contengono rispettivamente 4000, 1600, 1500 termini.
◘ Primo passo della costruzione: fissare i concetti principali da cui partire per poi
popolare il database → è stata composta, con la collaborazione dei committenti ed esperti di dominio, una lista di concetti centrali e altamente rappresentativi. Come?...
Dai testi al corpus
⇨ I committenti hanno inviato insiemi di testi in vari formati (word, pdf, ecc.) appartenenti al dominio in questione
⇨ i testi sono stati indicizzati, per poi essere trasformati in un corpus, e quindi sottoposti al sistema di gestione di db testuali (disponibile in ILC) per:
− interrogarli, − ottenere liste di frequenza, concordanze e co-occorrenze.
Primi concetti inseriti• La lista di frequenza in ordine decrescente è stata
usata per estrarre le 150 parole più frequenti nei testi, come probabili concetti principali da inserire nel database.
• E’ stata consultata la rete generica IWN per vedere se e quali concetti di questa lista vi fossero presenti: quelli presenti sono stati valutati per poi essere esportati in un file xml e inseriti nel database specialistico importando lo stesso file xml, come prevede l’architettura del tool di gestione del database.
IWN xml DB Term
Altri concetti inseriti
¤ Il database è stato poi popolato inserendo altri concetti (non presenti in IWN), appartenenti al dominio, con un grado più alto di specificità, in quanto ritenuti rappresentativi del dominio e/o con un grande numero di iponimi
¤ fonti usate: glossaritesti e pubblicazioni del settore, scaricati da
Internet o su supporto cartaceo.
Termini come “synsets”
Ogni termine compare nel database con i suoi sinonimi, se ci sono, e costituisce un synset (insieme di sinonimi), es.: N bollo auto·1, tassa automobilistica·1, [ tassa che colpisce il
possesso dei veicoli iscritti nei pubblici registri automobilisticiN abbordaggio·1, abbordo·1, [urto volontario o collisione
accidentale tra imbarcazioni]] ogni termine ha
– una categoria grammaticale di appartenenza – una definizione, es.: tassa che colpisce il possesso dei veicoli
iscritti nei pubblici registri automobilistici; – un legame con altri termini (synset) rappresentato dalle relazioni
semantico-lessicali “interne”
Relazioni semantiche interne
☆ di tipo gerarchico/verticale (ipo/iperonimia):
– abbordaggio has_hyponym arrembaggio, abbordaggio intenzionale– abbordaggio has _hyperonym atto, azione
☆ di tipo orizzontale (relazioni di ruolo, parte, luogo, causa, ecc.):– abbordaggio causes naufragare·1, colare a picco·2, affondare·2, [ detto di imbarcazione, affondare in mare; detto di persone imbarcate, fare naufragio, a causa di danni prodotti dal mare in tempesta o da altri tipi di sinistro (urti, incendi, ecc.).]
Abbordaggio
Porto
Nave porta containerAltri esempi
Campo semantico
✹ L’insieme dei termini collegati al termine dato (tassa) per mezzo delle relazioni e le relazioni stesse costituiscono il campo semantico di quel termine e quindi contribuiscono ad arricchire la nostra conoscenza di quel termine. I vari componenti del campo semantico di ogni entrata sono nodi di informazione che va sviluppata e popolata.
✹ Un concetto del dominio è così definito da un insieme di relazioni all’interno del database terminologico; queste relazioni dicono sia qual è il suo iperonimo, sia quali sono gli altri concetti con cui è collegato.
✹ Considerando le catene tassonomiche, i concetti che hanno una posizione “intermedia” sono quelli più rappresentativi del dominio (Rosch 1978-88).
Relazioni di equivalenza legano i synsets ai concetti equivalenti in Inglese, es.:
nave da carico eq_synonym cargo_ship
Relazioni plug-in
Un synset della rete terminologica può essere collegato alla rete generica IWN
nella “consultazione integrata” possiamo
vedere un synset (legato al db generico con relazioni plug_in) con tutte le relazioni che ha sia nel database terminologico (downward relations) sia nel database generico (upward relations)
“Tributo”: consultazione integrata
Downward relations Upward relations
Classificazione ontologica
ogni termine ha una sua classificazione ontologica, cioè è legato a uno o più concetti dell’ontologia ereditata da IWN (Top Ontology): insieme di concetti con grande livello di astrazione, organizzati gerarchicamente e indipendenti dal linguaggio:
abbordaggio cause, dynamic
per ogni termine è previsto il collegamento a uno o più concetti dell’ontologia di dominio, vale a dire un nucleo centrale di concetti, caratterizzante e rappresentativo del dominio stesso e della sua struttura,
abbordaggio nautica, governo
in modo da rendere cognitivamente più chiaro il significato del termine che viene visto come un “nodo di accesso” nella rete di conoscenza (Langacker, 1987).
Interazione e trasversalità
Questo settore della LC (costruzione di db terminologici) rappresenta esso stesso la convergenza e l’interazione di settori culturali diversi per
la materia/materie trattata
la metodologia e i criteri che sono il risultato di ricerche precedenti fatte in Europa (progetti europei e italiani in particolare), in America (il WordNet di Princeton), ecc.
l’impostazione culturale che viene da mondi diversi: quello dell’informatica (si tratta di database), quello della linguistica (vengono elaborati lessici specialistici) e quello della psicologia cognitiva e psicolinguistica (risultati importanti di ricerche fatte sulle associazioni semantiche)
Interazione e trasversalità
l’utilizzo: la particolare struttura ad albero consente all’utente di fermarsi ad un livello intermedio, per avere una visione di insieme ampliabile in un secondo tempo con visioni più specialistiche; l’utente è libero di approfondire e aumentare il livello di specializzazione
insomma
interazione e trasversalità:
fra discipline, fra materie oggetto di studio, fra utenti e gruppi di lavoro