informatica umanistica d: lessicografia e computer rappresentazioni vettoriali del significato...
Post on 01-May-2015
223 Views
Preview:
TRANSCRIPT
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
Rappresentazioni vettoriali del significato
Teorie computazionali dell’acquisizione lessicale
METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI
La prossima frontiera nell’uso degli strumenti informatici per la lessicografia e’ il loro uso per produrre definizioni scoprire accezioni Annotare corpora automaticamente con il
significato delle parole
ACQUISIZIONE LESSICALE
I modelli informatici di acquisizione lessicale si basano su due idee: Che il significato delle parole e’ un
vettore multidimensionale Che il significato delle parole viene dato
dal contesto in cui appaiono
CONCETTI COME ‘CLUSTER’
CHICKEN
GOOSE
ORIOLEROBIN
OSTRICH
LESSICOGRAFIA: SIGNIFICATI COME CONTESTI
“Thy shall know a word by the company it keeps” (Firth)
SIGNIFICATI COME CONTESTI
The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily.
Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds.
whack, whack, whack his hand made vigorous spanking gestures on his left PALM.
The PALMs of his hands are sweaty
RAPPRESENTAZIONI VETTORIALI DEL SIGNIFICATO
CANE
GATTO
SGOMBRO
pelliccia
acquatico
animato
Airplane
Day
CLUSTERING DI CONCETTI
CarVan
Month
Year
JoyLove
Fear
COSTRUZIONE DI VETTORI LESSICALI A PARTIRE DA CONTESTI
Per costruire il vettore C(w) per la parola w,
1. Scandire ogni testo del corpus
2. Ogni volta che si incontra w, incrementare tutte le celle di C(w) che corrispondono a parole che si trovano in prossimita’ di w, entro una finestra di dimensioni prestabilite
COSTRUZIONE DI VETTORI DI PAROLE DA CONTESTI
Dato il corpus:1. John ate a banana.
2. John ate an apple.
3. John drove a lorry.
john ate drove banana apple lorry
john 0 2 1 1 1 1
ate 2 0 0 1 1 0
drove 1 0 0 0 0 1
banana 1 1 0 0 0 0
apple 1 1 0 0 0 0
lorry 1 0 1 0 0 0
ESEMPIO DI INFORMAZIONI CHE SI POSSONO ESTRARRE DA CONTESTI
Speaker-generated features:
Matching Features Collected Using Our Text Patterns – (with
frequency)
red (20) red (5), colour (5), color (1)
fruit (18) fruit (5)
sweet (13) sweetness (8)
has seeds (12) seeds (6), seed (2)
grows (10) growth (1), ripening (10)
small (6) size (19)
taste (6) taste (6), flavor (6), flavour (2)
food (5) nutrition (1)
from garden (5) cultivation (7), harvest (6), harvester (2)
juice (5) juice (10), juices (3)
dessert (3) sweetness (8)
eat (3) nutrition (1)
VARIAZIONI
I metodi proposti nella letteratura differiscono per quel che riguarda Le dimensioni della finestra Se gli elementi del vettore sono ‘pesati’ o
meno Se ogni parola viene considerata come
dimensione Se viene applicata riduzione di
dimensionalita’
VARIANTE: USO DI MODIFICATORI
…. The Soviet cosmonaut …. The American astronaut …. The red American car …. The old red truck … the spacewalking cosmonaut … the full Moon …
cosmonaut astronaut moon car truck
Soviet 1 0 0 1 1
American 0 1 0 1 1
spacewalking 1 1 0 0 0
red 0 0 0 1 1
full 0 0 1 0 0
old 0 0 0 1 1
MISURE GEOMETRICHE DI SOMIGLIANZA
Euclidean distance:
Cosine:
Manhattan Metric:
n
i ii yxd1
n
i i
n
i i
n
i ii
yx
yx
1
2
1
2
1)cos(
n
i ii yxd1
2
PLAUSIBILITA’ COGNITIVA DI QUESTI MODELLI
I modelli basati sugli spazi vettoriali sono stati utilizzati per predirre il comportamento in tasks che includono Identificazione di sinonimi (Landauer & Dumais
1997) Categorizzazione (Burgess & Lund 1997) Semantic priming (Lowe 2000, Vigliocco et al
2004) Errori nella sostituzione di parole (Vigliocco et al
2004)
IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL
IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL
UMANI E MACCHINE AL TOEFL
MODELLI PIU’ COMPLESSI
I modelli proposti piu’ di recente vanno oltre i modelli appena visti nel senso di Cercare di utilizzare una versione piu’
complessa di ‘contesto’ che tiene conto della struttura sintattica degli enunciati
Cercare di estrarre da testi relazioni SEMANTICHE ed utilizzare quelle per la caratterizzazione delle parole
MODELLI VETTORIALI BASATI SULLA SINTASSI
attacked fox dog
<subj,fox> <det,the> <det,the>
<obj,dog> <mod,red> <mod,lazy>
attacked
fox dog
the red the lazy
subj obj
det detmod mod
E.g., Grefenstette, 1994; Lin, 1998; Curran and Moens, 2002
VETTORI SINTATTICI
GREFENSTETTE, LIN, LAPATA & PADO: LE RELAZIONI GRAMMATICALI FUNZIONANO MEGLIO DELLE PAROLE PER CARATTERIZZARE I CONCETTI
SEXTANT (Grefenstette, 1992, 1994)
It was concluded that the carcinoembryonic antigens represent cellular constituents which are repressed during the course of differentiation the normal digestive system epithelium and reappear in the corresponding malignant cells by a process of derepressive dedifferentiation
antigen carcinoembryonic-ADJantigen repress-DOBJantigen represent-SUBJconstituent cellular-ADJconstituent represent-DOBJcourse repress-IOBJ……..
SEXTANT: MISURA DI SOMIGLIANZA
dog pet-DOBJdog eat-SUBJ dog shaggy-ADJdog brown-ADJdog leash-NN
cat pet-DOBJcat pet-DOBJ cat hairy-ADJcat leash-NN
CATDOG
B andA by possessed attributes Unique
B andA by shared Attributes
Count
CountJaccard:
6
2
ADJ}-shaggyDOBJ,-petNN,-leashADJ,-hairySUBJ,-eatADJ,-{brown
DOBJ}-pet NN,-{leash
Count
Count
MODELLI VETTORIALI BASATI SULLA SEMANTICA
Questi modelli cercano di identificare nel testo relazioni semantiche e di usarle per caratterizzare i significati dei concetti
HEARST 1992, 1998: USING PATTERNS TO EXTRACT ISA LINKS
Intuition: certain constructions typically used to express certain types of semantic relations
E.g., for ISA: The seabass IS A fish Swimming, running AND OTHER
activities Vehicles such as cars, trucks and bikes
TEXT PATTERNS FOR HYPONYMY EXTRACTION
HEARST 1998: NP {, NP}* {,} or other NPbruises …… broken bones, and other INJURIESHYPONYM (bruise, injury)
EVALUATION: 55.46% precision wrt WordNet
Cimiano and Wenderoth 2005
Extract from text the information about concepts specified by Pustejovsky’s Generative Lexicon theory
Evaluation: human judgments
PUSTEJOVSKY’S GENERATIVE LEXICON
Pustejovsky (1991, 1995): lexical entries have a QUALIA STRUCTURE consisting of four ‘roles’ FORMAL role: what type of object it is (shape,
color, ….) CONSTITUTIVE role: what it consists of (parts,
stuff, etc.) E.g., for books, chapters, index, paper ….
TELIC role: what is the purpose of the object (e.g., for books, READING)
AGENTIVE role: how the object was created (e.g., for books, WRITING)
EXAMPLE: QS FOR “KNIFE”
CIMIANO AND WENDEROTH’S APPROACH
PATTERNS FOR THE CONSTITUTIVE ROLE
GOOD EXAMPLES
PROBLEMS
PATTERNS FOR THE FORMAL ROLE
PATTERNS FOR THE AGENTIVE ROLE
PATTERNS FOR THE TELIC ROLE
SCOPERTA DI ACCEZIONI
The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily.
Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds.
whack, whack, whack his hand made vigorous spanking gestures on his left PALM.
The PALMs of his hands are sweaty
<breeze, frond,gently,lap,lazy,soft, sway, tree,wave>
<California,cycad,doll-sized,famous,frond,popular,Sago,…>
DISAMBIGUAZIONE DEI SIGNIFICATI
Sense 1: horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) Sense 2: horse -- (a padded gymnastic apparatus on legs) Sense 3: cavalry, horse cavalry, horse -- (troops trained to fight on horseback: "500 horse led the attack") Sense 4: sawhorse, horse, sawbuck, buck -- (a framework for holding wood that is being sawed) Sense 5: knight, horse -- (a chessman in the shape of a horse's head; can move two squares horizontally and one vertically (or vice versa)) Sense 6: heroin, diacetyl morphine, H, horse, junk, scag, shit, smack -- (a morphine derivative)
Corton has been involved in the design, manufacture and installation of horse stalls and horse-related equipment like external doors, shutters and accessories.
DISAMBIGUAZIONE DEI SIGNIFICATI
<contextfile concordance="brown"><context filename="br-h15" paras="yes">…..<wf cmd="ignore" pos="IN">in</wf> <wf cmd="done" pos="NN" lemma="fig" wnsn="1" lexsn="1:10:00::">fig.</wf> <wf cmd="done" pos="NN" lemma="6" wnsn="1“ lexsn="1:23:00::">6</wf> <punc>)</punc> <wf cmd="done" pos="VBP" ot="notag">are</wf> <wf cmd="done" pos="VB" lemma="slip" wnsn="3" lexsn="2:38:00::">slipped</wf> <wf cmd="ignore" pos="IN">into</wf> <wf cmd="done" pos="NN" lemma="place" wnsn="9" lexsn="1:15:05::">place</wf> <wf cmd="ignore" pos="IN">across</wf> <wf cmd="ignore" pos="DT">the</wf> <wf cmd="done" pos="NN" lemma="roof" wnsn="1" lexsn="1:06:00::">roof</wf> <wf cmd="done" pos="NN" lemma="beam" wnsn="2" lexsn="1:06:00::">beams</wf> <punc>,</punc>
ANNUNCI DI FINE CORSO
Appelli sessione estiva: 9 Giugno 2 Luglio
TIROCINI PRESSO IL CENTRO MENTE / CERVELLO DISPONIBILI!! clic.cimec.unitn.it Chiedere a me o Marco Baroni
top related