dipartimento di informatica università di roma la sapienza risorse computazionali per il web...

41
Dipartimento di Informatica Università di Roma “La Sapienza” Risorse Risorse Computazionali per Computazionali per il Web Semantico il Web Semantico Roberto Navigli Roberto Navigli Alcune slide provengono dalla scuola estiva EUROLAN 2003 19/09/2003

Upload: patrizia-orlandi

Post on 01-May-2015

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimentodi Informatica

Università di Roma “La Sapienza”

Risorse Risorse Computazionali per il Computazionali per il

Web SemanticoWeb Semantico

Roberto NavigliRoberto Navigli

Alcune slide provengono dalla scuola estiva EUROLAN 2003

19/09/2003

Page 2: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

AgendaAgenda• Il Web Semantico• Lessici computazionali

Classificazioni

• Focus on: SIMPLE FrameNet

Page 3: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Il Web SemanticoIl Web Semantico• Obiettivo: Trasformare il WWW in

una KB comprensibile alla macchina

Web Semantico

Ontologie

KnowledgeMarkup

AgentiIntelligenti

Applicazioni

Documenti

Database

Page 4: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

L’Onda SemanticaL’Onda Semantica

Page 5: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

6 sfide per il WS6 sfide per il WS(Benjamins et al. 2002)(Benjamins et al. 2002)

• Disponibilità del contenuto• Disponibilità di ontologie• Multilingualità• Scalabilità (organizzazione,

memorizzazione, ricerca della conoscenza)• Visualizzazione (≠ ipertesto)• Stabilità dei linguaggi del WS

(standardizzazione)

Human LanguageTechnology

(HLT)

Page 6: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lessici computazioniali e Lessici computazioniali e Human Language TechnologiesHuman Language Technologies

• I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina

• La rappresentazione è esplicita• Il significato è collegato alla

morfologia e alla sintassi della parola• E’ possibile creare collegamenti

lessicali multilingua

Page 7: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lessici computazionali e Lessici computazionali e HLT (2)HLT (2)

• Risorse critiche per i sistemi di NLP: Frame di sottocategorizzazione sintattica per il

parsing Semantic selectional preferences per la

riduzione dell’ambiguità Classi semantiche per WSD, semantic tagging

ecc.

• Componenti chiave delle HLT: Lessici monolingua – IE, QA, ecc. Lessici multilingua – MT, CLIR, ecc.

Page 8: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Ontologie e lessici Ontologie e lessici computazionalicomputazionali

Semantic Web

OntologiesComputational

Lexicons

HLTAccess toContent

?

Page 9: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

OntologieOntologie• “la specifica esplicita di una

concettualizzazione” (Gruber, 1993)• “includono il vocabolario, le

interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)

Page 10: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Ontologie “linguistiche”Ontologie “linguistiche”• Sistemi di simboli che rappresentano i

concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) Specificano le classi semantiche raggruppando

termini simili a livello semantico Usano un linguaggio di rappresentazione

semantica

OBJECT

EVENT

LOCATION

ARTIFACT

ANIMAL

ENTITY

VEHICLE

MAMMAL

BEACH

CONCERT

dog, cat, horse

car, van, truck

beach

piano concert, rock concert

spiaggia

Page 11: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Tipologie di lessici Tipologie di lessici computazionalicomputazionali

• Monolingua vs multilingua• General purpose vs domain specific• Tipo di contenuto

(Morfo)sintattico Semantico Misto Terminologico

Page 12: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lessici computazionali Lessici computazionali sintatticisintattici

• Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.)

• I frame sintattici includono: Un certo numero di argomenti Le rispettive categorie sintattiche (PP, NP, ecc.) Vincoli lessicali sugli argomenti (es. PP deve avere in

testa una preposizione) Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.)

hit [V: (Subj: NP) (Objd: NP)]answer [N: (Obji: PP_to)]

Page 13: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lessici computazionali Lessici computazionali semanticisemantici

• Rappresentano il significato di una parola Distinguono differenti sensi di una

parola Catturano le inferenze (essere umano

essere animato) Rappresentano similarità, relatedness

ecc. (es. banca, conto, denaro sono concetti relativi alla finanza)

Page 14: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lessici computazionali Lessici computazionali semanticisemantici

• Basati su reti concettuali WordNet (Miller, Fellbaum et al.)

• hierarchy/taxonomy EuroWordNet (Vossen et al.)

• heterarchy

• Basati su frame Mikrokosmos (Nirenburg, Mahesh et al.) FrameNet (Fillmore et al.)

• Ibridi SIMPLE (Calzolari, Lenci et al.)

Page 15: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

PAROLE-SIMPLEPAROLE-SIMPLE(ILC CNR Pisa – Calzolari, Lenci et al.)(ILC CNR Pisa – Calzolari, Lenci et al.)

• 12 lessici di base monolingua costruiti secondo un modello armonizzato

• Estesi a livello nazionale• Combinazione di informazioni sintattiche e

semantiche Frame di sottocategorizzazione sintattica Tipo semantico (“ontology”) Frame semantici collegati alla sintassi

• Ruoli semantici• Selectional preferences• Ecc.

Relazioni semantiche Pustejovsky’s “quali roles” Polisemia regolare Eventi

Page 16: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Elementi base del lessico Elementi base del lessico monolinguamonolingua

• Ciascun layer individua un’unità base di descrizione lessicale

morphological layer MU

basic unit to describe the inflectional and derivational morphological properties of the word

syntactic layer SynU

basic unit to describe the syntactic behavior of the MU

semantic layer SemUbasic unit to describe the semantic properties of the MU

Page 17: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Architettura di SIMPLEArchitettura di SIMPLE

Italian lexicon

etc.

Greek lexiconGreek lexicon

PAROLE Syntax

Italian lexiconItalian lexicon

Catalan lexiconCatalan lexicon

OntologyLexical

Templates

Language Independent Module

SemU

SemanticRelations

EventStructure

Polysemy

Semantic Frame(semantic roles, etc.)

Page 18: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

SIMPLESIMPLErelazioni semanticherelazioni semantiche

Top

Formal Constitutive Agentive Telic

Is_a Is_a_part_of Property

Contains

Created_by Agentive_cause Indirect_telic Activity

Instrumental Is_the_habit_of

Used_for Used_as

... ...

Page 19: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

SIMPLESIMPLEuna rete semanticauna rete semantica

<parte>part

Isa

Isa

Isa

<volare>fly

Used_for

Used_for

<aeroplano>airplane

Is_a_part_of

<uccello>bird

Is_a_part_of

<edificio>building

Is_a_part_of

Ala (wing)

SemU: 3232Type: [Part]Part of an airplane

SemU: 3268Type: [Part]Part of a building

SemU: D358Type: [Body_part]Organ of birds for flying

SemU: 3467Type: [Role]Role in football

<giocatore>player

Isa

Agentive

<fabbricare>make

Agentive

Page 20: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

SIMPLESIMPLEFrame semanticiFrame semantici

il difensore di Berlusconi (Berlusconi's defender)

il difensore del Milan (the Milan fullback)

Difensore N

SemU: 4125

Type: [Role]

Defender

SemU: 3526

Type: [Role]

Fullback

agentnominalization

<squadra>teamIs_a_member_of

PREDDifendere#1<Arg1>, <Arg2>

Page 21: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Frame disambiguationFrame disambiguation• L’identificazione del contributo semantico

di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali

• La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: La pagina del libro (part-of) Il difensore del Milan (member-of) Il suonatore di liuto (telic) Il tavolo di legno (made-of)

Page 22: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

SIMPLESIMPLEesempiesempi

semantic frame

semantic relations

ontology

Page 23: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lexical acquisition Lexical acquisition bottleneckbottleneck

• Il lessico italiano di SIMPLE codifica circa 6000 concetti Disomogeneo Incompleto Non è disponibile L’utilizzo non è consigliato dagli stessi autori

(ILC – CNR di Pisa)

• Acquisizione automatica della conoscenza lessicale FrameNet

GOSSIP!

GOSSIP!GOSSIP!

Page 24: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

FrameNetFrameNet(ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.)(ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.)

• Fase I (1997-2000) Basi concettuali, impiego di strumenti

preesistenti, Perl

• Fase II (2000-2003) Scalabilità, utilizzo di DB SQL, strumenti

scritti in Java Applicazioni pilota

Page 25: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

I frame e la comprensione I frame e la comprensione umanaumana

• Ipotesi: la gente comprende nuovi fatti effettuando operazioni mentali sulla base di ciò che già conosce. Tale conoscenza è descrivibile in termini di pacchetti di informazione chiamati frame

• FrameNet può fornire tale conoscenza• Le rappresentazioni di FrameNet fanno da

complemento a ontologie e lessici

Page 26: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

In cosa consiste FrameNetIn cosa consiste FrameNet• Caratterizzazione dei frame• Individuazione delle parole che riguardano

un frame• Sviluppo di una terminologia descrittiva• Estrazione di frasi di esempio• Annotazione (manuale) degli esempi

selezionati• Descrizione del frame

Page 27: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Il processoIl processo

• Le frasi contenenti una certa parola sono estratte dal corpus in esame e rese disponibili per l’annotazione

• Gli studenti (!) selezionano le espressioni che identificano i ruoli semantici delle frasi e li etichettano con il nome dei ruoli del frame

• Informazioni grammaticali sulle frasi etichettate sono estratte automaticamente

Page 28: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Alcune annotazioniAlcune annotazioni(to appoint – nominare)(to appoint – nominare)

Page 29: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Lista parziale di parole per Lista parziale di parole per un frameun frame

• Verbi: pay, spend, cost, buy, sell, charge

• Nomi: cost, price, payment• Adjectives: expensive, cheap

Page 30: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Significato e sintassiSignificato e sintassi• I vari verbi che evocano un frame

introducono gli elementi del frame in modi differenti

• Informazioni analoghe possono essere espresse in posti diversi della frase secondo il verbo utilizzato

Page 31: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

BUY

from

for

She bought some carrots from the greengrocer for a dollar.

Page 32: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

PAY

for

to

She paid a dollar to the greengrocer for some carrots.

Page 33: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

PAY

for

She paid the greengrocer a dollar for the carrots.

Page 34: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

SPEND

on

She spent a dollar on the carrots.

Page 35: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

SELL

for

to

The greengrocer sold some carrots to her for a dollar.

Page 36: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

SELL

for

The greengrocer sold her some carrots for a dollar.

Page 37: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

CHARGE

for

The greengrocer charged a dollar for a bunch of carrots.

Page 38: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

CHARGE

for

The greengrocer charged her a dollar for the carrots.

Page 39: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

COST

A bunch of carrots costs a dollar.

Page 40: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

Customer Vendor

Goods Money

COST

A bunch of carrots cost her a dollar.

Page 41: Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola

Dipartimento di InformaticaUniversità di Roma “La Sapienza”

RobertoNavigli

FrameNet Fact SheetFrameNet Fact Sheet• 500 frame• 7700 unità lessicali• 130.000 frasi annotate• Interconnessioni tra i frame (ereditarietà,

sottoframe, “using”) Potrebbero essere mappate su relazioni

ontologiche

• Multilingual FrameNets (spagnolo, tedesco, giapponese)

• Disponibile!