elaborare il linguaggio naturale cristina bosco ([email protected]) corso di informatica applicata...
TRANSCRIPT
![Page 1: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/1.jpg)
Elaborare il linguaggio naturale
Cristina Bosco([email protected])
Corso di Informatica applicata alla comunicazione multimediale
Facoltà di Lingue 23/2/2010
![Page 2: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/2.jpg)
2 Problemi nell’elaborare il
linguaggio• Problema 1:Il linguaggio contiene molte ambiguità
che rendono difficile elaborarlo • Problema 2:Il linguaggio è usato sovente in forma
“non corretta”
![Page 3: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/3.jpg)
Problema 1
Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dell’ambiguità
MA NON BASTA (quand’anche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore
![Page 4: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/4.jpg)
Problema 2• Esempio:in inglese il soggetto precede il
verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo
QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE
![Page 5: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/5.jpg)
Elaborare il linguaggio
• Raffinare le tecniche di elaborazione • Applicare il trattamento a testi
“ristretti” (ad es. come genere)• Sviluppare risorse linguistiche di
grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche
![Page 6: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/6.jpg)
Approccio corpus-based
• Utilizzato dai linguisti dalla fine dell’800 e tutt’ora molto diffuso
• Consiste nell’apprendere dal linguaggio le regole ed irregolarità del linguaggio
![Page 7: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/7.jpg)
Approccio corpus-based
Esempio: nel parsing, di fronte all’ambiguità e
quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate
![Page 8: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/8.jpg)
Approccio corpus-based
In pratica:si prende un campione di linguaggio, cioè un
insieme di frasi = CORPUSsi cercano nel corpus le strutture linguistiche
e le loro probabilità = BASE di CONOSCENZA
se si incontra una struttura ambigua si cerca nella base di conoscenza l’informazione utile per costruire la rappresentazione più probabile della struttura
![Page 9: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/9.jpg)
Un progetto reale: TUT
•Obiettivo: sviluppare una risorsa
linguistica, una banca di alberi sintattici per l’italiano
![Page 10: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/10.jpg)
Fasi di sviluppo del progetto
•Selezione dei testi da annotare
•Definizione dello schema di annotazione
•Applicazione dello schema al corpus di testi (validità e consistenza)
![Page 11: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/11.jpg)
Selezione di testi in TUT
• 45% testi da giornali quotidiani e riviste
• 45% testi dal codice civile• 10% testi da un corpus
multilingue della CE
![Page 12: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/12.jpg)
ES: corpora balancing
TEXTS fromPRAGUE newspapers, scientific and
economic journals
NEGRA newspaper Frankfurter Rundschau
PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations
![Page 13: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/13.jpg)
Definizione dello schema di
annotazione•Scelta del formalismo
•Scelta delle informazioni e strutture da rappresentare
![Page 14: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/14.jpg)
Struttura sintattica: scelta tra 2 aspetti
• L’organizzazione delle unitá della frase (sintagmi e constituent structure)
• La funzione degli elementi della frase (relazioni grammaticali e relational structure)
![Page 15: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/15.jpg)
Relational structure
•Le parole della frase svolgono funzioni diverse
•Le funzioni sono espresse in termini di relazioni grammaticali
![Page 16: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/16.jpg)
Giorgio
ama
Maria
SUBJ OBJ
Relational structure
![Page 17: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/17.jpg)
Constituent structure
Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi
![Page 18: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/18.jpg)
ES: constituents
Giorgio ama Maria
Nome-pr Nome-pr Verbo
VP
S
NP NP
![Page 19: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/19.jpg)
Constituent structure
(S(NP ( NOME Giorgio))(VP (VERBO ama)
(NP (NOME Maria))
)
)
![Page 20: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/20.jpg)
Constituent structure
Le relazioni tra le parole non sono tutte uguali:
“Maria leggeva un libro in biblioteca”
![Page 21: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/21.jpg)
ES: Penn annotation
( S
( NP - SBJ (PRP I) )
( ADVP - TMP ( RB never) )
( VP (VBD had)
( NP (JJ many) (NNS clients) )
( NP - ADV (DT a) ( NN day) ))
))
NP
VP
NP
ADVP
NP
S
SBJ
TMP
PRP
RB
VBD
NNSDT
NNDTADV
![Page 22: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/22.jpg)
ES: NEGRA annotation
S
VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
![Page 23: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/23.jpg)
Costituenti e relazioni
•La struttura relazionale include le informazioni relative all’
organizzazione della frase in unità
•La struttura a costituenti non include le informazioni relative alla funzione delle parole
•La struttura relazionale è più compatta
![Page 24: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/24.jpg)
•Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue
•La struttura relazionale include la struttura argomentale
Costituenti e relazioni
![Page 25: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/25.jpg)
La struttura argomentale
•relazioni grammaticali
•ruoli semantici
•uguali o distinti?
![Page 26: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/26.jpg)
Le relazioni grammaticali
•Identificabili da varie proprietà
•Diverse nelle varie lingue
![Page 27: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/27.jpg)
ES: annotation processes
MORPHO SYNT SEMPRAGUE semi-
automatic
semi-automatic
semi-automatic
NEGRA automatic interactive(probabilistic)
PENN automatic automatic (skeletal)
![Page 28: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/28.jpg)
Processo di sviluppo del TUT
•Part Of Speech tagging automatico
•Correzione manuale del tagging
•Parsing interattivo
•Verifica e revisione
![Page 29: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/29.jpg)
6.4. TUT application and future
• Study of the Italian word order• Extraction of grammar• Conversion in other treebank formats• …
![Page 30: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/30.jpg)
ES: word order in Italian
(in 1200 sentences)
![Page 31: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/31.jpg)
6.2.2 TUT relation components
• Morpho-syntactic: morpho-syntactic features such as Verb, Noun …
• Functional-syntactic: syntactic relations such as Subject, Object
• Semantic: semantic relations such as Location, Time, Cause
![Page 32: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/32.jpg)
ES: morpho-syntactic component
La nazione sogna ricchezza
I sogni di ricchezza della nazione
Velocemente / in modo veloce
VERB-SUBJ
NOUN-OBJ NOUN-SUBJ
VERB-OBJ VERB
NOUN
ADV-role ADV-role
![Page 33: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/33.jpg)
ES: morpho-syntactic component
in TUT
![Page 34: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/34.jpg)
Empirical evidence for the morpho-syntactic component in TUT
• Given 944 different Verbs = 4169 occurrences
• 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too
![Page 35: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/35.jpg)
ES: functional-syntactic component
Egli non è stato visto da nessuno
Egli non è stato visto da ieri
ARG
MOD
![Page 36: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/36.jpg)
ES: functional-syntactic component
in TUT
![Page 37: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/37.jpg)
ES: semantic component
Da qui è partito l’assalto
Succedeva dall’altra parte del mondo
I miliardi stanziati dal 1991
Era impazzito dal dolore
Trarrà beneficio dalla bonifica
LOC+FROM
LOC+IN
TIME
REASONCAUSE
SOURCE
![Page 38: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/38.jpg)
ES: semantic component in TUT
![Page 39: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/39.jpg)
Empirical evidence for the semantic component in TUT
• Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD
• They assume 7 different semantic values:
LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
![Page 40: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/40.jpg)
ES: Annotation in TUT1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]
8 il (IL ART DEF F SING) [7;VERB-OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]
![Page 41: Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010](https://reader035.vdocuments.site/reader035/viewer/2022062307/5542eb5a497959361e8c7ddc/html5/thumbnails/41.jpg)
END
For further information:
http://www.di.unito.it/~tutreeb
http://www.di.unito.it/~bosco)