le risorse elettroniche per l’nlp · wordnet è un database lessicale per la lingua inglese ......

37
Le Risorse Elettroniche per l’NLP: Dizionari Elettronici e Grammatiche Locali

Upload: doanmien

Post on 15-Feb-2019

226 views

Category:

Documents


0 download

TRANSCRIPT

Le Risorse Elettroniche per l’NLP: Dizionari Elettronici e Grammatiche Locali

Dizionari Elettronici

◉Dizionari Elettronici

◉Grammatiche Locali

Dizionari Elettronici

Dizionari Elettronici

Risorse Lessicali per l’NLP Perché siano utilizzabili per il trattamento

automatico del linguaggio non è sufficiente che siano digitalmente accessibili,

devono contenere machine-readable data

Risorse Lessicali per l’NLP

Completezza Target umano Le informazioni estraibili dalla conoscenza enciclopedica possono essere omesse

Target macchina Il computer non può avere margine d’errore: nulla può essere lasciato al caso. Le informazioni devono essere esaustive

Esplicitazione Target umano Parte dell’informazione può essere implicita, date le capacità umane di intuizione, adattamento e deduzione

Target macchina Possono essere processate solamente le istruzioni e i simboli completamente esplicitati

Codifica Target umano Le informazioni consistono in raw data, in testi non strutturati

Target macchina Le informazioni formite al computer devono essere accurate, coerenti e completamente codificate

◉ WordNet è un database lessicale per la lingua inglese

◉ Raggruppa nomi, verbi, aggettivi e avverbi in gruppi di sinonimi cognitivi, I synsets.

◉ I synsets sono interconnessi mediante relazioni concettuali, semantiche e lessicali

◉ È disponibile in rete per la navigazione (umana)

◉ È scaricabile e interrogabile per applicazioni di NLP

Approfondisci: George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.

Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

https://wordnet.princeton.edu/

Risorse Lessicali per l’NLP

Risorse Lessicali per l’NLP

Human readable

Machine readable

Risorse Lessicali per l’NLP

Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Le categorie in base alle quali le entrate sono classificate sono le seguenti: • 69.356 nomi

• 34.045 aggettivi

• 15.574 avverbi

• 9.689 verbi

• 143 congiunzioni

• 479 esclamazioni

• 4 interiezioni

• 63 preposizioni

• 5 determinanti

• 234 prefissi

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Risorse Lessicali per l’NLP

Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Risorse Lessicali per l’NLP

Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.

Quelli che seguono sono alcuni dei tag semantici che il dizionario prevede:

◉ Nomi concreti (+Conc): 21.941 entrate

◉ Nomi concreti collettivi (+ConcColl): 197 entrate

◉ Nomi umani (+Um): 12.571 entrate

◉ Nomi umani collettivi (+UmColl): 228 entrate

◉ Nomi di animali (+Anl): 2.036 entrate

◉ Nomi di animali collettivi (+AnlColl): 23 entrate

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Risorse Lessicali per l’NLP

Cdic_it è il dizionario elettronico dei nomi composti, contiene più di 127.000 entrate e riconosce 260.944 nomi composti (classi NPN, NA, AN, NN). Alla maggior parte dei nomi è associato il campo semantico di appartenenza.

◉ Informatica 54.000 polirematiche

◉ Medicina 46.000 polirematiche

◉ Gurisprudenza 21.000 polirematiche

◉ Ingegneria 19.000 polirematiche

◉ Archeologia 11.000 polirematiche

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Risorse Lessicali per l’NLP

Altri dizionari elettronici a disposizione per l’italiano sono i seguenti:

◉ Acronimi: 157 entrate

◉ Alterati: 185 entrate

◉ Contrazioni: 36 entrate

◉ Elisioni: 55 entrate

◉ ElisioniContrazioni : 12 entrate

◉ NomiPropri: 3.327 entrate, consente anche l'annotazione delle forme in -ISMO, -ISTA, -IANO, -ESCO in associazione con la grammatica morfologica NomiPropri#ismo.nom

◉ Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica

◉ Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Risorse Lessicali per l’NLP

adsl,Asymmetric Digital Subscriber Line,N+FLX=N601+Acr

bene,AVV+HIDDENINO+HIDDENONE+HIDDENUCCIO

agli,<a,PREP><gli,il,DET+m+p>

qualcos',qualcosa,PRON

nell',<in,PREP><lo,il,DET+m+s>

Serena,N+f+s+Npr+Um

Salerno,N+NPR+TOPONIMO+Città+REGIONE="Campania"

signor,signore,N+m+s

◉ Acronimi: 157 entrate

◉ Alterati: 185 entrate

◉ Contrazioni: 36 entrate

◉ Elisioni: 55 entrate

◉ ElisioniContrazioni : 12 entrate

◉ NomiPropri: 3.327 entrate (consente anche l'annotazione delle forme in -ISMO, -ISTA, -IANO, -ESCO)

◉ Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica

◉ Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom

Altri dizionari elettronici a disposizione per l’italiano sono i seguenti:

Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione

Risorse Grammaticali per l’NLP Perché siano utilizzabili per il trattamento

automatico del linguaggio non è sufficiente che siano digitalmente accessibili,

devono contenere machine-readable data

Le grammatiche locali sono algoritmi che, attraverso istruzioni sintattiche, morfologiche e lessicali, sono utilizzate per formalizzare fenomeni linguistici e per processare automaticamente i testi.

Con l’espressione Locali sottolineiamo che, oltre ogni generalizzazione, queste grammatiche possono essere usate nella descrizione e nell’analisi di fenomeni linguistici limitati

Risorse Grammaticali per l’NLP

Un Automa a Stati Finiti è il modello astratto di una macchina

È in grado di riconoscere se una stringa appartiene o meno a un certo linguaggio

Risorse Grammaticali per l’NLP

Un Automa a Stati Finiti consiste in una serie di nodi o stati (Si) connessi tra loro mediante transizioni (tj).

Si legge solo da sinistra a destra, dallo stato iniziale (S0) allo stato finale (S3)

Risorse Grammaticali per l’NLP

Un Automa a Stati Finiti può essere deterministico oppure no

Risorse Grammaticali per l’NLP

Automa a Stati Finiti deterministico

Automa a Stati Finiti non deterministico

Un Automa a Stati Finiti diventa un Trasduttore se traduce i simboli di input (Sii) in simboli di output (Sio)

Risorse Grammaticali per l’NLP

◉ Un Automa a Stati Finiti diventa un Recursive Transition Network (RTN) se contiene grafi incassati (embedded graphs, S3).

◉ È un Enhanced Recursive Transition Network (ERTN quando include variabili (V) e restrizioni (constraints, C)

Risorse Grammaticali per l’NLP

Cos’è un grafo incassato?

◉ È un grafo contenuto all’interno di un nodo di un altro grafo

Risorse Grammaticali per l’NLP

Grafo Incassato

◉ Le variabili ( ) e le restrizioni ( ) possono essere utilizzate all’interno e all’esterno dei grafi incassati ( ) e dei loop ( )

◉ Più occorrenze della stessa variabile possono essere utilizzate lungo il percorso della grammatica locale, assumendo anche diversi valori.

Risorse Grammaticali per l’NLP

Cos’è una variabile?

◉ È un insieme di dati modificabili (in opposizione alla costante)

◉ È associata a un insieme di valori predefiniti (tipo)

Risorse Grammaticali per l’NLP

Cos’è una variabile?

◉ È un insieme di dati modificabili (in opposizione alla costante)

◉ È associata a un insieme di valori predefiniti (tipo)

Risorse Grammaticali per l’NLP

Cos’è una variabile?

I.e. Riconscimento delle ripetizioni

Risorse Grammaticali per l’NLP

Dati modificabili: • efficient • grammar Tipo di dati: • <L> = lettera • <WF>= parola • <P>= simbolo di interpunzione • ecc…

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

Cos’è una restrizione? ◉ È un’istruzione che controlla il campo d’applicazione di una grammatica locale troppo produttiva

◉ Si relaziona alla Variabile (V) se delimita un insieme di definizione più piccolo di quello tipizzato da V

Risorse Grammaticali per l’NLP

Cos’è una restrizione?

Risorse Grammaticali per l’NLP

Campo d’applicazione: • american-ize

• *size

Tipo di dati: <L> + loop = sequenza di lettere

<L> + loop + <$Pref=:A> =

sequenza di lettere

corrispondente ad un aggettivo

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

◉ Esempi di Recursive Transition Network (RTN)

Risorse Grammaticali per l’NLP

◉ Esempi di Recursive Transition Network (RTN)

Risorse Grammaticali per l’NLP

Grafo Incassato

◉ Esempi di Recursive Transition Network (RTN)

Risorse Grammaticali per l’NLP

◉ Esempi di Enhanced Recursive Transition Network (ERTN)

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

“One woman aged 25 had fever symptom”

Agent (Sex(F), Age(25), Symptom(fever))

<AGENT Sex=F Age=25 Symptom=fever>One woman aged 25 had fever symptom<\AGENT>

Frase:

Descrizione:

Annotazione XML:

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.

◉ Esempi di ERTN e analisi semantica del testo

Risorse Grammaticali per l’NLP

“John sees Mary ”

PRED=see (John,Mary)

Frase:

Descrizione PROLOG-like :

Annotazione XML: <PRED F=see ARG1=John ARG2=Mary>John sees Mary<\PRED>

Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.