le risorse elettroniche per l’nlp · wordnet è un database lessicale per la lingua inglese ......
Post on 15-Feb-2019
226 Views
Preview:
TRANSCRIPT
Risorse Lessicali per l’NLP Perché siano utilizzabili per il trattamento
automatico del linguaggio non è sufficiente che siano digitalmente accessibili,
devono contenere machine-readable data
Risorse Lessicali per l’NLP
Completezza Target umano Le informazioni estraibili dalla conoscenza enciclopedica possono essere omesse
Target macchina Il computer non può avere margine d’errore: nulla può essere lasciato al caso. Le informazioni devono essere esaustive
Esplicitazione Target umano Parte dell’informazione può essere implicita, date le capacità umane di intuizione, adattamento e deduzione
Target macchina Possono essere processate solamente le istruzioni e i simboli completamente esplicitati
Codifica Target umano Le informazioni consistono in raw data, in testi non strutturati
Target macchina Le informazioni formite al computer devono essere accurate, coerenti e completamente codificate
◉ WordNet è un database lessicale per la lingua inglese
◉ Raggruppa nomi, verbi, aggettivi e avverbi in gruppi di sinonimi cognitivi, I synsets.
◉ I synsets sono interconnessi mediante relazioni concettuali, semantiche e lessicali
◉ È disponibile in rete per la navigazione (umana)
◉ È scaricabile e interrogabile per applicazioni di NLP
Approfondisci: George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.
Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.
https://wordnet.princeton.edu/
Risorse Lessicali per l’NLP
Risorse Lessicali per l’NLP
Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.
Le categorie in base alle quali le entrate sono classificate sono le seguenti: • 69.356 nomi
• 34.045 aggettivi
• 15.574 avverbi
• 9.689 verbi
• 143 congiunzioni
• 479 esclamazioni
• 4 interiezioni
• 63 preposizioni
• 5 determinanti
• 234 prefissi
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione
Risorse Lessicali per l’NLP
Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione
Risorse Lessicali per l’NLP
Sdic_it è il dizionario elettronico delle parole semplici dell’Italiano, ha più di 129.000 entrate e permette di riconoscere 1.099.179 parole semplici e composte monorematiche.
Quelli che seguono sono alcuni dei tag semantici che il dizionario prevede:
◉ Nomi concreti (+Conc): 21.941 entrate
◉ Nomi concreti collettivi (+ConcColl): 197 entrate
◉ Nomi umani (+Um): 12.571 entrate
◉ Nomi umani collettivi (+UmColl): 228 entrate
◉ Nomi di animali (+Anl): 2.036 entrate
◉ Nomi di animali collettivi (+AnlColl): 23 entrate
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione
Risorse Lessicali per l’NLP
Cdic_it è il dizionario elettronico dei nomi composti, contiene più di 127.000 entrate e riconosce 260.944 nomi composti (classi NPN, NA, AN, NN). Alla maggior parte dei nomi è associato il campo semantico di appartenenza.
◉ Informatica 54.000 polirematiche
◉ Medicina 46.000 polirematiche
◉ Gurisprudenza 21.000 polirematiche
◉ Ingegneria 19.000 polirematiche
◉ Archeologia 11.000 polirematiche
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione
Risorse Lessicali per l’NLP
Altri dizionari elettronici a disposizione per l’italiano sono i seguenti:
◉ Acronimi: 157 entrate
◉ Alterati: 185 entrate
◉ Contrazioni: 36 entrate
◉ Elisioni: 55 entrate
◉ ElisioniContrazioni : 12 entrate
◉ NomiPropri: 3.327 entrate, consente anche l'annotazione delle forme in -ISMO, -ISTA, -IANO, -ESCO in associazione con la grammatica morfologica NomiPropri#ismo.nom
◉ Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica
◉ Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione
Risorse Lessicali per l’NLP
adsl,Asymmetric Digital Subscriber Line,N+FLX=N601+Acr
bene,AVV+HIDDENINO+HIDDENONE+HIDDENUCCIO
agli,<a,PREP><gli,il,DET+m+p>
qualcos',qualcosa,PRON
nell',<in,PREP><lo,il,DET+m+s>
Serena,N+f+s+Npr+Um
Salerno,N+NPR+TOPONIMO+Città+REGIONE="Campania"
signor,signore,N+m+s
◉ Acronimi: 157 entrate
◉ Alterati: 185 entrate
◉ Contrazioni: 36 entrate
◉ Elisioni: 55 entrate
◉ ElisioniContrazioni : 12 entrate
◉ NomiPropri: 3.327 entrate (consente anche l'annotazione delle forme in -ISMO, -ISTA, -IANO, -ESCO)
◉ Toponimi: 1.113 entrate, in molti casi associate ad informazioni di natura geografica
◉ Tronche: 53 entrate, da applicare assieme alla grammatica troncamento.nom
Altri dizionari elettronici a disposizione per l’italiano sono i seguenti:
Le risorse lessicali del Dipartimento di Scienze Politiche, Sociali e della Comunicazione
Risorse Grammaticali per l’NLP Perché siano utilizzabili per il trattamento
automatico del linguaggio non è sufficiente che siano digitalmente accessibili,
devono contenere machine-readable data
Le grammatiche locali sono algoritmi che, attraverso istruzioni sintattiche, morfologiche e lessicali, sono utilizzate per formalizzare fenomeni linguistici e per processare automaticamente i testi.
Con l’espressione Locali sottolineiamo che, oltre ogni generalizzazione, queste grammatiche possono essere usate nella descrizione e nell’analisi di fenomeni linguistici limitati
Risorse Grammaticali per l’NLP
Un Automa a Stati Finiti è il modello astratto di una macchina
È in grado di riconoscere se una stringa appartiene o meno a un certo linguaggio
Risorse Grammaticali per l’NLP
Un Automa a Stati Finiti consiste in una serie di nodi o stati (Si) connessi tra loro mediante transizioni (tj).
Si legge solo da sinistra a destra, dallo stato iniziale (S0) allo stato finale (S3)
Risorse Grammaticali per l’NLP
Un Automa a Stati Finiti può essere deterministico oppure no
Risorse Grammaticali per l’NLP
Automa a Stati Finiti deterministico
Automa a Stati Finiti non deterministico
Un Automa a Stati Finiti diventa un Trasduttore se traduce i simboli di input (Sii) in simboli di output (Sio)
Risorse Grammaticali per l’NLP
◉ Un Automa a Stati Finiti diventa un Recursive Transition Network (RTN) se contiene grafi incassati (embedded graphs, S3).
◉ È un Enhanced Recursive Transition Network (ERTN quando include variabili (V) e restrizioni (constraints, C)
Risorse Grammaticali per l’NLP
Cos’è un grafo incassato?
◉ È un grafo contenuto all’interno di un nodo di un altro grafo
Risorse Grammaticali per l’NLP
Grafo Incassato
◉ Le variabili ( ) e le restrizioni ( ) possono essere utilizzate all’interno e all’esterno dei grafi incassati ( ) e dei loop ( )
◉ Più occorrenze della stessa variabile possono essere utilizzate lungo il percorso della grammatica locale, assumendo anche diversi valori.
Risorse Grammaticali per l’NLP
Cos’è una variabile?
◉ È un insieme di dati modificabili (in opposizione alla costante)
◉ È associata a un insieme di valori predefiniti (tipo)
Risorse Grammaticali per l’NLP
Cos’è una variabile?
◉ È un insieme di dati modificabili (in opposizione alla costante)
◉ È associata a un insieme di valori predefiniti (tipo)
Risorse Grammaticali per l’NLP
Cos’è una variabile?
I.e. Riconscimento delle ripetizioni
Risorse Grammaticali per l’NLP
Dati modificabili: • efficient • grammar Tipo di dati: • <L> = lettera • <WF>= parola • <P>= simbolo di interpunzione • ecc…
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
Cos’è una restrizione? ◉ È un’istruzione che controlla il campo d’applicazione di una grammatica locale troppo produttiva
◉ Si relaziona alla Variabile (V) se delimita un insieme di definizione più piccolo di quello tipizzato da V
Risorse Grammaticali per l’NLP
Cos’è una restrizione?
Risorse Grammaticali per l’NLP
Campo d’applicazione: • american-ize
• *size
Tipo di dati: <L> + loop = sequenza di lettere
<L> + loop + <$Pref=:A> =
sequenza di lettere
corrispondente ad un aggettivo
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
◉ Esempi di Enhanced Recursive Transition Network (ERTN)
Risorse Grammaticali per l’NLP
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
◉ Esempi di ERTN e analisi semantica del testo
Risorse Grammaticali per l’NLP
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
◉ Esempi di ERTN e analisi semantica del testo
Risorse Grammaticali per l’NLP
“One woman aged 25 had fever symptom”
Agent (Sex(F), Age(25), Symptom(fever))
<AGENT Sex=F Age=25 Symptom=fever>One woman aged 25 had fever symptom<\AGENT>
Frase:
Descrizione:
Annotazione XML:
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
◉ Esempi di ERTN e analisi semantica del testo
Risorse Grammaticali per l’NLP
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
◉ Esempi di ERTN e analisi semantica del testo
Risorse Grammaticali per l’NLP
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
◉ Esempi di ERTN e analisi semantica del testo
Risorse Grammaticali per l’NLP
“John sees Mary ”
PRED=see (John,Mary)
Frase:
Descrizione PROLOG-like :
Annotazione XML: <PRED F=see ARG1=John ARG2=Mary>John sees Mary<\PRED>
Silberztein, M. (2004). NooJ manual (2003). Download from http://www. nooj4nlp. net.
top related