informatica umanistica d: lessicografia & computer lessici e corpora

INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER

LESSICI E CORPORA

USO DEI CORPORA NELLA LESSICOGRAFIA

Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source.

Introduzione a ECED (citata da Jackson, p. 167)

ALTRI DIZIONARI BASATI SU CORPORA

Collins COBUILD BANK OF ENGLISH (Birmingham)

(400M) Oxford, Longman

BRITISH NATIONAL CORPUS (150M) Cambridge

CAMBRIDGE LANGUAGE SURVEY

ITALIANO

Non esiste ancora un dizionario come CoBUILD

Vocabolario Elettronico della Lingua Italiana, VELI (De Mauro / IBM, 1989)

Lessico di Frequenza dell’Italiano Parlato (LIP) (De Mauro et al, 1993)

CORPORA

CORPUS: una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri.

Lenci, Montemagni & Pirrelli, p. 26

CORPORA & COMPUTERS

I corpora esistevano prima dell’avvento dei calcolatori elettronici, ma le loro funzionalita’ e dimensioni erano limitate

TIPI DI CORPORA

GENERALI (Brown, BNC) o SPECIFICI (Childes, ICONOCLAST, EuroParl)

SCRITTO (BNC) o PARLATO (LIP) od ambedue

SINCRONICO (Brown) o DIACRONICO (Italnet, Repubblica)

MONOLINGUA, MULTILINGUE (Parole), o PARALLELI (Hansard, EuroParl)

ALCUNI CORPORA PER L’INGLESE

Corpus # Tokens Comments

Brown 1 000 000 Tagged, balanced

British National Corpus (BNC)

100 000 000 POS tagged

Penn Treebank 2 000 000 Parsed

MapTask 150 000 Spoken dialogue, parsed, dialogue acts

Bank Of English 450 000 000 Aperto

IL BROWN CORPUS

Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961)

500 testi, ognuno 2 000 parole Analisi SINCRONICA dell’Inglese

Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa)

Annotata la parte del discorso di tutte le parole (87 classi)

CORPORA MODERNI

Includono scritto, parlato, & nuove forme (web, email, blogs)

Tipicamente testi interi Sopra i 100 milioni di parole Marcatura standardizzata (tipicamente

XML)

IL British National Corpus (BNC)

Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press

Circa 100 milioni di parole Classificazione grammaticale automatica

usando il classificatore CLAWS (parti corrette a mano successivamente)

http://www.hcu.ox.ac.uk/BNC

FORMATO (SGML)

<div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>

REINTERPRETAZIONE XML

<head> <s id=“n00040”> <w C=“NN2”>TROUSERS </w><w C=“VVB”>SUIT </w></head> <caption> <s id=“n00041”> <w C=“EX0”>There </w><w C=“VBZ”>is </w><w C=“PNI”>nothing </w><w C=“AJ0”>masculine </w> ….</s> <s n=00042> … </s>…….</caption>

BNC: INTERFACCIA

Query tool: SARA Interfaccia WEB: http://

sara.natcorp.ox.ac.uk/lookup.html

CORPORA PER L’ITALIANO

Il termine ‘corpus’ usato perche’ il primo corpus elettronico e’ la raccolta dei testi di S. Tommaso d’Aquino creata da padre Busa negli anni ’50

Alcuni corpora: ITALNET (1849 testi anteriori a Boccaccio) LIP (de Mauro et al, 1993) REPUBBLICA

UN ESEMPIO: IL CORPUS DI REPUBBLICA

Creato da SSMIT all’Universita’ di Bologna (Forli’) Annate di Repubblica dal 1985 al 2000 380 milioni di parole tokenizzate, classificate

grammaticalmente, e lemmatizzate Codifica XML secondo lo standard TEI Disponibile a:

http://sslmitdev-online.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica (Occorre registrarsi)

CORPORA PER LA LESSICOGRAFIA

Esempio del tipo di scelte che si devono fare

Tipicamente includono sia parlato che scritto

Diacronici

ANALISI LESSICOGRAFICA DI TESTI

Identificazione dei LEMMI (e delle loro parti del discorso)

Calcolo delle loro frequenze Costruzione di CONCORDANZE

liste ordinate di parole che si trovano in un testo con il contesto

Identificazione di COLLOCAZIONI “broken twig”

L’IDENTIFICAZIONE DEI LEMMI IN UN TESTO

TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE

TOKENIZZAZIONE

C’ERA UNA VOLTA UN PEZZO DI LEGNO.

C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |

C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |

ALCUNI PROBLEMI CON IL PUNTO

C’ERA UNA VOLTA UN PEZZO DI LEGNO.

IL SIG. ROSSI TELEFONÓ A CASA.

U.S.A.

9.45

WWW.GOOGLE.IT

MAIUSCOLE E MINUSCOLE

Rossi / rossi

Ciliegia / ciliegia

TOKEN COMPLESSI

Los Angeles, La Spezia Di rado, fuori servizio Ad hoc Tagliare la corda GU L 161 del 26.6.1999

LEMMATIZZAZIONE

DARGLIELO

LEMMATIZZAZIONE NEL LIP

In Italiano, una volta nota la categoria grammaticale di una forma il lemma e’ solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di

CONTO o CONTE) Processo in tre passi

LEMMATIZZAZIONE

ANCORA LA DERIVA:1. ANCORA (N, V, CON) LA (ART, PRO)

DERIVA N, V)

2. ANCORA (V) LA (ART) DERIVA (N)

3. ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)

LEMMATIZZAZIONE CON XELDA

XELDA: DEMO ONLINE

Analisi morfologica in 14 lingue

CLASSIFICAZIONE GRAMMATICALE

In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i lemmi vengono classificati con la loro parte di discorso

Brown corpus: fatto a mano BNC, LIP: fatto automaticamente

CLASSIFICAZIONE GRAMMATICALE

Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO

ITALIANO) che verbo (NON SONO STATO IO)

CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS

Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.

AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE

The ATman NN VBstill NN VB RBsaw NN VBDher PPO PP$

STATISTICHE SULL’AMBIGUITA’ NEL B.C.

Unambiguous (1tag) 35,340Ambiguous (2-7 tags) 4,100

2 tags 3,7603 tags 2644 tags 615 tags 126 tags 27 tags 1 (“still”)

METODI PER LA CLASSIFICAZIONE GRAMMATICALE

Prevalentemente STATISTICI Combinano:

Informazioni sulla FREQUENZA di una parola

Con informazioni sul CONTESTO (specialmente parole precedenti)

E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE

CONCORDANZE

In Pinocchio, la forma BUONO occorre 11 volte.

Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti?

Soluzione: le CONCORDANZE

CONCORDANZE

1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si

CONCORDANZA = forma + contesto

RICERCHE E CONCORDANZE NEL CORPUS DI REPUBBLICA

L’interfaccia Web al corpus puo’ essere usata per Query di vario tipo (ritrovano

concordanze) Calcolare frequenze di parole

TOOLS PER L’ANALISI LESSICOGRAFICA

Esistono oggi moltissimi tools che permettono di eseguire il tipo di analisi appena visto automaticamente

Esempi: WORDSMITH distribuito da ICAME (a

pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

TextSTAT

Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin

Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD

Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html

TextSTAT

CONCORDANZE: FORME DIVERSE DI CONTESTO

e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade

ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8

COLLOCAZIONI

NOTTE FONDA, LUNA PIENA, ALTA STAGIONE

COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione

TIPI DI COLLOCAZIONI

TERMINI TECNICI: sistema operativo, corte d’Assise

VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte

COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

RICERCA DI COLLOCAZIONI

Usando metodi statistici Intuizione: cercare di scoprire coppie

la cui probabilita’ di occorrere in sequenza e’ molto maggiore di quel che ci si aspetterebbe date le relative probabilita’ di occorrenza

DAI LEMMI IN UN CORPUS AI LEMMI IN UN DIZIONARIO

Durante la progettazione di un dizionario, si determinano Le DIMENSIONI del dizionario (numero di

lemmi) Il bilanciamento tra le lettere dell’alfabeto La lunghezza delle definizioni

L’uso dei dati estratti automaticamente per la compilazione richiede un passo non-automatico

CORPORA E LESSICOGRAFIA (AGAIN)

De Mauro, 1980: VOCABOLARIO DI BASE (VDB) 2000 vocaboli fondamentali (“se usiamo solo …

possiamo sperare di essere capiti dal 66% della popolazione Italiana che ha almeno la licenza elementare”)

2937 di alto uso, 1753 di ‘alta disponibilita’’ LIP e VDB:

AMICO, CRITICO, ESPRESSO: VDB solo sostantivi, LIP anche verbi

Non nel LIP: UNGHIA, BUGIA, PUGNO

CORPORA ALLINEATI E APPRENDIMENTO DELLE LINGUE

I corpora allineati (Hansard, EUROPARL) sono una risorsa importante sia per la traduzione che per l’apprendimento

Interfaccia a EuroParl (Portoghese / Francese): http://eremita.di.uminho.pt/albin/nat-searc

h.cgi

CREAZIONE DI CORPORA

Un impegno significativo Essenziale chiarire sin dall’inizio usi che si

vogliono fare: Che linguaggio si vuol campionare Che tipi di analisi

Decisioni tecniche: Codifica dei testi (ASCII, XML) (modulo C) Tokens, lemmi, etc.

IL LESSICO DI FREQUENZA DELL’ITALIANO PARLATO

De Mauro, Mancini, Vedovelli e Voghera: LESSICO DI FREQUENZA DELL’ITALIANO PARLATO, ETAS libri, 1993

500 000 lemmi in totale (57 h di registrazione)

Raccolti in ugual numero a Milano, Firenze, Roma e Napoli

100 000 occorrenze per ognuno di cinque ‘tipi di parlato’ (da conversazione a ‘scambio unidirezionale’ = discorsi politici)

CREAZIONE DEL CORPUS

Raccolta dei materiali Trascrizione Trattamento automatico

RACCOLTA DEI MATERIALI

Gruppo A: conversazioni bidirezionali faccia a faccia in casa / sul lavoro / a scuola / etc

Gruppo B: conversazioni bidirezionali NON faccia a faccia (al telefono)

Gruppo C: conversazioni bidirezionali faccia a faccia ma “con presa di parola non libera” (esami universitari / assemblee legislative / interviste)

Gruppo D: scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie)

Gruppo E: scambio unidirezionale a distanza (trasmissioni televisive / radiofoniche)


Raccolta dei materiali Trascrizione

A mano Non IPA Vari simboli per pause, tenute vocaliche

(ciao_), etc. Trattamento automatico


Raccolta dei materiali Trascrizione Trattamento automatico:

Tokenizzazione Lemmatizzazione Classificazione grammaticale Correttezza: tra il 91% ed il 94%

ALCUNE STATISTICHE

il (Art) 37076 non (Av) 7752

di (Prep) 16721 in (Prep) 6879

essere (V) 15220 che (Pro) 6705

uno (Art) 12204 io (Pro) 5872

a (Prep) 11671 che (Cong) 5501

e (Cong.) 9858 avere 5396

egli (Pro) 8360 per (Prep) 4956

LA CURVA DI ZIPF

LIP e LIF

Non emergono chiare regole Spostamenti di RANGO

Mo’: 326 nel LIP, 3296 nel LIF Praticamente: 221 LIP, 3513 LIF Generalmente pero’ bilanciato (fare: 15

LIP, 16 LIF) Dimensioni troppo ridotte

LETTURE

Jackson, cap. 13 Lenci et al: cap. 1, cap 4.1, cap. 7 Marello, cap. 5.3, 6.6 De Mauro et al 1993

ACKNOWLEDGMENTS

Ringraziamenti a Marco Baroni (UniBo)

informatica umanistica d: lessicografia & computer lessici e corpora

Documents