l’analisi computazionale di dati linguistici · e così non più cinquecento tonnellate di...

L’ANALISI COMPUTAZIONALE DI DATI LINGUISTICI

Lez. 7

14/03/13

Un incontro di discipline

• Lettere (testualità) • Informatica • Statistica

SCOPI E STRUMENTI

•  Operazione antica con nuovi strumenti? •  Scopo = penetrare le profondità dell’opera

letteraria per farla “parlare” •  Strumenti = computer e programmi possono

ampliare i “limiti dell’interpretazione” ? (U. Eco)

•  Il critico tradizionale e il “critico informatico” •  Scomporre e ricombinare il testo

IL TESTO

•  Memorizzazione “appropriata” del testo – O.C.R.(optical character recognition) – Battitura – Dettatura (voice type) – Banca dati preesistente (Biblioteca Italiana,

T.I.L. on line, LiberLiber, ecc)

•  Salvataggio del file. Come?...

LA MEMORIZZAZIONE DEI DATI •  Il testo tràdito è il testo tradìto? •  La struttura degli elementi del codice (alfabeto)

e quella della macchina devono sviluppare una sinergia

•  Entrano in gioco le tabelle di codifica dei caratteri: –  ASCII –  ASCII esteso

•  MS-DOS

–  UNICODE –  ISO 10646

DOPO LA MEMORIZZAZIONE

DEBUGGING •  Errori di trascrizione •  Errori pilotati •  Refusi tipografici •  Confronto con edizione di riferimento •  Eliminazione formattazione aggiunta •  Controllo successivo degli errori come

“occorrenze a frequenza 1” •  Diffidare dei correttori automatici

I LIVELLI DEL TESTO •  Autore semantico e Autore editoriale •  La seconda voce racchiude molti aspetti

(casa editrice, tipografia, redazione, collana)

•  A cosa viene quindi applicata l’informatica? Quale è il “testo” reale oggetto di questa disciplina?

•  Si applica l’informatica alle discipline che si occupano del testo e della sua costituzione secondo criteri scientifici e filologici.

Un problema teorico…

Quali aspetti vanno attribuiti all’editore e quali all’autore?

•  Capitoli, paragrafi, strofe, stanze, ecc possono essere di buon grado attribuiti all’Autore semantico

•  Salti di riga e salti di pagina, caratteri usati, ecc sono di paternità editoriale

…che comporta delle scelte!

•  È sempre vero che vanno conservati solo gli aspetti del “testo che si legge”?

•  Conservare salti di riga e di pagina può aiutare a fare la storia di un’edizione e a capire se ci troviamo di fronte ad una ristampa o ad una riedizione

•  Conservazione dell’aspetto fisico di un codice (pergamenaceo, membranaceo)

FILOLOGIA E MULTIMEDIALITÀ: IL MODELLO

•  Il concetto di “modello” •  Isomorfismo tra modello e oggetto, una

trasformazione che conserva l’informazione

•  Analisi del testo di partenza per assegnare gli stessi ruoli a quello elettronico

•  Scelta del modello = scelta del livello

Lo stradario è un esempio di modello?

I livelli della modellizzazione

•  Definizione degli scopi •  Inventario degli strumenti •  Scelta dello schema assiomatico •  La codifica come interpretazione •  La visualizzazione come interpretazione

QUALITÀ SCIENTIFICA DELL’EDIZIONE ELETTRONICA

•  Edizione meccanica (immagine digitalizzata da ingrandire, stampare, ruotare, ritagliare)

•  Edizione diplomatica (riproduzione dell’esemplare a stampa, fedeltà, comprensiva di errori)

•  Edizione critica (restituire il testo alla sua originalità, evoluzione, confronto dei codici, revisione della scrittura)

•  Nel passaggio dalla prima alle seconde due forme si rischia la proliferazione di prodotti a basso profilo

DALLA TEORIA ALLA PRATICA

Le “cose” da sapere per affrontare l’analisi di un testo

Alcune domande…

•  Quali sono gli aspetti misurabili di un testo?

•  Che tipo di testo sto affrontando? •  Che tipo di programma sto utilizzando? •  Che tipo di analisi intendo condurre?

(quantitativa, statistica, stilometrica, genetica, linguistica, ecc)

…e alcune risposte •  Si possono condurre principalmente 2 tipi

di analisi: – Semplice, eseguita cioè su un testo non

codificato; – Strutturata, eseguita cioè su un testo

codificato (marcato) •  Nella prima si contano le unità minime

(lettere, parole, segni vari) •  La seconda è subordinata ad una precisa

modellizzazione

Una premessa di base

•  Impariamo ad usare i termini Token e Type –  Il token è l’occorrenza (quante volte la singola

parola si ripete nel testo) e sostanzialmente rappresenta la totalità delle parole presenti in un testo;

–  il type è una via di mezzo tra l’occorenza e il lemma (forma grafica) e in sostanza coincide con il vocabolario usato dall’autore

•  il rapporto parola/classe è appunto il rapporto token/type

Facciamo un esercizio?

•  Contiamo insieme i token e i type presenti nel seguente breve testo

In principio era il Verbo appresso a Dio,

ed era Iddio il Verbo e 'l Verbo Lui:

questo era nel principio, al parer mio,

e nulla si può far sanza Costui.

[L. Pulci, Morgante]

☺

•  Leggo il brano e sottolineo le parole che iniziano a ripetersi

In principio era il Verbo appresso a Dio,

ed era Iddio il Verbo e 'l Verbo Lui:

questo era nel principio, al parer mio,

e nulla si può far sanza Costui.

[L. Pulci, Morgante]

Type = 24 (conto tutte le parole non ripetute) Token = 31 (conto tutte le parole)

Facciamolo di nuovo… •  Contiamo insieme i token e i type

presenti nel seguente breve testo E scusa se ti amo e se ci conosciamo Da due mesi o poco più E scusa se non parlo piano Ma se non urlo muoio Non so se sai che ti amo…

E scusami se rido, dall’imbarazzo cedo Ti guardo fisso e tremo All’idea di averti accanto E sentirmi tuo soltanto E sono qui che parlo emozionato …e sono un imbranato!

[T. Ferro, Imbranato]

•  Leggo il brano e sottolineo le parole che iniziano a ripetersi

Type = 44 (conto tutte le parole non ripetute) Token = 64 (conto tutte le parole)

E scusa se ti amo e se ci conosciamo Da due mesi o poco più E scusa se non parlo piano Ma se non urlo muoio Non so se sai che ti amo…

E scusami se rido, dall’imbarazzo cedo Ti guardo fisso e tremo All’idea di averti accanto E sentirmi tuo soltanto E sono qui che parlo emozionato …e sono un imbranato!

Un problema di semantica

•  Notiamo che uno stesso type può però avere significati diversi, in quanto i programmi non sono in grado di procedere ad una analisi semantica; vediamo questi esempi:

•  La vecchia porta la bambina a scuola •  La vecchia porta la borsa della spesa •  La vecchia porta venne abbattuta a

calci

Un’altra premessa di base

•  Hapax Legomena = parole che ricorrono una sola volta nel testo

•  Hapax Dislegomena = parole che ricorrono due volte nel testo

L’APPROCCIO QUANTITATIVO

Non tutte le parole sono uguali

Padre Roberto Busa

•  Fondatore della linguistica computazionale

•  Scrivendo una tesi su S. Agostino, negli anni ‘50, si rende conto dell’utilità di un indice completo delle parole di un testo

•  ha fondato nel 1992 la Scuola di Lessicografia ed Ermeneutica

•  Padre Busa ha seguito l'evoluzione dei computer fin dal 1949 - dalle schede perforate ai nastri magnetici ai CD ROM

•  Nel 1949 ho cominciato a trafficare con la macchina della IBM. Il lavoro è durato fino al 1980, con la stampa dei cinquantasei volumi. Credevo di aver finito e non avevo finito, perché ero interessato all'evoluzione. Ci sono state tre epoche: Prima: le schede perforate. L'obiettivo era uno schedario di dodici milioni di schede, quindi un fronte di novanta metri, alto 1,20, profondo un metro, peso 500 tonnellate. Io avevo perforato e consumato un sei milioni di schede, stampando dietro il contesto di ciascuna. La misericordia del Signore, ha ispirato i tecnici ad inventare i nastri magnetici. E così non più cinquecento tonnellate di materiale. Seconda fase: impiego dei nastri magnetici. Ho avuti un pacco di 1.800 nastri magnetici, che sono 1.600 chilometri di nastro, come da Parigi a Lisbona, o Milano-Palermo. Alla fine ho avuto un altro formato di venti nastri magnetici, sedici chilometri di nastro, con 1.630.000.000 di byte. Questi venti nastri magnetici hanno preso da loro due strade: dal 1974 hanno cominciato ad andare in stampa su carta ed hanno prodotto le settantamila pagine dell'"index tomisticus". Nel 1980 abbiamo cominciato a pensare a forme più abbreviate e nel '92 abbiamo messo tutto su CD ROM. Un CD ROM, di quelli ancora in uso, ha una capienza di seicento milioni di byte. Noi ne avevamo un miliardo e seicentomila, però han potuto essere compressi, senza perdere informazioni, in duecento megabyte, e adesso c'è questo dischetto in cui, su una spirale di quattro chilometri e mezzo, c'è tutto quello che mi stava in venti nastri magnetici. Questa è stata l'evoluzione. Ma io mi barcamenavo ormai abbastanza bene con i vecchi computer che chiamo i "dinosauri". Negli ultimi anni, a Venezia, erano una dozzina di armadi come pianoforti verticali, collegati da cavi sotto il pavimento. Oggi ci sono i personal computer, sapete meglio di me cosa fanno.

Intervista a Roberto Busa – MediaMente Rai, 1995

GLI SPOGLI LESSICALI

•  È, in genere, il primo passo nelle applicazioni informatiche alle discipline linguistiche e letterarie per la linguistica quantitativa

•  Si tratta dell’insieme di elencazioni sulle parole che un programma può operare

•  Ne fanno parte: lista di frequenze, concordanze, indici, collocazioni, analisi di clusters

LA LISTA DI FREQUENZE •  Mostra le parole che compongono un testo

accompagnate dal numero di volte che ricorrono

•  È l’analisi dalla quale si parte per altre indagini statistiche

•  L’ordinamento può essere alfabetico (ascendente o discendente), per frequenza (diretta o inversa), posizionale

•  Il posto che ogni parola occupa viene detto “rango” (1 = più frequente, ecc)

LA LISTA DI FREQUENZE - 2 •  Alcuni programmi riportano anche la

percentuale rispetto al totale delle parole (token)

•  Prime considerazioni: è più meritevole essere un luogo comune oppure un hapax?

•  Ulteriori considerazioni: articoli, congiunzioni e preposizioni vengono dette “parole vuote” perché non portatrici di significato

LA LISTA DI FREQUENZE - 3

•  Solitamente si genera la lista delle frequenze e poi la si scorre fino ad incontrare i primi sostantivi (in ordine di frequenza decrescente)

•  Su questi sostantivi si generano poi successive interrogazioni, come ad esempio le concordanze

•  Number of Types = 1325 •  Number of Tokens = 3018 •  Type/Token ratio = 0.439 •  Token/Type ratio = 2.278 •  Hapax Legomena = 932 •  Hapax Dislegomena = 193 •  Hapax Legomena/Dislegomena ratio = 4.8290 •  Hapax Legomena/Number of Types = 0.7034 •  Hapax Legomena/Number of Tokens = 0.3088 •  Hapax Legomena cubed/Types squared = 461.1221 •  Variance ( S.D. squared ) = 39.6977 •  Standard Deviation (S.D.) = 6.3006 •  Coefficient of skewness = 14.4959 •  Coefficient of kurtosis = 278.5743 •  Herdan's characteristic = 0.0760 •  Yule's characteristic = 652.5240 •  Carroll TTR (Types / Sqrt of 2 X Tokens) = 17.0546 •  Most Frequent word "e" occurred 150 times •  repeat rate (Tokens / frequency most frequent word) = 20.1200

Qualche utile sito… •  www.bibliotecaitaliana.it •  www.liberliber.it •  www.gutenberg.org •  http://taporware.mcmaster.ca/ •  http://www.mediamente.rai.it/home/

bibliote/intervis/b/busa.htm

…e qualche utile testo •  M. Lana, Il testo nel computer, Boringhieri •  S. Spina, Fare i conti con le parole, Guerra

l’analisi computazionale di dati linguistici · e così non più cinquecento tonnellate di...

Documents