l’analisi computazionale di dati linguistici · e così non più cinquecento tonnellate di...
TRANSCRIPT
L’ANALISI COMPUTAZIONALE DI DATI LINGUISTICI
Lez. 7
14/03/13
Un incontro di discipline
• Lettere (testualità) • Informatica • Statistica
SCOPI E STRUMENTI
• Operazione antica con nuovi strumenti? • Scopo = penetrare le profondità dell’opera
letteraria per farla “parlare” • Strumenti = computer e programmi possono
ampliare i “limiti dell’interpretazione” ? (U. Eco)
• Il critico tradizionale e il “critico informatico” • Scomporre e ricombinare il testo
IL TESTO
• Memorizzazione “appropriata” del testo – O.C.R.(optical character recognition) – Battitura – Dettatura (voice type) – Banca dati preesistente (Biblioteca Italiana,
T.I.L. on line, LiberLiber, ecc)
• Salvataggio del file. Come?...
LA MEMORIZZAZIONE DEI DATI • Il testo tràdito è il testo tradìto? • La struttura degli elementi del codice (alfabeto)
e quella della macchina devono sviluppare una sinergia
• Entrano in gioco le tabelle di codifica dei caratteri: – ASCII – ASCII esteso
• MS-DOS
– UNICODE – ISO 10646
DOPO LA MEMORIZZAZIONE
DEBUGGING • Errori di trascrizione • Errori pilotati • Refusi tipografici • Confronto con edizione di riferimento • Eliminazione formattazione aggiunta • Controllo successivo degli errori come
“occorrenze a frequenza 1” • Diffidare dei correttori automatici
I LIVELLI DEL TESTO • Autore semantico e Autore editoriale • La seconda voce racchiude molti aspetti
(casa editrice, tipografia, redazione, collana)
• A cosa viene quindi applicata l’informatica? Quale è il “testo” reale oggetto di questa disciplina?
• Si applica l’informatica alle discipline che si occupano del testo e della sua costituzione secondo criteri scientifici e filologici.
Un problema teorico…
Quali aspetti vanno attribuiti all’editore e quali all’autore?
• Capitoli, paragrafi, strofe, stanze, ecc possono essere di buon grado attribuiti all’Autore semantico
• Salti di riga e salti di pagina, caratteri usati, ecc sono di paternità editoriale
…che comporta delle scelte!
• È sempre vero che vanno conservati solo gli aspetti del “testo che si legge”?
• Conservare salti di riga e di pagina può aiutare a fare la storia di un’edizione e a capire se ci troviamo di fronte ad una ristampa o ad una riedizione
• Conservazione dell’aspetto fisico di un codice (pergamenaceo, membranaceo)
FILOLOGIA E MULTIMEDIALITÀ: IL MODELLO
• Il concetto di “modello” • Isomorfismo tra modello e oggetto, una
trasformazione che conserva l’informazione
• Analisi del testo di partenza per assegnare gli stessi ruoli a quello elettronico
• Scelta del modello = scelta del livello
Lo stradario è un esempio di modello?
I livelli della modellizzazione
• Definizione degli scopi • Inventario degli strumenti • Scelta dello schema assiomatico • La codifica come interpretazione • La visualizzazione come interpretazione
QUALITÀ SCIENTIFICA DELL’EDIZIONE ELETTRONICA
• Edizione meccanica (immagine digitalizzata da ingrandire, stampare, ruotare, ritagliare)
• Edizione diplomatica (riproduzione dell’esemplare a stampa, fedeltà, comprensiva di errori)
• Edizione critica (restituire il testo alla sua originalità, evoluzione, confronto dei codici, revisione della scrittura)
• Nel passaggio dalla prima alle seconde due forme si rischia la proliferazione di prodotti a basso profilo
DALLA TEORIA ALLA PRATICA
Le “cose” da sapere per affrontare l’analisi di un testo
Alcune domande…
• Quali sono gli aspetti misurabili di un testo?
• Che tipo di testo sto affrontando? • Che tipo di programma sto utilizzando? • Che tipo di analisi intendo condurre?
(quantitativa, statistica, stilometrica, genetica, linguistica, ecc)
…e alcune risposte • Si possono condurre principalmente 2 tipi
di analisi: – Semplice, eseguita cioè su un testo non
codificato; – Strutturata, eseguita cioè su un testo
codificato (marcato) • Nella prima si contano le unità minime
(lettere, parole, segni vari) • La seconda è subordinata ad una precisa
modellizzazione
Una premessa di base
• Impariamo ad usare i termini Token e Type – Il token è l’occorrenza (quante volte la singola
parola si ripete nel testo) e sostanzialmente rappresenta la totalità delle parole presenti in un testo;
– il type è una via di mezzo tra l’occorenza e il lemma (forma grafica) e in sostanza coincide con il vocabolario usato dall’autore
• il rapporto parola/classe è appunto il rapporto token/type
Facciamo un esercizio?
• Contiamo insieme i token e i type presenti nel seguente breve testo
In principio era il Verbo appresso a Dio,
ed era Iddio il Verbo e 'l Verbo Lui:
questo era nel principio, al parer mio,
e nulla si può far sanza Costui.
[L. Pulci, Morgante]
☺
• Leggo il brano e sottolineo le parole che iniziano a ripetersi
In principio era il Verbo appresso a Dio,
ed era Iddio il Verbo e 'l Verbo Lui:
questo era nel principio, al parer mio,
e nulla si può far sanza Costui.
[L. Pulci, Morgante]
Type = 24 (conto tutte le parole non ripetute) Token = 31 (conto tutte le parole)
Facciamolo di nuovo… • Contiamo insieme i token e i type
presenti nel seguente breve testo E scusa se ti amo e se ci conosciamo Da due mesi o poco più E scusa se non parlo piano Ma se non urlo muoio Non so se sai che ti amo…
E scusami se rido, dall’imbarazzo cedo Ti guardo fisso e tremo All’idea di averti accanto E sentirmi tuo soltanto E sono qui che parlo emozionato …e sono un imbranato!
[T. Ferro, Imbranato]
• Leggo il brano e sottolineo le parole che iniziano a ripetersi
Type = 44 (conto tutte le parole non ripetute) Token = 64 (conto tutte le parole)
E scusa se ti amo e se ci conosciamo Da due mesi o poco più E scusa se non parlo piano Ma se non urlo muoio Non so se sai che ti amo…
E scusami se rido, dall’imbarazzo cedo Ti guardo fisso e tremo All’idea di averti accanto E sentirmi tuo soltanto E sono qui che parlo emozionato …e sono un imbranato!
Un problema di semantica
• Notiamo che uno stesso type può però avere significati diversi, in quanto i programmi non sono in grado di procedere ad una analisi semantica; vediamo questi esempi:
• La vecchia porta la bambina a scuola • La vecchia porta la borsa della spesa • La vecchia porta venne abbattuta a
calci
Un’altra premessa di base
• Hapax Legomena = parole che ricorrono una sola volta nel testo
• Hapax Dislegomena = parole che ricorrono due volte nel testo
L’APPROCCIO QUANTITATIVO
Non tutte le parole sono uguali
Padre Roberto Busa
• Fondatore della linguistica computazionale
• Scrivendo una tesi su S. Agostino, negli anni ‘50, si rende conto dell’utilità di un indice completo delle parole di un testo
• ha fondato nel 1992 la Scuola di Lessicografia ed Ermeneutica
• Padre Busa ha seguito l'evoluzione dei computer fin dal 1949 - dalle schede perforate ai nastri magnetici ai CD ROM
• Nel 1949 ho cominciato a trafficare con la macchina della IBM. Il lavoro è durato fino al 1980, con la stampa dei cinquantasei volumi. Credevo di aver finito e non avevo finito, perché ero interessato all'evoluzione. Ci sono state tre epoche: Prima: le schede perforate. L'obiettivo era uno schedario di dodici milioni di schede, quindi un fronte di novanta metri, alto 1,20, profondo un metro, peso 500 tonnellate. Io avevo perforato e consumato un sei milioni di schede, stampando dietro il contesto di ciascuna. La misericordia del Signore, ha ispirato i tecnici ad inventare i nastri magnetici. E così non più cinquecento tonnellate di materiale. Seconda fase: impiego dei nastri magnetici. Ho avuti un pacco di 1.800 nastri magnetici, che sono 1.600 chilometri di nastro, come da Parigi a Lisbona, o Milano-Palermo. Alla fine ho avuto un altro formato di venti nastri magnetici, sedici chilometri di nastro, con 1.630.000.000 di byte. Questi venti nastri magnetici hanno preso da loro due strade: dal 1974 hanno cominciato ad andare in stampa su carta ed hanno prodotto le settantamila pagine dell'"index tomisticus". Nel 1980 abbiamo cominciato a pensare a forme più abbreviate e nel '92 abbiamo messo tutto su CD ROM. Un CD ROM, di quelli ancora in uso, ha una capienza di seicento milioni di byte. Noi ne avevamo un miliardo e seicentomila, però han potuto essere compressi, senza perdere informazioni, in duecento megabyte, e adesso c'è questo dischetto in cui, su una spirale di quattro chilometri e mezzo, c'è tutto quello che mi stava in venti nastri magnetici. Questa è stata l'evoluzione. Ma io mi barcamenavo ormai abbastanza bene con i vecchi computer che chiamo i "dinosauri". Negli ultimi anni, a Venezia, erano una dozzina di armadi come pianoforti verticali, collegati da cavi sotto il pavimento. Oggi ci sono i personal computer, sapete meglio di me cosa fanno.
Intervista a Roberto Busa – MediaMente Rai, 1995
GLI SPOGLI LESSICALI
• È, in genere, il primo passo nelle applicazioni informatiche alle discipline linguistiche e letterarie per la linguistica quantitativa
• Si tratta dell’insieme di elencazioni sulle parole che un programma può operare
• Ne fanno parte: lista di frequenze, concordanze, indici, collocazioni, analisi di clusters
LA LISTA DI FREQUENZE • Mostra le parole che compongono un testo
accompagnate dal numero di volte che ricorrono
• È l’analisi dalla quale si parte per altre indagini statistiche
• L’ordinamento può essere alfabetico (ascendente o discendente), per frequenza (diretta o inversa), posizionale
• Il posto che ogni parola occupa viene detto “rango” (1 = più frequente, ecc)
LA LISTA DI FREQUENZE - 2 • Alcuni programmi riportano anche la
percentuale rispetto al totale delle parole (token)
• Prime considerazioni: è più meritevole essere un luogo comune oppure un hapax?
• Ulteriori considerazioni: articoli, congiunzioni e preposizioni vengono dette “parole vuote” perché non portatrici di significato
LA LISTA DI FREQUENZE - 3
• Solitamente si genera la lista delle frequenze e poi la si scorre fino ad incontrare i primi sostantivi (in ordine di frequenza decrescente)
• Su questi sostantivi si generano poi successive interrogazioni, come ad esempio le concordanze
• Number of Types = 1325 • Number of Tokens = 3018 • Type/Token ratio = 0.439 • Token/Type ratio = 2.278 • Hapax Legomena = 932 • Hapax Dislegomena = 193 • Hapax Legomena/Dislegomena ratio = 4.8290 • Hapax Legomena/Number of Types = 0.7034 • Hapax Legomena/Number of Tokens = 0.3088 • Hapax Legomena cubed/Types squared = 461.1221 • Variance ( S.D. squared ) = 39.6977 • Standard Deviation (S.D.) = 6.3006 • Coefficient of skewness = 14.4959 • Coefficient of kurtosis = 278.5743 • Herdan's characteristic = 0.0760 • Yule's characteristic = 652.5240 • Carroll TTR (Types / Sqrt of 2 X Tokens) = 17.0546 • Most Frequent word "e" occurred 150 times • repeat rate (Tokens / frequency most frequent word) = 20.1200
Qualche utile sito… • www.bibliotecaitaliana.it • www.liberliber.it • www.gutenberg.org • http://taporware.mcmaster.ca/ • http://www.mediamente.rai.it/home/
bibliote/intervis/b/busa.htm
…e qualche utile testo • M. Lana, Il testo nel computer, Boringhieri • S. Spina, Fare i conti con le parole, Guerra