metodi e tecniche per il monitoraggio dell'evoluzione ... · metodi e tecniche per il...

46
Metodi e tecniche per il monitoraggio dell'evoluzione delle competenze linguistiche di apprendenti l'italiano Tesi di laurea magistrale Stefan Richter 28.07.2015

Upload: duongkhanh

Post on 14-Feb-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Metodi e tecniche per il monitoraggio

dell'evoluzione delle competenze

linguistiche di apprendenti l'italiano

Tesi di laurea magistrale

Stefan Richter

28.07.2015

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 2

Chi sono io

• Studente magistrale informatica a Lipsia– Linguistica e informatica umanistica

• Erasmus all'Università di Pisa– Da settembre a febbraio– Diversi corsi

• Tirocino a ItaliaNLP Lab– Da marzo a settembre– Tesi

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 3

Da dove vengo - Lipsia

• 550.000 Abitanti• Grande Storia

– Battaglia di Lipsia 1813– Rivoluzione pacifica 1989– Alcune persone famose

• Johann Sebastian Bach• Felix Bartholdy Mendelssohn• Richard Wagner• Johann Wolfgang Goethe• Gottfried Wilhelm Leibnitz• Martin Luther• Friedrich Nietzsche• Angela Merkel

• NLP all'Università di Lipsia– Linguistica computazionale: Prof. Dr. Gerhard Heyer– Informatica Umanistica: Prof. Gregory Crane– Semantic Web: Dr. Jens Lehmann

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 4

Agenda

• Motivazione

• Corpus

• Metodi e tecniche

• Risultati

• Previsione

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 5

Motivazione

• Università Roma la Sapienza + CNR ILC Pisa

• Metodi per monitore le competenze linguistiche degli studenti italiani in L1 – grandi cambiamenti nell'età fra 11-13 anni

• Investigare fattori socio-culturali

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 6

Motivazione

• Cosa cambia in questi due anni?

• Dove uno studente ha problemi?• Dove ha migliorato?• Che tipi di esercizi sono utili per lo studente? • (Proporre un voto)

• Quali fattori influiscono di più sulle competenze: l'età o l'ambiente?

• Quale effetto hanno 3 mesi di vacanze sulle competenze degli studenti?

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 7

Corpus

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 8

Corpus

• 156 Studenti da 7 scuole di Roma– 1. + 2. classe della

scuola secondaria di primo grado

– 11 – 13 anni

• Centro: 77 studenti• Periferia: 79 studenti

Studente

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 9

Corpus

• 156 Studenti da 7 scuole di Roma– 1. + 2. classe della

scuola secondaria di primo grado

– 11 – 13 anni

• Centro: 77 studenti• Periferia: 79 studenti

Studente

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 10

Corpus

• 34 domande– “Sei nato in Italia?”– “Che lingua si parla a

casa tua?”– “Qual è il lavoro di tuoi

genitori?”– “Quanti libri ci sono a

casa tua?”

Studente Sfondo

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 11

Corpus

• Testi di uno studente nei 2 anni

• 1352 testi

Studente Sfondo

Testo 1 Testo 2 Testo 3

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 12

Testi per ogni anno scolastico

Mario Scuola: Buzzati

LuigiScuola: Buzzati

ClaudiaScuola: Visconti

Prova Comune

Prova Comune

Prova Comune

Testo 1 Traccia A

Testo 2 Traccia C

Testo 3 Traccia A

Testo 1 Traccia B

Testo 2 Traccia C

Testo 3 Traccia B

Testo 4 Traccia A

Testo 1 Traccia A

Testo 2 Traccia C

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 13

Corpus

• Testi sono stati digitalizzati

• Errori annotati manualmente – 20 tipi in 3 macro

categorie

Studente Sfondo

Testo 1 Testo 2 Testo 3

Errori annotati

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 14

Grammatica: 10. Errori grammaticali in generale11. Verbi. Uso errato tempi12 Verbi. Uso errato dei modi 13 Verbi. Errata concordanza con il soggetto14. Preposizioni. uso errato (una per l’altra)15. Preposizioni. Omissione16. Pronomi: uso errato17. pronomi: omissione18 Pronomi: eccesso19. Uso errato pronome relativo111. Uso errato articoli112 Uso errato congiunzioni e/o connettiviOrtografia:20. Errori ortografici in generale21 Doppie per difetto (“tera”anziché “terra”)22 Doppie per eccesso (“subbito” anziché “subito”)23 H per difetto24 H per eccesso25 Monosillabi accentati uso errato26 Po o pò e anziché po’27 Errori nell’uso dell’apostrofoLessico31 Uso errato di un termine

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 15

Corpus

• Caratteristiche linguistiche– Monitor-IT: annotazione

linguistica automatica ed estrazione di informazione linguistica

• 147 features linguistiche– Type/Token Ratio– Lunghezza media delle parole– percentuale di aggettivi– ...

• Un vettore di features per ogni testo

Studente Sfondo

Testo 1 Testo 2 Testo 3

Errori annotati Features linguistiche

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 16

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 17

Corpus: Criticità

• Nessun voto per i testi

• Nessuna data– Testi in ordine cronologico

• Distribuzione testo/studente– 6 studenti con 1 testo– 4 studenti con 13 testi

• Annotazione degli errori

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 18

Metodo

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 19

Calcolare la competenza linguistica?

• Calcolare un valore assoluto è difficile– Non ci sono i voti

• Ipotesi: quando cresce l'età cresce anche la

competenza linguistica

• La competenza linguistica calcolata come confronto fra 2 testi di uno studente:– Qual è più vecchio? → competenza inferiore– Qual è più nuovo? → competenza maggiore

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 20

Metodo

• Confronto tra i due testi trasformato in un problema di classificazione: Supervised machine learning– LIBSVM in Pyhton

• Parameter– Classi: 1 se testo1 > testo2, altrimenti 0– Features: Vettore(testo1) – Vettore(testo2)

Featurevector V1 = {f1, f2 …, f147}Testo 1

Featurevector V2 = {f1, f2 …, f147}Testo 2

V1 - V2

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 21

Metodo

• 7 Fold Cross-validation– Ogni scuola è un fold– Fase 1: Training set (scuole 1-6) , Test set (Scuola 7)– Fase 2: Training set (Scuole 1-5 e 7), Test set (Scuola 6)– ...– Fase 7: Training set (Scuole 2-7) , Test set (Scuola 1)

• Media ponderata dei risultati di tutte le fasi

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 22

Approccio ingenuo

• Paragone fra il primo e l'ultimo testo per ogni studente

• Tutte le 147 Features• F: 89.3%

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 23

Approccio ingenuo

• Paragone fra il primo e l'ultimo testo per ogni studente

• Tutte le 147 Features• F: 89.3%

• Paragone fra il primo e il penultimo testo per ogni studente

• Tutte le 147 Features• F: 71.7%

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 24

Approccio ingenuo

Mario Scuola: Buzzati

LuigiScuola: Buzzati

ClaudiaScuola: Visconti

Prova Comune

Prova Comune

Prova Comune

Testo 1 Traccia A

Testo 2 Traccia C

Testo 3 Traccia A

Testo 1 Traccia B

Testo 2 Traccia C

Testo 3 Traccia B

Testo 4 Traccia A

Testo 1 Traccia A

Testo 2 Traccia C

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 25

• Prova Comune nel secondo anno:– „consigli ad un coetaneo su come scrivere un tema“– Molti verbi in 2a singolare– Uso frequente del imperativo– Uso frequente del futuro

• Overfitting– Non trova il testo con la competenza linguistica maggiore– Trova il topic della prova comune

• Feature Selection

Approccio ingenuo

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 26

Feature Selection

• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 27

Feature Selection

T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC

5

10

15

20

25

• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 28

Feature Selection

T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC

5

10

15

20

25

• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi

Studente 1

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 29

Feature Selection

T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC

5

10

15

20

25

• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi

Studente 1 + 2

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 30

Feature Selection

T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC

5

10

15

20

25

• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi

Tutti

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 31

Feature Selection

T1 T2 T3 T4 T5 T6 PC T8 T9 T10 T11 T12 PC

5

10

15

20

25

• Trovare le feature che cambiano di più– Calcolare la correlazione per ognuna delle 147 feature– Lunghezza media delle frasi

Tutti

Corr = 0,11

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 32

Feature Selection 1: Features linguistiche

• Correlazione fra la feature e il numero del testo senza prova comune

132 Verbi+Numero+Persona_VA+p+1 percentuale di verbi ausiliari alla prima persona plurale -0,1683334929

69 Numero di Token: numero di token 0,1647771882

67 Numero di Frasi: numero di frasi 0,1623206378

50 DIP_prep percentuale di relazioni di dipendenza di tipo preposition 0,1531560911

19 CPOS_E percentuale di preposizioni 0,1475058656

82 POS_EA percentuale di preposizioni articolate 0,1411693354

30 DIP_aux percentuale di relazioni di dipendenza di tipo auxiliary -0,1367923545

124 Verbi+Modo_VA+i percentuale di verbi ausiliari di modo indicativo -0,1356167792

113 Range 200.0 Type(lemmi)/token: Type/token ratio (primi 200 token) 0,1300971144

105 POS_VA percentuale di verbi ausiliari -0,1275948332

66 Numero di Caratteri per Token media dei caratteri per token 0,1263157678

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 33

• Correlazione fra la feature e il numero del testo senza prova comune– Alcune sono ridondanti

132 Verbi+Numero+Persona_VA+p+1 percentuale di verbi ausiliari alla prima persona plurale -0,1683334929

69 Numero di Token: numero di token 0,1647771882

67 Numero di Frasi: numero di frasi 0,1623206378

50 DIP_prep percentuale di relazioni di dipendenza di tipo preposition 0,1531560911

19 CPOS_E percentuale di preposizioni 0,1475058656

82 POS_EA percentuale di preposizioni articolate 0,1411693354

30 DIP_aux percentuale di relazioni di dipendenza di tipo auxiliary -0,1367923545

124 Verbi+Modo_VA+i percentuale di verbi ausiliari di modo indicativo -0,1356167792

113 Range 200.0 Type(lemmi)/token: Type/token ratio (primi 200 token) 0,1300971144

105 POS_VA percentuale di verbi ausiliari -0,1275948332

66 Numero di Caratteri per Token media dei caratteri per token 0,1263157678

Feature Selection 1: Features linguistiche

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 34

Feature Selection 2: Classe di frequenza

• „italian news 2010–today“ del Wortschatz– Corpus di Lipsia– 1 milione di frasi

• Correlazione fra la classe di frequenza e il numero del testo per i token delle seguenti POS– Tutti 0.1– Verbi, aggettivi, avverbi, sostantivi 0.05– Verbi, aggettivi, avverbi 0.16– Verbi 0.21

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 35

Feature Selection 2: Classe di frequenzadi 772435e 459074il 386669che 337951la 335282in 295050a 292472per 257706un 239703del 233643è 229506della 174568ha 173850con 155676una 149745non 149109i 146700si 136895le 132714al 121872da 121782l 121392sono 94137dei 89579Il 86566alla 73716nel 72494La 69487

di 1404759il 1306708e 533375essere 502590in 486180uno 449804a 437649che 341552avere 306335per 282420da 248085si 183993al 182018non 173273l 167985con 167482su 122717questo 87930anche 84467ma 80840lo 73111dell 66931fare 66771più 65575stato 63927suo 63426tutto 61185come 56619

essere 471030avere 297693fare 66519potere 53192dire 41824dovere 35058stare 26289andare 24727volere 21028vedere 20923venire 20866dare 19090arrivare 18162trovare 15564parlare 14892mettere 14240chiedere 13585spiegare 12579porre 12528continuare 11792partire 11529sapere 11308prendere 11143correre 11084aggiungere 11055pensare 10988

Lemmi +ignore case

Verbi

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 36

Feature Selection 2: Classe di frequenza

essere 471030avere 297693fare 66519potere 53192dire 41824dovere 35058stare 26289andare 24727volere 21028vedere 20923venire 20866dare 19090arrivare 18162trovare 15564parlare 14892mettere 14240chiedere 13585spiegare 12579

Ho undici anni compiuti il primo Ottobre e frequento la prima media della scuola

Avere undici anno compiere il primo Ottobre e frequentare il primo media di scuola

Lemmi

Avere compiere frequentare

Verbi

log2 (freq(Z) / freq(X))

Z = most frequent Word (essere)

Calcolare classe di frequenza

1 8 4

Media del testo

4.33333

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 37

Feature Selection: Sintesi

• 9 Features– Verbi+Numero+Persona_VA+p+1– Numero di Token:– Numero di Frasi:– DIP_prep– DIP_aux– Verbi+Modo_VA+i– Range 200.0 Type(lemmi)/token:– Numero di Caratteri per Token

– Classe di frequenza

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 38

Risultati

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 39

Risultati

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 40

Risultati

• Scarsi risultati per la scuola 3– Centro di Roma

• Ipotesi– Studenti hanno già una grande competenza linguistica– Si migliorano in altre aree– “Sono già un anno avanti”

• Dimostrazione – Correlazione scuola 3 nel primo anno contro altre

scuole nel secondo anno

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 41

Risultati

• Ipotesi non è stata confermata

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 42

Previsione

• Gli Errori nel corpus sono stati annotati manualmente

• 3 altre Features: Errori– errori grammaticali / parole– errori ortografici / parole– errori lessicali / parole

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 43

Previsione

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 44

Previsione

• Trovare errori automaticamente con PyEnchant– Libreria per python– Testi con 84 errori ortografici– 72 sono stati trovati...– ...e 316 altri (falsi errori trovati)

• Trovare errori automaticamente è difficile

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 45

Sintesi

• Calcolare le competenze linguistiche attraverso il confronto tra due testi– Corpus: 1352 testi di 156 studenti di Roma

• Selezionate 9 Features– 8 dall'analisi linguistica automatica (Typen/Toke ratio, numero

di frasi, percentuale di relazioni di dipendenza “preposition”, ...)– Classe di frequenza dei verbi con Wortschatz– Futuro: Errori

• Primo e ultimo testo F: 82.8%• Primo e penultimo testo F: 79.8%

28.07.2015 Tecniche per il monitoraggio delle competenze linguistiche 46

Grazie per la vostra attenzione