grammatikkontroll för skribenter med svenska som andraspråk
DESCRIPTION
Grammatikkontroll för skribenter med svenska som andraspråk. Johnny Bigert, Viggo Kann, Ola Knutsson och Jonas Sjöbergh KTH Nada Stockholm, Sverige. Grammatikkontroll i CALL. Behov: Lärarna vill ha bort låg-nivå fel Eleverna vill inte upprepa fel - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/1.jpg)
Grammatikkontroll för skribenter med svenska som andraspråk
Johnny Bigert, Viggo Kann, Ola Knutsson och Jonas Sjöbergh
KTH Nada
Stockholm, Sverige
![Page 2: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/2.jpg)
Grammatikkontroll i CALL
Behov:
• Lärarna vill ha bort låg-nivå fel
• Eleverna vill inte upprepa fel
• Skapa “feedback” på elevers fria textproduktion
Diskussion:
• Är det bra eller dåligt att fokusera på fel?
• Missade fel och falska alarm?
![Page 3: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/3.jpg)
Räcker inte reglerna till?
• Varför inte fullparsning (deep parsing)?
• Kan man hitta alla fel i en text? Grammatiskt/acceptabelt
• Hur skall man analysera en text som är full av fel?
![Page 4: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/4.jpg)
Tre metoder för grammatikkontroll
• Granska – handskrivna regler
• ProbGranska – statistik
• MLGranska – regler skapas automatiskt
![Page 5: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/5.jpg)
Granskas uppbyggnadTokeniseraren
Taggaren
Lexikon (SUC & SAOL)
Statistik (SUC)
Regelmatcharen
Regler (300 regler)
Ordböjningsfunktion
Grafiskt gränssnitt
Interaktion med användaren
![Page 6: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/6.jpg)
Kvinnan nn.utr.sin.def.nomhade vb.prt.akt.auxköpt vb.sup.akten dt.utr.sin.indny jj.pos.utr.sin.ind.nomhus nn.neu.plu.ind.nombil nn.utr.sin.ind.nom
![Page 7: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/7.jpg)
ex2@regler
{
X(wordcl=nn & spec=ind & case=nom), % hus
Y(wordcl=nn) % bil
-->
mark(X Y)
corr(X.join(Y.text))
action(scrutinizing)
}
![Page 8: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/8.jpg)
ProbGranska: Detektion av kontextkänsliga stavfel
Vi vill hitta oförutsägbara fel, t.ex. för frö
Vi använder en hybridmetod:
• Statistik över taggtrigram (DT JJ NN 23000) från SUC (1 miljon ordklasstaggade ord)
• Lingvistisk kunskap för frastransformationer/reduktioner
![Page 9: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/9.jpg)
Jag pn.utr.sin.def.subhar vb.prs.akt.auxen dt.utr.sin.indliten jj.pos.utr.sin.ind.nomhund nn.utr.sin.ind.nomsa vb.prt.aktmannen nn.utr.sin.def.nom. mad
![Page 10: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/10.jpg)
En första ansats
Algoritm:
För varje position i i indataströmmen
om frekvensen av (ti-1 ti ti+1) är låg i referenskorpus
rapportera fel till användaren
rapportera inget fel
![Page 11: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/11.jpg)
Glesa data (sparse data)
• Glesa data för taggtrigramsstatistik – oändligt stort korpus saknas.
• Fras- och satsgränser kan skapa nästa vilka trigram som helst.
![Page 12: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/12.jpg)
Exempel på glesa data
”Det är varje chefs uppgift att …”
Det är varje taggas som pn.neu.sin.def.sub/obj, vb.prs.akt, dt.utr/neu.sin.ind och har frekvensen noll. dt.utr/neu.sin.ind är ovanlig, 709 förekomster i SUC.
![Page 13: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/13.jpg)
Ersätt en tagg med en annan liknande tagg
Vi försöker ersätta:
Det är varje chefs uppgift..
med
Det är en chefs uppgift..(pn.neu.sin.def.sub/obj, vb.prs.akt, dt.utr.sin.ind)
Vi får upp taggfrekvensen till 231
![Page 14: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/14.jpg)
Olika taggbyten är olika bra
Vi måste ha viktade trigram.
Vi använder statistik ur korpus för att få fram relevanta vikter.
![Page 15: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/15.jpg)
Metoden är bra på att hitta fel
… men ger fortfarande ifrån sig många falska alarm.
Förbättra metoden med lingvistisk kunskap
![Page 16: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/16.jpg)
Sats- och frasigekänning med ytparsning
• Använd satsen som analysenhet för feldetektionen.
• Transformera ovanliga fraser till frekventa
• Ersätt frasen med dess huvud
• Ta bort en del fraser (AdvP, PP).
![Page 17: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/17.jpg)
Frastransformationer
Exempel:
Alla hundar som är bruna är lyckliga
Hundarna är lyckliga
NP
NP
![Page 18: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/18.jpg)
Slutsatser
• Metoden är bra på att identifiera kontextkänsliga stavfel.
• Med lingvistisk kunskap kan metoden få högre precision
• Metoden bör kunna skalas upp till n-gram över fras och därmed bör mer strukturella fel kunna upptäckas (framtida forskning)
![Page 19: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/19.jpg)
MLGranska: Maskininlärning för feldetektion
• Se problemet som ett taggningsproblem• Märk upp felen t.ex. med taggen ERROR
och resten med OK• Träna en maskininlärningsalgoritm (t.ex.
TBL) på det annoterade materialet + material med korrekt text.
• Utvärdera på ett okänt men annoterat material.
![Page 20: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/20.jpg)
MLGranska
Vi behöver många fel
Idé: Skapa fel automatiskt
Träna en maskininlärningsalgoritm på detta material. Automatisk annotering. Förlåtande felgenerering.
Skapa en “feltaggare” för varje feltyp
![Page 21: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/21.jpg)
Skapa träningsdata
1. Ta en referenskorpus
2. Ta en kopia av denna referenskorpus.
3. Skapa särskrivningsfel i denna – märk upp dessa ERROR
4. Övriga ord märks upp med OK i de två korpusarna.
![Page 22: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/22.jpg)
Familjen NN OKbodde VB OKi PP OKett DT OKhus NN OKoch KN OKkörde VB OK en DT OK miljövänlig JJ OKbil NN OK. MAD OK
![Page 23: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/23.jpg)
Kvinnan NN OKhade VB OKköpt VB OKen DT OKny JJ OKhus NN ERRORbil NN ERROR. MAD OK
![Page 24: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/24.jpg)
Hur går träningen till?
• Regelmallar, ord/tagg före/efter
• Ta en kopia av träningskorpusen för att få en träningsmängd och ett “facit”.
• Applicera en initialgissning på träningsmängden = för varje ord – vilken tagg är vanligast?
• Skapa regler utifrån regelmallarna
• Välj ut de regler som gör träningsmängden mer lik “facit”. Välj bästa regeln, applicera denna, kolla nästa bästa regel.
![Page 25: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/25.jpg)
Kvinnan NN OK
hade VB OK
köpt VB OK
en DT OK
ny JJ OK
hus NN OK
bil NN OK
. MAD OK
![Page 26: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/26.jpg)
NN OK + NN OK NN ERROR + NN ERROR
Kvinnan NN OK
hade VB OK
köpt VB OK
en DT OK
ny JJ OK
hus NN ERROR
bil NN ERROR
. MAD OK
![Page 27: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/27.jpg)
MLGranska möter en ny text
1. Ordklasstagga orden
2. Gör en initialgissning
3. Tillämpa de genererade reglerna
4. Förhoppningsvis har felen taggats med taggen ERROR
5. Alla särskrivningar kontrolleras mot stavningskontrollen Stava
![Page 28: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/28.jpg)
MLGranska
Fördelar:• Begränsad manuell insats• En taggare per feltyp kan ge bra diagnos och även
ersättningsförslag (åtminstone för särskrivningar).
Nackdelar:• Varje feltaggares enskilda falsklarm kan resultera i
många falsklarm om man sätter ihop dem i ett verktyg.
![Page 29: Grammatikkontroll för skribenter med svenska som andraspråk](https://reader033.vdocuments.site/reader033/viewer/2022061605/56813105550346895d9733e7/html5/thumbnails/29.jpg)
Slutsatser
• Metoderna upptäcker olika fel – överens ibland
• Fördelar/nackdelar med varje metod?
• Vilka fel kommer vi fortfarande inte åt?
• Vi har jämfört metoderna på “felsamlingar”
• Just nu gör vi jämförelser på balanserat textmaterial