samhengisháð ritvilluleit tækni á næsta leyti?

24
Samhengisháð ritvilluleit Tækni á næsta leyti? Ráðstefna um tungutækni 18. apríl 2008 Anton Karl Ingason Skúli Bernhard Jóhannsson

Upload: necia

Post on 04-Feb-2016

56 views

Category:

Documents


0 download

DESCRIPTION

Ráðstefna um tungutækni 18. apríl 2008 Anton Karl Ingason Skúli Bernhard Jóhannsson. Samhengisháð ritvilluleit Tækni á næsta leyti?. Verkefnið. RANNÍS verkefni 2007-2008 Verkefnisstjórn Eiríkur Rögnvaldsson, HÍ Hrafn Loftsson, HR Sigrún Helgadóttir, SÁ Stúdentar - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Samhengisháð ritvilluleit Tækni á næsta leyti?

Samhengisháð ritvilluleit

Tækni á næsta leyti?

Ráðstefna um tungutækni18. apríl 2008

Anton Karl IngasonSkúli Bernhard Jóhannsson

Page 2: Samhengisháð ritvilluleit Tækni á næsta leyti?

Verkefnið

• RANNÍS verkefni 2007-2008• Verkefnisstjórn

– Eiríkur Rögnvaldsson, HÍ– Hrafn Loftsson, HR– Sigrún Helgadóttir, SÁ

• Stúdentar– Anton Karl Ingason, íslensk málfræði, HÍ– Skúli Bernhard Jóhannsson, hugbúnaðarverkfræði, HÍ

• Samstarfsmenn— Sven Þ. Sigurðsson, HÍ— Kristín Bjarnadóttir, SÁ

Page 3: Samhengisháð ritvilluleit Tækni á næsta leyti?

Hvað er Samhengisháð ritvilluleit

• Forrit sem leiðrétta orð í texta hafa lengi verið til– Við hövum alltaf lyst á matnum okkar.– Slík forrit eru mikið notuð og þau duga vel til að fækka

villum• Samhengisháð ritvilla verður þegar orð er rangt ritað

þótt það gæti verið rétt í öðru samhengi– Við höfum alltaf list á matnum okkar– Forrit sem leiðréttir orð fyrir orð missir af þessum villum– Þetta eru oft orð sem fólk á erfitt með að stafsetja rétt

• Forrit þarf að skoða samhengi til að leiðrétta

Page 4: Samhengisháð ritvilluleit Tækni á næsta leyti?

Er samhengisháð ritvilluleit til?

• Fylgir með Word 2007 fyrir ensku• Nýr möguleiki, ekki sjálfgefið að hann sé valinn• Virkar ágætlega:– This is a peace of cake– A nice pear of shoes– Merkt með bláu í Word.

• Dæmi um tækni sem þarf að útfæra fyrir tungumál eins og íslensku svo að það verði ekki út undan í tæknivæðingunni

Page 5: Samhengisháð ritvilluleit Tækni á næsta leyti?

Samhengisháðar ritvillur eða málfræðivillur?

• Flestar villur sem að jafnaði eru nefndar málfræðivillur falla einnig undir skilgreiningu á samhengisháðri ritvillu– Jóni vantar pening.– Ég vill fá pening.

• En ekki eru allar SH-villur málfræðivillur– Við höfum alltaf list á matnum okkar.

• Hugtakið málfræðileiðrétting (e. grammar checking) er jafnan notað um það að athuga hvort brotið er gegn hömlum um formgerð setninga

• Aðrar aðferðir eru jafnan notaðar við SHR

Page 6: Samhengisháð ritvilluleit Tækni á næsta leyti?

Nálgun í SHR

• Hugmyndin um vafaorðamengi (e. confusion set) er mikilvæg í SHR– Vafaorðamengi er mengi orðmynda sem líklegt er að

breytist hverjar í aðrar vegna villna– Dæmi: (list/lyst) (vil/vill) (mig/mér) (degi/deigi/deyi/Degi)– Þar sem nákvæmni í SHR er takmörkuð þarf að velja

vafaorðamengi skynsamlega• Aðgerðin verður að velja milli valkosta í

vafaorðamengi• Tölum um vafaorðapar þegar aðeins tvær orðmyndir

koma til greina

Page 7: Samhengisháð ritvilluleit Tækni á næsta leyti?

SH-villur

• SH-villur má flokka í þrennt1) Aðeins merkingarleg aðgreining (list/lyst)2) Aðeins málfræðileg aðgreining (vil/vill)3) Málfræðileg og merkingarleg aðgreining (sína/sýna)

• Merkingarleg aðgreining (1) er stundum erfið – List Jóns veldur okkur sífelldum heilabrotum– Lyst Jóns veldur okkur sífelldum heilabrotum– (Hér væri gott að vita hvort Jón er listamaður eða hvort

hann er alltaf svangur)• Jafnvel villa af tagi (3) getur gefið gilda setningu

– Kapítalistinn vill sína köku (þ.e. nóg af peningum)– Kapítalistinn vill sýna köku (hann var að baka)

Page 8: Samhengisháð ritvilluleit Tækni á næsta leyti?

Aðferðir til að leysa verkefnið

• Handsmíðaðar reglur – Góð leið þegar a.m.k. annar kosturinn í vafaorðapari

kemur fyrir í mjög reglulegu umhverfi (leiti/leyti)– Einnig til að leiðrétta ýmis föst orðasambönd

• Tölvulærðar reglur– Sú aðferð sem mest er notuð erlendis við SHR– Gengur út á að nota vélræna flokkara (e. classifiers) sem

læra reglur af málheild– Verkefnið: Að ákvarða hvaða gögn flokkarinn fær og á

hvaða sniði– Auk þess þarf að velja flokkunaraðferð (Naive Bayes,

Winnow, ...)

Page 9: Samhengisháð ritvilluleit Tækni á næsta leyti?

Einingar sem byggt er á

• Málheild– Textasafn SÁ

• Markari– IceTagger (Hrafn Loftsson)

• Lemmunarforrit– Lemmald (Anton Karl Ingason)– Sem byggir aftur á IceTagger og Mörkuðum textum

Íslenskrar orðtíðnibókar • Tölvulærdómsumhverfi

– Weka– Safn tóla frá University of Waikato, Nýja-Sjálandi

Page 10: Samhengisháð ritvilluleit Tækni á næsta leyti?

Samhengi• Þegar vafaorð finnst í setningu er búið til samhengi

• Í samhenginu eru allar upplýsingar sem við höfum til að byggja ákvörðun okkar á

• _ stendur fyrir vafaorðið• Úr samhenginu smíðum við auðkenni, sem eiga

að endurspegla samhengið sem best• Öll auðkenni eru strengir

Page 11: Samhengisháð ritvilluleit Tækni á næsta leyti?

Auðkenni 1: Grenndarorð• Hvert orð í fjarlægð <= n orð frá vafaorði verður að

auðkenni. Venjulega er n = 5, 10 auðkenni.• Auðkennin væru þessi miðað við fyrrnefnt samhengi:

Ef við notuðum aðeins þessi auðkenni væri þessi listi inntak(input) flokkarans.

Þessar upplýsingar myndi hann svo nýta sér til þess að segja til um hvert af vafaorðunum í vafaorðamenginu eigi að velja.

Page 12: Samhengisháð ritvilluleit Tækni á næsta leyti?

Auðkenni 2: Grenndarlemma

• Virkar alveg eins og grenndarorða-auðkenni nema í stað orðs þá er lemma orðsins valin sem auðkenni

• Auðkennin væru þessi miðað við fyrrnefnt samhengi:

Page 13: Samhengisháð ritvilluleit Tækni á næsta leyti?

Auðkenni 3: Orðastæður• _ stendur fyrir vafaorðið. • Orð og mörk eru úr samhengi vafaorðsins• Tökum dæmi um grennd = 1

Grennd = 2:

Mark úr sæti -1

Page 14: Samhengisháð ritvilluleit Tækni á næsta leyti?

Inntak í flokkara

• Notum öll grenndarlemmuauðkenni í fjarlægð <=5 frá vafaorði og öll orðastæðuauðkenni með grenndarvídd <= 2 til þess að búa til inntak(input) í flokkara

• Inntakið fyrir fyrrgreint samhengi væri þá öll auðkenni sem sjást á síðustu þremur myndum, 26 talsins

Page 15: Samhengisháð ritvilluleit Tækni á næsta leyti?

Samhengi túlkað sem bitavigur• Fyrir hvert vafaorðapar þá söfnum við saman

öllum samhengjum(öllum samhengjum fyrir “sína” og öllum fyrir “sýna” td)

• Hvert samhengi er bitavigur þar sem hvert sæti svarar til tiltekins auðkennis

• Þannig að lengd bitavigursins verður sami og fjöldi mismunandi auðkenna (fyrir vafaorðapar)

Page 16: Samhengisháð ritvilluleit Tækni á næsta leyti?

Samhengi sem bitavigur• Síðan skerum við burt öll samhengi sem

koma fyrir sjaldnar en 4 sinnum • Við það fækkar auðkennunum þannig að

vigrarnir styttast• Hver vigur inniheldur því í mesta lagi 26 1-

bita, því að sum auðkennin hafa hugsanlega verið skorin í burtu

Page 17: Samhengisháð ritvilluleit Tækni á næsta leyti?

Fjöldi setninga og auðkenna fyrir hvert par

Page 18: Samhengisháð ritvilluleit Tækni á næsta leyti?

Flokkunaraðferðir • BaseLine– Velur alltaf það sem algengast er. Gott að hafa til

viðmiðunar• Naive Bayes

– Flokkari sem byggir á skilyrtum líkindareikningi en miðar við að allar líkur séu óháðáðar

• BayesNetGenerator– Flokkari sem byggir líka á skilyrtum líkum eins og

Naive Bayes, en notar netlíkan til þess að lýsa því hvernig líkurnar eru háðar hver annarri

Page 19: Samhengisháð ritvilluleit Tækni á næsta leyti?

Flokkunaraðferðir

• Winnow– Línulegur aðgreiningarflokkari, sem er

hannaður fyrir gögn af mjög hárri (og fyrir fram óákveðinni) vídd, sem eru jafnframt rýr

• ADTree– Flokkari sem býr til víxlandi ákvörðunartré

Page 20: Samhengisháð ritvilluleit Tækni á næsta leyti?

Nákvæmni flokkaranna

Page 21: Samhengisháð ritvilluleit Tækni á næsta leyti?

Framtíðarmúsík: Auðkenni

• Munum prófa nýjar gerðir auðkenna– Fyrsta nafnorð vinstra megin við vafaorð– Fyrsta sagnorð vinstra megin við vafaorð– ...

Page 22: Samhengisháð ritvilluleit Tækni á næsta leyti?

Framtíðarmúsík: Nálægðarhugtak

• Það er gagnlegt að setja fram skilgreiningu á nálægð tveggja samhengja.

• Má t.d. skilgreina sem fjölda sameiginlegra auðkenna (sem er þá jafnframt innfeldi viðkomandi auðkennisvigra)

• Þetta má nýta við smíði nýrra flokkara

Page 23: Samhengisháð ritvilluleit Tækni á næsta leyti?

Samhengisháð ritvilluleit

Tækni á næsta leiti?

Ráðstefna um tungutækni18. apríl 2008

Anton Karl IngasonSkúli Bernhard Jóhannsson

Page 24: Samhengisháð ritvilluleit Tækni á næsta leyti?

Eye halve a spelling chequer, It came with my pea sea, It plainly marques four my revue Miss steaks eye kin knot sea.

Eye strike a key and type a word And weight four it two say Weather eye am wrong oar write It shows me strait a weigh.

As soon as a mist ache is maid It nose bee fore two long And eye can put the error rite Its rarely ever wrong.

Eye have run this poem threw it I'm shore your pleased two no Its letter perfect in its weigh, My chequer tolled me sew.