tungutækni – hvað og til hvers? © eiríkur rögnvaldsson

44
Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Post on 20-Dec-2015

244 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tungutækni –hvað og til hvers?

© Eiríkur Rögnvaldsson

Page 2: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Hvað er tungutækni?

• Tungutækni er ungt nýyrði– fyrir enska hugtakið ‘language technology’

• eða ‘language engineering’

• Samvinna tungumáls og tölvutækni– í einhverjum hagnýtum tilgangi

• Tvær hliðar samvinnunnar:– notkun tölvutækninnar í þágu tungumálsins– notkun tungumálsins innan tölvutækninnar

Page 3: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Fyrstu tengsl tölva og tungumáls

• Tengsl tölva og tungumáls má rekja aftur til fyrstu ára tölvunnar um miðja 20. öld

• Fljótlega var farið að nota tölvur til að gera ýmiss konar orðaskrár, skoða tíðni orða í mismunandi textum o.s.frv.

• Talsvert var gert að því að leita höfunda texta eða skoða áhrif eins höfundar á annan– með því að bera saman orðaforða þeirra og

orðtíðni

Page 4: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tölvuþýðingar

• Á 6. áratug 20. aldar og fram á þann 7. var miklu fé varið í tilraunir með tölvuþýðingar

• Fyrstu forritin þýddu texta orð fyrir orð– studdust ekki við málfræðilegar kenningar eða

líkön

• 1966 birti bandaríska vísindaakademían „svarta skýrslu“ um tölvuþýðingar– þar sem fram kom að þrátt fyrir gífurlegan

kostnað hefði árangurinn verið ákaflega lítill

Page 5: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Máltölvun

• Literary and Linguistic Computing– máltölvun

• Hvers kyns notkun tölva við lausn mállegra verkefna– talningar orða og bókstafa, tíðniskrár– orðstöðulyklar, orðabókagerð

• Ekki þörf á mikilli tölvukunnáttu– oft unnið með hjálp tilbúinna forrita eða

forritapakka

Page 6: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tölvufræðileg málvísindi

• Computational Linguistics– tölvufræðileg málvísindi/tölvumálvísindi

• Að setja fram aðferðir (algrím) sem tölvur geta unnið með við greiningu tungumáls– undirstaða þess að hægt sé að nota tölvur við

vélrænar þýðingar, lemmun, talgreiningu o.fl.

• Þeir sem semja mállýsinguna þurfa að hafa góða hugmynd um það hvernig tölvur vinna

Page 7: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Gagnamálfræði

• Corpus Linguistics– Gagnamálfræði

• Mállýsingar og rannsóknir byggðar á textum– Textar skoðaðir vandlega og sett fram lýsing að

þeirri skoðun lokinni

• Theoretical Linguistics– Fræðileg málvísindi– Settar fram kenningar og þær síðan prófaðar á

tungumálinu sjálfu

Page 8: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Málgreining

• Natural Language Processing – NLP– Málvinnsla

• Greining (analysis)– Greining formgerðar (og merkingar) á ýmsum

sviðum málsins (texta eða tals)

• Myndun (generation)– Myndun máls (texta eða tals) út frá formgerð

(merkingu)

Page 9: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Þrjár merkingar orðsins tungutækni

• Orðið tungutækni hefur þrjár merkingar– vissulega nátengdar, en þó aðskildar

• Þverfagleg fræðigrein– sem byggist á málvísindum og tölvunarfræði

• Hugbúnaður og tæki– sem byggjast á fræðilegum rannsóknum

• Iðnaðarstarfsemi– þar sem fengist er við gerð tungutæknitóla

Page 10: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Afmörkun tungutækni

• Misjafnt er hvað talið er falla undir tungutækni:– Þýðingar forrita?– Tölvustudd orðabókargerð?– Tölvunotkun í tungumálakennslu?– Tölvustuddar þýðingar?

• E.t.v. má miða við þörf fyrir virka kunnáttu– bæði í máli/málfræði og tölvunotkun/tölvutækni

Page 11: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tæknin í þágu tungumálsins

• Tölvutækni má nýta á ýmsan hátt– til að auðvelda mönnum að nota tungumálið

• Þar má nefna– forrit til leiðréttingar á stafsetningu og málfari– vélrænar þýðingar– tölvuorðabækur af ýmsu tagi– talgervla og önnur hjálpartæki handa fötluðum– ýmiss konar kennsluforrit

Page 12: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tungumálið í þágu tækninnar

• Tungumálið gegnir sívaxandi hlutverki– innan upplýsingatækninnar

• Þar má nefna– samskipti við upplýsingaveitur

• spurningar bornar fram í samfelldu, eðlilegu máli í stað þess að nota takmarkaðan orðaforða á fastmótaðan hátt

– stjórn ýmiss konar tækja• talað er við tæki á venjulegu máli og þeim stjórnað með

rödd og tungumáli í stað þess að ýta á takka

Page 13: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Starfshópur um tungutækni

• Starfshópur menntamálaráðherra 1998-99– Rögnvaldur Ólafsson

• dósent í eðlisfræði; formaður starfshópsins

– Eiríkur Rögnvaldsson• prófessor í íslenskri málfræði

– Þorgeir Sigurðsson• Staðlaráði; verkfræðingur og íslenskufræðingur

– Sigurður H. Pálsson• málfræðingur og tölvufræðingur; ritari hópsins

Page 14: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Forsendur fyrir íslenskri tungutækni

• Tungutækni – skýrsla starfshóps– menntamálaráðuneytið, 1999

• Þrjár meginstoðir íslenskrar tungutækni– menntað fólk– málsöfn– málgreiningarforrit

• Áhugi fyrirtækja þarf að vera fyrir hendi– og líka stuðningur hins opinbera

Page 15: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Íslensk tungutækni

• Kemur íslensk tungutækni af sjálfu sér– eigum við bara að bíða þolinmóð?

• Fáum við íslensk tungutæknitól að utan?– það er ólíklegt– tungutæknilausnir eru mjög dýrar– íslenski markaðurinn alltof lítill

• Sprettur tungutækni af sjálfu sér innanlands?– varla – af sömu ástæðum

Page 16: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Menntun og rannsóknir

• Þekking, menntun, reynsla– ekkert nám af þessu tagi hefur verið til á Íslandi– engar rannsóknir hafa verið á þessu sviði– fáir Íslendingar búa yfir þekkingu og reynslu

• Úr þessu þarf að bæta– og um það voru gerðar tillögur í skýrslu

starfshóps um tungutækni vorið 1999

Page 17: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Úr skýrslu starfshóps um tungutækni

• Óráðlegt er að ætla að Íslendingar geti byggt upp öflugt starf á sviði tungutækni án þess að hyggja að fræðilegum undirstöðum slíks starfs. Nauðsynlegt er að fá sem fyrst til starfa vel menntað fólk á sviði íslensks máls og tölvunarfræði sem gerir sér grein fyrir sérkennum íslenskrar málfræði og þörfum íslensks málsamfélags.

Page 18: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

... og áfram:

• Ef ekki verður byggð upp innlend þekking á þessu sviði innan menntastofnana verðum við um ófyrirsjáanlega framtíð þiggjendur á þessu sviði og höfum miklu minni möguleika á að bregðast við breyttum aðstæðum og nýjungum, og þróa þau tól og tæki sem henta best íslenskum aðstæðum.

Page 19: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Þetta svið á sér víða langa hefð

• Computational linguistics– í enskumælandi löndum

• Datalingvistik– á Norðurlöndum

• Mikill vöxtur hefur verið í þessum greinum– samfara örri þróun í tungutækni sem iðngrein

• En jafnframt hafa áherslur breyst

Page 20: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Aukin áhersla á hagnýtingu

• Greinar með áherslu á hagnýtingu í ýmiss konar tækjum og tólum hafa komið upp– við hlið hefðbundinna akademískra greina

• Language technology– í stað eða við hlið Computational Linguistics

• Sprogteknologi/språkteknologi– í stað eða við hlið Datalingvistik

Page 21: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tilgangur

• Er rétt að verja stórfé– í uppbyggingu og þróun íslenskrar tungutækni?

• Er ekki best að bíða– og sjá hverju fram vindur?

• Þrenns konar réttlæting fyrir tungutækni– nýsköpun þekkingar– verndun og varðveisla tungumálsins– virðing og samkeppnisstaða málnotenda

Page 22: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Ógnar upplýsingatæknin tungunni?

• Þrjú einkenni upplýsingatækni skipta máli– þegar áhrif hennar á íslenska tungu eru metin

• Hún er að verða– mikilvægur þáttur– í daglegu lífi– alls almennings

• Þess vegna verður hún að vera á íslensku– að öðrum kosti er tungan feig

Page 23: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Þrengt notkunarsvið móðurmálsins

• Hvað ef móðurmálið er ekki gjaldgengt á sviði– sem er mikilvægt– í daglegu lífi– alls almennings?

• Hvað ef það er ekki nothæft– í nýrri tækni og öðru sem er nýtt og spennandi– á sviðum þar sem nýsköpun á sér stað– og þar sem ný atvinnutækifæri bjóðast?

Page 24: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tungumál í hættu

• Við þær aðstæður hefst dauðastríð tungunnar– móðurmálið verður víkjandi– aðeins hæft til heimabrúks– en ekki til neinna alvarlegra hluta

• Ungt fólk sér þá ekki tilgang í að læra málið– heldur leggur áherslu á að tileinka sér enskuna

sem best

• Hvað er þá til ráða?

Page 25: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tveir kostir í stöðunni

• Að hafna tækninni en halda tungunni– látið eiga sig að tileinka okkur ýmsar nýjungar– fyrst tungumálið er ekki gjaldgengt á þessu sviði

• Þessi kostur er ekki raunhæfur

• Að fórna tungunni en fylgjast með tækninni– nota ensku í upplýsinga- og tölvutækni– úr því að íslenska er ekki nothæf á því sviði

• Þessi kostur er óviðunandi

Page 26: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

– og sá þriðji:

• Að hefjast handa– gera átak á sviði tungutækni– gera íslensku nothæfa innan upplýsingatækninnar

• Það er eini valkostur okkar– ef við viljum halda áfram að nota íslensku– á öllum sviðum þjóðlífsins

• Annars verður málið fljótlega forngripur– dauðadæmt og gæti dáið út á fáum áratugum

Page 27: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tungutækni fyrir málnotendur

• Tungutækni snýst ekki bara um málvernd– einnig um þjónustu og sjálfsvirðingu

• Eigum við að sitja við sama borð og aðrir– eða eigum við að sitja skör lægra?

• Við eigum kröfu á að geta notað móðurmálið– sem víðast, við sem fjölbreyttastar aðstæður

• Allt annað er uppgjöf

Page 28: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tákn og tungumál

• Við munum aldrei hafa allt á íslensku– hvað með R, N, P á gírstönginni í bílnum okkar?– þetta stendur fyrir reverse, neutral, park– en fyrir okkur eru þetta bara tákn, óháð tungumáli

• Mál í virkri notkun getur aldrei orðið tákn– á sama hátt – orðin slitna ekki frá tungumálinu

• Þess vegna verður málið að vera íslenska– að öðrum kosti verðum við málfarslega undirokuð

Page 29: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Niðurstöður starfshópsins

• Nauðsynlegt er að hefja sem fyrst átak– til að skjóta stoðum undir íslenska tungutækni

• Ríkið verður að hafa forgöngu um þetta átak– og bera meginkostnaðinn af því á fyrstu stigum

þess

• Æskilegast er að markaðurinn taki síðan við– en hann getur ekki borið þróunarkostnaðinn í

upphafi

Page 30: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tillögur starfshópsins

• Byggð verði upp sameiginleg gagnasöfn, málsöfn, sem geti nýst fyrirtækjum sem hráefni í afurðir

• Fé verði veitt til að styrkja hagnýtar rannsóknir á sviði tungutækni

• Fyrirtæki verði styrkt til þess að þróa afurðir tungutækni

• Menntun á sviði tungutækni og málvísinda verði efld

Page 31: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Áætlaður kostnaður

MKR

• Þróunarmiðstöð 25-50

• Rannsókna- og þróunarsjóður 150

• Styrkir til stærri alþjóðlegra verkefna 30

• Stutt hagnýtt nám í máltækni 10

• Meistaranám í tungutækni 10 Alls 225-250– á ári í 4-5 ár

Page 32: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Hvað hefur fengist?

MKR

• Fjáraukalög 2000 40

• Fjárlög 2001 64,5

• Fjárlög 2002 0

• Fjárlög 2003 15

• Fjárlög 2004 13,5

Alls 133 MKR

Page 33: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Forgangsverkefni í íslenskri tungutækni

• Meginmarkmið Íslendinga hlýtur að vera að unnt verði að nota íslenska tungu, ritaða með réttum táknum, sem víðast innan tölvu- og fjarskiptatækninnar

• Það er mikið verkefni að gera íslensku gjald-genga á öllum sviðum, við allar aðstæður. Því verður að leggja megináherslu á þá þætti sem varða daglegt líf og starf alls almenn-ings, eða munu gera það á næstu árum

Page 34: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

1. Þýðing tölvuforrita

• Helstu tölvuforrit á almennum markaði verði á íslensku (Windows, Word, Excel; Netscape, Internet Explorer; Eudora; …)

• Windows XP og Microsoft Office er komið á íslensku– og einnig ýmis önnur forrit– en óljóst hvaða útbreiðslu þýðingarnar fá

Page 35: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

2. Íslenskir bókstafir

• Unnt verði að nota íslenska bókstafi (áéíóúýðþæö ÁÉÍÓÚÝÐÞÆÖ) við allar aðstæður; í tölvum, GSM-símum, textavarpi og öðrum tækjum sem almenningur notar.

• Hér hefur staðan batnað– m.a. með aukinni útbreiðslu Unicode

• Nú er hægt að nota íslenska stafi í GSM– með takmörkunum þó

Page 36: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

3. Málgreining

• Unnið verði að þróun málgreiningar fyrir íslensku, með það að markmiði að geta greint íslenskan texta í orðflokka og setningarliði.

• Tvö verkefni á þessu sviði hafa verið styrkt af Tungutæknisjóði:– málfræðilegur markari (grammatical tagger)– vélræn íslensk setningagreining

Page 37: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

3.1 Textaheild – 3.2 Orðasafn

– Koma þarf upp stórri tölvutækri [mál]heild með íslenskum textum af sem fjölbreyttustum toga til að byggja áframhaldandi vinnu á.

– Vinna við slíka málheild stendur yfir

– Koma þarf upp fullgreindu orðasafni (með málfræðilegri og merkingarlegri greiningu) til nota í áframhaldandi vinnu.

– Ekkert slíkt orðasafn er til• þótt til sé hráefni sem vinna mætti út frá

Page 38: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

4. Hjálparforrit við ritun

• Til verði góð hjálparforrit við ritun texta á íslensku, s.s. orðskiptiforrit, stafsetningar-leiðréttingarforrit, málfarsleiðréttingarforrit o.fl.

• Nýtt forrit til stafsetningarleiðréttingar hefur verið unnið á vegum Microsoft

• Málfarsleiðréttingaforrit eru ekki til enn– en forvinna að slíku forriti er í gangi

Page 39: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

5. Íslenskur talgervill

• Til verði góður íslenskur talgervill sem geti lesið upp íslenskan texta með skýrum og auðskiljanlegum framburði og eðlilegu tónfalli og sem sé skiljanlegur án þjálfunar.

• Talgervill Infovox hefur verið endurbættur– er þó langt frá því að vera nógu góður

• Unnið er að nýjum talgervli– sem byggður er á nýrri tækni og verður til 2006

Page 40: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

6. Talgreining

• Unnið verði að þróun talgreiningar fyrir íslensku, með það að markmiði að til verði forrit sem geti túlkað eðlilegt íslenskt tal.

• Háskólinn og fjögur fyrirtæki stóðu að Hjali– íslenskri stakorðagreiningu

• Íslenskur talgreinir er nú til og virkar vel– en langt er í greiningu samfellds máls

Page 41: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

7. Vélrænar þýðingar

• Unnið verði að þróun forrita til vélrænna þýðinga milli íslensku og annarra tungumála, m.a. til að auðvelda leit í gagnabönkum.

• Hér hefur lítið gerst– einstöku tilraunir hafa þó verið gerðar– ýmsir hafa unnið með þýðingarminni– en engin nothæf þýðingarforrit eru á leiðinni

Page 42: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

8. Ábyrgðaraðilar

• Ákveðnum aðilum (stofnunum eða fyrir-tækjum) verði falin ábyrgð á einstökum verkefnum.

• Sett var á fót verkefnisstjórn í tungutækni– sem átti að hafa yfirlit yfir stöðu mála í landinu– ýta verkefnum af stað og samræma aðgerðir

• Þetta skilaði góðum árangri– en verkefnisstjórnin var lögð niður í árslok 2004

Page 43: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Tungutækniáætlunin á enda

• Tungutækniáætlunin hefur skilað sínu– menntun á sviði tungutækni er hafin– Íslendingar farnir að fara í nám erlendis– gagnasöfn hafa verið byggð upp– ýmsum verkefnum verið ýtt af stað

• En íslensk tungutækni er ekki orðin sjálfbær– nú þegar tungutækniáætlunin er á enda– og einmitt þyrfti meira fé í rannsóknir og þróun

Page 44: Tungutækni – hvað og til hvers? © Eiríkur Rögnvaldsson

Fordæmi Eista

• Eistar eru smáþjóð eins og við– aðeins um ein milljón talar eistnesku

• Þeir hafa gert áætlun um þróun tungutækni– Estonian HLT Roadmap for 2004-2011

• Þeir eru núna á svipuðu stigi og við– en þeirra tungutækniáætlun er að byrja– okkar að enda

• Ætlum við að láta hér við sitja?